导图社区 论文1_A comprehensive survey on 2D multi-person pose estimation methods
论文结构信息,论文1:A comprehensive survey on 2D multi-person pose estimation methods
社区模板帮助中心,点此进入>>
论语孔子简单思维导图
《傅雷家书》思维导图
《童年》读书笔记
《茶馆》思维导图
《朝花夕拾》篇目思维导图
《昆虫记》思维导图
《安徒生童话》思维导图
《鲁滨逊漂流记》读书笔记
《这样读书就够了》读书笔记
妈妈必读:一张0-1岁孩子认知发展的精确时间表
论文1:A comprehensive survey on 2D multi-person pose estimation methods
1、Introduction
第一段:多人的应用:动作识别、任人物再识别、行人跟踪、动画影视、虚拟现实、人机交互等。
第二段:介绍了深度学习在多人动作识别的应用 文献最早是2020年
第三段:全文框架介绍
2、Categories of multi-person pose estimation(多人姿态估计的分类)
(1) deep learning-based vs.model-based
区别:是否定义了一个明确的手工模型来估计人体姿势
传统:2009/1973提出弹簧模型,性能不理想
深度:模型学习图像到关节坐标的映射,需要计算资源支撑
(2) two-stage vs. one-stage
一阶段:人体检测结合姿态估计形成一阶段检测方法
两阶段:自上而下+自下而上
自上而下:检测人(人检测器获取每个人的边界框,然后裁剪)+单人姿态估计
自下而上:一次性预测所有的关节坐标,使用二部图匹配方法分配给每个人实例
(3) graph-free vs. graph matching-based MPE可以分为无图和基于图匹配的方法
3、两阶段:自上而下(MPE分为基于坐标和热图的方法)
3.1. 目标表示
3.1.1基于坐标的方法:deepPose + 直接关节回归,直接输出二维坐标
3.1.2基于热图的方法:使用高斯热图作为学习目标对关节的空间位置进行编码
优缺点:与坐标表示相比,高斯热图不仅可以提供关节的空间信息,还可以防止基于坐标的方法中常见的模型过拟合现象;基于热图的方法受到热图分辨率与输入图像分辨率不一致的限制;重复的卷积操作和池化操作会降低热图的分辨率,从而加剧量化误差。
3.2. 量化误差
3.2.1. 基于先验知识的方法:介绍了热图处理的各种方法,最早文献是2020年
3.2.2. 基于软参数最大化的方法,最早文献为20019年
3.2.3. 基于偏移量回归的方法:将精确关节坐标视为整数部分和小数部分的和,并分别对这两部分进行回归。最早文献为2019年
3.3. 多尺度特征学习
分为两类:体系结构级别+模块级别
体系结构:DeepPose(2014)+卷积姿态机(2016)+全卷积GoogleNet(2016)
多尺度特征模块:沙漏模块+级联金字塔网络
3.4. 数据预处理
数据增强,如翻转、旋转、缩放等,是增加数据多样性、避免过拟合和提高模型性能的基本有效方法。
两阶段自上而下的方法涉及人体检测器,对数据准确性也有影响
3.5. Non-maximum抑制
人员检测器的冗余检测结果可能表现出较高的联交(IoU)分数,因此有必要设计一种策略来删除这些冗余检测框
最早文章2019
4. 两阶段:自下而上的方法(分为关节解析+样例不平衡)
只需要一次网络转发,将所有关键点回归,然后将这些关节分配给不同的人体
4.1. 关节解析
Deepcut2016:基于resnet的检测器
OpenPose2017
实时性+body part detection+bipartite matcthin,
缺点:关键点位置存在 量化误差
2019引入了由零件强度场(PIF)和零件关联场(PAF)组成的PIFPAF
Kreiss等(2019)引入了由零件强度场(PIF)和零件关联场(PAF)组成的PIFPAF
PIF:短偏移向量场来精确定位身体部位
PAF:能够处理近距离个体的关节位置,并将闭合关节划分为不同的实例
PIFPAF还利用了考虑个体实例规模多样性的尺度相关拉普拉斯损失,提高了其在小规模实例上的性能
2020提出了一种新的身体关联方法,将OpenPose中的paf替换为“身体部位”,即非归一化的椭圆高斯分布
2018引入了一种基于沙漏的姿态分区网络(PPN),该网络同时产生联合候选和分区。
上述所有的方法的缺点:会遇到极端的前景-背景类失衡。
4.2. 类不平衡:为了学习硬样本
如焦点损失(Li et al ., 2020;Zhou et al ., 2019;Lin等人,2020)
SimplePose2020:设计了焦L2损耗(一种变型焦损耗)来平衡硬样本和易样本的梯度
(2019)采用焦点交叉熵损失来提高姿态模型在硬关键点上的性能
在线硬关键点挖掘(OHKM) (Chen等人,2018)等
2018-OHKM根据损失对一批训练样本进行分类,并增加顶部节点的梯度大小。
5. 一阶段:自下而上的方法 联合分配机制
单阶段方法继承了两阶段方法的优点并克服了它们的缺点,可以同时预测联合候选和组分配,例如关联嵌入(Newell等人,2017),MultiPoseNet (Kocabas等人,2018)等。
联合分配机制
基于包围盒:bounding box 根据边界框分配关节。只有当关键点在该人的边界框内时,才会分配给该人
Mask-RNN2017是同时可以预测边界框和关键点的MPE,基于锚点
CenterNet2019 解决了2D、3D物体和姿态估计方法,无锚点
基于嵌入:为每个关键点回归一个“标记”,表示一个人实例的标识:标签回归任务,Newell+HigherHrnet2020 Hrnet2019
基于偏移:预测一个人从关节 到人中心的向量,代表群体隶属关系,PersonLab模型,MultiPoseNet2018,单阶段多人姿态几SPM2019
选择的这种特性要求
你所选择都尽可能是最好的
你所放弃的都不如你选择的
6. 数据集
6.1现存数据集
LSP数据集2010:体育人物动作数据集,2K姿态注释图像,1K训练集,1K测试集
FLIC数据集2013:5003张来自于好莱坞流行电源提取的图像,手动注释,扩展版有20 928个示例。
MPII人体姿态数据集2014:25K张图像,40K带有注释的身体关节,包含多人和单人在内的410项人类活动。
COCO数据集2014:用于对象检测、示例分割和关键点检测的大型综合数据集,160K图像,100K实例,118k训练集,5K验证,40K侧视集
AIC数据集2017:旨在为图像理解提供大规模数据集。包括关键点检测(人体骨骼系统关键点检测HKD)、零镜头识别和中文字幕三个子集。 AIC-HKD数据集由训练数据(70%,210K)、验证数据(10%,30K)、测试A数据(10%,30K)和测试B数据(10%,30K)组成
CrowdPose数据集2019:人群场景中的第一个数据集,包含10K的训练图像、2K的验证图像和8K的测试图像
6.2注释
LSP数据集2010:一个人实例被标记为14个关节
FLIC数据集2013:上半身只有11个关节
MPII人体姿态数据集2014:中每个人实例由16个关节组成
COCO数据集2014:每个人有17个标注的关键点
AIC-HKD2017和CrowdPose2019数据集:每个人被标记为一个边界框和14个关键点
CrowdPose数据集:人群场景中的第一个数据集,包含10K的训练图像、2K的验证图像和8K的测试图像
6.3Metrics 指标
PCP (Percentage of Correct Parts)通常用于LSP和FLIC数据集。当检测到的肢体长度超过一定阈值时,它被视为正确的身体部位。特定零件的PCP是测试集中正确零件的百分比。
为了衡量模型性能,MPII采用正确关键点百分比(Percentage of Correct Keypoint, PCK)作为评价指标
COCO使用OKS来衡量预测关键点与真实关键点之间的相似性
COCO,CrowdPose AIC-HKD数据集使用:一系列的平均精度(APs)书的基础上,也就是说,= 0.5∶0.9,= 0.5,= 0.75,,和,和平均(ARs)回忆,也就是说,= 0.5∶0.9,= 0.75,= 0.9,,和,采用的评价指标COCO,CrowdPose AIC-HKD数据集
Open-source systems
Mask R-CNN benchmark
第三,不做选择也是众多选择中的一种
结论:(1)尽管自顶向下的方法在准确性上有优势,但自底向上的模型在真实场景中更实用,推理成本更低;(2)在未来,尺度多样性问题可以通过新的多尺度表示学习来探索。人群场景中出现;的严重遮挡可以通过三维人体建模技术来解决;(3)姿态模型的效率在实际应用中起着重要作用,可以通过新颖的结构、模型压缩与剪枝、网络结构搜索等方法来提高姿态模型的效率
发表:Engineering Applications of Artificial Intelligence 102 (2021) 104260 作者:Engineering Applications of Artificial Intelligence 102 (2021) 104260
浮动主题