导图社区文献阅读210407：一种用于实时手势识别的多尺度描述

文献阅读210407：一种用于实时手势识别的多尺度描述

手势交互作为一种自然便捷的交互方式,在智能家居和智能交通等领域具有日益广泛的应用前景。由于手势行为发生的速度、空间约束和用户差异的影响,同一语义手势表现出具有不同时间和空间尺度的多形态特征,这给保障手势识别的准确率带来了挑战。提出了一种基于动态时间规整DTW(Dynamic Time Warping)方法的时空多尺度手势识别方法 SDTW(Spatial-Temporal Dynamic Time Warping),该方法通过对空间形态数据进行分箱操作来达到适应一定程度空间尺度变化的能力。

编辑于2021-04-07 17:38:00

文献阅读

❤

他的近期作品查看更多>>

文献阅读210407：一种用于实时手势识别的多尺度描述
手势交互作为一种自然便捷的交互方式,在智能家居和智能交通等领域具有日益广泛的应用前景。由于手势行为发生的速度、空间约束和用户差异的影响,同一语义手势表现出具有不同时间和空间尺度的多形态特征,这给保障手势识别的准确率带来了挑战。提出了一种基于动态时间规整DTW(Dynamic Time Warping)方法的时空多尺度手势识别方法 SDTW(Spatial-Temporal Dynamic Time Warping),该方法通过对空间形态数据进行分箱操作来达到适应一定程度空间尺度变化的能力。

文献阅读210407：一种用于实时手势识别的多尺度描述

社区模板帮助中心，点此进入>>

❤

他的近期作品查看更多>>

文献阅读210407：一种用于实时手势识别的多尺度描述
手势交互作为一种自然便捷的交互方式,在智能家居和智能交通等领域具有日益广泛的应用前景。由于手势行为发生的速度、空间约束和用户差异的影响,同一语义手势表现出具有不同时间和空间尺度的多形态特征,这给保障手势识别的准确率带来了挑战。提出了一种基于动态时间规整DTW(Dynamic Time Warping)方法的时空多尺度手势识别方法 SDTW(Spatial-Temporal Dynamic Time Warping),该方法通过对空间形态数据进行分箱操作来达到适应一定程度空间尺度变化的能力。

相似推荐
大纲

互联网9大思维
- 38.2k
- 971
- 2.4k
- 402
- 0
MindMaster
组织架构-单商户商城webAPP 思维导图。
- 17.4k
- 3
- 186
- 9
- 1
Kacyun
域控上线
- 3.5k
- 169
- 11
- 4
- 0
jackrao
python思维导图
- 8.2k
- 551
- 242
- 7
- 0
(*^▽^*)
css
- 3.0k
- 1
- 43
- 3
- 0
A张舫
CSS
- 5.3k
- 271
- 189
- 33
- 0
journey
计算机操作系统思维导图
- 6.8k
- 353
- 208
- 16
- 0
journey
计算机组成原理
- 3.3k
- 98
- 70
- 8
- 0
journey
IMX6UL(A7)
- 2.0k
- 41
- 5
- 0
- 0
Handler XU
考试学情分析系统
- 2.7k
- 51
- 10
- 1
- 0
蒋龙

一种用于实时RGB-D手势识别的多尺度描述符

研究背景

传统的方法是将传感器或标记附在手指上，例如，数据手套，通过机电或磁传感来捕捉手势。这些方法在提供完整、实时的手势测量方面是有效的，但它们阻碍了手的自然运动，不适用于非接触环境。此外，这种设备对于普通使用来说价格昂贵，而且需要复杂的校准。

基于视觉的手势识别方法[4]、[5]、[6]、[7]、[8]为上述问题提供了一种新的解决方案，可以自然地应用于非接触环境中。然而，由于光学传感器的局限性，所捕获的图像对光照条件和杂波的十分敏感背景:因此，这些方法通常不能很好地检测和跟踪手部。因此，传统的基于视觉的方法远远不能满足实际应用。

随着深度相机的发展，例如Kinect传感器[9]，手势识别可以以一种新的形式探索。将彩色图像与深度图融合，实现手势的检测与识别。然而，由于手在图像中所占的面积较小，且有明显的清晰度、噪声和畸变，影响了识别效果。

经典的形状识别方法，如基于shapecontext的方法[10][11]和基于骨骼的方法[12][13]，在严重的关节和变形情况下，不能很好地识别手势。基于部分的方法[14][15]解决了这些问题，但这些方法不能捕捉完整的手部形状特征，具有足够的鲁棒性和准确性。

最近一些基于轮廓的方法[16]同时使用局部和全局特征来表示形状，以捕捉完整的形状信息，但这些方法在实时应用中效率不高。利用深度传感器进行实时手势识别仍然是一个具有挑战性的问题。

要解决的问题

鲁棒性

噪声鲁棒性

关节鲁棒性

刚性变换的鲁棒性

手势识别的性能

ntu数据库

PU数据库

前人怎么解决

基于视觉

基于统计模型的方法

HMM（隐马尔可夫）模型

粒子滤波

基于一组预定义的规则

然而，大多数的手势识别方法在混乱的环境中不能很好地运行。颜色制作者用来检测手指和手掌的关节和指尖的位置，它们对杂乱的背景很敏感。使用肤色模型[2][25]的手部区域表示也面临着类似的问题，即手部会与背景相混淆。

一些研究者利用手的三维特征或结构光来重建三维手表面[2][26]，但计算成本高限制了这些方法的实时性。立体相机也被用来跟踪手表面点[27]的轨迹。该多摄像头系统可用于重建手的三维表面和轨迹信息[28]。然而，它们也面临着计算成本高和昂贵的设备使其远离现实应用的问题。

深度相机的发展为实际应用中的高计算成本和困难问题提供了一个稳健的解决方案。然而，从深度图中分割出来的手形并不准确，其中包括了显著的噪声和关节。这些问题影响了识别性能。然后，提出了多种手形表示方法。经典的形状上下文方法[10][11]表示手形轮廓。基于骨架的方法[13]将手形表示为路径拓扑。Bai等人提出了一种骨架剪枝方法，使该方法对噪声具有鲁棒性。近凸包凸分解方法[14]将手分解为手指，在相关工作中取得了较好的效果。基于深度学习的方法[29][30]最近也被用于手势识别。

new ideas

提出了一种新的实时手势识别方法。受不变的多尺度形状2的启发提出的手势识别框架。描述子IMD[16]，我们提出了一种手指强调的多尺度描述子(FMD)来表示手的形状。由于手指特征是手势分类中最重要的线索，因此在FMD中强调了手指的形状特征，使手部形状表征具有判别性。所提取的不变形状特征对刚性变换、清晰度和噪声具有鲁棒性。此外，局部和半全局形状特征的多尺度表示使fmdad成为完整描述符。提出的手部姿态表示方法可以与传统的序列数据分类方法相结合，如动态时间弯曲(DTW)、支持向量机(SVM)和反向传播神经网络(BPNN)，用于各种应用。

检测

在这项工作中，我们使用Kinect传感器作为输入设备来检测手。从RGB-D数据中检测手的形状。手的位置是利用Kinect windows SDK的手跟踪功能定位的。然后将深度图像在一定的间隔内阈值得到手部区域，如图1所示。利用RANSAC检测手部区域后，将手部形状从腕部分割出来。分割后的手势轮廓存在噪声和失真，如图1所示的二值图像。手势检测从深度图像中检测出来的背景可以很容易地去除，因此对杂波背景具有较强的鲁棒性。如图2所示，在彩色图像中有两个手势，在二值图像中有相应的检测到的手势。彩色图像中的手受到背景的干扰，而二值图像中分割后的手却非常清晰，没有背景信息。

描述

手势的表示要求是不变的、健壮的、有区别的和完整的。为了获得更好的分类性能，我们希望类内距离小一些，类间距离大一些。为了达到这个目的，描述必须是完整的，以考虑到全部的特征并作出区别表示。本文提出了一种基于不变多尺度描述子[16]的手指强调多尺度描述子(FMD)，该描述子包含了多尺度下的三类参数。使用这三种类型参数的优点可以概括为三个术语。首先，这三个参数可以表示不同尺度下的形状特征，包括:点距离、弧长和面积。其次，多个特征直观上比单个特征能够捕获更多的形状信息，并且特征之间相互补充，使描述符既完整又有判别性。最后，这三个特征都是基于积分的参数，对噪声有较强的鲁棒性。因此，所提出的具有三种参数的多尺度描述符不仅是完整的，而且具有判别性。本研究特别考虑了手指的形状特征，适用于手势的表示。

定义

分割后的手形是由一系列轮廓点组成的闭合轮廓(见图4(A))。形状轮廓表示为S = {p(i)|i∈[1,n]}，其中n为轮廓长度，每个轮廓点p(i)参数化为其在图像中的坐标p(i) = {u(i)，v(i)}。在这里，我们从手部轮廓定义两个形状特征。定义1 主要区域 Ck(i)表示p(i)的k标度上的圆(如图3所示，每个圆分别覆盖一个标度上的区域)。k为尺度标号，m为总尺度数。圆Ck(i)半径为rkand圆心为p(i)。Ck(i)包括如图4(b)所示的圆圈内的手形区域，该形状的灰色区域A和灰色区域b在圆圈内。换句话说，区域是形状和圆的交点。在这些区域中，只有一个区域覆盖了中心点p(i)(本例中为A区)，而其他区域不覆盖。因此，在图4(b)中定义区域A是p(i)的主要区域，因为它覆盖了圆内的p(i)，而区域b不是，因为它与圆内的p(i)没有连接。图4(c)中还有另一种情况，圆圈覆盖的区域A是主要区域。主要区域的数学定义如下:

主要分割与major zone的定义1类似，major segment是与当前点p(i)相关的形状轮廓的一部分。考虑图4(c)中相同的圆Ck(i)，它覆盖了圆内手形的三个轮廓段。线段A表示为p(i)的主要线段，因为它与p(i)相交，而线段B和C不是。在我们的方法中，手形描述符只使用主段。主线段的数学定义如下:

手势描述符基于主要区域和主要段这两种形状特征，我们提出的手指强调多尺度手势描述符(finger强调multi-scale hand gesture descriptor, FMD) I定义如下:

显著特征点选择在大多数基于轮廓的手势识别方法中，都是利用手轮廓的所有点进行计算。然而，许多不具有显著特征的冗余点具有与显著特征点相同的权值，降低了手形描述符的表示能力。此外，来自手形捕获的噪声干扰了手形作为轮廓的离群点，增加了手势分类时的类内距离。此外，冗余点增加了计算成本。因此，有必要去除原始手形轮廓中的冗余点和离群点。为了提取显著形状特征，剔除冗余点，Latecki等人提出了离散轮廓进化(DCE)方法。然而，DCE方法不能自适应进化到收敛。本文采用自适应离散轮廓进化(ADCE)[16]方法，通过自适应进化结束来克服上述问题。图5显示了两个样本手势的进化结果，分别显示了原始轮廓和进化轮廓的点数。可以看出，演化后的形状保持了原始形状的显著特征，没有多余的点。需要注意的是，此ADCE步骤仅用于寻找具有代表性的特征点，而演化轮廓的FMD仍然是从原始图像在这些特征点处计算出来的。即通过ADCE减小轮廓序列的长度，保留轮廓点的FMD值与原始形状相同。这是为了保留原始形状特征的显著特征点。

5. 手势识别在这项工作中，我们探讨了三种不同算法的手势识别引擎:动态时间弯曲(DTW)[32]，支持向量机(SVM)和反向传播神经网络(BP)[33]，以不同的应用。由于手势的表示是一组FMD参数的序列，所以两两匹配算法是一种直观的解决方案，因此DTW算法因其具有非线性匹配的能力而成为首选算法。给定两个长度为nab和nB的FMD序列IA和IBis，两个轮廓点pi∈IAand qj∈IBis之间的距离d(pi,qj)定义为它们的FMD参数的欧氏距离。到目前对应点piand qjis的累计最小匹配距离定义如下:

在本节中，我们从四个方面评估所提出的方法的能力:(1)证明我们的方法对噪声、关节变化和刚性变换的鲁棒性;(2)通过广泛的对比研究，评估我们的方法在具有挑战性的手势数据集上的准确性和效率;(3)测试了我们的方法在手势识别实时应用中的性能;(4)验证提出的FMD描述符可以与不同的分类器一起用于不同的应用。所有的测试都是在英特尔酷睿2四轴2.66 GHz CPU和3G RAM上实现的。

如何解决

图1为所提出的实时手势识别系统的框架。Kinect传感器用于捕捉手势的彩色图像和深度图作为输入。在杂波背景下对手进行检测和分割。然后用所提出的FMD描述子来表示手部形状，并通过识别方法进行识别。

成果

在这项工作中，我们提出了一个使用Kinect传感器的手势识别系统。提出了一种用于手势表示的手指强调多尺度描述子，该描述子对噪声、手关节和刚性变换具有鲁棒性。我们分别用DTW、SVM和BP进行了三种手势识别方法。在基准手势数据集上的大量实验验证了该方法的鲁棒性、准确性和效率。所提出的描述符可以灵活地与不同的分类器组合，这使得我们的方法适用于各种应用。我们的方法也适用于实时应用。