提出了一种新的实时手势识别方法。受不变的多尺度形状2的启发提出的手势识别框架。描述子IMD[16],我们提出了一种手指强调的多尺度描述子(FMD)来表示手的形状。由于手指特征是手势分类中最重要的线索,因此在FMD中强调了手指的形状特征,使手部形状表征具有判别性。所提取的不变形状特征对刚性变换、清晰度和噪声具有鲁棒性。此外,局部和半全局形状特征的多尺度表示使fmdad成为完整描述符。提出的手部姿态表示方法可以与传统的序列数据分类方法相结合,如动态时间弯曲(DTW)、支持向量机(SVM)和反向传播神经网络(BPNN),用于各种应用。
检测
在这项工作中,我们使用Kinect传感器作为输入设备来检测手。从RGB-D数据中检测手的形状。手的位置是利用Kinect windows SDK的手跟踪功能定位的。然后将深度图像在一定的间隔内阈值得到手部区域,如图1所示。利用RANSAC检测手部区域后,将手部形状从腕部分割出来。分割后的手势轮廓存在噪声和失真,如图1所示的二值图像。手势检测从深度图像中检测出来的背景可以很容易地去除,因此对杂波背景具有较强的鲁棒性。如图2所示,在彩色图像中有两个手势,在二值图像中有相应的检测到的手势。彩色图像中的手受到背景的干扰,而二值图像中分割后的手却非常清晰,没有背景信息。
描述
手势的表示要求是不变的、健壮的、有区别的和完整的。为了获得更好的分类性能,我们希望类内距离小一些,类间距离大一些。为了达到这个目的,描述必须是完整的,以考虑到全部的特征并作出区别表示。本文提出了一种基于不变多尺度描述子[16]的手指强调多尺度描述子(FMD),该描述子包含了多尺度下的三类参数。使用这三种类型参数的优点可以概括为三个术语。首先,这三个参数可以表示不同尺度下的形状特征,包括:点距离、弧长和面积。其次,多个特征直观上比单个特征能够捕获更多的形状信息,并且特征之间相互补充,使描述符既完整又有判别性。最后,这三个特征都是基于积分的参数,对噪声有较强的鲁棒性。因此,所提出的具有三种参数的多尺度描述符不仅是完整的,而且具有判别性。本研究特别考虑了手指的形状特征,适用于手势的表示。
定义
分割后的手形是由一系列轮廓点组成的闭合轮廓(见图4(A))。形状轮廓表示为S = {p(i)|i∈[1,n]},其中n为轮廓长度,每个轮廓点p(i)参数化为其在图像中的坐标p(i) = {u(i),v(i)}。在这里,我们从手部轮廓定义两个形状特征。
定义1 主要区域
Ck(i)表示p(i)的k标度上的圆(如图3所示,每个圆分别覆盖一个标度上的区域)。k为尺度标号,m为总尺度数。圆Ck(i)半径为rkand圆心为p(i)。Ck(i)包括如图4(b)所示的圆圈内的手形区域,该形状的灰色区域A和灰色区域b在圆圈内。换句话说,区域是形状和圆的交点。在这些区域中,只有一个区域覆盖了中心点p(i)(本例中为A区),而其他区域不覆盖。因此,在图4(b)中定义区域A是p(i)的主要区域,因为它覆盖了圆内的p(i),而区域b不是,因为它与圆内的p(i)没有连接。图4(c)中还有另一种情况,圆圈覆盖的区域A是主要区域。主要区域的数学定义如下:
主要分割
与major zone的定义1类似,major segment是与当前点p(i)相关的形状轮廓的一部分。考虑图4(c)中相同的圆Ck(i),它覆盖了圆内手形的三个轮廓段。线段A表示为p(i)的主要线段,因为它与p(i)相交,而线段B和C不是。在我们的方法中,手形描述符只使用主段。主线段的数学定义如下:
手势描述符
基于主要区域和主要段这两种形状特征,我们提出的手指强调多尺度手势描述符(finger强调multi-scale hand gesture descriptor, FMD) I定义如下:
显著特征点选择
在大多数基于轮廓的手势识别方法中,都是利用手轮廓的所有点进行计算。然而,许多不具有显著特征的冗余点具有与显著特征点相同的权值,降低了手形描述符的表示能力。此外,来自手形捕获的噪声干扰了手形作为轮廓的离群点,增加了手势分类时的类内距离。此外,冗余点增加了计算成本。因此,有必要去除原始手形轮廓中的冗余点和离群点。
为了提取显著形状特征,剔除冗余点,Latecki等人提出了离散轮廓进化(DCE)方法。然而,DCE方法不能自适应进化到收敛。本文采用自适应离散轮廓进化(ADCE)[16]方法,通过自适应进化结束来克服上述问题。图5显示了两个样本手势的进化结果,分别显示了原始轮廓和进化轮廓的点数。可以看出,演化后的形状保持了原始形状的显著特征,没有多余的点。需要注意的是,此ADCE步骤仅用于寻找具有代表性的特征点,而演化轮廓的FMD仍然是从原始图像在这些特征点处计算出来的。即通过ADCE减小轮廓序列的长度,保留轮廓点的FMD值与原始形状相同。这是为了保留原始形状特征的显著特征点。
5. 手势识别
在这项工作中,我们探讨了三种不同算法的手势识别引擎:动态时间弯曲(DTW)[32],支持向量机(SVM)和反向传播神经网络(BP)[33],以不同的应用。由于手势的表示是一组FMD参数的序列,所以两两匹配算法是一种直观的解决方案,因此DTW算法因其具有非线性匹配的能力而成为首选算法。给定两个长度为nab和nB的FMD序列IA和IBis,两个轮廓点pi∈IAand qj∈IBis之间的距离d(pi,qj)定义为它们的FMD参数的欧氏距离。到目前对应点piand qjis的累计最小匹配距离定义如下:
在本节中,我们从四个方面评估所提出的方法的能力:(1)证明我们的方法对噪声、关节变化和刚性变换的鲁棒性;(2)通过广泛的对比研究,评估我们的方法在具有挑战性的手势数据集上的准确性和效率;(3)测试了我们的方法在手势识别实时应用中的性能;(4)验证提出的FMD描述符可以与不同的分类器一起用于不同的应用。所有的测试都是在英特尔酷睿2四轴2.66 GHz CPU和3G RAM上实现的。