所有提交的EM系统将被重定向到网上投稿系统。作者被要求将文章直接提交给网上投稿系统各自的日志。

Kinect提供的骨骼手势识别研究综述

曼朱塔莎1库玛尔B.P.2, Santhosh.S.Y3.
  1. 印度卡纳塔克邦图姆库尔AIT欧洲经委会系教授
  2. 印度卡纳塔克邦图姆库尔AIT欧洲经委会系助理教授
  3. 印度卡纳塔克邦图姆库尔AIT欧洲经委会学系PG学者
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际电气、电子和仪器工程高级研究杂志

摘要

本文提出了一种基于Kinect的人体骨骼识别的实时实现,可用于基于视觉的人机界面。使用低成本设备Kinect及其SDK工具包,我们可以轻松解决使用传统相机时遇到的一些难题。特别是,我们感兴趣的是一个特定流的矢量提取20个身体关节作为坐标,以识别人体骨骼结构捕捉Kinect相机。从骨骼结构中识别的手势模式用于研究各种姿势,如站立、坐下和躺下。在传统系统中,当它们在理想条件下工作时,它们可以绕过许多问题。通过对三维关节的跟踪,讨论了关节触地的速度和角度。本文对不同的分割方法、特征提取方法、分类器进行了讨论和比较。

关键字

人机交互(HCI),人体姿态识别(HPR),分割,特征提取,软件开发工具包(SDK),分类器。

介绍

人体运动分析在人机交互领域越来越受到重视。一方面,这种流行是由于现有设备变得更加复杂,加上不断增长的计算能力,可以解决复杂的问题。另一方面,最近出现了一些更实惠的设备,可以用作相对便宜的系统的一部分。人体运动分析的主要领域是监控、医学、游戏、人机界面和动画。主要研究领域是人体手势识别、运动分析和跟踪。
近年来,人体运动分析和手势识别受到了相当多的关注。主要研究内容包括:通过行走来识别人,利用时间模式识别进行人体运动识别,三维人物运动重建,生物运动感知,自动步态识别等。手势是人类的一种非言语交际,用来代替言语交际,意在表达意义。它可以与手、手臂或身体结合,也可以是头部、面部和眼睛的运动。人体手势可以被称为几个名字,即人体图案,人体姿势,人体姿势,人体行为。视频序列中的人体手势识别已经被大量研究,因为它在增强患者跌倒运动检测监测、运动分析和人类行为分析方面具有重要应用。
Kinect传感器是一种体感设备。它的名字是kinetic和connects的组合。它最初是为微软Xbox 360视频游戏主机设计的自然用户界面(NUI),为用户创造一种新的无控制体验,不再需要输入控制器。用户是控制器。它使用户能够通过手势识别和语音识别与Xbox 360上的软件进行交互和控制。Kinect与其他设备的真正区别在于它捕捉深度的能力。该装置由多个传感器组成。中间有一个RGB摄像头,分辨率高达1280x960,每秒12张。对于彩色视频流,通常使用的分辨率为640x480像素,每秒最多30张图像,因为深度摄像机的最大分辨率为640x480,每秒30帧。在设备的最左边,它有红外灯(投影仪)。 It projects multiple dots which allows the final camera on the right side, the CMOS depth camera, to compute a 3D environment. The device is mounted with a motorized tilt to adjust the vertical angle. Kinect can detect up to 2 users at the same time and compute their skeletons in 3D with 20 joints representing body junctions like the feet, knees, hips, shoulders, elbows, wrists, head, etc.
图像
图1 Kinect设备由红外激光投影仪、单色CMOS传感器、RGB摄像头和多阵列麦克风组成

2相关研究

在本文中,他们探索了在健康监测框架的背景下,使用Kinect提供的骨骼信息进行人体姿势识别的能力。他们用从人类骨骼中提取的4种特征进行了7个不同的实验。实验结果表明,该装置能对躺、坐、站、屈四种感兴趣姿势[1]进行高精度检测。在本文中,他们提出了在视频流中使用数据挖掘分类方法进行人体手势识别的比较。他们特别感兴趣的是Kinect摄像头捕捉到的代表人体的20个身体关节位置的特定矢量流。这项研究中公认的手势模式是站立、坐下和躺下。对比研究选择的分类方法有反向传播神经网络、支持向量机、决策树和朴素贝叶斯[2]。本文提出了基于Kinect传感器的印度古典舞蹈手势识别算法。该装置生成人体骨架,从中得到20个不同结点的三维坐标。在这里,他们只需要11个坐标就可以完成拟议的工作。基本上处理了左右手的六个关节坐标和上半身的五个关节坐标。 A unique system of feature extraction have been used to distinguish between ‘Anger’, ‘Fear’, ‘Happiness’, ‘Sadness’ and ‘Relaxation’ [3]. A robust method for fall detection is presented based on two features: distances between human skeleton joins and the floor, and join velocity. The first feature provides an efficient solution to detect falls as the human skeleton joins close to the floor level when a person falls down [4]. This paper presents a gesture tracking method using 3D blobs and a skeleton model for interactive application. A disparity map is obtained from stereo matching based on GPGPU and they generate 3D foreground blobs using depth information. The distribution of 3D blobs is applied to determine the human position combined with the face and torso detection. The skeleton model for an upper body is fitted successively to a median axis in the area with more 3D blobs from the shoulder parts to the hands [5]. In this paper, they address the problem of human activity recognition using support vector machine (SVM) classifier. Human action recognition can be viewed as a process of detecting the actions of the individuals by monitoring their actions and environmental conditions. It is an important technology which is widely spread because of its promising applications in surveillance, health care and elderly monitoring. This is achieved by capturing the videos from depth sensor (Microsoft Kinect) through which we extract the 3D joint skeleton representation of individual as a compact representation of postures providing adequate accuracy for real-time full body tracking [6].In this paper, they present a method for human full-body pose estimation from depth data that can be obtained using Time of Flight (ToF) cameras or the Kinect device. Our approach consists of robustly detecting anatomical landmarks in the 3D data and fitting a skeleton body model using constrained inverse kinematics. Instead of relying on appearance-based features for interest point detection that can vary strongly with illumination and pose changes, we build upon a graph-based representation of the depth data that allows us to measure geodesic distances between body parts [7]. The recent popularization of real time depth sensors has diversified the potential applications of online gesture recognition to end-user natural user interface (NUI). This requires significant robustness of the gesture recognition to cope with the noisy data from the popular depth sensor, while the quality of the final NUI heavily depends on the recognition execution speed. This work introduces a method for real-time gesture recognition from a noisy skeleton stream, such as those extracted from Kinect depth sensors. Each pose is described using an angular representation of the skeleton joints. Those descriptors serve to identify key poses through a Support Vector Machine multi-class classifier, with a tailored pose kernel [8].

3方法

答:Algorithm-1

该系统主要由3个模块组成:数据采集、数据处理与特征提取、人体姿态识别。在数据采集模块中,它们正在捕捉不同类型的信息:颜色、深度和骨架信息。数据处理和特征提取模块的目的是在需要时进行一些处理,如数据规范化和计算姿态表示的相关特征。人体姿势识别模块的目的是学习并将给定的姿势分类为预定义的类别之一,如躺着、弯腰、坐着和站着。[1]
步骤1:采集彩色图像、深度图像。
step2:从深度图像中分割出人体姿态。
步骤3:对于映射骨架的分段图像。
步骤4:跟踪骨架
步骤5:从joinis中提取因子,并将其作为参考点
步骤6:使用SVM分类器比较当前姿态与之前存储的姿态。
第七步:识别姿势,即站着、坐着、躺着和弯腰。

b . Algorithm-2

在本文中,他们比较了四种类型的分类器,并讨论了从每种分类器获得的识别率。这四个分类器分别是BPNN、SVM、决策树和naïve Bayes。[2]

(i)反向传播神经网络(BPNN):

BPNN是一种采用反向传播算法进行学习的多层前馈神经网络。他们使用一个多类别神经网络来预测人类手势的类别成员(站、坐、躺)。他们正在应用BPNN方法来归纳构建数据模型。有三层(输入层、隐藏层和输出层),分别有60个、10个和3个节点。

(ii)支持向量机(SVM):

支持向量机是一种很有前途的可以对线性和非线性数据进行分类的新方法。利用非线性映射将高维内的训练数据转换为新的维;线性映射是一种寻找最优直线来分离超平面的方法。支持向量机由用于在输入数据上训练支持向量机的节点组成。它支持许多不同的内核(超切线、多项式和径向基函数)。SVM学习器通过计算每个类和其他类之间的超平面来支持多类问题。在他们的研究中,他们使用具有多项式核的SVM对人类手势的回归进行分类和分析。

(iii)决策树:

决策树用于从类标签对数据进行分类,其输出为类似流程图的树结构。在本研究中,基于CART在数据挖掘研究文献中的流行,使用了一种决策树算法。在本研究中,决策树将人类手势分为一组内部节点(决策节点)和叶节点。每个叶节点显示一个类结果标签。构建的树枝呈现了人类手势(站、坐、躺)的结果。
iv) Naïve贝叶斯:Naïve贝叶斯是一种基于条件概率预测类成员的统计分类。贝叶斯模型中的节点是根据给定的训练数据创建的。每个节点为名义属性的每个类计算每个属性值的行数,并为数值属性计算高斯分布。

c . Algorithm-3

在这篇论文中,他们致力于识别五种类型的手势。使用支持向量机分类器对不同手势进行分类。它们是“愤怒”、“恐惧”、“快乐”、“悲伤”和“放松”。正如本文所讨论的那样,“愤怒”是通过侵略性的手部动作来表达的,而“放松”则是静态的手部姿势,但保持一定的角度。每个视频序列总共提取了23个特征来描绘特定的手势。其中,8枚来自双手,其余来自头部和身体。脚的信息在这里没有被考虑到,因为它在印度古典舞蹈形式中传达手势不是那么重要。[3]
步骤1:为五种情绪创建一个初始的骨架数据库
第二步:确定双手和肘部的加速度
第三步:如果手的加速度大于70米/秒,手肘的加速度大于20米/秒,则未知情绪为“愤怒”。否则执行下一步。
第四步:计算脊椎到手的距离距离在不断减小
第五步:检查头、肩中心和脊柱之间的角度
步骤6:如果角度连续减小。那么未知的情绪就是“悲伤”。
那么未知的情绪就是“恐惧”。
第七步:确定肘部、肩部中心和手腕夹角的百分比大于90%
那么未知的情绪就是“放松”
那么未知的情绪是“幸福”。

d . Algorithm-4

本文将三维地板平面识别和三维人体骨骼结合动作捕捉相结合,旨在实现更高精度的跌倒检测。在这里,他们使用深度摄像机来跟踪3D人体骨骼的连接运动,它也可以在一个黑暗的房间里工作,适合全天操作。他们还使用了三维人体骨架连接到地板平面的距离以及连接的撞击速度;它可以从更多的情况(如慢慢躺在地板上)中有力地区分跌倒。[4]
step1:深度识别采用Kinect传感器提取三维人体骨骼的连接位置。
step2: 3d地板平面检测。
步骤3:人体识别,提取骨骼识别特征。
步骤4:已经识别了坠落检测,计算了join的撞击速度。

e算法5

本文采用人体骨架模型来克服视差图不足和颜色分布复杂的问题。人脸检测器基于彩色图像中的哈尔分类器。更具体地说,骨架模型在从肩部到手部有更多3D斑点的区域的中位轴上连续拟合。利用模型中三维斑点的相对位置和颜色信息来跟踪包括手臂和手在内的手势区域。通过头部区域的皮肤颜色进行手部检测,在三维空间中围绕身体和手臂部位进行检测,解决了跟踪过程中的遗漏/错误问题。评估从手到肘部的颜色分布,而不是从模型拟合的顺序,允许我们提高跟踪性能。[5]
步骤1:基于GPU的深度估计和3D blob生成。
step2:人体检测与三维骨骼模型拟合。
为了探测人类并计算他/她的头部位置,他们采用了三种方法:
(i)人脸检测,
(ii)躯干检测,以及
(iii)头部区域估计。
第三步:跟踪和运动轨迹。

Algorithm-6

他们提出了一种利用支持向量机分类器对Kinect摄像头捕捉到的13种不同类型的人体活动进行识别的方法。即使这个人没有出现在训练集中,他们也使用人类骨骼关节特征来获得良好的结果,他们使用判别模型来实现所有活动的更好的准确率。[6]
第一步:按深度顺序训练视频。
步骤2:提取三维骨架关节信息。
步骤3:提取三维骨架关节的特征向量。
步骤4:使用SVM分类器对提取的特征进行分类。
步骤5:执行指定的操作。

结果

1.在第一个算法中,他们分析了他们的系统在离线评估和在线评估两种评估中的识别情况。
图像
图像
图像
图像
3.在手势“愤怒”的第三个算法中,手和肘部最大加速度的阈值分别为70米/s2和20米/s2。弯头速度最大为1.1478 m/s,最小为6.9001e-004m/s。对于手来说,这个范围在3.4501 m/s到2.2606e-004 m/s之间。手势“悲伤”和“恐惧”给出相对较低的速度值。对于“恐惧”,它的范围在0.158米/秒到1.5827米/秒到004米/秒之间,而在“悲伤”中,对于手肘和手,它的范围是0.214米/秒到5.4002米/秒。支持向量机的总体准确率为86.8%。
4.第四种算法共有4名被试,身高、年龄、体重分别为:175.2±15 cm、29.5±1.5岁、72.5±7.5 kg。他们提出的方法可以以30帧/秒的速度计算所需的距离和速度。它正确地检测到所有的坠落。
5.在第五种算法中得到的结果如下表所示
图像

五、基于模型的多视角身体姿态估计和跟踪方法的比较总结

图像

六。结论

在本文中,讨论了识别不同手势/姿势的概念、方法、特征提取、分类器,并比较了使用Kinect进行骨骼识别的识别率。根据我们的调查,不同的方法,特征提取技术进行了比较。在BPNN,SVM,DT,NB等不同分类器中,BPNN的识别率为100%,SVM的识别率为99.75%,基于不同的手势/姿势,BPNN/SVM可以任意使用。BPNN和SVM分类器的识别率和准确率均优于本文所比较的其他分类器。但在这篇论文中,他们没有讨论系统的时间响应。为了获得良好的时间响应,系统应集中处理数据库的数量。这些数据库被考虑在不同的场景中,如不同的距离,复杂和同质背景中的各种姿势,不同的骨架角度与摄像机位置有关,以及与所使用的工具有关的多手势环境。如果我们有一个大的数据库,多类支持向量机用于获得相对于实时环境的高识别率,但与BPNN相比,我们不能期望好的识别率。bp神经网络具有较好的识别率,但响应时间较差。该界面使人类用户能够通过身体/骨骼手势控制智能环境。将来,我们可以根据系统的应用以及系统从实时环境中提取特征的参数来设计我们自己的分类器。

参考文献

  1. Thi-Lan Le, Minh-Quoc Nguyen, Thi-Thanh-Mai,“使用Kinect提供的人体骨骼进行人体姿势识别”,Nguyen国际研究所MICAHUST - CNRS/UMI-2954 - grenoble越南河内科技大学,978-1-46 673-2088-7/13©2013 IEEE
  2. OrasaPatsadu, ChakaridaNukoolkit和BunthitWatanapa,信息技术学院,泰国吞布里bangkok,“使用Kinect摄像头的人体手势识别”978-1-6673 -1921-8/12©2012 IEEE
  3. SriparnaSaha, ShreyaGhosh, AmitKonar, 1电子和电信工程系。生物科学与工程学院Jadavpur大学加尔各答,印度,“手势识别从古典舞蹈使用Kinect传感器”978-0-7695-5042-8/13©2013 IEEE DOI 10.1109/CICSYN.2013.11
  4. 郑鹏边,lap - puichan, Nadia MagnenatThalmann,新加坡南洋理工大学电气与电子工程学院,新加坡639798 *南洋理工大学媒体创新研究所,新加坡639798,“基于人体连接高度和下落速度的深度视频检测方法”
  5. Sungil Kang, Juhee Oh, Hyunki Hong,成像科学与艺术系,GSAIM,中央大学黑石洞,首尔,156-756,韩国,“基于3D Blobs和骨骼模型的人体手势检测”978-1-4799-0604-8/13©2013 IEEE
  6. Megha D Bengalur,电子与通信工程系。胡布力,“基于人体姿态特征和支持向量机的人体活动识别”,978-1- 6673 - 6213 -7/13©2013 IEEE
  7. 洛伦·阿瑟·施瓦茨â Â, ArtashesMkhitaryan, Diana Mateus, Nassir Navab,计算机辅助医疗程序(营),信息系TechnischeUniversitätMünchen (TUM), Boltzmannstr. 3, 85748 Garching,德国,“利用测地距离和光流从深度数据跟踪人类骨骼”,0262-8856/$ -见封面©2011 Elsevier B.V.版权所有。doi: 10.1016 / j.imavis.2011.12.001
  8. Leandro Miranda a, Thales Vieira a, Dimas Martíneza, Thomas Lewinerb,Antonio W. Vieira c,d, Mario F. M. Campos c, a数学研究所,UFAL, Maceió,巴西,b数学系,pc -里约热内卢,里约热内卢de Janeiro,巴西,c计算机科学系,UFMG,贝洛奥里藏特,巴西,d数学系,UNIMONTES, Montes Claros,巴西,“来自姿态内核学习和决策森林的在线手势识别”,0167-8655/$ -见前事_ 2013 Elsevier B.V.版权所有。
  9. Michalis Raptis1, Darko Kirovski2, Hugues Hoppe2, 1加州大学洛杉矶分校2微软研究院,“从骨骼动画中实时分类舞蹈手势”,欧洲图形学/ ACM计算机动画SIGGRAPH研讨会(2011)
  10. andreas Corradini_, Hans-Joachim Boehme, Horst-Michael grosilmenau技术大学,神经信息系,D-98684 Ilmenau,联邦德国,“基于视觉的姿态识别使用混合神经网络”,ESANN'1999文集-欧洲人工神经网络研讨会,布鲁日(比利时),1999年4月21-23日,d -事实上公开。, ISBN 2-600049-9-X,第81-86页
  11. Pradeep Kumar B P“动态手势识别”已发表于“IFRSA国际图形与图像处理杂志(IJGIP)”-2012年在国际研究人员、学生和院士论坛(IFRSA)上,ISSN(2249-5452)第2卷,第1期,2012年4月
  12. Pradeep Kumar B P“基于支持向量机手势识别的人机交互系统的设计与开发”已发表在“IFRSA国际图形与图像处理杂志(IJGIP)”2012年国际研究人员、学生和院士论坛(IFRSA)上,ISSN(2249-5452)第2卷,第2期,2012年7月
  13. Pradeep Kumar B P“使用H.264的高级视频压缩”已发表在《国际新兴技术与先进工程杂志》(IJETAE), ISSN(2250-2459)第3卷第1期,2013年1月
  14. Pradeep Kumar B P“基于CBIR的动态手势”已发表于《IAEME国际计算机工程与技术杂志》2013年第4卷第3期,PP-340-342, 2013年5月- 6月
  15. Pradeep Kumar B P“使用手势识别的人机交互设计和开发”在俄克拉荷马州立大学举办的可持续世界新兴创新技术国际会议(ICEITSW-2013)上发表
  16. Pradeep Kumar B P“使用svm的人机界面设计和开发”在2012年5月15日和16日国际工程新兴趋势会议(ICETE-12)上发表
全球科技峰会