所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

基于面部表情和视觉语音的人脸识别

美国萨拉瓦南1, S.帕拉尼维尔2巴拉苏布拉曼尼亚3.
  1. 印度泰米尔纳德邦安纳马莱大学CSE系研究学者
  2. 印度泰米尔纳德邦安纳马莱大学CSE系教授
  3. 印度泰米尔纳德邦安纳马莱大学CSE系助理教授
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

本文是实现自动身份验证的一个重要里程碑。在这项工作中,从一个视频源,自动感知的视频帧与姿态自由脸。然后对口部区域进行自动定位。然后利用口腔区域的局部二值模式直方图进行人脸识别。比较了中性表情、微笑表情和视觉语音对人的识别效果。使用了一个包含30人的180个视频的大定制数据集。结果表明,视觉语音对人的识别效果较好,F1分为0.95分,其次是中性脸,为0.93分,微笑表情为0.87分。它还得出结论,人脸的嘴部分本身就足以有效地识别人。



关键字

人物识别,局部二值模式直方图,中性,微笑表情,视觉语音,准确性,F1分数。

介绍

利用算法和计算机对数字图像进行的图像处理称为数字图像处理。与数字图像处理密切相关的主题是计算机视觉,它涉及捕获和处理图像,主要来自视频,并根据处理结果做出决策。物体识别是计算机视觉的重要组成部分。物体识别的一个重要应用方面是人的身份验证。人员身份验证可以有两种类型。它可以是人员验证或人员识别。人员验证是一对一的比较,而人员识别是一对多的比较。在许多工作中,除了精度和查全率外,还用准确率和F1分数[1]来衡量人物识别系统的质量。人员验证的性能通常使用等差错误率[2]来衡量。七种基本的面部表情是愤怒、厌恶、恐惧、高兴、中立、悲伤和惊讶。 Among these we use only the neutral and smile expressions for our research comparison in addition to visual speech. Visual speech is detecting visually the mouth region speech activity [4]. Yaw, roll and tilt are poses of faces which degrade the performance of person authentication system. In our research an extension of the automatic pose free face detector used in [5], hereafter called as extended pose free face detector is used. Using local binary pattern histogram, person identification performances while using neutral, smile facial expression and visual speech are compared with our custom dataset. Using methodology used in [5], person verification performance comparison while using neutral, smile facial expression and visual speech using auto associative neural network is checked with our above dataset. Auto associative neural network when trained with features of facial and visual speech has the potentiality to learn the features to be compared later while testing [6]. The comparative performances of above both person authentication while using neutral, smile facial expression and visual speech are compared while using auto associative neural network and local binary pattern histogram. The objective of the work is to find out the best among neutral face, smile facial expression and visual speech on which better automatic person authentication systems can be built upon.
第二部分介绍了相关工作。第三节说明拟议的工作。第三节A介绍了扩展无位姿人脸检测器和口腔区域定位。第三节B给出了扩展无姿态人脸检测器和口腔区域定位的伪代码。第III C节解释了自定义数据集。第三章D部分介绍了身份识别制度。第三节E解释了圆形局部二值模式直方图。第三节F介绍了准确性、精密度、召回率和F1分数。第四部分是结果分析。第五节是结论和今后的工作。

相关工作

为了避免因缩放而产生的问题,可以使用鼻子的相对大小作为阈值。从视频中选择合适的图像时,错误的拒绝可能会降低验证系统的时间效率,但不会影响验证系统的完善。基于部分人脸进行人脸识别的研究很少。像遮挡和位姿变化一样,光照变化也会干扰人脸识别系统的准确性。人脸对齐是人脸识别系统中的一个重要步骤,在主动形状模型(Active Shape Model)和主动外观模型(Active Appearance Model)中,人脸识别系统大多使用眼睛或面部的某些特定标志。在人脸识别中,除了正面视图外,一般都需要利用地标定位生成正面视图,这将受到遮挡的严重干扰。近红外图像也可以用于识别,但所需要的图像质量非常高,对姿态的容忍度较低。面部的一半或面部的组成部分,如耳朵、鼻子、嘴巴和眼睛,可以用于识别。与此类似,可以手动将人脸区域划分为许多小区域,并结合结果进行识别,以管理遮挡[7]。
Procrustes分析可用于管理姿态变化,同时确定人脸图像中的地标。人脸图像中地标获取的完美性除了受到光照影响外,还主要受到姿态变化的影响。许多对齐算法无法管理姿态方差,甚至在其开始阶段。整体人脸检测算法在处理难以捉摸的形状变化方面并不完美。在这种情况下,部分基于人脸的系统可以表现得更好。基于变形件模型和结构输出支持向量机的地标检测速度更快、更完善。在手动土地标记[8]之间不遵循一致性。
当人脸的姿态发生变化时,利用外观进行人脸识别的方法的成功率大大降低。视频为训练提供了更多的图像,这有助于提高人脸识别的准确性,即使待探测图像与训练图像的姿势存在差异。模型拟合顶点越多,人脸识别精度越高,但需要更多的计算资源,不能用于实时系统。当用眼睛进行识别时,它们应该非常接近,鼻子表现出很大的相似性,但说话的嘴显示出人与人之间的很大差异。在人脸归一化中,由于下巴的特征点排列不好,可以排除下巴区域。此外,下巴区域的差异不足以增强识别。训练图像数量的增加提高了识别结果的准确性,即使有姿势的变化。如果地标是手工标记的,错误可能很高,也不能在规定的时间内完成。在某些情况下,相同的标志可能被不同的研究人员所注意到,这进一步增加了复杂性。自动检测口不成功[9]。
识别面部的阻塞区域,并创建无阻塞的图像,然后用于识别。在这种识别系统中,不受姿态变化影响的起始对齐主要决定了识别结果的质量。许多研究者在人脸识别中使用预先设定的阈值来去除障碍物,但这种方法并不适用于所有的人脸数据库。采用主成分分析法,利用人脸均值进行对比,识别并去除遮挡人脸的物体。在本研究中,神经网络训练需要20万epoch才能得到期望的结果[10]。
许多人脸识别系统在标准数据库中表现良好,但在现实生活中却失败了,因为它们无法同时处理光照和对准以及障碍物的变化。整体法人脸识别方法虽然速度快且不复杂,但当人脸图像遇到遮挡时,其质量会迅速下降。当存在位姿变化时,二维技术可以得到更好的结果。基于模型的技术增加了系统的复杂性。图像数量的增加有助于克服由于光照变化而产生的困难。稀疏表示和分类算法对受限环境图像有较好的处理效果,但在实际情况下由于总是假定图像完美拟合而失败。没有公众可访问的带有姿态的人脸图像进行了高浓度采样。真实世界的光照条件在Multi PIE人脸数据集中是不存在的。包括前额通常降低准确性,因为它可能经常被头发阻塞。人脸图像底部的两个角落可以被排除,因为很多时候它包含了人脸后面的内容。 Many algorithms fail to provide good results, when alignment fails. Local Binary Patterns can perform well even when lighting varies. Outer edges of the eyes are usually used for alignment [11].
在人脸识别任务中,没有一种方法能够很好地处理姿态变化。几乎所有的人脸识别系统都没有在真实环境下进行过测试。通常3D图像生成方法是非常耗时的,在现实世界中采用并不完美[12]。
在人脸识别中,基于部分的方法比整体方法[13]的识别效果更好。基于局部二值模式直方图的识别不复杂,有助于系统快速工作。与将人脸作为整体处理的方法相比,局部二值模式方法将人脸作为组成部分的组合处理,当姿态和光线存在变化[15]时,其性能更佳。

提出工作

A.扩展无姿态人脸检测及口腔区域定位:
在该方法中,从视频源中检测到无姿态人脸的视频帧。此外,口区也检测使用,我们的工作继续。从视频源中,人脸检测使用扩展的haar like feature集合[16],它是[17]的改进形式。鼻子是用[18]的模式,知识和时间一致性来检测的。前两步检测到多个人脸或多个鼻子的视频帧被过滤为[5]。检测器利用可变形部件模型和结构化输出支持向量机[19]来识别人脸的标志。根据检测到的标志,使用鼻尖和唇角来定位口腔区域。鼻子宽度被指定为嘴巴区域的宽度。口区宽度的一半被指定为口区高度。由于使用了相对数量,即使在缩放时,面部的同一区域也会被标记为特定的人的口腔区域。 Nose tip is used to calculate the mouth region horizontal centre. The centre of the vertical line between a lip corner and the nose tip is assigned as the mouth region top. From the mouth region top and mouth height, mouth region bottom is identified. From the mouth region horizontal centre and mouth region width, mouth region both sides are identified. Thus the mouth region is completely localized. Video frames are rejected if any one lip corner is above or below the mouth region, if one lip corner is inside and the other outside the mouth region horizontally, if the absolute difference of right and left side horizontal distance of the lip corner from the mouth region is greater than 5% of nose width, if the absolute difference of right and left side vertical distance of the lip corner from the nose tip is greater than 10% of nose width as like in [5]. Above pose free face detector gives perfect pose free faces, but it has some rare images when the face is in a little far off distance from the camera, where face is detected correctly, but nose is detected wrongly by detecting the entire face, which leads to wrong mouth region detection. To eliminate this, the pose free face detector is extended as extended pose free face detector. In extended pose free face detector, video frame is initially accepted only if the face width is greater than double the width of nose, which increases its performance accuracy further. Sample automatically localized extracted mouth regions of thirty persons during neutral face are shown in Fig. 1
B.扩展无姿态人脸检测器及口腔区域定位伪代码:
第一步:从视频源独立检测人脸和鼻子。
步骤2:如果(number of detected nose > 1 or number of detect face > 1)视频帧被拒绝
步骤3:如果(2 ×鼻宽>脸宽)
视频帧被拒绝。
第四步:自动识别鼻尖和两个唇角。
步骤5:鼻尖和唇角被用来定位口腔区域如上所述。
第六步:如果(任何一个唇角高于或低于口腔区域)视频帧被拒绝
第七步:如果(一个唇角水平在嘴部区域内,另一个唇角水平在嘴部区域外)视频帧被拒绝
步骤8:如果((绝对差(左右唇角到嘴部的距离))>鼻子宽度的5%)视频帧被拒绝
步骤9:如果(绝对差(左右唇角到鼻尖的垂直距离)>鼻翼宽度的10%)视频帧被拒绝
步骤10:剩余的视频帧被接受为无姿势面部的视频帧
C.自定义数据集:
对于我们的数据集,包括面部的视频记录了不同的面部姿势。这些人被要求展示姿势,即滚动与倾斜和偏航。视频在正常光照条件下录制,带有中性、微笑表情和视觉语音。在大约二十天的时间间隔内完成了两次视频录制。记录中有30人,其中4人是女性。因此,数据库变得非常大,包含180个视频,因为它包括两组30人的会议,每个人都有中性的微笑表情和视觉演讲。每个视频的长度约为两分钟。视频分辨率为640x480,每秒15帧。
D.身份识别系统:
在采用局部二值模式直方图的人脸识别系统中,使用扩展无姿态人脸检测器输出的口腔区域图像作为人脸训练和测试的输入。系统的用户界面如图2所示。每个人从第一次记录的会话中取10张口腔区域图像进行训练,对每个人进行带标签的局部二值模式直方图模型训练。在模型训练完成后,从第二次记录的会话中为每个人拍摄10张口腔区域图像进行测试。最初,在模型中使用50的阈值,并尝试所有10张图像进行识别。如果任何图像无法从数据库中识别,则重复识别过程,阈值为60。阈值每十步增加一次,直到达到阈值,此时从数据库中识别出所有十张图像。对所有30人分别重复中性、微笑表情和视觉语音的过程,并从输出中制备困惑矩阵。利用混淆矩阵数据和eq. (1), eq. (2), eq. (3), eq.(4)计算准确率,精密度,召回率和F1得分。结果值如表1所示。
E.圆形局部二值模式直方图:
输入的灰度图像被分成更小的部分,从中生成直方图特征,并分组形成一个单一的特征向量,称为局部二值模式直方图。在局部二进制模式中,对于每个像素,考虑其附近像素的强度。如果像素强度大于其附近的一个像素,则认为是1,如果更小则认为是0。例如,如果考虑8个相邻像素,则每个相邻像素生成一个1或0,形成一个8位二进制数。图3显示了局部二进制模式生成示例。因此,对于一个像素,从00000000到11111111有256种局部二进制模式的可能性。为了在不同的缩放下进行管理,在考虑像素周围的圆中,随着半径的变化选择附近的像素。如果一个点覆盖了两个像素,则采用双线性插值法得到值。如果局部二进制模式没有从0到1的位变化,比如00000000或11111111,或者有两个转换,比如从0到1,然后从1到0,或者从1到0,然后0到1,第一个和最后一个比特相同,那么它就被认为是均匀的和循环的。非均匀图案约占纹理中所有局部二进制图案的10%。 Hence while generating local binary pattern histogram, one independent bin is used for all non uniform patterns. All remaining uniform patterns use each one a bin. Circular local binary pattern is also called as extended local binary pattern. If the number of nearby points from the circle is 8 and radius is 2 pixels, then it is denoted as (8,2). Chi square minimum distance estimation is applied to compare histogram. This performs well even when poses and gray level varies. Prior to using local binary pattern on the image there is no need to normalize the intensity values which increases the efficiency [15]. If the size of each division is large, the length of the feature will be short. This short feature helps for faster performance. As the variation of size and other parameters does not vary the result much, time need not be wasted for finding the best parameters [14].
F. Accuracy、Precision、Recall、F1评分:
一般用准确率、精密度、召回率和F1分数来比较分类器的质量。在混淆矩阵中,真阳性是被正确识别为相关人员的人数。假阳性是指被错误地认定为有关人员的人数。真否定是指正确地认定为不正确的人的数量。假阴性是指被错误识别为不正确人员的人数。
准确度是真阳性和真阴性之和占真阳性、真阴性、假阳性和假阴性之和的比例。用公式(1)计算。
图像
精确度是真阳性和假阳性之和中真阳性的比例。用公式(2)计算。
图像
召回率是真阳性和假阴性之和中真阳性的比例。用式(3)计算。
图像
通常,精密度和回忆度得分被合并成一个单一的测量,称为f -测量[1],[20],[21]。传统的f测量或平衡f评分或F1评分是精密度和召回率的调和平均值。另外两种常用的F度量是F2度量,召回率的权重高于准确度,以及F0.5度量,召回率的权重高于准确度。F1分数由eq.(4)计算。
图像

结果分析

在本研究中,在使用中性表情、微笑表情和视觉语音进行人物识别时,视觉语音的准确性、精密度、回忆率和F1得分相对较高,使用中性表情时次之,使用微笑表情时表现最低。在[5]中使用自动联想神经网络进行人员验证时也记录了类似的结果,其中使用的数据集比本工作中使用的数据集更小。同样的方法在180个视频的数据集上进行操作,也得到了类似的结果。如图4所示,以中性人脸为0.37时,基于自动联想神经网络的人验证错误率相等。如图5所示,以微笑表情为0.41时,基于自动联想神经网络的人物验证错误率相等。如图6所示,以视觉语音为0.36时,基于自动联想神经网络的人验证错误率相等。图7显示了在使用中性脸、微笑表情和视觉语音时,基于局部二值模式直方图的人物识别的准确率、准确率、召回率和F1分数。在所有的测试中,人的识别在使用视觉语音和中性面孔时表现良好。

结论和未来工作

在本工作中得出结论,对于人的身份验证,无论是人的身份验证还是人的身份识别,视觉语音都比中性脸有非常好的表现,而中性脸比微笑表情有更好的表现。同时,人脸本身的嘴部区域成分在人脸身份验证中是有效的。这方面的未来工作可能是独立使用人脸的其他组件进行身份验证。独立人脸组件的认证结果可以基于人脸组件中不存在遮挡的情况进行组合。

表格一览

表的图标
表1

数字一览

数字 数字 数字 数字
图1 图2 图3 图4
数字 数字 数字
图5 图6 图7

参考文献






















全球科技峰会