《翻译-基于深度学习框架的无约束人脸检测.docx》由会员分享,可在线阅读,更多相关《翻译-基于深度学习框架的无约束人脸检测.docx(8页珍藏版)》请在优知文库上搜索。
1、基于深度学习框架的无约束人脸检测YutongZhengindicates equal contribution.ChenchenZhu*KhoaLuuChandrasekharBhagavatulaT.HoangNganLeMariosSavvidesCyLabBiometricsCenterandtheDepartmentofElectricalandComputerEngineering,CamegieMellonUniversity,Pittsburgh,PA,USAyutongzh,chenchezzkluu,Cbhagavazthihoanl)GandreW.cmu.edu,msav
2、vidri.emu.edu摘要强大的脸部检测是支持面部表情分析,特征标记,面部识别,姿态估计,3D面部模型构建等最重要的预处理步骤之一。尽管这个主题已经被深入研窕了儿十年,由于现实世界场景中面部图像的多种变体,仍然具有挑战性。在本文中,我们提出了一种名为多尺度更快基于区域的卷积神经网络(MS-FRCNN)的新方法,以从各种挑战性条件下收集的图像鲁棒地检测人脸区域。大的遮挡,极低的分辨率,面部表情,强烈的照明变化等。提出的方法是基于两个具有挑战性的面部检测数据库,即WiderFace数据库和面部检测数据集及基准(FDDB),并和针对最近的其他面部检测方法进行比较,例如两级CNN,多级级联CNN,
3、完整性,合并通道特征,HeadHunter,多视图面部检测,CascadeCNN等。实验结果表明,我们提出的方法表现出了非常好的性能与其他最近的脸部检测方法相比,有着非常高的竞争力。1 .引言使用基于面部特征的生物识别技术进行门禁控制,监控系统和其他安全应用的人类检测和分析在过去几年中得到了广泛的关注。在全球的安全检查站中每天都有更多的这样的生物识别系统完成部署。特别是面部识别已成为对安全部门有吸引力的最受欢迎的生物方式之一。确实,人体的独一无二的面部特征比其他图一,使用我们提出的MS-FRCNN方法的面部检测结果的个例r-0所提出的方法可以在WiderFaCC数据库上强制检测遮挡,面部表情,
4、姿势,照明和低分辨率条件下的面部。的生物特征更容易获取.然而,为了进行脸部识别,通常需要首先进行脸部检测。面部检测的问题已经被深入研究了几十年,目的是确保鲁棒算法的泛化,使人们看不到面部图像18,24,11,25,14。虽然最近的脸部检测算法10,20的检测精度得到了很大的提高,但由于实践中的一些挑战,它们远远没有达到与人类相同的检测能力。例如,如图1所示,偏角,大遮挡,低分辨率和强照明条件始终是需要考虑的重要因素。本文提出了一种基于卷积神经网络(ConvNet)的高级卷积神经网络方法,称为多比例快速区域卷积神经网络(MS-FRCNN),用于处理在许多具有挑战性的条件下收集的数字面部图像中的人
5、脸检测问题。主动闭塞,强照明,偏角度,低分辨率等。我们提出的方法通过允许它跨越ConvNet的多个深度特征图中的接收场来扩展更快的R-CNN15的框架。换句话说,这个过程有助于同步面部特征表示的全局和局部上下文信息。因此,它能够应对强大的面部检测问题的挑战。我们提出的方法引入了多尺度区域提案网络(MS-RPN),以生成一组区域提案和基于多尺度区域的卷积神经网络(MS-RNN)来提取面部感兴趣区域(RoI)地区。然后计算每个Rol的置信度。最后,面部检测系统能够通过在给定的脸部图像中对这些产生的置信度进行阈值来确定检测结果的质量。我们提出的MS-FRCNN深度网络的设计可以用于复杂的人脸检测问题
6、,如图2所示。在两个具有挑战性的面部检测数据库上评估了提出的MS-FRCNN方法,并与许多最近的面部检测方法进行了比较。首先,在面部检测问题中,将提出的MS-FRCNN方法与标准更快的R-CNN方法进行比较。在WiderFace数据库16上进行评估,该数据库是一个大规模的面部检测基准数据集,用于显示其检测野外的脸部图像的能力。照明,面部姿势,低分辨率条件等。它也是面部检测数据集和基准测试(FDDB)7的基准测试,这是为了研究问题而设计的面部区域数据集的无约束面部检测。实验结果表明,提出的MS-FRCNN方法始终与其他最先进的面部检测方法达成高度竞争的结果。最后,我们提出了MS-FRCNN方法在
7、面部检测问题中的局限性。本文的其余部分安排如下。在第2节中,我们总结了面部检测的先前工作。第3节回顾了一般的深度学习框架,背景以及面部检测问题中更快的R-CNN的局限性。在第4节中,我们介绍了我们提出的MS-FRCNN方法来强化人脸检测的问题。第5节介绍了使用我们提出的方法在两个具有挑战性的面部检测数据库(即WiderFaCe和FDDB数据库)上获得的实验面部检测结果和比较。最后,我们在这项工作中的结论在第6节中给出。2 .相关工作脸部检测在计算机视觉学习领域得到了很好的研究。第一个表现最好的方法之一是Viola-Jones脸部检测器18。它能够使用级联的升级简单的Haar分类器进行实时脸部检
8、测。提升和使用简单特征的概念已经成为许多不同方法的基础24,自从图二,我们提出的用于无约束人脸检测的MS-FRCNN结构Viola-Jones脸部检测器的提出。这些早期检测器往往在正面脸部图像上工作良好,但在不同姿势的脸部上不太好。随着时间的推移,许多这些方法已经能够通过利用面部各种姿势的多个模型来处理偏角面部检测。这增加了模型的大小,但是却提供了更多的实用方法。一些方法已经摆脱了简单特征的想法,但继续使用增强的学习框架。Li和Zhang11使用SURF级联进行一般物体检测,但在脸部检测方面也表现出良好的效果。最近关于脸部检测的工作往往侧重于使用不同的模型,如可变形零件模型(DPM)25,3。
9、Zhu和Ramanan的工作是面部检测问题的一种有趣的方法,因为它们将面部检测,姿态估计和面部标记问题结合到一个框架中。通过在一个框架中利用所有三个方面,他们能够在现实世界的图像上超越最先进的状态。Yuetalo22通过将群体稀疏性纳入学习哪些地标是最突出的面部检测,并结合3D模型的地标来处理姿势,扩展了这项工作。Chenetalo1通过利用级联检测框架,结合了这两种方法的想法,同时将面部特征定位在检测器的对齐位置。类似地,Ghiasi和FOWlkeS4已经能够使用囊性DPM,不仅在存在闭塞的同时也实现了良好的面部检测,而且具有里程碑意义的地理化。然而,Mathias等人14能够表明,与Vio
10、la-Jones探测器类似的DPM模型和刚性模板检测器都有很大的潜力尚未得到充分的探索。通过使用适当控制的训练数据重新训练这些模型,他们能够创建与其他更复杂的最先进的面部检测器相似的面部检测器。所有这些面部检测方法都是基于事先选择特征提取器。然而,在使用COnVNet来了解哪些特征用于检测面孔方面已经做了很多工作。神经网络已经存在了很长时间,但是由于硬件的改进和新的技术,使得能够在大量培训数据上训练这些网络,因此受到人们的普遍欢迎。Lietal10利用CNN的级联来执行人脸检测。级联网络允许他们在级联的不同级别处理不同尺度的面部,同时还允许以后的网络中的假阳性以与其他级联检测器类似的方式被移除
11、。杨等20从与DPM方法更相似的不同观点接近问题。在他们的方法中,脸部被分成几个面部部分,如头发,眼睛,鼻子,嘴巴和胡须。通过训练每个部位的探测器并智能地组合分数图,即使在遮挡下也能实现准确的面部检测。这两种方法都需要训练几个网络,以达到高精度。另一方面,我们的方法可以作为一个单一的网络进行端到端的训练,从而允许更少的注释所需的训练数据,同时保持高度准确的面部检测。3 .背景最近在深层COnVNetS中的研究在物体检测,分类和模型方面取得了显着成果9。在本节中,我们将回顾各种知名的DeepConvNetso然后,我们展示了在面部检测的定义上下文中,更快的R-CNN(目标检测中最先进的深Conv
12、Net方法之一)的局限性。3.1. 深度学习框架卷积神经网络是多层感知器的生物学启发变体。ConvNet方法及其扩展,例如LeNet_5,HMAX等,模仿了包含对接受场敏感的更杂细胞排列的动物视觉皮层系统的特征。在他们的模型中,设计的滤波器被认为是人类视觉细胞,以便探索自然图像中的空间局部相关性。它可以有效地呈现稀疏的连接性和共享的权重,因为这些内核过滤器在整个图像中被复制,每个层中的参数相同。此外,汇总步骤,一种下采样形式在ConvNet中起着关键作用。最大池化是用于对象检测和分类的流行的池化方法,因为最大池通过消除非最大值减少上层的计算,并在每个级别中提供少量的平移不变性。虽然COnVNe
13、tS可以探索深层功能,但它们的计算费用非常高。当在图形处理单元(GPU)中实现时,算法变得更加实用。Caffe框架8是使用CUDC+进行GPU计算的最快的深度学习实现之一。它还支持与Python/NUnlPy和MATLAB的接口。它可以作为最先进的模型的现成部署使用。这个框架在我们的实现中被使用。3.2. 基于区域的卷积神经网络目标检测任务中最重要的方法之一是基于区域的卷积神经网络系列。这个家族的第一代R-CNN6将高容量深度ConvNet应用于自下而上地区的建议。由于缺乏标记的训练数据,它采用了辅助任务的监督预训练策略,然后进行了域特定的微调。然后COnVNet被用作特征检测器,并且该系统进
14、一步训练用于支持向量机(SVM)的对象检测。最后,它实现了边界回归。该方法实现高精度,但是非常耗时。系统需要很长时间才能生成区域建议,从每个图像中提取特征,并将这些特征存储在硬盘中,这也占用了大量的空间。在测试时,由于特征提取缓慢,使用VGG-16网络17,每个图像的检测过程需要47soR-CNN6很慢,因为它可以独立处理每个对象,而不需要共享计算。FasterR-CNN5通过分享提案之间的功能来解决这个问题。该网络旨在仅以完全卷积风格的方式仅对每个图像计算一张特征图,并使用ROI池从每个对象提案的特征图动态样本特征。该网络还采用多任务丢失,即分类丢失和边界回归损失。基于这两个改进,框架是端对
15、端的训练。每个图像的处理时间显着减少到0.3s。FasterR-CNN使用ROI池池加速检测网络。然而,区域提案步骤由网络设计,仍然是瓶颈,导致了次优解决方案和对外部地区提案方法的依赖。FasterR-CNN15通过引入区域提议网络(RPN)来解决这个问题。RPN以完全安排的风格实现,用于预测对象边界框和对象分数。此外,锚点被定义为具有不同的比例和比例以实现平移不变性。RPN与检测网络共享全图像卷积特征。因此,使用非常深的VGGT6模型,整个系统能够在0.2秒内完成提案生成和检测计算17o使用较小的ZF模型23,可以达到实时处理的水平。图3.我们提出的MS-FRCNN和FaSterR-CNN在
16、宽面验证集上的面部检测比较16。33FasterR-CNN的局限性基于区域的CNN家族,例如FasterR-CNN15及其变体5,实现了PASCALVOC数据集中物体检测的最先进的性能结果。这些方法可以非常高的精度检测车辆,动物,人,椅子等物体。通常,定义的对象通常占据给定图像的大部分。然而,当这些方法在具有挑战性的MicrosoftCOCO数据集12上进行测试时,性能下降很多,因为图像包含更小,最终和不完整的对象。类似的情况发生在面部检测的问题。我们专注于仅检测有时小,重度遮挡和低分辨率的面部区域(如图1所示)。设计FaSterRYNN的检测网络无法强力检测这样的微小面孔。直觉点是兴趣区域层(即ROI池)层仅在最后一个单一的高级特征图中构建特征。例如,VGG-16模型17