《基于卷积神经网络的U-net模型的人像分离工具.docx》由会员分享,可在线阅读,更多相关《基于卷积神经网络的U-net模型的人像分离工具.docx(36页珍藏版)》请在优知文库上搜索。
1、摘要图像信息是人类视觉感知信息的重要部分,随着计算机、电子技术日益进步,大规模运算和信息的数-模转换走入现实,由此催生出分为图像识别、分割、重建等领域的数字处理技术蓬勃发展。作为图像分割的典型应用场景,人像分割是进行人像美化、背景处理、人脸识别等领域的重要前提。因此通过人像分割从图像中精确且完整地提取出人像目标,对后续处理有必要作用。本文以深度学习中的卷积神经网络为基础,研究如何利用U-Net模型在人像照片较有限的情况下达到人像分离合格的准确率。最终实现模型的IOU在92.K左右,Dice系数在95.7%左右。对比早期的分割方法,卷积神经网络U-Net模型通过类似编码器一解码器的型结构实现更简
2、便、稳定地提取数据的特征,且能更加有效的提高分割的准确度。关键词:深度学习;人像分割;U-Net模型AbstractImageinformationisanimportantpartofhumanvisualperceptioninformation.Withthedevelopmentofcomputerandelectronictechnology,large-scaleoperationanddigital-to-analogconversionofinformationcomeintoreality,Therefore,thedigitalprocessingtechnologyinc
3、ludingimagerecognition,segmentationandreconstructionhasbeendevelopedvigorously.Asatypicalapplicationsceneofimagesegmentation,isanimportantpremiseofimagebeautification,backgroundprocessing,facerecognitionandsoon.TherefbreJtisnecessarytoextracttheimageobjectaccuratelyandcompletelyfromtheimagebyportrai
4、tsegmentationInthispaper,basedontheconvolutionalneuralnetworkindeeplearning,westudyhowtousetheU-Netmodeltoachievethequalifiedaccuracyrateofhumanimageseparationunderthelimitedsituationofhumanimage.TheIOUofthefinalmodelisabout92.1%,andtheDicecoefficientisabout95.7%.Comparedwiththeearliersegmentationme
5、thods,TheconvolutionalneuralnetworkU-NetmodelextractsthefeaturesofdatamoreeasilyandstablythroughaU,-likestructureintheencoder-decoder,It,scanimprovethesegmentationaccuracymoreeffectively.Keywords:deepIearning;PortraitSegmentation;U-Netmodel目录第一章绪论1LI课题背景及国内外研究现状11.2 研究目的和意义11.3 研究主要内容21.4 本文章节安排2第二章
6、卷积神经网络、UNet模型及框架介绍32.1 人工神经网络简介32.2 卷积神经网络32.2.1 卷积42.2.2 池化52.2.3 激活函数62.3 U-Net模型72.3.1 U-Net网络结构与提出背景72.3.2 U-Net网络优点与创新性82.4 Tensorflow框架简介92.5 keras框架简介9第三章基于TenSOrfIOW的神经网络搭建113.1 系统环境配置113.2 数据集选择123.3 数据预处理123.3.1 Mask(掩膜)合并处理及转换数组形式123.3.2 训练集验证集划分143.4 搭建U-net卷积神经网络153.5 模型训练与结果16第四章人像分割的设
7、计与实现174.1 加载模型及测试集174.2 测试174.3 预测图片呈现17第五章总结与展望205.1 总结205.2 展望与不足20参考文献21致谢22第一章绪论1.1 课题背景及国内外研究现状人类从视觉感知的信息占整体感知信息的70%左右,除了文本信息、视频信息等,图像信息也占了视觉感知信息很大一部分。随着计算机、电子技术日益进步,大规模运算和信息的数-模转换走入现实,由此催生出分为图像识别、分割、重建等多个领域的数字处理技术蓬勃发展。图像分割是在图像处理众多领域中的重要分支。图像分割即把图像分割成若干不重叠的部分,这些部分图像之间要么存在需分割出来研究的目标物体,要么存在所需的物体部
8、分与整体之间的相互关系。早在1963年,为了分割出图像的不同部分RObeitS边缘检测器被提出。自此始,图像分割领域逐渐进入蓬勃发展期,涌现出了各种各样的分割方法。发展出了诸如基于区域、阈值、边缘检测以及重要的深度学习分割方法。而现有的图像分割理论主要发展为主要包括属于有监督分割算法的深度学习、属于无监督分割模型的模糊集理论、小波变换等几个大类。作为计算机视觉的重要部分,2014年图像分割在深度学习方向取得重要突破,被提出的FCN模型主要通过使用端对端的CNN,并在上采样部分使用反卷积。后来U-net模型(创造了一整套编码解码器)、SegNet模型(转换MaXimUmPoOling为解码器)、
9、DeePLab模型、PSPNet模型等被相继提出。在国内方面,人像分割前期的基础研究较少,来自重庆大学自拍乐照相系统团队的刘恒其毕业论文中提出了基于蓝色向量聚类特征的人像提取技术和基于先验知识的阈值获取技术,通过对人像与背景形成的不同聚类构成直方图,并根据先验知识的阈值获取算法进行图像分割,以提取人像。2016年来自香港中文大学的沈小勇等人发表DeePautomaticportraitmatting论文,在文中构造了两种函数,其一作用是将图像分为背景、人像、不确定标签三类,其二作用是通过前向传播和后像传播得到人像信息。区别于传统的分割方法即还需要用户手动提供tri-map,该模型会自动预测tr
10、i-map,只需用户提供图片即可。1.2 研究目的和意义图像分割是计算机视觉领域的重要组成部分,而人像分割是图像分割领域的重要分支。图像分割是模式识别和图像理解的研究热点,通过图像分割技术切割出图像中的目标信息,为下一步精确且有效率地对目标进行分析打好基础。就像人的眼睛一样,首先要通过锁定视觉中的目标物体,然后才能精准地进行下一步行动。图像分割现在常用于电子商务以图搜物、相片处理、医学CT检查、自动驾驶研究等领域。人像分割是进行人像美化、背景处理、人脸识别等领域的重要前提。例如人像分割及背景合成是照片处理的一个重要方面,常运用在单位、学校、公安的证件录入系统上。然而现在的人像背景替换合成还有不
11、少需进步的地方。第一点是图像分割功能的自动化程度不高且处理效率较低,因为大部分需要人工通过软件切割出人像区域。第二点是图像合成只是通过粘贴拼接在一起,在人像和背景交接处不太规则,以致得到的合成图像让人感觉不太真实、自然。因此通过人像分割从图像中精确且完整地提取出人像目标,对后续处理有必要作用。因为其分割效果的好坏会直接影响后面的输出结果,因此研究便捷精确的人像分割模型具有重要意义。1.3 研究主要内容本文以深度学习中的卷积神经网络为基础,研究如何利用U-Net模型在人像照片较有限的情况下达到人像分离合格的准确率。对比早期的分割方法,卷积神经网络U-Net模型通过类似编码器一解码器的“U”型结构
12、实现更简便、稳定地提取数据的特征,且能更加有效的提高分割的准确度。1.4 本文章节安排第一章:绪论。本章主要介绍了课题的研究背景与国内外研究现状,阐述了本课题的研究目的和意义及简述了本文研究的主要内容。第二章:卷积神经网络、U-Net模型及框架介绍。本章简单介绍了卷积神经网络的结构,介绍了时下主流的几种深度学习框架以及要用到的U-Net模型。第三章:基于TenSorfIOW的U-Net模型构建。这一章节主要描写了系统环境的配置,数据集的选择和预处理及U-Net模型的构建和训练。第四章:人像分割的设计与实现。这一章节编写了如何通过训练好的U-Net对测试集图片进行预测。第五章:总结与展望。总结回
13、顾论文与实验的各个部分,并说明了研究实验的不足之处及如何改进。第二章卷积神经网络、U-Net模型及框架介绍2.1人工神经网络简介人类大脑以计算机无法做到的方式来解释现实世界的环境和情况。人工神经网络是一种模拟人脑工作的方法,这样计算机就能像人脑一样学习和做决定。人工神经网络是一种用于分类、回归和聚类问题的机器学习算法。它是深层神经网络的基本组成部分,主要用于学习复杂的非线性假设。人工神经网络每层由儿个基本单位组成。一个单位就叫做一个神经元。外界的各种数据通过输入层输入,然后数据经处理进入隐藏单元,将数据转换为输出单元可以使用的形式。图2-1生物神经元与神经元网络神经元的输入值将乘以权重并加在一
14、起(wl、W2、w3)o权重是决定两个神经元之间强度的值。这些是在学习过程中会逐渐改变的值。然后将偏差值与前面的总和相加。在所有这些累加之后,神经元对这个值应用一个激活函数。这基本上就是神经元的工作。接收来自连接神经元的数值,将其乘以各自的权重,将它们相加,然后应用激活函数然后它把它传递给其他神经元。每个神经元从一个神经元层完成后,就会传递到下一个神经元层。最后,获得的最后一个值应该能够预测期望的输出。起初,神经网络的预测是随机的。但是,随着每个时期的进行,并按照输出应有的模型进行训练,预测值将越来越接近正确值。单个神经元的上述工作应该在整个网络中进行,并通过前向传递以及反向传播的过程以确定最
15、佳的参数。其中,权值优化,使神经网络可以学习如何正确地映射随机输入到输出。2.2卷积神经网络卷积神经网络是一种用于图像识别和处理的人工神经网络,是专门设计成处理大量的图像数据中使用。神经网络的神经元模拟了我们的神经细胞之间相互连接的通讯方式,CN具有类似的结构。使CNN与其他神经网络不同的是卷积运算,它将滤波器应用到前面输入的每个部分,以便特征提取和映射。图2-2一个卷积神经网络图CNN主要包含下面四个层级:卷积层:通过滤波器来进行特征提取及映射。在识别图像过程中,不是直接一次性识别出整幅图像,而是先提取局部图像中的特征,然后进入下一次层次的全局综合运算,来获取全局信息。非线性激活层:激活函数
16、对特征图进行非线性运算。激活功能是对输入体积进行逐个元素运算,因此输入和输出的尺寸相同。用于激活常见的函数有ReLU、Sigmoid函数等。池化层:池化层负责压缩数据和减少参数的数量级。通常,它们在其他层(即卷积和非线性层)的多个阶段之后使用,以便通过网络逐步降低计算要求,并最大程度降低过度拟合的可能性。全连接层:经多次卷积、激活和池化后,到达全连接层。卷积网络中的全连接层实际上是多层感知器,是仅次于卷积层的第二耗时层。此层主要作用是将样本从特征空间一一对应到标签中。2.2.1卷积卷积是用于特征提取的一种特殊类型的线性运算,其中在输入上应用一小串称为卷积核的数字数组,这是一组称为张量的数字数组。在张量的每个位置计算