《多语言图像标题自动生成研究分析电子信息工程专业.docx》由会员分享,可在线阅读,更多相关《多语言图像标题自动生成研究分析电子信息工程专业.docx(42页珍藏版)》请在优知文库上搜索。
1、U-1-刖百第一章绪论1.1 研究背景和意义21.2 showandtell自动图像描述系统简介31.3 主要工作及创新点41.4 本文的组织结构5第二章ImageC叩tion自动图像描述技术62.1 ImageCaption简介62.2 相关技术分析62.2.1 showandtell模型62.2.25 how、attendandtell模型112.2.26 用高级语义特征的模型112.2.27 进了RNN的模型122.2.28 于传统语言建模的模型142.3 ImageC叩tion技术总结及展望15第三章机器翻译163.1 基于深度学习的统计机器翻译163.1.1 基于深度学习的统计机器翻
2、译的核心思想163.1.2 基于深度学习的统计机器翻译的优点163.1.3 基于深度学习的统计机器翻译的不足163.2 endtoend神经机器翻译173.2.1 神经机器翻译基本结构及发展历史173.2.2 采用注意力机制的神经机器翻译模型183.2.3 神经机器翻译的不足193.3 机器翻译研究展望203.4 机器翻译技术总结20第四章多语言图像标题自动生成实验214.1 Googleshowandtell自动图像描述系统介绍214.2 TranSfOrmer翻译方法214.3 开始实验234.3.1 总体框架234.3.2 im2txt234.3.3 txt2txt274.4 实验与分析
3、284.4.1 实验结果展示284.4.2 评价性能314.4.3 错误分析324.5 本章小结32第五章总结与展望335.1 总结335.2 后续工作33参考文献34致谢错误!未定义书签。自动描述图像的内容是结合了计算机视觉和自然语言处理的人工智能的一个基本问题。而机器翻译(又称自动翻译)是利用计算机将一种自然语言转换为另一种自然语言的过程,是人工智能的一大终极目标。若将两者结合利用,必将具有重要的实用价值。Showandtell模型是GoogIeBrain在TenSorFk)W上开源的一个自动图像描述系统,采用EnCOder-DeCOder(编码器-解码器)的神经网络架构,可以根据图像中的
4、场景自动生成相应的描述。本文将深入分析Showandtell模型和相关基于Showandtell模型的改进技术以及神经机器翻译的相关技术,并且对比各类技术的优缺点。本文通过该系统实现ImageC叩tion(自动图像描述),并通过神经机器翻译的方法TranSformer将得到的描述翻译为中文,使其适用于中文环境。最后对所采用的TranSformer方法与Google机器翻译方法进行性能评价。关键词:自动图像描述;机器翻译;翻译方法;模型AbstractTheautomaticdescriptionofimagesisabasicproblemofartificialintelligencetha
5、tcombinescomputervisionandnaturallanguageprocessing.Machinetranslation,alsoknownasautomatictranslation,isoneoftheultimategoalOfartificialintelligence,whichusescomputerstotransformanaturallanguageintoanothernaturallanguage.Thecombinationofthetwowillhaveimportantpracticalvalue.ShowandtellmodelisaGoogl
6、eBrainopensourcesystemonTensorFlow,anautomaticimagedescriptionsystemusingtheEncoder-Decoderneuralnetworkarchitecture,canaccordingtotheimageofthescenetoautomaticallygeneratethecorrespondingdescription.ThispaperwillanalyzetheShowandtellmodelandrelatedtechniquesbasedontheShowandtellmodel,aswellastherel
7、atedtechniquesofneuralmachinetranslation,andcomparetheadvantagesanddisadvantagesofvarioustechnologies.Inthispaper,ImageCaption(automaticImagedescription)isrealizedbythesystem,andthedescriptionobtainedistranslatedintoChinesebymeansofneuralmachinetranslationcalledTransformer,sothatitcanbeappliedtotheC
8、hineseenvironment.Finally,theperformanceevaluationoftheTransformermethodandtheGooglemachinetranslationmethodiscarriedout.Keywords:ImageCaption;MachineTranslation;TranslationMethods;ModelImageCaPtion技术(即自动描述图像内容技术,也称图像标注),指的就是从给定图片中自动生成一段能够描述其内容的文字,有点类似于我们小学里学的“看图说话:对于人类来说,这是一件简单并且每天都在做的事,然而对于计算机来说,这
9、是一件非常具有挑战性的任务。原因在于计算机面对的不是人们眼睛所看到的景象,而是一个像素矩阵。计算机不仅要在一堆数字中检测出图像中的物体,而且还要理解各个物体之间的相互关系,最终需要用一段文字将一切表述出来。MaChineTranSlation技术(即机器翻译技术),顾名思义,就是利用机器来进行翻译的技术,用于不同语言文字之间的转换。60年来,机器翻译技术不断发展,从最早的词典匹配、到基于词典和语言学知识的规则翻译、再到基于短语的统计机器翻译,最后成长为当前基于人工神经网络的机器翻译。随着计算机计算性能的提升以及大数据时代多语言信息的爆炸式增长,机器翻译技术已渐渐完善,开始在人们的日常生活中扮演
10、一个重要角色,为我们提供便捷的翻译服务。得益于神经机器翻译的迅速发展,看似困难的机器“看图说话”任务迎刃而解。在ImageCaption任务中仅仅对神经机器翻译中模型做了简单的修改,便取得了很好的结果。本文主要以GoogIe的基于TenSOrFk)W的showandtell自动图像描述系统为研究对象,并与两种机器翻译方法相结合来完成多语言图像标题自动生成的研究。深入分析了showandtell模型,并对比相关后续先进技术;对比分析GOOgle机器翻译与TranSformer翻译方法,并进行实验验证。本文完成的主要工作及创新点有:(1)利用ShoWandten自动图像描述系统,实现从图片生成描述
11、。(2)分析了ImageCaPtion相关技术的特点。(3)利用Google机器翻译以及Transformer翻译方法进行英译中。(4)对给定语料进行人工标注,生成翻译参考语句。(5)对比Google机器翻译和TranSfOrmer翻译方法的模型架构,并通过实验验证其性能。最后得出图片和多语言描述的匹配度,并进行错误分析。第一章绪论本章首先介绍了多语言图像标题自动生成的研究背景和意义,其次简单介绍了showandtell自动图像描述系统,并概述了本文所做的主要工作和贡献以及创新点,在本章的最后介绍了论文的组织结构。1.1 研究背景和意义近年来,信息技术,人工智能不断发展,人们也通过科幻电影来对
12、未来进行展望。电影HER就是一个例子,影片中的“萨曼莎”是一个Al系统,他能够理解主人公西奥多的手机信息和图像内容,了解主人公的状态,在其心情不好时可以陪他谈心,还可以读懂文字,“她”俨然成为了一个真实的人类,甚至在某些方法还更胜人类。电影的“萨曼莎”是人类幻想出来的人工智能,“她”能够思考,同时具备比人还强的智力以及运算能力,虽然目前的人工智能技术还不能完全像电影中一样强大,但近年来人工智能技术让机器具备了人来的能力,例如计算机已经能理解更高层次的图像内容,能够自动描述图像的内容。在人工智能领域,这是机器的ImageCaptioning(自动图像描述)能力。在去年11月7日晚,锤子科技发布了
13、坚果Pro2。这场发布会感动我的不是坚果Pro2超高颜值的外观设计,亦或是极具良心的售价,而是锤子坚果PrO2新的SmartisanOS系统,针对盲人用户做出的优化。锤子利用OCR识别技术,把普通手机APP无法识别的内容通过OCR技术转成文字,再把文字通过扬声器读出来。这让许多视障者都能更好使用智能手机。根据2016年的数据显示,中国的盲人数量已经超过1400万,相当于每100个人中就有一个,但却因为无障碍设施的不友好,却很难在街头看到他们的身影。因此许多盲人都对手机、电脑等电子产品和网络有着更深的依赖,这几乎成了他们与外面的世界互动的唯一通道。我们相信如果能将自动图像描述技术与机器翻译结合,
14、便能够让全球的视障人群便捷地读懂世界(不仅仅是有文字标注的世界)。自动图像描述技术的意义也不仅仅在于帮助视障人群,还能应用与我们的日常生活。当我们需要寻找一张时间久远的手机照片时,常常因为数量的庞大无从寻找。在这里,如果系统能够对每张照片都生成一个简单的标题(或是描述),那么我们只需要凭借图像的印象便能够轻松找到对应的照片。得益于近年来机器视觉和自然语言处理的发展以及自动图像描述领域中积累的大量研究,GoogleBrain基于TensorFlow深度学习库开发了“ShowandTell,自动图像描述系统,成功地将机器这方面的能力提高到一个新台阶。作为多模态数据处理的经典,自动图像描述技术正逐步
15、成为研究热点。1.2 showandtell自动图像描述系统简介ShOWandten模型是一个深度神经网络,学习如何描述图像的内容。例如:A person on a beachflying a kite.Ablackandwhitephotoofatrainonatraintrack.图1.1图像描述示例1A person skiing down asnow covered slope.A group of giraffe standingnext to each other.图1.2图像描述示例2运行步骤:(1)硬件及训练时间提示NVIDIATeslaK20mGPU-1-2weeks(2)必要的安装包Bazel,TensorFlowLO,NumPy,NaturalLanguageToolkit,Unzip(3)准备训练数据MSCOCO图像标注数据集(4) 下载Inceptionv3Checkpoint需要一个训练好的InCePtionV3Checkpoint文件来初始化编码器(CNN)参数(5)训练模型分为2步,初始训练和进阶训练(6)预测标题你可能得到不同的结果,这些差别是正常的。图1.3示例图片输出实例:CaptionsforimageCOCO_val2014_