基于层次注意力模型的文本分类研究分析计算机科学与技术专业.docx

上传人:王** 文档编号:1153116 上传时间:2024-04-06 格式:DOCX 页数:44 大小:280.89KB
下载 相关 举报
基于层次注意力模型的文本分类研究分析计算机科学与技术专业.docx_第1页
第1页 / 共44页
基于层次注意力模型的文本分类研究分析计算机科学与技术专业.docx_第2页
第2页 / 共44页
基于层次注意力模型的文本分类研究分析计算机科学与技术专业.docx_第3页
第3页 / 共44页
基于层次注意力模型的文本分类研究分析计算机科学与技术专业.docx_第4页
第4页 / 共44页
基于层次注意力模型的文本分类研究分析计算机科学与技术专业.docx_第5页
第5页 / 共44页
基于层次注意力模型的文本分类研究分析计算机科学与技术专业.docx_第6页
第6页 / 共44页
基于层次注意力模型的文本分类研究分析计算机科学与技术专业.docx_第7页
第7页 / 共44页
基于层次注意力模型的文本分类研究分析计算机科学与技术专业.docx_第8页
第8页 / 共44页
基于层次注意力模型的文本分类研究分析计算机科学与技术专业.docx_第9页
第9页 / 共44页
基于层次注意力模型的文本分类研究分析计算机科学与技术专业.docx_第10页
第10页 / 共44页
亲,该文档总共44页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于层次注意力模型的文本分类研究分析计算机科学与技术专业.docx》由会员分享,可在线阅读,更多相关《基于层次注意力模型的文本分类研究分析计算机科学与技术专业.docx(44页珍藏版)》请在优知文库上搜索。

1、前言1第一章绪论21.1 研究背景及意义21.2 文本分类概述41.3 本文的主要工作及创新点61.4 本文的组织结构6第二章文本分类技术82.1 文本分类系统的主要结构82.1.1 预处理82.1.2 文本表示82.1.3 分类器92.2 文本分类的主要技术92.2.1 基于线性方法的文本分类技术92.2.2 基于支持向量机的文本分类技术102.2.3 基于神经网络的文本分类技术112.3 文本分类技术对比分析132.3.1 对比数据集132.3.2 数据对比与分析14第三章基于层次注意力模型的文本分类163.1 概述163.2 文本表示模型183.2.1 基于门式循环单元的序列编码器183

2、.2.2 层次注意力网络193.3 分类器模型223.4 实验223.4.1 数据集223.4.2 TenSOrFk)W框架233.4.3 训练、调参等实验细节说明233.4.4 实验结果及分析243.5 可视化分析253.5.1 Yelpreview与情感分析253.5.2 YahooAnswers与主题标记26第四章基于结构化自注意句嵌入的层次注意力模型的文本分类274.1 概述274.2 文本表示模型284.2.1 结构化自注意句嵌入结构及计算模型284.2.2 结构化自注意句嵌入的惩罚项294.2.3 在层次注意力网络中引入结构化自注意句嵌入304.3 分类器模型314.4 实验324

3、.4.1 数据集324.4.2 训练、调参等实验细节说明324.4.3 实验结果及分析33第五章总结与展望365.1 总结365.2 展望36参考文献38致谢错误!未定义书签。摘要互联网的普及改变了人的生活方式。电子邮件、在线新闻、网上问答、电子商务等越来越多的互联网服务在提供便利丰富生活的同时,也快速产生着数量庞大、内容丰富的文本信息资源,并催生了大数据的概念。文本分类技术通过计算机实现高速的文本自动分类,对检索、组织和管理当今的海量文本数据有着重要的现实意义。基于深度学习的文本分类是近年来文本分类的研究热点。卷积神经网络、循环神经网络及长短时记忆、门式循环单元等新模型提升了文本特征提取的准

4、确程度,推动了文本分类研究的进一步发展。注意力机制对文本中的词或句结合上下文施以不同注意程度,实现了更精细、更准确的文本特征提取。层次注意力网络模型更是建立了文本.句.词多级的层次结构,并引入了词、句级注意力机制。实验表明,基于层次注意力网络的文本分类实现了文本分类准确率水平的新高度。结构化自注意句嵌入作为最近提出的句嵌入模型,旨在通过矩阵结构实现具备自注意能力的句嵌入模型,以此提取句子中侧重于不同层面的多重语义,为本文的创新尝试提供了理论基础。本文的主要工作包含:(I)研究并基于TensorFlow机器学习框架实现了基于层次注意力网络的文本分类技术,进行了实验验证并对层次注意力进行了可视化输

5、出与分析。(2)研究并引入了结构化自注意句嵌入模型以尝试对层次注意力网络模型实现改进创新。本文实现了基于结构化自注意句嵌入的层次注意力网络模型,进行了多组实验,并展开了对比分析。关键词:文本分类;注意力机制;层次注意力网络;结构化自注意句嵌入AbstractOurwayoflifehasbeengreatlytransformedduetotheproliferationoftheInternetservices.TheInternetservices,e.g.e-mail,onlinenews,onlineQ&A,e-commerceandetc.,notonlyprovidelifecon

6、venience,butalsooutputrich-contenttextinformationresourcesinlargequantities,whichbreedstheconceptofBigData.Textclassificationtechnologiesrealizehigh-speedautoclassificationfortextswiththepowerofcomputer,makinggreatrealisticsignificanceinretrieving,organizingandmanagingmassivetextdata.Inrecentyears,t

7、extclassificationbasedondeeplearninghasbeenoneoftheresearchfocusintextclassificationarea.Newmodels,e.g.ConvolutionalNeuralNetwork,RecurrentNeuralNetwork,LongShort-TermMemoryandGatedRecurrentUnit,advancetheaccuracyoftextfeatureextractionandpushthedevelopmentoftextclassificationresearch.Attentionmecha

8、nismrealizesamorepreciseandmoreaccuratewaytoextracttextfeaturethantraditionalnon-attentionmodel.HierarchicalAttentionNetworkbuildsamulti-levelhierarchicalstructureaccordingtodocument-sentence-word.ExperimentsdemonstratethatdocumentclassificationbasedonHANbreakstheaccuracyrecordofformermodels.Structu

9、redSelf-AttentiveSentenceEmbeddingisasentenceembeddingmodelputforwardedrecently.Itsintuitionistoextractmulti-aspectsemanticsofasentencebyconstructingaself-attentivesentenceembeddingmodelwith2-Dmatrixratherthanvector.Thisworkprovidestheoreticalbasisfortheinnovationtrialofthisthesis.Themaincontributio

10、nsofthisthesisareconcludedbelow:(1) ThisthesisstudiesandimplementsthedocumentclassificationbasedonHANwithTensorFlow.ItalsoexperimentsHANmodelonlargedatasetsandimplementsvisualanalysis.(2) ThisthesisstudiesandintroducesStructuredSelf-AttentiveSentenceEmbeddingtoHANmodel.Italsoimplementsandexperiments

11、theupdatedmodelforcomparisonandanalysis.Keywords:TextClassification;AttentionMechanism;HierarchicalAttentionNetwork;StructuredSelf-AttentiveSentenceEmbedding随着互联网的诞生及持续发展带来的信息爆炸,过去人工组织、管理文本的方式无法有效地应对海量的文本信息。如何借助计算机的力量实现高速、准确的文本自动分类是当今时代迫切需求、值得研究的问题。文本分类最早起源于知识工程的研究。自19世纪50年代至今,经过研究人员的不懈努力,今天的文本分类技术己

12、取得了较好的分类效果。文本分类作为自然语言处理领域的基础性课题,其理论和技术已在垃圾邮件检测、情感分析、文本主题分类等领域得到了广泛的应用。早期的文本分类方法受限于人们当时对自然语言处理的认知局限,认为要对文本进行分类处理,需要让计算机学习和掌握人对语言的理解能力,因此主要采用基于规则的分类方法,通过大量编写分类规则实现文本分类。基于规则的文本分类在处理当时规模相对较小、主题相对较单一的文本时取得了成果,但随着文本数量和多样性的快速增长,依靠人工大量编写规则变得耗时耗力、难以为继。因此,文本分类转向基于统计的分类方式。自基于统计的文本分类诞生以来,文本分类技术经历了从使用线性模型或内核方法对文

13、本的稀疏词汇特征进行分类,到近期的基于神经网络方法对文本表示特征向量进行分类的发展历程。随着对神经网络研究的深入,深度学习开始流行并在各个领域取得了有效的应用,基于深度学习的文本分类方法是目前的研究热点。基于层次注意力网络(HierarchicalAttentionNetwork)的文本分类技术是Yang等人于2016年发表的新成果川。该模型在文本特征提取中建立了层次结构并引入了注意力机制,有效提升了文本分类水平。实验表明,基于层次注意力网络的文本分类技术明显领先于过去的文本分类技术,创造了近年文本分类领域研究的新高度。本文以基于层次注意力网络的文本分类方法为主要研究对象,且以该模型为基础开展

14、创新尝试,实现了基于结构化自注意句嵌入(StrUetUredSelf-AttentiveSentenceEmbedding)的层次注意力网络模型并进行了文本分类实验和对比分析。第一章绪论本章首先介绍文本分类技术的研究背景及其意义,随后介绍文本分类的发展历程及技术概况,接下来介绍本篇论文的主要研究内容及创新点,最后介绍本文的组织结构。1.1 研究背景及意义在互联网自1969年诞生以来迄今近50年的发展历程中,电子邮件、即时通信、在线新闻、在线社区、电子商务等应用急剧诞生并快速流行。根据WeAreSOCial和Hootsuite最新发布的2018全球数字报告,截至2018年1月,全球互联网用户已达

15、40.21亿人,渗透约53%全球人口网。与此同时,如图1.1所示,根据最近五年的统计数据,全球互联网用户数、活跃社交用户数、移动用户数、活跃移动社交用户数均逐年持续显著增长网H晌,最近的2017年1月至2018年1月间增长2.48亿人,同比增长约7%网叫越来越多的组织和个人加入到信息的创造和交换中,加速了信息数字化的进程,对信息的检索、组织和管理提出了更大的需求,并催生了近年流行的大数据的概念。60互联网用户(亿人)活跃社交用户(亿人)移动用户(亿人)活跃移动社交用户(亿人)图1.120142018年全球互联网、移动、社交用户规模逐年变化趋势自然语言作为人们交换信息的基本方式,随着互联网的高速普及,数字化的文本信息加数量增长尤为迅猛。这些信息不仅数量巨大,而且为了便于存储和传输,大量采用结构化或半结构化形式,例如:HTML(HyperTextMarkupLanguage)XML(extensibleMarkupLanguage)JSON(JavaScriptObjectNotation)o文本信息的浩瀚数量以及为机器解析与生成而设计的表示形式,均使得如何高效地对文本信息进行处理成为一个意义重大的课题。其中,文本分类问题作为自然语言处理领域的基础性问题,有着广泛的应用和影响。文本分类技术在主题标记、情感分析、垃圾邮件检测等实际问题上都有着直接应

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 论文 > 毕业论文

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!