第八讲语言智能.docx

上传人:王** 文档编号:1118369 上传时间:2024-03-31 格式:DOCX 页数:6 大小:34.96KB
下载 相关 举报
第八讲语言智能.docx_第1页
第1页 / 共6页
第八讲语言智能.docx_第2页
第2页 / 共6页
第八讲语言智能.docx_第3页
第3页 / 共6页
第八讲语言智能.docx_第4页
第4页 / 共6页
第八讲语言智能.docx_第5页
第5页 / 共6页
第八讲语言智能.docx_第6页
第6页 / 共6页
亲,该文档总共6页,全部预览完了,如果喜欢就下载吧!
资源描述

《第八讲语言智能.docx》由会员分享,可在线阅读,更多相关《第八讲语言智能.docx(6页珍藏版)》请在优知文库上搜索。

1、第八讲语言智能教学内容:本章主要学习机器语言智能基本原理,包括自然语言处理技术及应用、语音识别、机器翻译等内容。教学重点:自然语言处理技术、语音识别。教学难点:语音识别、机器翻译。教学方法:课堂教学为主,结合智慧树等在线平台实时提问、收集学生学习情况,充分利用网络课程中的多媒体素材来表示语言智能技术的实现原理和过程。讨论五分钟。课后布置作业,要求学生查找、阅读与自然语言处理技术有关的经典论文等。学习慕课第八章语言智能并完成章节测试。教学要求:重点掌握自然语言处理句法分析、词法分析、语义分析、语用分析等原理,智能问答原理、聊天机器人原理、语音识别原理、机器翻译原理。课程思政内容:本章无相关内容。

2、学习目标:1 .理解语言智能的含义,语言与认知的关系。2 .掌握自然语言处理的基本原理与方法。3 .了解语言智能在实现机器智能方面的应用,包括智能问答系统、聊天机器人、语音识别、机器翻译。学习导言人类的语言及其意义十分更杂,不同的文化、种族、地域所形成的语言和意义有很大差别。蒙古语中与“马”相关的词汇有几十种,爱斯基摩人用于表示“雪”的词汇也有几十种,而不生活在马和雪的世界的人用于描绘“马”和“雪”的词汇就很少。是语言造就了概念,还是概念造就了语言?语言是如何形成的,与人类的智能有什么关系?语言的机制是什么?语言与大脑功能区域有什么关系?这些问题不仅对于理解人类的语言秘密很重要,对于机器而言,

3、具有基于语言的认知智能更加重要。对人类而言,利用语言进行日常交流、表达思想和文化传承是人类智能的重要体现,也体现为一种语言智能。对于机器而言,机器的优势在于拥有更多的记忆能力,但却欠缺语意理解能力,包括对口语不规范的用语识别和认知等。目前还没有出现能像人与人之间一样正常交流的机器,也不存在理解人类语言含义的机器。但是,为了让机器与人类进行交流,研究人员开发了许多使机器能够处理人类语言信息的方法,利用这些方法,一定程度上,机器能够依靠算法和计算机与人类进行交流,这主要是依靠自然语言处理技术来实现。机器通过自然语言处理技术对人类语言包含的信息进行解析并做出相应的反应,就表现出一定程度的语言智能。本

4、章主要介绍机器实现语言智能的一些初级方法和技术。8.1语言与认知在人类认知的五个层级中,语言认知处于非常特殊的地位。其一,语言区分了人类认知和动物认知。语言的发明是人类进化关键的一步。自从使用表意的符号语言和文字,人类的经验就可以形成知识,积淀为文化,从此人类的进化不再是动物的基因层级的进化,而是语言、知识和文化层级的进化;其二,语言使思维成为可能。人类的语言能力表现在:主要通过隐喻的方法,产生和使用抽象概念,并在抽象概念的基础上,形成判断,进行推理。应用判断和推理,人类可以进行决策和丰富多彩的思维,包括数学思维、物理学思维、哲学思维、文学思维、历史思维、艺术思维等等。语言和思维形成知识,知识

5、积淀为文化,非人类的动物则只能由每一代和每一个个体重新开始积累经验,其进化只能是基因层次的进化。人类知识绝大部分来源于前人创造和积累的间接知识,其进化不仅仅是基因层次的进化,更主要的是知识和文化的进化。8.2自然语言处理自然语言处理(NaturalLanguageProcessing,NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。从微观上讲,自然语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。从宏观上看,自然语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:(1)回

6、答有关提问;计算机正确地回答用自然语言输入的有关问题。(2)提取材料摘要;机器能产生输入文本的摘要同词语叙述;机器能用不同的词语和句型来笈述输入的自然语言信息。(3)不同语言翻译。机器能把一种语言翻译成另外一种语言1)自然语言理解的源起自然语言处理的兴起与机器翻译这一具体任务有着密切联系。第二次世界大战之后,二十世纪五十年代,当电子计算机还在襁褓之中时,利用计算机处理人类语言的想法就已经出现。当时,美国希望能够利用计算机将大量俄语材料自动翻译成英语,以窥探苏联科技的最新发展。2)自然语言处理的功能应用自然语言处理研究的内容十分广泛,美国认知心理学家G.M.OlSOn提出语言理解的判别标准:(1

7、)能成功地回答语言材料中的有关问题,就是说,回答问题的能力是理解语言的一个标准;(2)在给予大量材料之后,有做出摘要的能力;(3)能够用自己的语言,即用不同的词语来复述这个材料;(4)从一种语言转译到另一种语言。如果能达到上述标准,机器就能实现如下功能和应用:(1)机器翻译:实现一种语言到另一种语言的自动翻译。(2)自动摘要:将原文档的主要内容和含义自动归纳、提炼出来,形成摘要或缩写,(3)信息检索:信息检索也称情报检索,就是利用计算机系统从海量文档中找到符合用户需要相关文档。(4)文本分类:其目的就是利用计算机系统对大量的文本按照一定的分类标准(例如根据主题或内容划分等)实现自动归类。近年来

8、情感分类或称文本倾向型识别成为本领域研究的热点。(5)问答系统:通过计算机系统对用户提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案,并做出相应的回答。问答技术有时与语音技术和多模态输入、输出技术以及人机交互技术等相结合,构成人机对话系统。(6)信息过滤:通过计算机系统自动识别和过滤那些满足特定条件的文档信息(7)信息抽取:指从文本中抽取出特定的事件或事实信息,有时候又称事件抽取。例如从时事新闻报道中抽取出某一恐怖事件的基本信息:时间、地点、事件制造者、受害人、袭击目标、伤亡人数等;从经济新闻中抽取出某些公司发布的产品信息:公司名称、产品名称、开发时间、某些性能指标等。(8)

9、文本挖掘:是指从文本中获取高质量信息的过程。文本挖掘技术一般涉及文本分类、文本聚类、概念或实体抽取、粒度分类、情感分析、自动文摘和实体关系建模等多种技术。(9)舆情分析:舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。舆情分析是一项十分复杂,涉及问题众多的综合性技术,它涉及网络文本挖掘,观点挖掘等各方面的问题。(10)隐语计算:“隐喻”就是用乙事物或其某些特征来描述甲事物的语言现象。简要地讲,隐喻计算就是研究自然语言语句或篇章中隐喻修辞的理解方法。(11)文字编辑和自动校对:对文字拼写、用词,甚至语法、文档格式等进行自动检查、校对和编

10、排。(13)字符识别:通过计算机系统对印刷体或手写体等文字进行自动识别,将其转换成计算机可以处理的电子文本,简称字符识别或文字识别。(14)语音识别:将输入计算机的语音信号识别成转换成书面语表示。(15)文语转换:将书面文本自动转化成对应的语音表征,又称语音合成。(16)说话人识别/认证/验证:对一说话人言语样本做声学分析,依此判断(确定或验证)说话人的身份。(17)自然语言生成:利用机器通过自然语言处理生成像人类语言一样的自然语言。3)自然语言处理技术一般的自然语言处理的技术包括:词法分析、句法分析、语义分析、语用分析和语句分析等。词法分析的主要目的是从句子中切分出单词,找出词汇的各个词素,

11、并确定其词义。句法分析是对用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,实现自动句法分析过程。其基本方法有线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。语义分析是基于自然语言语义信息的一种分析方法,其不仅仅是词法分析和句法分析这样语法水平上的分析,而是涉及到了单词、词组、句子、段落所包含的意义。语用分析相对于语义分析又增加了对上下文、语言背景、环境等的分析,从文章的结构中提取到意象、人际关系等的附加信息,是一种更高级的语言学分析。简单句的理解方法最简单的自然语言理解方法,也许要算是关键字匹配法了,它在一些特定场合下是有效的。其方法简单归纳起来是这样的:

12、在程序中规定匹配和动作两种类型的样本。然后建立一种由匹配样本到动作样本的映射。当输入语句与匹配样本相匹配时,就去执行相应样本所规定的动作,这样从外表看来似乎机器真正实现了能理解用户问话的目的。例如在一个列车运行数据库系统中,规定了以下几个匹配样本:a.从处所到处所有车种吗?b.从处所到处所有?数量车种?c.从处所到处所有?指数量车种?其中,V可与任何具有规定特性的单词匹配,如处所可以和“北京”、“上海”等表示地点的单词匹配;车种可以和“特快”、“直快”等匹配;?数量可与“几趟”等匹配;?指数量可与“哪几趟”等匹配。如果输入:从北京到上海有特快吗?该语句刚好与第一个匹配样本相匹配,从而系统也就“

13、理解”了你的问话,并去检索数据库,查看从北京到上海是否有特快,然后给出回答。这种关键字匹配的方法,在类似的数据库咨询系统中作为自然语言接口,显得特别有效,虽然它不具有任何意义下的理解。8.3智能问答系统具体来说,对话系统大致可分为两种:任务导向型对话系统和非任务导向型对话系统(也称为聊天机器人)。面向任务的系统旨在帮助用户完成实际具体的任务,例如帮助用户找寻商品、预订酒店餐厅等。非任务导向的对话系统与人类交互,提供合理的回复和娱乐消遣功能,通常情况下主要集中在开放的领域与人交谈。虽然非任务导向的系统似乎在进行聊天,但是它在许多实际应用程序中都发挥了作用。有调查数据显示,在网上购物场景中,近80

14、%的话语是聊天信息,处理这些问题的方式与用户体验密切相关。面向任务导向的智能问答系统典型结构包括四个关键组成部分:1.自然语言处理,2.对话状态跟踪,3.对话策略学习,4.自然语言生成。聊天机器是一种通过自然语言模拟人类进行对话的程序,是一种非任务导向智能交互式问答对话系统。通常运行在特定的软件平台上,如PC平台或者移动终端设备平台,而类人的硬件机械体则不是必需的承载设备。从应用场景的角度来看,可以分为在线客服、娱乐、教育、个人助理和智能问答五种聊天机器人。在线客服聊天机器人系统的主要功能是同用户进行基本沟通并自动回复用户有关产品或服务的问题,以实现降低企业客服运营成本、提升用户体验的目的。其

15、应用场景通常为网站首页和手机终端;娱乐场景下聊天机器人系统的主要功能是同用户进行开放主题的对话,从而实现对用户的精神陪伴、情感慰藉和心理疏导等作用。其应用场景通常为社交媒体、儿童玩具等。8. 4语音识别语音识别技术是将人类语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。目前主流的语音识别技术是基于统计的模式识别的基本理论,一个完整的语音识别系统主要可以分为语音特征提取、声学模型与模

16、式匹配以及语音模型与语义理解三个部分。语音系统一般可以分为前端处理和后端处理,如图8.3所示。前端包括语音信号的输入,预处理,特征提取,后端是对数据库的搜索过程,分为训练和识别。训练是对所建模型进行评估、匹配、优化,之后获得模型参数。识别时一个专用的搜索数据库获得前端数值后,对声学模型、语言模型、字典进行相似性度量匹配。声学模型是通过训练来识别特定用户的语音模型和发音环境特征;语言模型就涉及到中文信息处理的问题,在这要对语料库单词的规则化建一个概率模型;字典则列出了大量的单词和发音规则。9. 6机器翻译机器翻译就是让机器模拟人的翻译过程,利用计算机自动地将一种自然语言翻译为另外一种自然语言。由于人工进行翻译需要训练有素

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 人工智能

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!