《第一讲统计自然语言处理概论2.ppt》由会员分享,可在线阅读,更多相关《第一讲统计自然语言处理概论2.ppt(85页珍藏版)》请在优知文库上搜索。
1、目录目录 概述-NLP的概念、历史与现状 NLP的研究内容 NLP研究的困难 NLP方法论之争 统计方法示例 本课的主要内容 抛砖引玉1.什么是自然语言什么是自然语言以语音为物质外壳,由词汇和语法两部分组成的符号系统。新华词典语言是人类交际的工具,是人类思维的载体是约定俗成的,有别于人工语言(程序设计语言)一、一、NLPNLP的概念的概念什么是自然语言处理什么是自然语言处理 NLP,Natural Language Processing 用机器处理人类语言的理论和技术 研究在人与人交际中以及人与计算机交际中的语言问题的一门学科。NLP要研制表示语言能力和语言应用的模型,建立计算框架来实现这样的
2、语言模型,提出相应的方法来不断完善这样的模型,并根据语言模型设计各种实用系统,以及对这些系统的评测技术。-Bill Manaris,从人机交互的角度看自然语言处理其它名称其它名称 自然语言理解(Natural Language Understanding)计算语言学(CL,Computational Linguistics)人类语言技术(Human Language Technology)从智能接口到知识处理从智能接口到知识处理 智能接口智能接口 功能:把现实世界中的语言信息送入电子世界 主要成果 拼音输入、手写输入、语音识别 知识处理知识处理 功能:对于已进入电子世界中的语言信息进行加工处理
3、获得知识 主要研究内容 媒体的加工和管理、语言信息处理机器能够理解人的语言吗?机器能够理解人的语言吗?l很难,但是没有证据表明不行l什么是“理解理解”结构主义:机器的理解机制与人相同 问题在于谁也说不清自己理解语言的步骤 功能主义:机器的表现与人相同 图灵测试:图灵测试:如果通过自然语言的问答,一个人 无法识别和他对话的是人还是机器,那么就应 该承认机器具有智能有用否?能用否?有用否?能用否?NLPNLP有用吗?有用吗?据统计,日常工作中80%的信息来源于语言 文本是人类知识最大的存储源,并且文本的数量在不停地增长 电子邮件、新闻、网页、科技论文 NLPNLP能用吗?能用吗?并非每一样语言处理
4、的应用都需要深层理解 中间产品陆续产生 成功应用的实例 word中英文自动校对 搜索引擎 Google在线翻译2.NLP2.NLP的性质的性质 NLP需要的知识非常复杂语言学、计算机科学、数学、逻辑学、认知科学等 理解语言的过程是动态的,不是静态的 NLP需要的知识大多是归纳的,不是演绎的 存在Upper Bound(上限)对歧义的限制和系统的覆盖率矛盾 领域词典不充分3.NLP3.NLP的历史的历史 20世纪50年代起步 机器翻译 50-60年代采用模式匹配的方法 60年代衰落 70-80年代采用面向受限域的深入理解的方法 90年代至今统计方法占主流 随着互联网的发展而复苏 互联网为NLP提
5、供了市场需求和试验数据4.NLP4.NLP现状现状 仍然缺乏理论基础 词汇句法方面的问题尚未解决,已开始挑战语义、知识等深层课题 语音识别中采用的统计语言模型推动了NLP的发 展,目前的统计模型在向语言深层发展 Ontology受到普遍重视 开放域处理时起时落 一切才刚刚开始二、二、NLPNLP的研究内容的研究内容1.1.自然语言处理的科学内容自然语言处理的科学内容 语言学的任务 刻画和解释语言现象 人类是如何获取和理解语言的 理解语言和世界的关系 理解语言在通讯时的结构和内在含义 人们在说些什么 覆盖语言结构的各个方面 人们说的事情和世界怎样联系在一起2.NLP2.NLP的不同层次的不同层次
6、3.3.基础研究基础研究(1)词法分析 词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息。词法分析是很多中文信息处理任务的必要步骤。自动分词(中文分词中文分词)词性标注 短语识别 分词:分词:中文词与词之间没有明显的分隔符,使得计算机对于词的准确识别变得非常困难。因此,分词就成了中文处理中所要解决的最基本的问题,分词的性能对后续的语言处理如机器翻译、信息检索等有着至关重要的影响。随着对中文处理关注程度的增加,国际计算语言联合会(ACL)下设的汉语特别兴趣(SIGHAN)研究组每年举办国际汉语分词评测大赛。(2 2)句法分析)句法分析 句法分析是对句子结构进行分析,如句子的形式结构:主
7、语、谓语、宾语等。句法分析是语言学理论和实际的自然语言应用的一个重要桥梁。一个实用的、完备的、准确的句法分析将是计算机真正理解自然语言的基础。句法分析的一个例子小王和小李的妹妹结婚了。规则:S-NP VPNP-NP C NPNP-NNP-NP de NVP-V le词典:小王:小李:和:妹妹:结婚:了:le的:de两种分析结果:(3 3)语义分析)语义分析 语义分析的研究,如词义排歧和语义归纳、推理等,尚处于萌芽期并将逐步走向前台,成为下一阶段计算语言学研究的一个亮点。计算机本身没有智能,自然语言的语义分析和内容信息的理解,离不开相应的语义知识库的支持,它是帮助计算机“了解”人类语言的一个媒介
8、和桥梁,也是让计算机逐渐“聪明”起来的一个物质前提。语义分析主要研究基于语义知识库的语义相似度的计算方法、语义知识库的自动构建等内容。语义:语言和世界的映射关系,符号之间的变换关系“语义”就是一个单词或者一个语言成分的含义的解释。而其解释通常不止一种。在自然语言中,一个词语的新语义往往是通过流行的新的用法而产生的。一个词语或单词在句子中有多种解释,取哪一个呢?语用:语用:符号或者语言成分和它们的使用者之间的关系 通俗解释:通俗解释:说话双方按照该单词或者语言成分所在的“语境”,来确定应该选择其中哪一种释义或含义。“语境”的范围可以变化很大:从一个句子,一段话,到整篇文章,乃至文章作者的身份和处
9、境,所在的时代的文化背景。(4 4)语用分析)语用分析 例例1 1:有两组不同背景的人在一起开会。其中一组人正在讨论社会上流感问题,有人在说话中提到了“病毒”,他们是在医学的语境下指称“生物性病毒”。另一组人正在讨论计算机安全问题,有人在说话中提到了“病毒”,他们是在计算机安全这一话题的语境下指称“计算机病毒”。评论:评论:这是同一词语在不同的“语境”中具有不同“语义”的典型例子。例例2 2:设想例1中正在讨论“计算机病毒”和“生物病毒”的这两组人正在一起开会,目的是为领导机关拟定某某年度科研项目申报提纲中的最后一个项目的名称。由于主管机关所掌握的经费的限制,允许申报的只剩下最后一项,而且必须
10、在中午12点以前将申请书上报,过期作废。可以想象,这两组人将互相争执不下,达不成共识。但是为了避免因为上报时机延误而使双方都落空,最后决定先写出一个“表述一致,但是各持自己理解”的申请书:关于建立“病毒”检测与预防机制的研究。至于是那种病毒,留待今后进一步申述。评论:评论:这是一个假想的例子,但是他显示了许多外交文件的实质。自然语言的含糊性在此显示出它伟大的功能。句法、语义和语用是语言的三个主要层面,句法、语义和语用是语言的三个主要层面,三者之间可能存在如下关系:三者之间可能存在如下关系:句法结构相同,语义不同句法结构相同,语义不同“吃苹果”,“吃食堂”句法:动宾结构 语义分别为:动作-对象关
11、系,动作-地点关系 语义相同,句法结构不同语义相同,句法结构不同“吃了苹果”,”苹果吃了”语义:动作-对象 句法分别为:动宾关系和主谓关系 语义相同,语用有别语义相同,语用有别 你真讨厌(男生对女生说)你真讨厌(女生对男生说)统计语言模型是自然语言处理的主流技术之一。研究的主要内容包括各种语言模型的构建、改进以及应用 N-gram模型 隐马尔科夫(HMM)模型 最大熵模型 依存语言模型 朴素贝叶斯模型 条件随机场(5 5)统计语言模型)统计语言模型4.NLP4.NLP系统的主要任务系统的主要任务 知识表示 产生式 谓词逻辑 语义网络 概念从属理论(CD理论)知识控制策略 知识的冲突 知识集成
12、从多个知识源获取的不同层面,不同性质的知识如何融合在一起 知识获取 机器学习5.5.一个一个NLPNLP的例子:英汉机器翻译的例子:英汉机器翻译 输入英文句子输入英文句子:-Miss Smith putted two books on this dining table.形态分析形态分析(Morphological Analysis)MissSmithput(+ed)twobook+sonthisdining table.句法分析句法分析(Syntactic Analysis)词汇转换词汇转换Miss 小姐Smith 史密斯put(+ed)放Two 两book+s 书on 在上面this 这d
13、ining table.餐桌 短语转换短语转换小姐史密斯放两书在上面这餐桌史密斯小姐放两书在这餐桌上面 生成 模拟人类写作的过程,生成符合逻辑的连 贯的文本 史密斯小姐放两书在这餐桌上面 史密斯小姐(把)两(本)书放在这(张)餐桌上面 最终翻译结果 英文:Miss Smith put two books on this dining table.中文:史密斯小姐把两本书放在这张餐桌上面6.6.语言处理的步骤语言处理的步骤 文本预处理 句子切分 形态分析(Morphological Analysis)分词 词性标注(Part-of-Speech Tagging)句法分析 词义消歧(Word Se
14、nse Disambiguation)语义关系分析 指代消解(Anaphora Resolution)逻辑形式(Logic Form)三、三、NLPNLP研究的困难研究的困难歧义(ambiguity)病构(ill-formedness)复述(paraphrasing)1.1.歧义歧义(1 1)注音歧义)注音歧义 快乐(le4)的单身汉 火红的第五乐(yue4)章(2 2)分词歧义)分词歧义 交集型歧义 研究/生命/的/起源 研究生/命/的/起源 组合型歧义 他/从/马/上/下来 他/从/马上/下来 和未登录词绞在一起 刘挺/拔/出/宝剑 刘/挺拔/出/宝剑 多交集字段的歧义 结合 成分 子时
15、有的歧义无法在句子内部解决 乒乓球拍卖完了(3 3)短语歧义)短语歧义 咬死猎人的狗 咬死猎人的狗(4 4)句法歧义)句法歧义 Our company is training workers.(5 5)语义歧义)语义歧义-词义歧义词义歧义 打玩乒乓球 打编织毛衣 打通讯电话(6 6)语用歧义)语用歧义“你真讨厌!”2.2.病构病构 真实文本的语言现象非常复杂,不规范,不干净 未登录词(Unknown Words)已知词的新用法 例子:Please xerox a copy to me.不合乎语法的句子 例子:他非常男人。(名词不能受程度副词修饰)不合乎语义约束的搭配 例子:My car dri
16、nks gasoline like water.由于作者疏忽造成的错误 真实的语言是非常脏的3.3.复述复述 举例 毛泽东出生于1893年 毛泽东出生在1893年 毛泽东诞生于1893年 毛泽东同志是1893年出生的 毛主席生于1893年 毛泽东生于光绪6年(虚拟的)四、四、NLPNLP方法论之争方法论之争 理性主义和经验主义理性主义和经验主义 理性主义者(Rationalist)1960-1985:理性主义是主流 他们的信念 乔姆斯基 先天语言能力 对于语法的描述 形成基于规则的传统语言处理技术 句法规则的确抓住了语言的主要模式 什么是语言中最普遍的模式呢,是否需要量化?理性主义的问题理性主义的问题 基于规则的方法需要大量的人工操作,人类总结的规则不完备、不一致,规则多了相互冲突,难以对抗复杂的语言现象 语言的变化是渐变的 比如:“打”电话,究竟从那一天开始“打”被赋予了通讯的意义呢经验主义者经验主义者 信念 孩子的大脑只能做一些普通的操作:联想、模式识别、一般化。孩子从丰富的信号输入中学习到了语言的结构 设定一个语言模型,推导出参数值 形成今天的基于统计的语言处理技术 对每一种语言