《基于人机交互的统计翻译方法.ppt》由会员分享,可在线阅读,更多相关《基于人机交互的统计翻译方法.ppt(24页珍藏版)》请在优知文库上搜索。
1、1基于人机交互的统计翻译方法2提纲n1.简介n2.基于人机交互的统计翻译方法n3.实验结果及分析n4.结论3提纲n1.简介n2.基于人机交互的统计翻译方法n3.实验结果及分析n4.结论4简介n问题的提出qPhrase-based SMT采用短语精确匹配的策略1.数据稀疏问题严重,特别是长短语2.短语表中的大量短语无法得到充分利用n我们的目标通过短语模糊匹配和人机交互,利用更多的短语,通过短语模糊匹配和人机交互,利用更多的短语,提高系统的翻译质量。提高系统的翻译质量。5简介Are you here meal-time or out?Do you eat here or to go?(1)(2)6
2、提纲n1.简介n2.基于人机交互的统计翻译方法n3.实验结果及分析n4.结论7短语模糊匹配n短语模糊匹配qDice系数系数q编辑距离编辑距离s源语言句子源语言句子n扩展句子生成1 21immss sfss,1 21i ppmmss sgss 原始句子:原始句子:扩展句子:扩展句子:1If未登录短语未登录短语8扩展句子生成两个问题:a)找到的相似短语是否能够提高句子的翻译质量?b)生成的新句子是否与原句语义相同?人机交互人机交互组合分类器组合分类器9组合分类器设计特征选择(1)原则:a)扩展句子应该与原始句子非常接近,保证扩展句子的语义不会发生太大的变化。b)扩展句子的翻译应该与参考答案非常相似
3、,与参考答案越接近,译文的BLEU得分就越高。if未登录短语未登录短语pg相似短语相似短语s原始句子原始句子,i ps扩展句子扩展句子t参考译文参考译文,i pt扩展句子译文扩展句子译文10组合分类器设计特征选择(2)特征特征说明说明解码器打分比值扩展句子译文与原始译文之间的解码器打分的比值未登录短语与相似短语的相似度相似程度包括:1.Dice系数2.编辑距离3.Overlap系数4.Jaccard系数5.长度比值扩展句子与原始句子的词性序列相似度扩展句子译文与参考译文的相似度11组合分类器设计分类器训练nSVM工具:LIBSVMn核函数:径向基函数(Radial Basis Function
4、,RBF)n训练数据生成1.在训练语料上生成扩展句子2.BLEU打分3.提取特征12组合分类器设计融合n融合多个分类器结果的组合分类器在很多方面要优于参加组合的单个分类器n多个参考答案可以训练多个分类器n融合方法:投票规则(Vote Rule)n在测试语料上,将原始翻译结果作为参考答案13人机交互方法n短语模糊匹配采用了基于字符串的相似度,不能保证语义的一致性14人机交互方法n目的:选择语义保持不变的句子n采用基于有限状态自动机的对话管理模型主要工作:设计系统的状态及状态转移函数0,MQq F 系统输入 Q0qQFFQ状态的有限集合 是初始状态 终止状态的集合 状态转移函数 15基于FSA的对
5、话管理模型n状态集qS0:初始状态qS1:对用户提问qS2:跳转到下一条短语qS3:输出对应翻译qSg:终止状态n状态转移函数qS1S2qS1S3qS1SgqS1S116基于FSA的对话管理模型基于有限状态自动机的人机交互模型基于有限状态自动机的人机交互模型 17人机交互流程图18提纲n1.简介n2.基于人机交互的统计翻译方法n3.实验结果及分析n4.结论19实验结果及分析(1)实验数据统计实验数据统计任务任务训练集训练集开发集开发集测试集测试集短语长度限制短语长度限制短语表规模短语表规模SMT07275,882句489句489句724.3M,394,910条SMT08321,770句764句
6、507句10420M,4,420,370条在IWSLT2007 及 IWSLT2008 BTEC中英文本翻译任务上进行了实验20实验结果及分析(2)实验结果实验结果BLEU得分比较得分比较系统系统SMT07SMT08PBMT0.37500.3543IMT0.38040.3624PBMT:我们实验室开发的基于短语的统计翻译系统:我们实验室开发的基于短语的统计翻译系统IMT:基于人机交互的翻译系统:基于人机交互的翻译系统21实验结果及分析(3)人机交互数据统计人机交互数据统计任务任务SMT07SMT08句子总数489507交互句子数201191总交互次数315313平均交互次数1.571.64交互成功句子392422提纲n1.简介n2.基于人机交互的统计翻译方法n3.实验结果及分析n4.结论23结论n利用短语模糊匹配生成扩展句子n利用组合分类器判断句子的翻译质量是否有提高n利用人机交互选择语义相同的短语下一步工作:分类器特征选择对话管理模块的改善24谢谢 谢!谢!