《基于SpeechSDK的语音记事本设计和实现电子信息工程专业.docx》由会员分享,可在线阅读,更多相关《基于SpeechSDK的语音记事本设计和实现电子信息工程专业.docx(23页珍藏版)》请在优知文库上搜索。
1、中文摘要OAbstract1第一章课题背景211语日记事本的国内外研九现状21.1.1 语音输入的国内外研究现状21.1.2 语音合成的国内外研究现状31.2 1口日-V己白勺41.3 论文内容安排4第二章SPeeChSDK综述52.1 SpeechSDK简介52.1.1 SAPlSDK的介绍52.1.2 Text-To-SpeechAPI72.1.3 语音输入APl72.2 SpeechSDK安装82.3 .net框架8第三章语音记事本的设计93.1 SAPI-SpVoice93.1.1 SPVOiCe方法介绍93.1.2 SPVoiCe属性介绍103.2 软件框架和流程103.3 主界面介
2、绍113.3.1 主界面概述113.3.2 主界面设计113.4 功能子模块介绍143.4.1 文本操作模块143.4.2 语音合成模块163.4.3语音输入模块163.4.3附加功能模块17第四章总结20参考文献21致谢错误!未定义书签。中文摘要近年来,随着人工智能的逐渐兴起,人们对人机交互的要求也越来越高,能够使这一功能实现的基础的一点就是语音交互,我们可以利用SPeeChSDK这一平台,在软件中实现语音和文本之间的交互,完成语音合成及语音输入之间的功能的实现。将speechSDK的相关功能添加到本次设计的记事本中,能更加快捷的为使用者提供舒适便捷的使用环境。在本次设计中,通过使用C#语言
3、进行编写,能够完成设计记事本并使其具备语音合成以及语音输入的功能,以及其他一系列附加的功能,例如文本转换图片,背景音乐添加等。关键词:speechSDK,语音合成,语音输入,记事本AbstractInrecentyears,withtheemergingofartificialintelligence,peoplealsomoreandmorehightotherequirementofhuman-computerinteraction,realizethefunctionofonesvoiceinteraction,wecanusetheplatformoftheresearchedSDK,
4、realizetheinteractionbetweenthevoiceandtextinthesoftware,completetherealizationofthefunctionofspeechsynthesisandspeechinputbetween.AddtherelatedfunctionsofthespeechSDKtothenotepadofthisdesign,whichcanprovideuserswithconvenientandconvenientuseenvironment.Inthisdesign,throughtheuseofc#languagetowrite,
5、todesignanotepadandmakeithavethefunctionofspeechsynthesisandspeechinput,andotherseriesofadditionalfunctionality,suchastextconvertedimages,backgroundmusicadd,etc.KeywordsispeechSDK,speechsynthesis,speechrecognition,notepad.第一章课题背景1.1 语音记事本的国内外研究现状1.1.1 语音输入的国内外研究现状语音输入就是说,计算机可以将人们说的话的内容通过相应算法转换为计算机可以
6、理解的输入,例如二进制输入,语音输入和说话人的识别并不相同,说话人的识别主要是通过音色音调等相关参量来判断说话人是否满足条件,但是语音输入则不然,它不关注是谁发出的语音,它只关注发出语音的内容。语音输入就是为了让机器能够听明白并理解人们口头阐述的内容,而在这里有两种层次,其一是让机器听的懂人们发出的语言并逐字逐句的转化为书面语言,其二为对口头命令加以领会,并能够完成命令的正确回应,而不只是转化。在本次设计中,采用第一种方案,即当人们发出声音时,将其中所包含的内容转化为书面语言显示出来,方便人们在记事本中编辑。Audry系统是人们在1952年研发出的一个款能够识别特定的人语音的十个英文数字的语音
7、增强系统。1956年,美国普林斯顿大学RCA实验室的OISOn和BeIar等人研制出能10个单音节词的系统,该系统采用带通滤波器组获得的频谱参数作为语音增强特征,1959年,Fry和DeneS等人尝试构建音素器来4个元音和9个辅音,并采用频谱分析和模式匹配进行决策,这样子极大的增强了语音输入的功效和准确性l,o在这之后,计算机的语音输入相关研究开始受到了全世界各个国家和地区的科研人员的广泛重视,并开始了一系列的新的研发。1960年左右,前苏联的科学家MaTIn等人提出了语音波束点的端点检测,以解决语音输入电平较低的缺点,这一发现使得当时的语音输入水平得到了长足的进步;与此同时,VintSyUk
8、提出了动态编程的相关概念,为以后的语音输入发展打下了良好的基础。在进一步发展的过程中,也发现并提出了一些重要成果,分别是信号预测编码(LPC)技术和动态时间规整(DTW)技术,这两项技术的发现,使得语音信号的特征提取和不等长语音匹配的相关问题得以迎刃而解。语音输入技术的主要作用在于它能够和语音合成技术结合起来,使得人们拜托鼠标键盘这些东西的约束,并改为语音输入这样便捷有效的具有人性化的输入方法,而且,语音输入在人们日常生活以及信息技术中扮演者越来越重要的角色。在我们国家,语音输入技术并不像世界上开始研究的那么早,而是在1950年左右才开始进行初步探索,但发展极为迅速,钻研对象也逐渐从实验室中的
9、埋头苦干中走向了生活应用实际相关联。自从863计划的实施,在1987年之后,国家曾专门为语音输入这一充满前景的技术设立专项,到目前为止,中国语音输入技术的研究水平己基本与国外同步,在汉语语音输入技术上还有自己的特点与优势,而且己经达到国际先进水平。为了保证中国语音输入的蓬勃发展,我国各大高校都在自己的研究机构内展开了对语音输入方面的研发。中国科学院自动化研究所及其附属模型技术公司(Pattek)于2002年发布了PatekASR,这是一款适用于不同计算平台和应用的中文语音产品系列。自1998年以来,中国语音输入产品的历史终于被外国公司所垄断。1.1.2 语音合成的国内外研究现状语音合成就是通过
10、计算机来产生人工语音的技术,又称为TTS技术,在本次毕业设计中,所能实现朗读记事本相关内容就是应用了TTS技术,也就是将计算机内部自己产生的数据流转化为人们可以直接听懂的流畅的口语输出的技术。从开始研究语音合成到现在,这门技术的研究已经有两百多年的历史,然而具有现实意义的现代语音合成技术的发展是跟着计算机的不断发展和DSP技术的不断发展而逐渐进步的,因为语音合成技术本身就是为了能够让计算机产生较高明朗度、较高自然度的持续的语音。在语音合成的早期的发展中,主要的研究方法是采用参数合成的方法。值得一提的是HOImeS的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980),精心
11、仔细的调整参数后,这两个合成器都可以合成出非常自然的语音。从19世纪80年代末到现在,语音合成技术又有了十足的进步,尤其是在1990年提出的基音同步叠加(PSOLA)方法,使基于时域波形拼接方法合成的语音的音色和自然度大大提高也.国内的语音合成技术的汉语的研发相对于国外来说起步较为晚一些,但是从80年代初期就可以和国际接轨,研发基本同步发展。而在这些发展中,大致也经历了国外的各个方法的研究,一直到今天。在国家的重视和支持下,国家各个计划和有关项目的扶持下,我国的汉语言的文语相关转换系统在近些年以来得到了快速而又蓬勃的发展。其中不乏成功的例子:如中国科学院声学所的KX-PSOLA(1993),联
12、想佳音(1995);清华大学的TH_SPEECH(1993);中国科技大学的KDTALK(1995)等系统网。最近中国科技大学又推出了KD-2000汉语文语转换系统,不仅在语音合成技术方面有进一步的发展,特别是在文本预处理的背景下,也体现了采用大量统计和监管方法,可以更好地解决三个主要处理阶段:特殊的符号处理,分词处理和拼接处理,极大地提高了中文文本到语音转换系统的整体性能。1.2 语音记事本的前景在科技日新月异的今天,语音交互的实现显得尤为重要,而作为语音与文本之间的交互,SPeeChSDK引擎为我们的设计提供了极大的便利,基于SPCeChSDK的语音记事本的开发,也使得我深刻认识到了,语音
13、交互在计算机方面的重要程度。语音记事本是一种可以将语音输入技术和语音合成技术集合为一体的软件,这款软件可以让你在输入文字到计算机之后,将你输入的文字通过语音合成技术转换为语音信号并读取出来。而随着我们逐步的迈入互联网时代,人们对于交互的体验要求也越来越高,因此,语音记事本的应用也越来越普及。在更广阔的未来,随着人工智能的不断发展,语音与文本之间的转换将会成为主流,对语音记事本的需求也会增强。语音记事本可以大幅度提高工作效率,这对于从事码字行业的朋友们来说尤为重要,它可以有效的防止人们在输入文字的时候犯下很多本来不该犯的了乱七八糟的错误。语音记事本的另外一种极其强大的用途就是可以将剪切的内容复制
14、到文本框中,然后点击朗读就可以听到内容,这样就可以防止自己再两眼昏花的浏览文字出现错误,毕竟听要比看省时省力。因此,研究语音记事本是很有必要的。而基于SPeeChSDK的设计,是非常方便的可以完成这些需求的。1.3 论文内容安排记事本是当今计算机的必备功能,在计算机的功能中发挥着不可或缺的作用。随着时代的发展,简单的记事本功能己经不足以满足人们的办公需求,为了改善这个问题,该毕业设计基于SpeechSDK,并设计了语音记事本,使记事本基本能够满足人机交互的需求。论文由以下几部分组成:第一张介绍课题的背景,第二章介绍.SpccshSDK.的综合应用,第三章介绍本次语音记事本的主体设计以及相关功能
15、,第四章给出本次论文的总结。第二章SPeedlSDK综述2.1 SpeechSDK简介2.1.1 SAPISDK的介绍我们都使用过电脑的发音播报功能,这其中就用到了WindoWS的TTS(TextToSPeeCh)语音引擎。TTS引擎就放在了微软的WindoWSSPeeChSDK的打包文件中。使用此打包文件,可以完成我们所需要的程序开发。在本次软件开发中,将对SDK的开发内容进行相关介绍。SAPL全部的名称是TheMicrosoftSpeechAPL就是微软的语音API,由WindowsSpeechSDK提供。WindowsSpeechSDK中包含在本次设计中所需要使用到的两种引擎,分别为语音合成引擎和语音输入引擎,这两项引擎完成了本次设计中与语音相关的基本功能,因此WindowsSpeechSDK在本次设计中是不可或缺的。语音合成技术适用在将文本内容转换成语音内容进行输出;语音输入技术适用在识别人声的语音所发出的命令,并通过调用接口来实现命令的功能。SAPISDK是微软公司免费提供的语音应用程序开发工具包,这个SDK中包含了语音应用设计接口(SAPI)微软的连续语音输入引擎(MCSR)以及微软的语音合成(TTS)引擎等等。在本次设计中,采用SDK5.1,在本版本中,总共支持有三种语言