语音识别机器人论文

2024-11-17

语音识别机器人论文(精选10篇)

1.语音识别机器人论文 篇一

让计算机能听懂人的语言,是自计算机诞生以来人类便梦寐以求的,Intel创办人Gordon Moore曾说,语音技术是影响未来科技发展最关键的技术;IBM总裁Lou Gerstner指出,有朝一日,将有数十亿的人运用自然语言在Intern et上浏览、查询【’]。随着移动电话、掌上电脑、PDA等移动设备以及移动计算环境中各类智能设备的广泛应用,使用语音作为用户操作界面的要求越来越迫切,移动设备体积小,计算能力和存储空间有限,其使用场合又往往处于复杂、多变的噪声环境中,使得基于这类设备的语音识别实用技术面临许多挑战。如今语音识别的应用领域不断拓展,在军事、工业、家电、消费电子、交通等各方面都得到了广泛的应用。常见的应用有: (1>语音控制语音识别技术可实现这样的功能,利用声音来控制一台机器设备的运行。例如现在的智能家电,就可以通过语音控制其开关和其他功能的实现。语音控制一方面可以提高工作效率,另一方面也可以在人们手脚被占用的时候实现控制,解放人们的双手。

(2)语音输入利用语音识别技术,将人们的声音信号直接转换成相应的文字输入计算机系统,不仅可以代替键盘使文字的输入工作更加省力和高效,同时也为那些不熟悉键盘输入法的人们提供了一种新的文字输入途径。

(3)身份识别和指纹类似,人们的声纹也具有较强的排他性,因此可以利用语音识别来进行身份的识别和确认工作。

语音识别一般有广义和狭义之分。广义的语音识别指的是从语音信号中提取出任何人们感兴趣内容的技术,而我们通常所说的语音识别指的是狭义的语音识别,即从语音信号中提取出文本内容的技术。也就是通过算法,将语音转换成文本的过程[}2}根据识别的对象不同,语音识别大致分为3类:孤立词识别,连续语音识别,关键词识别。

其中孤立词识别是识别事先己知的孤立词,如“开始”、“结束”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或者一段话;连续语音流中的关键词检测针对的也是连续语音,但它并不要求识别全部文字,而只是检测己知关键词在何处出现,如在一段话中检测“西安”、“中国”这两个词。根据语音识别系统所针对的发音人,可以将语音识别分为2类:特定人语音识别和非特定人语音识别。 其中前者只能识别特定的一个人或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比特定人的识别困难得多。另外,根据语音设备和通道,可以分为桌面CPC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的.采集通道会使发音的声学特性产生变形,因此需要构造各自的识别系统。

虽然当前语音识别技术在实际应用中取得了较好效果,但我们也应清醒的认识到其中存在的问题并对其进行深入的分析。目前国内外对语音识别技术研究存在的主要问题有:

(1>标准输入的问题缺乏标准输入是目前语音识别面临的主要难

题之一。因为语言、方言之间的差异,

所以很难确定一个标准的输入,导致实际使用时误识率过高,较难达到人们预期的效果。即使语言相同,我们每个人的发音习惯也不尽相同,这就导致了根据某些人的语音数据

设计出来的语音识别系统很难适应所有的使用者。因此目前绝大多数的语音识别系统在使用前,都需要使用者对其进行适应性训练,使其习惯自己的发音,以提高识别的正确率。另外,对语音识别的输入设备缺乏统一标准也是导致语音输入不标准的重要方面。

因为当前的录音设备都是以人能听清,听懂为标准进行设计的,至于如何调整输入设备的各项参数,使其适应计算机识别的特点,让识别系统能够更好的分辨,对此我们还需要做大量的数据收集,分析和研究工作。

(2)环境噪声的问题环境噪声的干扰也是语音识别研究中一个不可回避的问题。在实际应用时,我们并不能保证识别系统始终处于一个安静的环境中工作。大多数的应用场景总是存在着环境噪声,且不同场景的噪声也各不相同。我们在语音识别系统开发时很难做到训练环境和真实环境的匹配,导致很多识别系统在实验室环境下识别效果很好,但是到了实际应用的场景,一旦遇到较强的环境噪声,识别的效果就大打折扣了。所以说,噪声环境中语音识别要比安静环境下困难很多。目前解决环境噪声干扰问题的途径主要有三个:一是在语音识别的前端,即语音输入环节,开发抗噪性能更好的语音输入设备,从源头上降低语音信号中的噪声分量;二是在对己经混入了噪声的语

音信号进行特征提取时,选取抗噪性高的特征参数;三是在对语音识别系统进行训练时,充分考虑到噪声的干扰问题,进行针对性的训练以提高系统识别的鲁棒性。

(3)协同发音现象:人们在交流时很少一个字一个字的孤立发音,多数情况下都是按照自己的习惯连续发音,这时原本孤立的声学单元就会受到上下文的影响而发生模糊、变异。因此无论在语音识别系统中选取何种建模单元(词、音节、声韵母、音素),都需要对这些单元之间的相互影响做细化处理,这样就会带来模型数目的剧增和训练数据的相对医乏。

语音信号处理是以语音学和数字信号处理为基础,涉及语言学、模式识别、机器学习、人工智能、信息论等领域的一门综合性学科,它主要包括四个部分:语音识别(Speech Recognition)、语音合成(Speech Synthesis)、语音编码(SpeechCoding)和语音分类(Speech Classification)}4]。语音识别是指机器从语音信号中提取语言信息,从而使机器能够有效地理解和执行发声者的各种意图,其目的是要让机器听懂人类口述的语言,“听懂’,有两层含义,其一是指将语音转换为文本,其二是指理解语音包含的意义。通常所说的语音识别是指第一层含义,而第二层含义则属于语言理(LanguageUnderstanding)的范畴,让机器听懂我们的话语,是自动语音识别(Automatic Speech Recognition, ASR要研究的课题。ASR的最终目标是要将连续的语音自动地变换成文本字符,实现所谓的音字转换。在日常生活中,人们用数以万计的词语,组成连续的语句来进行交谈,在这种自然发音的

语句中,由于协同发音以及语调、重音和抑扬顿挫等节律的影响,很多音素的声学特性跟单字念读时差别很大,这给ASR带来了许多挑战。

在语音识别方法中,目前占主导地位的是基于统计的模式识别方法〔川。一段语音波形通过前端信号处理后可以得到一组特征序列。在给定观测序列Y的情况下识别系统采用最大后验概率准则决定输出词序列(2-1)其中,P(幼与词序列W无关,因此在式(2-1)中分母可以忽略,即 2-2式中,P(W)为语一言模型,表示特定词序列出现的先验概率,与观测语音信号无关;P(Y}W)为声学模型,表示给定词序列W情况下输出Y的概率,也就是给定声学模型输出Y的概率。如图所示,大词汇量连续语音识别系统是一般由语音信号处理、声学特征提取、声学模型、语言模型、解码器以及错误处理模块组成。从语音数据提取声学特征并输入到解码器,利用声学模型和语言模型,基于最大后验概率准则解码,并对解码输出进行错误处理,得到最终的识别结果

2.语音识别机器人论文 篇二

语言是人类最直接的沟通方式, 也是最方便的方式。所以我们希望与机器人沟通也使用人类的语言[1]。随着语音技术越来越完善, 并在结合单片机应用的过程中不断得到深入。单片机以其高可靠性、高性能价格比得到广泛的应用, 更由于16位单片机的出现, 处理能力得到提高, 具备DPS功能, 可以采用单片机技术直接对语音信号进行处理和应用, 使单片机作为微控制器具备了更多更强的功能。本文利用凌阳16位61系列的SPCE061A单片机、机器人机体制作语音识别机器人, 采用人声控制, 使操作向简单, 方便, 高效发展。

1. 语音识别描述

基于单片机的语音识别机器人的设计的目的是希望设计出一种具有识别人类语言的机器人, 能够直接听懂人的讲话, 理解人的意图并做出相应的反应[2]。

语音识别系统本质上是一种多维模式识别系统, 结构如图1所示, 语音识别系统与一般的模式识别系统类似, 包括特征提取、语音模式库、模式匹配3个基本单元[3]。

在语音识别中, 预处理是用于去除声门激励、口鼻辐射、高于1/2采样频率的高频和噪音信号的影响, 实现语音的数字化;特征提取的过程就是从原始语音信号中抽取出能够反映语音本质的特征参数, 形成特征矢量序列;语音模型库是用聚类分析等方法, 从一个讲话或多个讲话者的多次重复得语音参数;模式匹配是将输入语音的特征参数同训练得到的语音模式库进行比较分析, 从而得到初步识别结果;后处理是为了提高识别的正确率。

2. 语音识别机器人的硬件

凌阳SPCE061A单片机不仅具有体积小、集成度高、可靠性好且易于扩展;较强的中断处理能力;高性能价格比;低功耗、低电压等优点外, 还有很强的模块化, 例如:位操作模块、自动语音录音以及播放模块。另外, 它还配有专门的编译环境IDE, 这些都为软件的设计提供了方便。在硬件方面, 单片机有输入输出端口, 这就方便了单片机与机器人、计算机的连接。语音识别机器人系统主要是利用凌阳SPCE061A板作为整个系统的主控板[4]。用SPCE061A控制驱动电路, 使之驱动电机完成机器人的各个动作。主要是用61板上的麦克风作为语音输入, 对语音信号进行采样, 然后在单片机中进行分析与处理, 再由开发板的I/O口输出结果, 实现语音控制机器人的目的。另外增加了特定人语音识别的功能, 通过命令控制机器人, 使机器人智能化[5]。系统将完成走步功能, 转向功能和转头功能。语音识别机器人的系统框图如图2。

SPCE061A单片机实现语音识别的步骤分为:训练部分, 识别部分以及在训练、识别过程中的中断部分。

3. 语音识别机器人的软件设计

本文软件编程是语音识别机器人最重要的一环, 需要用C语言和汇编语言在IDE编译环境下对单片机进行编程, 这是用μ’n SP单片机指令系统进行编程的主要特点[6]。采用汇编语言和高级语言混合编程虽然不如用一种高级语言编程清晰, 结构性强, 但是对于一些对端口进行频繁操作的程序来说, 利用汇编语言一方面会使程序编写简单, 另一方面使程序执行的效率也相对地提高。本文主要是采用主函数调用子函数的形式。在调用的的过程中应该注意的是在高级语言里调用汇编语言, 如果没有参数, 可以对汇编语言全过程进行声明, 然后在高级语言里直接调用;在调用前寄存器会入栈, 再返回时会使寄存器出栈。如果有参数, 则通过堆栈将数据传递到汇编编写的过程里。如果有返回值, 一方面可以通过定义全局变量来进行汇编语言和高级语言的参数传递, 这样做的缺点是全局变量容易被意外改变, 而且也增加了函数之间的数据耦合;另一方面可以通过汇编语言让寄存器R1进行参数传递, 在汇编函数返回时, 从堆栈弹出时的R1的值赋给高级语言里的变量。在主函数中, 定义在不同的识别结果运行那一个子函数;在子函数中, 对各个功能模块进行定义。另外, 还需要定义头函数和语音资源模块, 在头函数主要定义系统涉及到的中断和存储模块, 在语音资源主要定义系统所涉及的语音资源, 方便在程序中调用。通过利用集成开发环境IDE提供的大量库函数及C语言、汇编语言的软件编程语句, 对机器人所涉及的接口、芯片等硬件和如何根据命令完成各项动作进行编程。软件编程的主要形式就是在主函数中调用相关子函数完成特定人语音的训练, 然后在训练成功后进行语音识别, 并根据识别的命令进行相关的操作。

语音识别机器人系统的主程序如图3所示。在主程序中调用相关程序完成特定人语音的训练, 在训练成功后进行语音识别, 根据识别的命令执行相关的操作。

程序根据Flash中的标志位判断是否为第一次下载。使用库函数BSR_Export SDWord (ui Command ID) 将训练好的语音模型导出储存到Flash中, 再调用读/写Flash中的函数进行操作。在进行语音识别时, 首先读取Flash取得语音模型, 然后调用函数BSR_Import SDWord (ui Command ID) 将语音资源载入内存。在识别出命令后, 执行相关动作。

程序开始以后, 首先初始化IOB口然后判断是否第一次下载, 如果是第一次下载就不需要擦除闪存Flash, 直接进入语音识别阶段;否则就要擦除闪存中的内容, 进入语音训练和存储阶段, 完成后置相关位, 再进入语音识别阶段。在语音识别阶段由于命令较多, 所以采用分组方式, 每组都以机器人的名字为触发指令, 然后根据识别器识别的结果执行对应组中的命令[7]。在识别过程中考虑到有延时的问题, 如果出现延时, 就消除触发标志, 重新返回语音识别初始化阶段。

结束语

本文所描述的基于凌阳SPEC061A单片机的语音识别机器人虽然正常完成各项指令, 但对特定人的语音识别精度不高且反应时间过长, 不能做到高精度、高效率。所以在这个层面上还有待提高。

参考文献

[1]陈秀华.基于SPCE061A单片机的语音控制机器人的设计[J].中国水运, 2007.08, 07 (08) :163-164.

[2]吴黎明.语音信号及单片机处理[M].北京-科学出版社, 200734-36.

[3]李晶皎.嵌入式语音技术及凌阳16位单片机应用[M].北京-北京航空航天大学出版社, 2003.1188-92.

[4]黄智伟.凌阳单片机课程设计指导[M].北京-北京航空航天大学出版社, 2007.6100-104.

[5]侯媛彬.凌阳单片机原理及其毕业设计精选[M].北京-科学出版社, 2006138-164.

[6]陈言俊.大学生创新竞赛:凌阳16位单片机应用[M].北京-北京航空航天大学出版社, 2009.8145-148.

3.语音识别系统 篇三

菜场门口卖拖鞋的大妈很萌,我问她拖鞋多少钱一双?她说20元。我问10元行不行?她说,行,你要左脚还是右脚?

我兄弟文哥用Xbox One打NBA2014,热火对湖人,打到最后30秒还是平分,热火拥有球权。最后时刻,他控制小皇帝扣篮,可惜被帽。当时气极了,顺口说了一句口头语。这时候,游戏的语音识别系统立功了,裁判飞奔过来,判他辱骂裁判,给了他一个技术犯规。两次罚球后比赛结束,热火输给了语音识别系统。

小志有天晚上睡到半夜醒来,紧紧抱住妈妈说:“老妈,这辈子太短了……”

老妈被小志吵醒,感动得掉下眼泪,将小志紧紧抱住。小志接着说:“我大概是长高了,脚都露出来了。”

老妈:“我给你发消息,你为什么不马上回我?”

笋笋:“可我马上回你,你又要马上回我,我再马上回你,这就没完了。”

老妈:“可是你不回我,我该有多着急啊?”

笋笋:“老妈你得这样想,我们在进行乒乓球比赛,你抽过来,我抽回去,你再回一记扣杀,没动静了,说明你得一分……”

父与子

我为了研究按摩椅的工作原理,将老爸的按摩椅给拆了。老爸对我说:“你若安好,便是晴天。”

我心想,老爸变得这么文艺了,肯定是原谅我了。

想不到,老爸又说:“安不好,打屁股!”

小学生语录

手机没人打,短信没人发,上个QQ没人理,我被遗忘了。

我妈被附体了吗,每次说我之前,必然要加一句:“不是我说你。”

快乐轶事趣多多

4.语音识别机器人论文 篇四

新建配置文件

1、在 Microsoft Windows XP控制面板中,单击声音、语音和音频设备,再单击语音,

在 Windows 2000控制面板中,双击语音图标。

2、单击语音识别选项卡。

3、在识别配置文件下,单击新建并按照配置文件向导中的指令操作。

为当前用户选择一个配置文件

1、在语言栏上,单击工具。

5.语音情感识别综述 篇五

1997年,美国麻省理工学院的Picard教授提出了情感计算(Affective Computing)的概念。情感计算作为计算机科学、神经科学、心理学等多学科交叉的新兴研究领域,已成为人工智能的重要发展方向之一。而语音情感识别作为情感计算的一个重要分支,亦引起了广泛关注。

许多国内外知名大学和科研机构也开始语音情感识别研究,国外如美国麻省理工学院Picard教授领导的情感计算研究小组,德国慕尼黑工业大学Schuller教授领导的人机语音交互小组等;国内如清华大学的人机交互与媒体集成研究所、西北工业大学音频、语音与语言处理组等。

1 语音情感识别

语音情感识别系统主要由前端和后端两部分组成。前端用于提取特征,后端基于这些特征设计分类器。在语音相关应用中,运用比较多的分类器是支持向量机和隐马尔科夫模型。目前,语音情感识别的重点主要集中于特征提取。在传统的语音情感识别中,如何提取具有判别性的特征已成为研究的重点。随着数据的大规模增长,传统语音情感识别的前提(训练数据和测试数据具有相同的数据分布)已不能够被满足,研究者提出了迁移学习的概念,利用域适应方法来解决跨库的语音情感识别。

本文将从情感描述模型、语音情感特征、语音情感库、语音情感挑战赛这4个方面对语音情感研究现状进行总结,并给出现存语音情感识别的技术挑战及相应的研究方法。

2 情感描述模型

目前主要从离散情感和维度情感两个方面来描述情感状态。

离散情感描述,主要把情感描述成离散的形式,是人们日常生活中广泛使用的几种情感,也称为基本情感。在当前情感相关研究领域使用最广泛的六大基本情感是生气、厌恶、恐惧、高兴、悲伤和惊讶。

相对于离散情感描述,维度情感描述使用连续的数值来描述情感状态,因此也称作连续情感描述。它把情感状态视作多维情感空间中的点,每个维度都对应情感的不同心理学属性。常用的维度情感模型是二维的激活度-效价(Arousal-Valence)模型,其二维空间如图1所示。其中横轴表示效价属性(Valence),用于衡量情感的正负面程度;而纵轴表示激活程度(Arousal),用于描述情感状态的唤醒程度。通过不同的效价度和激活程度,就能区分出不同的情感,比如悲伤与生气两种负面情绪虽然效价相差无异,但两者的激活度却有很大差异。

3 语音情感特征

传统的语音情感特征可粗略地分为基于声学的情感特征和基于语义的情感特征。基于声学的情感特征又分为3类:韵律学特征、音质特征以及频谱特征[1]。音高、能量、基频和时长等是最为常用的韵律学特征,由于韵律学特征具有较强的情感辨别能力,已经得到了研究者们的广泛认同。音质特征主要有呼吸声、明亮度特征和共振峰等,语音中所表达的情感状态被认为与音质有着很大的相关性。频谱特征主要包括线性谱特征和倒谱特征,线性谱特征包括Linear predictor cofficient(LPC)、log-frequency power cofficient(LFPC)等,倒谱特征包括mel-frequency cepstral cofficient(MFCC)、linear predictor cepstral cofficient(LPCC)等。此外,基于这3类语音特征的不同语段长度的统计特征是目前使用最为普遍的特征参数之一,如特征的平均值、变化率、变化范围等。然而到底什么特征才最能体现语音情感之间的差异,目前还没有统一的说法。

在2009年首次举办的国际语音情感挑战INTER-SPEECH 2009Emotion Challenge(EC)的分类器子挑战中,组织者为参赛者提供了一个基本特征集,选择了在韵律学特征、音质特征和频谱特征中广泛使用的特征和函数,包括16个低层描述子(Low-Level Descriptors,LLDs)和12个函数,构建了一个384维的特征向量[2]。具体的16个低层描述子和12个函数如表1所示。

资料来源:文献[2]

4 语音情感库

语音情感库作为语音情感识别的前提条件,影响着最终语音情感识别系统的性能。目前,在语音情感库的建立方面还没有统一的标准,已构建的情感语音库多种多样,在语言、情感表现方式(表演型(acted)、引导型(elicited),自发型(naturalistic))、情感标记方案(离散情感或者维度情感)、声学信号条件、内容等方面具有很大差异。从情感表现方式而言,表演型情感一般是让职业演员以模仿的方式表现出相应的情感状态,虽然说话人被要求尽量表达出自然的情感,但刻意模仿的情感还是显得更加夸大,使得不同情感类别之间的差异性比较明显,这方面的语音情感库有Berlin Emotional Speech Database(Emo-DB)、Airplane Behavior Corpus(ABC)等[3,4]。早期对语音情感识别的研究都是基于表演型语料库,随着人们意识到引导型情感具有更加自然的情感表达之后,研究者们开始基于引导型情感库进行研究,比如eNTERFACE[5]。随着研究的深入,迫切需要一些自发的语音情感数据,目前出现了FAU Aibo Emotion Corpus(FAU AEC)、TUM AduioVisual Interest Corpus(TUM AVIC)、Speech Under Simulated and Actual Stress(SUSAS)和Vera am Mittag(VAM)[2,6,7,8]。常用的几个语音情感库如表2所示,描述了他们在年龄、语言、情感、样本个数、记录环境和采样率之间的差异。

5 语音情感挑战赛

虽然已经有很多研究致力于语音情感识别,但是相对于其它语音任务(如自动语音识别和说话人识别)而言,语音情感识别中还不存在标准的语音情感库和统一的测试条件用于在相同条件下进行性能比较。同时,为了处理更加现实的场景,需要获得自然的语音情感数据。国际语音情感挑战INTERSPEECH 2009EC旨在弥补出色的语音情感识别研究和结果可比性之间的缺陷,它提供了自然的语音情感库FAU AEC,以及开源工具包openEAR来提取基本的384维特征集,保证了特征的透明性,从而使得结果具有重现性和可比性[9]。FAU AEC库包括了德国两个学校(Ohm和Mont)10~13岁的孩子与索尼公司的机器狗Aibo进行交互的语音数据。为了实现说话人独立的语音情感识别,通常学校Ohm记录的数据用于训练,而Mont记录的数据用于测试。INTERSPEECH 2009EC的情感分类任务主要包括2类情感(负面情感、所有其它情感)分类和5类情感(生气、同情、积极、中立和其它)分类,目前已有很多研究基于FAU AEC库进行情感分类。除了在FAU AEC库上进行传统的语音情感识别外,随着跨库语音情感识别研究的深入,很多研究者也将FAU AEC作为目标域数据库进行域适应的研究。

6 语音情感识别的主要挑战

6.1 语音情感特征

在传统语音情感识别中,提取具有判别性的特征已经成为一个重要的研究方向。在情感特征提取过程中,通常存在一些与情感无关的因素,如说话内容、说话人、环境等,这些不相关的因素将会使得提取到的特征包含这些因素方面的变化,从而影响情感分类性能。

目前已有部分研究开始考虑这些与情感无关因素的影响。同时,随着深度学习的提出与发展,越来越多的研究者开始使用深度神经网络进行特征提取。Chao等[10]利用无监督预训练去噪自动编码器,减少了情感特征中说话人的影响。Mao等[11]提出了半监督卷积神经网络模型,提取情感相关特征,通过实验证明其对说话人的变化、环境的滋扰以及语言变化都有很强的鲁棒性。Mariooryad等[12]对特征构建音素层次的弹道模型,从声学特征中分解出说话人的特性,从而弥补说话人对语音情感识别的影响。

6.2 跨库的语音情感识别

在传统的语音情感识别中,训练数据和测试数据一般来自同一个语料库或者具有相同的数据分布。随着数据的爆炸式增长,从不同设备和环境下获得的语音数据通常在语言、情感表现方式、情感标记方案、声学信号条件、内容等方面存在很大差异,这就造成了训练数据和测试数据分布的不同,传统的语音情感识别方法就不再适用。

近年来,迁移学习(Transfer Learning)的概念被提出,指从一个或多个源域中将有用的信息迁移到相关的目标域,以帮助改善目标域的分类性能[13]。域适应(Domain Adaptation)作为一种特殊的迁移学习,已成功应用于跨库的语音情感识别。Deng等[14]提出一种共享隐藏层自动编码器(shared-hidden-layer autoencoder,SHLA)模型,相较于传统的自动编码器,SHLA的输入数据包含了源域和目标域两类数据,让两个域的数据共用编码部分而解码部分不同,目的是诱使两个域的数据在隐藏层空间具有相似的数据分布。Huang等[15]利用PCANet沿着从源域到目标域的路径提取特征,并用目标域空间来调整路径上的特征,以此弥补域之间的差异。

摘要:随着情感计算成为人工智能的一个重要发展方向,语音情感识别作为情感计算的一个重要组成部分,受到了广泛关注。从情感描述模型、语音情感特征、语音情感库、语音情感挑战赛这4个方面对语音情感研究现状进行总结,并给出目前语音情感识别技术存在的挑战,以及相应的研究方法。

6.语音识别 理想与现实的距离 篇六

很小的时候爱看科幻小说,在那样的小说中,曾经看到过科幻小说家预言未来的人会长成什么样子。按照达尔文的进化理论,未来的人脑袋将会变得极其之大,而四肢则渐渐退化。因为人类通过聪明的大脑,逐步让四肢从繁琐的工作中解放出来,最终就会变成脑袋庞大而四肢退化的模样。而语音识别(Speech Recognition)就是在这种科幻进程中解放我们双手的一项重要技术。

让机器直接能够听懂人类的语言,一直以来都是人类梦寐以求的愿望。可是语音识别技术虽行之有年, 但进展却似乎缓慢。当记者走进中科院声学所的中科信利语音实验室,才切身体会到,其实语音识别离我们并不遥远。

哼唱识别系统

不久前,中科院声学所的中科信利语音实验室开发出了一种“哼唱检索系统”,无需鼠标键盘,对着话筒哼唱出歌曲的旋律就可以检索到哼唱歌曲的曲名。当记者在中科信利语音实验室的会议室,面对屏幕,拿着话筒哼起一段邓丽君的《甜蜜蜜》的旋律时,大概只用了6~10秒,检索系统就自动检索出来了所哼唱旋律的歌名,并附上了完整的歌词。

“哼唱检索系统是通过旋律匹配进行检索的。”博士毕业论文专门研究哼唱检索系统的语音助理研究员李明介绍说。哼唱检索系统根据歌曲旋律的走势来匹配检索,而不是通过音调。因为音调的基准会有所不同,这就大大降低了检索识别的适用性。所以,对于哼唱检索系统的使用者而言,哼唱节奏的快慢,以及记得歌词与否,都对检索识别没有影响。正是因为此,这套系统在由美国伊利诺斯大学负责主办的国际音乐信息检索评测比赛(MIREX)中,以92%的准确度获得了第一名的好成绩。

任何系统都不能只存在于实验室中,哼唱检索系统业理所当然要走出实验室。“我们的哼唱检索系统已经在河北等地的移动彩铃业务中应用了。”中科信利语音实验室研究室主任颜永红说。“用户通过哼唱一段旋律,就能查找到自己听过却不知道名称的歌曲或彩铃,然后进行点播和下载。这种大规模的商业应用,已经进入了成熟阶段。”颜永红还表示,实验室正在着手和互联网几大音乐内容提供商合作,相信在不久的将来,就可以实现在互联网上哼唱一段旋律来检索歌曲名称。

提高识别率

对于中科信利语音实验室研究出来的这套哼唱识别系统,还有一个更好的应用前景就是在KTV等场所的歌曲检索。对于爱好唱歌的人而言,一定都有过这样的经历: 往往熟悉一首歌曲的旋律,却记不住歌曲的名称。特别是在KTV点唱时,K友常常会遇到这样的问题,想唱却又找不到歌名。哼唱检索系统正好解决了这样的问题。试想,当有一天,我们在KTV中点歌时,不必再通过繁琐的手动操作界面,而只需要通过口头来完成,那种感觉又岂是方便两个字能简单概括的。而这种搜索模式的实现,其实只要在KTV的点歌系统中嵌入哼唱检索系统的技术就可以了。

但是,中科信利语音实验室开发出来的哼唱检索系统对哼唱的环境是有所要求的。“我们的检索环境要求是要相对安静的。”李明这样介绍说。那么,对于KTV中过于嘈杂的语音环境,哼唱检索系统,如何发挥他的威力呢?

“目前语音识别技术需要解决的问题,一个是对噪音环境的处理,一个是对不同口音的识别,再一个就是要不断提出好的算法。”颜永红这样对记者说到。语音识别技术的基本原理就是对输入的语音信号进行分析,抽取语音特征参数与存储器中的语音模板的参数进行匹配识别。因此,语音识别技术不仅对识别的背景、噪声干扰有要求,同时,对说话者的清晰程度、连贯程度,以及是否口语化是否带口音,也都有要求。这些正是导致语音识别技术识别率不高的主要原因,也是导致语音识别技术一直没有能够大规模展开应用的瓶颈。

如何提高识别率一直都是语音识别技术不断挑战的问题。基于目前的语音识别技术,语音识别的应用,应该是相对小众的,而且面对特殊人群的。例如,某一领域,相对安静背景的语音识别的应用,又或,就目前而言,语音识别技术对于盲人群体的作用与帮助要大大高于一般的正常人。

语音识别搜索

语音识别技术一个很有效的应用,就是语音识别搜索。“语音识别搜索主要有三种方式: 原声搜索、旋律匹配搜索和语音搜索。”中科信利语音实验室副研究员赵庆卫博士告诉记者。原声搜索是针对原始声音进行完整匹配的搜索。除人声外,其他周遭的一切声音都可以针对原声搜索出其位置。而哼唱检索系统就是典型的旋律匹配搜索。至于语音搜索,是指针对某一特定人员的语音进行筛选搜索的方式。

在信息疯狂膨胀的时代,对于浩瀚信息中的有效资源搜索毫无疑问是相当重要的。而且,信息已经不单纯是以往的纯文本,而是逐步发展到了音频、视频领域。以往单纯通过音频、视频文件的文本标签来搜索音、视频文件已经不足以满足用户的需求。通过语音识别对音、视频内容的搜索已经开始广泛应用。

美国的Blinkx就是最先开始应用语音识别进行内容搜索的网站之一。而在国内,openv.tv也露出了做专业的电视及视频搜索引擎的意图。当文字搜索已经发展到几乎没有上升空间的时候,微软、Google这些技术巨头也开始瞄准未来的语音、视频搜索市场。

未来无限大

语音识别芯片的应用范围其实十分广阔: 电话通信中的语音拨号、汽车的语音控制、工业控制及医疗领域的人机语音交互界面、个人数字助理(Personal Digital Assistant,PDA)的语音交互界面、语音智能玩具、家电的语音遥控等。解放双手,丰富沟通,是在这些领域应用的共性。

除此之外,语音识别还可以给我们带来更多的便利。“语音识别的关键一个是发音评估,一个是内容识别。”赵庆卫说。除了哼唱检索系统以外,中科信利语音实验室在音频水印、发音纠正、语种识别等方面都有成果。音频水印是以编码方式嵌入音、视频文件,主要应用于音、视频文件的版权保护、保密通信以及广播监听。发音纠正软件可以对说话人的发音进行评估和分析,特别有助与用户的语言学习。据赵庆卫介绍,这种发音纠正已经用于国内部分地区推广普通话的进程中了。

“市场每年;都在变大。”谈及语音识别市场的未来时,颜永红如是说。根据半导体行业的摩尔定律,硬件成本过高是导致语音识别技术无法在家电等领域应用的主要原因。“早在2002年,技术上就已经实现在电话上应用语音识别技术了,但是却只能用在部分高端手机上。”颜永红说。

中科信利语音实验室目前一直在和致力于芯片技术的厂商合作,从而有效地解决了语音处理过程中遇到的噪声等问题,提高了声学语音传达的准确性,与语音识别软件技术形成优势互补。

7.外语口语训练中语音识别技术研究 篇七

【关键词】外语口语训练      语音识别技术     关键技术     研究

一、引言

随着我国外语教学的不断发展,各种外语口语教学工具与学习方法也应运而生。然而外语口语的学习对于学习者而言既是重点也是难点,当前的计算机辅助教学只是侧重于外语单词记忆教学与语法教学,并且因为外语口语学习者的学习水平不一,在学习过程中很难将自己的不正确发音找出来。于是,在外语口语学习中就可以应用语言识别技术,该系统具备外语口语发音的纠正功能,学习者通过该系统进行外语口语的学习与练习,就能纠正自己错误的发音,避免因为多次错误发音而形成不良习惯。因此,对外语口语训练中语音识别技术进行研究,能够提高外语口语学习者的学习效率。

二、外语口语学习中语音识别技术应用的重要意义

随着中国改革开放程度的深化以及全球经济一体化的飞速发展,世界各国的交往越来越频繁,学习并掌握一门外语,对于人们的工作与生活而言,已经成为必不可少的工具。在学习外语的需求不断增长的情况下,出现了各种外语教学方法、教学工具以及语言学校等,然而国人在外语学习过程中,外语的口语教学与学习一直是较难突破的难题,其主要原因有以下几个方面:

(一)各种外语发音的特点与汉语发音的特点存在较大差异,因而可能导致国人在学习外语时由于受到母语的深厚影响而犯下许多自己根本无法察觉或者是很难察觉的发音错误。

(二)目前在国内合格的外语口语教师还是很少,自己发音标准又能够准确地指导别人进行口语学习的外语教师,即便是在一些大中城市的中小学中也相当缺乏。同时,一般的媒体教学也不能够针对学生的特定情况,有效地让学生与教师互动进行口语训练,只能够单方面地进行传授,所以起到的作用也不是很有效。

外语口语训练中语音识别技术的应用,让软件具备了矫正错误发音的功能,能够为学习者及时改正错误的发音提供帮助,从而有效避免错误反复而变成一种恶性习惯,并使外语学习者口语学习的效率与效果得到一定程度的提高,获得更大的市场价值与社会效益。

三、外语口语训练中语音识别的关键技术

(一)语音识别

在语音识别技术中,语音识别是第一步也是最重要的一步,接下来几个步骤的精确度都会受其影响,它能够在语法与音素模型的基础上,将输入的语音信号翻译成单词串。同时,许多基于计算机的语言训练活动都可以应用这一部分,比如基于语音的选择题或者是与计算机的对话训练等等。

(二)语音评分

在基于语音识别技术的外语口语学习系统中,语音评分技术是最基本也是最核心的组成部分。语音评分技术能够评价并反馈学习者的口语发音情况,可以让学习者通过反馈的结果对自己的学习结果进行检查。通常情况下,按照语音评分技术,目前的外语口语学习系统主要可以分为两种:一种是基于语音特征比较的评分方法,它通过将学习者的发音与标准语音进行对比参考,从一个较为主观的角度对一段语音质量进行评价,通常采用动态时间规整技术实现,因为其具备运算量小的特点,因而在嵌入式系统与手持设备中运用较多;另一种是基于声学模型的评分方法,它能够通过语音识别技术将以计算发音质量所需的小单元切割出来,然后再通过事先训练好的声学模型与其进行对比,最后根据评分机制对其评分,因为该方式较为客观,目前主流的外语口语学习系统中均采用这种技术,其主要是基于隐马尔可夫模型(HMM)技术实现。

如图1,基于HMM的语音评分流程图所示,其语音评分的关键技术分为以下几步:

图1  基于HMM的语音评分流程图

1.首先,对学习者所输入的语音进行特征提取;

2.其次,将已经训练好的HMM作为模板,再采用Viterbi算法将语言以计算发音质量所需的小单元进行分割,并强制对齐;

3.最后,采用不同的评分机制对不同的需要进行评分,将评分结果得出。同时,在某些情况下,要注意将说话验证在语音评分开始时加入,从而将学习者发音内容与标准发音完全不同的部分挡下,保证整个口语学习系统的可信度更高。此外,由于同样的声音可能代表的意义不同,因而在这些更加复杂的应用中,需要将各种词发生概率的大小、上下文的关系进行综合考虑,并将语言模型加入,从而为声学模型的判断提供更好的辅助。

(三)发音错误检测与错误纠正

对于外语学习者而言,虽然知道系统能够评价其发音质量,但是单凭非母语学习者自己对其自身错误的所在还是不能清楚地了解到,对这个错误也不知道如何进行纠正。因而,外语口语学习者需要通过系统对发音的错误进行检测与定位,并将相应的错误纠正建议提供给学习者进行有效纠正。

1.发音错误的检测与定位

在外语口语训练中,导致错误发音的因素有很多。例如学习者不会发某种声音,或者是受到其他语言拼读方法的影响以及不能正确体会到两种声音的差别等等。语音识别器也是发音错误检测中使用的一种方法,比如用母语训练的语音识别器,但是因为在没有使用自适应技术的情况下,学习者发音的识别错误也有可能会当成是发音错误,因而这种方法就很难准确地检测到非母语学习者的发音是否正确。所以,目前对错误发音的检测比较合理的一种做法是:首先以发音专家的知识为依据,严格将容易出错的发音进行合理的分类,然后以不同的错误类型为依据,将其相应的检测算法设计出来,最后用各种错误检测算法对学习者的发音分别进行检测。

2.发音错误的纠正

系统将发音错误检测出来后,同时就对学习者所犯的错误根据专家关于发音错误的知识给出相应的错误提示与错误纠正建议。其中,对于这些发音专家知识的构建而言,是通过事先收集大量的经验数据而积累而成的,例如不同学习者的发音特点等,然后通过数据挖掘的聚类算法将不同学习者不同发音特征的聚类准确地计算出来,再由专家客观地评判分类的发音,最后将各聚类的改进建议提出来。

(四)回馈展示

在基于语音识别技术的外语口语学习系统中,这一部分是整个系统对用户的窗口,上述部分所产生的信息都可以通过分数条或者是数字的形式为外语学习者展示出来。同时只有通过这个模块,外语学习者才能够从基于语音识别技术的外语口语学习系统中获益,所以,整个系统的可用度都通过这一模块设计的好坏来决定。

四、结语

总而言之,随着社会经济与科学技术的快速发展,各种带有语音识别技术的便携式终端设备出现在人们的日常生活与学习中,为广大外语爱好者与学习者提供了不受教师资源、地点以及时间等限制的智能外语学习系统,有效地提高了外语学习者的学习效率与学习效果,相信在未来,也能够为外语学习者们提供更快、更好的电子学习手段。

【参考文献】

[1]卢永辉.语音识别技术在外语口语训练中的应用[J].电脑知识与技术,2014(04):836-837,843.

[2]吴艳艳.孤立词语音识别的关键技术研究[D].青岛:青岛大学,2012.

[3]涂惠燕.移动设备平台上英语口语学习中的语音识别技术[D].上海:上海交通大学,2011.

[4]孔菊芳.基于语音识别技术的英语学习网站分析[J].哈尔滨职业技术学院学报,2012(05):65-66.

8.语音识别中环境失配补偿综述 篇八

随着信息技术的迅猛发展,信息的获取、交互与处理已成为推动当今社会发展的强大动力。以计算机为中心的信息技术不断地改变着人们的生活方式,这一过程被誉为信息革命,而信息革命的提出也已成为继工业时代之后的知识时代里的里程碑式的重大事件[1]。语音是人类最自然、最常用的信息交流方式。无论是在生活中还是在快速普及的互联网上,语音作为主要媒体之一,承载着大量的有用信息。因此,对语音中的信息进行分析、处理与识别无疑具有广阔的应用前景。作为语音处理的支撑技术之一,语音识别以识别语音信号并将其转换成文字为目标,在智能人机接口、机器人语音理解、语音内容分析、军事侦查、工业控制、听写机、语言辅助学习和呼叫中心等领域有着广泛应用。

语音识别的历史可以追溯到上世纪30年代初,当时的研究者们尝试识别特定的声音,并开始从声学角度识别音素或数字等,但其任务只是局限于小词表孤立词识别。上世纪60年代到80年代,语音识别技术得到了较快发展,典型的进展是基于线性预测的频谱分析[2,3]、基于线性规划的语音时间对齐方法[4]以及矢量量化的成功应用[5],识别任务也发展到了中等规模的孤立词识别和连接词识别[6]。上世纪最后20年里,语音识别技术取得了长足进步,最重要的标志是隐马尔可夫模型(Hidden Markov Model,HMM)在语音识别领域的创新性应用[7,8],同时还辅以前向后向算法、K均值训练算法、维特比解码算法、基于神经网络的条件概率估计方法[9]以及提出的各种模型自适应方法,使语音识别迈向了非特定大词表连续语音识别(Large-Vocabulary Continuous Speech Recognition,LVCSR)的新阶段。近十年来,语音识别获得了进一步的飞速发展,出现了区分性训练、不确定性解码、噪声鲁棒性以及机器学习等一系列新技术,语音识别已经逐渐走出实验室,不断进入实际应用。

经过数十年的发展,语音识别技术取得了巨大进展,在理想环境下,目前的小词表以及中等词表语音识别系统的识别率能达到99%以上,LVCSR系统识别率也能超过95%[10],但在训练和测试条件不匹配时,识别率就会急剧下降。有众多因素会造成这种不匹配,较为典型的主要有:声学环境失配、说话方式差异、说话人差异以及词汇量和领域差异。

其中,声学环境差异是导致系统性能下降的主要原因,也是语音识别系统走向应用所面临的最大挑战。声学环境可以用如下公式建模:

式中,x(τ)和y(τ)分别为干净语音和畸变语音,h(τ)和v(τ)分别为信道畸变和加性噪声。从式(1)可以看出,造成环境失配的主要原因在于噪声的存在,这种噪声可能是加性的,卷积性的,也可能是两者的混合。诸如训练环境没有噪声而测试环境存在噪声,或者训练环境和测试环境存在不同的噪声,这都会引起环境失配。文献表明,当存在信噪比为10dB加性噪声时,未做任何补偿的孤立词识别系统的识别率将从99%降到49%[11];随着信噪比继续降低,语音识别系统将无法使用。相比较而言,人的听觉在噪声情况下则具有很强的鲁棒性。研究发现,在噪声环境下人的误识率虽然也会增加,但其降低的速度与当前的语音识别系统相比,则要慢上许多[12]。本文正是针对语音识别中环境失配问题,研究并提出增强系统环境鲁棒性的有效方法,从而推动语音识别技术走向现实应用。

1 国内外研究现状与分析

式(1)是声学环境的数学描述,全面刻画了信道畸变和加性噪声。在现实应用中,环境失配存在三种可能的情况,即信道畸变、加性噪声和二者同时并存。相应地,目前的环境失配补偿方法也可以大致分为信道畸变补偿、加性噪声补偿和联合补偿三类。下面将按照这一分类方式阐述环境失配补偿的研究现状。

1.1 加性噪声补偿方法

加性噪声在时域和频域都呈加性,但在对数频域和倒谱域则因对数运算表现出了高度非线性。加性噪声的补偿大致可以分为特征规正、特征增强和模型补偿三种方式。特征规正首先假定语音特征服从某一概率分布,而噪声的存在却改变了这种分布,可通过规正特征使其实现指定的概率分布,因此减小了噪声的影响。比如,倒谱均值规正(Cepstral Mean Normalization,CMN)[13,14]中通过在一个时间段内统计倒谱均值,然后从各帧中减去这一均值,达到了减小噪声影响的目的。倒谱均值方差规正(Cepstral Mean Variance Normalization,CMVN)[15]实现了同时规正倒谱特征的均值和方差,使得规正后的特征均值为零,而方差为一。倒谱直方图规正(Cepstral Histogram Normalization,C-HN)[16]则是用倒谱直方图代替其概率分布,通过将直方图规正到已知的形状以达到规正倒谱概率分布的目的。

加性噪声的补偿中的另一种,特征增强则是可以通过增强信号后提取特征、或者直接补偿特征来达到增强识别系统鲁棒性的目的。

在信号增强方面,谱减[17]和非线性谱减[18]是出现得较早且研究得较多的语音增强方法。谱减法首先利用噪声段估计噪声谱,然后从各帧语音谱中减去噪声谱以实现信噪比的提高。而针对谱减法会形成残留噪声(音乐噪声)的不足,非线性谱减法则通过比较噪声谱和混噪语音谱后采取分段处理策略,即能有效减少残留噪声,但以上这两种均不适用于快速时变的噪声环境。维纳滤波也已广泛用于语音增强,该方法在基于干净语音和输出语音的均方误差最小的条件下来设计线性滤波器处理混噪语音。欧洲分布式语音识别编码和传输标准[19]就采用了两阶段的梅尔弯折维纳滤波器。而且自适应滤波和卡尔曼滤波[20]对时变噪声的表现出了一定的跟踪能力。子空间降噪方法[21]是将混噪语音投影到一个子空间,并认为清晰语音和噪声分布在不同的分量上,通过压制噪声所代表的分量实现降噪。经过文献分析可知,语音信号或频谱被增强后,噪声的成分将有所减少,理论上由其提取的特征所受到的噪声影响也会相应地变小。

在特征增强方面,基于数据驱动的方法因其运用效果显著而受到广泛关注。这类方法在建立清晰语音和混噪语音之间的关系方面,需要清晰环境和噪声环境下同时录制并要求得到对齐的立体声数据。微软的学者们在这方面作了深入研究,提出了一系列方法。Acero等提出了基于码字的倒谱规正(NR-Dependent Cepstral Normalization,SDCN),其中假定清晰语音的特征服从高斯混合(Gaussian Mixture Model,GMM)分布,通过迭代的方式在混噪语音上估计噪声参数,进而补偿混噪特征。邓力等提出的SPLICE[22]是通过学习混噪语音和清晰语音特征的联合分布,然后运用混噪特征得到清晰特征的最小均方误差(Minimum MeanSquared Error,MMSE)估计。另一种使用立体声数据的补偿方法是RATZ[23],该方法仍然使用高斯混合函数实现清晰语音建模,其后运用MMSE估计获得清晰语音的估计值。尽管基于立体声数据的补偿方法能取得较好效果,但却需要预先知道噪声环境以及相应的立体声数据,应用条件苛刻,因而对于未知声学环境并不适用。

目前,多数方法均建基于对噪声的建模与估计,但是,噪声的时变特性以及其与语音之间的复杂作用方式却使得对噪声的建模与估计非常困难且不可靠。丢失数据技术[24]不对噪声作任何假设,也无需为噪声建模与估计,而只需要知道噪声对语音频谱污染的量级程度即可实现噪声畸变的补偿。该方法在前端用一个标记向量将语音特征分为可信的和不可信的两部分,在后端或者丢弃不可信部分,直接利用可信部分进行识别,或者利用统计的方法重估丢失部分特征,然后利用可信部分和重构部分进行识别[24,25]。标记向量根据语音谱的局部信噪比确定,最初只含有元素0和1,分别表示对应特征完全丢失和完全可信,而后扩展到可以取0~1之间的任何数,即所谓的软决策[26,27]。丢失数据方法最初运行在对数频谱域,后来又拓展到倒谱域[28,29]。在丢失频谱的重构方面,可以采用基于最大后验概率或基于聚类的估计方法[25]。在估计过程中,各种先验知识也可以参与其中,最为常用的则是时频相关性。比如文献[30]在频谱上组合传统的基于频率相关性和基于时间相关性的方法重构丢失特征,并对二者进行了一个合理的权衡,取得了一定的效果。基于丢失数据技术的方法虽然不需对噪声进行建模和估计,在信号处理上也类似于人耳对声音的处理方式,但在计算标记向量时却需要判断混噪频谱是否可信,这就同样存在着一个难以解决的问题。与丢失数据方法类似的另一种方法是不确定解码方法[31]。该方法根据信噪比对不同的特征赋予不同的置信度,并在后端充分考虑这些置信度以达到提高系统鲁棒性的目的。

近年来,随着稀疏分解与重构理论的成熟,稀疏编码(Sparse Coding)[32,33]在信号处理的各个领域表现出了巨大潜力。该技术在稀疏性准则下将信号用一组基元信号线性表示,获得信号的稀疏表示(Sparse Representation)。其中,每个基元信号称为一个原子(Atom),所有原子组成的集合称为字典(Dictionary)。稀疏性是指信号被分解到某个字典上时,仅有少量原子的系数不为零。现实中的大量信号,如语音、图像等都满足或近似满足稀疏性[34];另有研究表明,人类的感知神经系统在对外部刺激进行编码时也总是从海量神经元中仅仅激活其中极少的一部分[35,36]。这就意味着人类的感知系统在处理信号时,也利用了稀疏性原则。稀疏性似乎是信号本身具有的特点,是一种先验知识;而稀疏编码的有效性却正是利用了这种先验知识。作为一种新兴的技术,稀疏编码可广泛用于信号压缩、分析、去噪和分离等[37]。尤其是近年来,该技术在图像处理及模式识别领域的有效应用[38]使其得到了更加深入和广泛的探索与研究。

用稀疏编码增强语音频谱需要解决三个问题,即字典构建、稀疏分解和频谱重构。字典构建是稀疏编码的首要问题,目的在于选取有代表性的基元信号(原子)构成字典。目前的方法大致可分为基于选择的和基于学习的两类。基于选择的方法从预先定义的基函数中直接选取需要的原子组成字典[39,40,41]。基于学习的方法则在满足重构误差要求的情况下,从大量数据中选取一组能稀疏表示信号的原子组成字典[42,43]。稀疏分解的目的在于将信号表示为各原子的线性组合,其求解过程是非线性的;典型的方法有正交匹配追踪算法(Orthogonal Matching Pursuit,OMP)[44]、匹配追踪算法(Matching Pursuit,MP)[32]和基追踪去噪算法(Basis Pursuit Denoising,BPDN)[45,46]等。频谱重构则利用稀疏表示和字典重构干净频谱,其过程是线性的。近年来,在语音及特征增强方面,稀疏编码开始应用于语音增强[47,48]和鲁棒语音识别[49,50]。但在用法上大多是将稀疏编码作为工具简单使用,缺乏针对语音信号特殊性的有效分析和应用。如果硬件和应用场合允许,基于麦克风阵列的语音增强也可用于信号去噪以及特征提取。麦克风阵列可以首先确定声源位置,然后采用空域滤波的方式,通过自适应滤波器增强某一位置的声音,同时抑制其他位置的声音,典型的方法有基于波束形成的方法[51]、多通道维纳滤波[52]、多通道子空间方法[53]和空间-时间预测法[54]等。但基于麦克风阵列的增强方法对硬件有较高要求,也不适合处理已经存在的单通道语音信号。

1.2 信道畸变补偿方法

当加性噪声可被忽略时,信道畸变在时域表现出卷积性,而在频域则表现出乘积性。因此,目前的方法普遍认为,信道畸变在对数频谱域或在梅尔倒谱域是一个加性的常量。补偿方法也可分为特征规正、特征补偿和模型补偿。特征规正类方法中,最为典型的则是CMN和相关谱滤波(RelAtive SpecTrA,RASTA)[55]。CMN认为信道影响存在于特征的直流分量中,在各帧中减去均值即可消除直流分量,从而去除信道影响。RASTA则提出信道产生的畸变存在于信号的慢变分量中,通过设计一个低通滤波器抑制信号的慢变分量,以达到抑制信道畸变的目的。CMN和RASTA是两种标准的规正处理方法,被广泛用于语音识别系统中,但文献中大量实验表明RASTA在没有畸变时反而会降低系统识别率。此外,文献[56]又提出可通过一个梅尔频域的带通滤波器逐帧处理畸变语音。该方法首先通过区分性函数进行重要性分析求得滤波参数,然后利用传统的特征轨迹滤波方法去除信道影响。实验表明,该方法与CMN和RASTA组合后则能够能进一步提高识别率。在特征补偿方面,基于贝叶斯框架的信道参数估计方法[57]是假定信道畸变为一个加性常量,并分别在假定语音服从高斯、高斯混合模型和隐马尔可夫模型的情况下,利用最大似然、最大后验概率在畸变语音中估计得到信道偏移量。补偿时,通过在特征中减去信道偏移量,达到补偿信道畸变的目的。在模型域,信号偏移量去除法(Signal Bias Removal,SBR)[58]在声学模型上使用期望最大化算法(Expectation Maximization,EM)迭代地估计信道偏移量,然后在模型域修改高斯均值,最后利用修改后的模型识别畸变语音。文献[59]用丢失数据技术,将倒谱特征的静态和动态参数表示成对数频谱的线性组合。该方法基于丢数据框架,利用噪声谱的可信部分,在对数频谱域或倒谱域使用最大似然准则估计一个直流偏移量以实现信道畸变的补偿。

近年来,研究者们开始关注语音识别中另一类由信道引起的畸变,即窄带语音畸变问题[60,61,62,63,64]。当待识别语音的带宽比训练语音的带宽窄时,与训练语音相比,待识别语音即丢失了部分频段,这种情况也将导致环境失配[60]。这一问题在复杂信道环境(比如互联网、分布式语音识别等)中广泛存在。在增强语音质量方面,解决这一问题的方法是人工频带扩展(Artificial Bandwidth Extension,ABE),即将窄带语音的频带加以扩展,使其成为宽带语音。典型的任务是将带宽为0~3.4kHz的窄带语音扩展为0~8.0kHz的宽带语音。ABE用以解决的问题就是利用现有窄带数据,重构得到3.4kHz~8.0kH频段的频谱。目前大多数方法都基于语音的源-滤波器产生模型。这些方法首先产生一个激励信号,然后用一个滤波器模拟声道处理激励信号以生成高频段频谱,再组合窄带信号和重建的高频信号,而最终获得宽带信号。在激励信号方面,目前常用的方法有频谱折叠、频谱变换和非线性处理等[65],也可使用正弦合成[66]或调节噪声模拟激励源[67]。声道通常用一个全极点滤波器进行模拟,而滤波器参数可以是线性频谱或倒谱系数[66]。因窄带信号是已知的,可以利用窄带特征估计高频段滤波参数。常用的方法有基于码本[66,68,69]、高斯混合模型[70,71]、隐马尔可夫模型[72,73]以及人工神经网络[66,74]等的方法。

尽管从信号增强的角度已经开展了大量工作用于扩展频带,但也有研究表明,直接运用上述方法扩展频带后所提取的特征在提高系统识别率上将非常有限[75]。原因在于用ABE方法重构的高频段虽然能提高测试个体的主观听觉,但这和提高识别准确率的目标并不一致,由此提取的特征在识别时仍然存在失配问题。研究者们尝试直接以语音识别为目的补偿带宽失配。在这些方法中,环境自适应类方法对此类畸变有一定效果,文献[60]将基于GMM的频段扩展方法和基于HMM的声学模型结合在一起,实现宽带声学模型对窄带语音的识别。文献[61]采用特征域的限定最大似然线性回归(Constraint Maximum Likelihood Linear Regression,CMLLR)将宽带特征直接转变为窄带特征,而后用于窄带声学模型的训练。文献[62]和[63]通过训练数据学习得到一组矫正函数以实现畸变语音特征向干净语音的转变;而文献[64]则在丢失数据技术框架下利用语音频谱的时频相关性,实现丢失频段的重构。尽管以上这些方法都是以提高语音识别或语音检索系统的性能为目的,而且取得了一定的效果,但其本质上仍是特征域补偿方法,而且又严重依赖于训练数据。而且这些方法要获得良好实现,一方面需要大量训练数据,另一方面要求语音带宽稳定。此外,这些方法只是单纯地补偿窄带引起的畸变,而对常规信道畸变却未能同时加以考虑,因而将导致这些方法仅适用于单一的带宽失配场合,而不适合各种畸变并存的复杂环境。

1.3 联合补偿方法

当信道畸变和加性噪声同时存在时,就需要对这二者同时进行补偿。在特征域可以选用能有效表示信号的特征,在模型域可以选用数据驱动的方式实现各种自适应,也可以利用畸变模型估计噪声参数然后补偿声学模型。鲁棒特征提取旨在有效表示信号并提取受噪声影响较小的特征以提高系统鲁棒性。常用的特征有基于人耳听觉特性的梅尔频率倒谱系数(Me-Frequency Cepstrum Coeficient,MFCC)[76]、基于自回归模型的线性预测系数(Linear Prediction Coeficient,LPC)[77]和基于听觉感知的相对谱感知线性预测系数(RelAtive SpecTrA Perceptual Linear Prediction,RASTA-PLP)[78]。此外,目前较新的Teager能量倒谱系数(Teager Energy Cepstral Coeficient,TECCs)通过采用一种稠密平滑的滤波器组以及可变的能量计算策略,取得了比MFCC更好的噪声鲁棒性。而瓶颈特征(Bottleneck Feature,BF)[79,80]则借助含有少量显层和大量隐层节点的瓶状神经网络生成新特征用以提取,获得了一定成果。虽然研究者们在特征提取方面做了大量尝试,提出了一系列特征,也取得了一定的成果。但对当前还有哪些参数携带着最有用、最具鲁棒性的信息,却仍处于不明朗之中。因为特征参数能表示语音,在一定程度上也能表示噪声,换言之,特征参数中不可避免地混有噪声,这将引起识别率的下降。

由于噪声影响在倒谱域呈现高度非线性,Moreno[81]等提出用泰勒级数(Vector Taylor Series,VTS)将非线性关系近似展开成线性,同时假定清晰语音服从高斯混合分布,并运用每一句语音在线估计信道参数和噪声参数,然后再进行特征补偿。该方法无需额外训练数据,能在短时间内动态补偿噪声,具有一定的优势。

特征域补偿方法试图补偿语音特征,使其与模型相匹配,而模型域方法则修改声学模型使其适应输入的特征。匹配训练的思路较为直观,即直接采集某一噪声环境下的语音进行标注,然后重新训练模型,用来识别这一噪声环境下的语音。这也意味着每遇到一个新的环境,匹配训练都需要重新采集、标注数据以及训练模型,其结果虽能保证识别率,但耗时耗力,无法推广。多重风格训练[82]可以采集所有可能的噪声环境下的数据,用以训练声学模型。但该方法也带有明显弊端:一方面,对未知噪声环境中的噪声类型无法穷尽,另一方面,过多的数据会导致声学模型的区分能力降低。总之,匹配训练和多重风格训练虽然能得到较高的识别率,但运算量不小而且需要又大量未知噪声环境下的标注数据,不适合LVCSR,因而只能用于在实验中作为对比方法以考察其他方法的性能。

模型域方法更多采用的策略,则是训练干净环境下的声学模型,然后利用目标环境下的少量数据,通过模型适应的方式增强系统对环境的适应能力。模型分解方法[83]可修改声学模型的基本结构,既补偿了均值和方差,又能补偿高斯混合数和混合系数,因此能使因噪声污染而呈现非高斯分布的语音得到综合补偿。该方法训练一个干净语音HMM和一个噪声HMM,然后在这两个HMM组成的状态空间进行联合解码。混噪语音与清晰语音以及噪声之间的关系经常通过一个最大值算子加以近似,因此该方法对低能量语音帧建模存在误差。另外,该方法使用的是对数谱特征而不是倒谱特征,计算复杂度相当高。

并行混合模型(Parallel Model Combination,PMC)[84]将清晰语音的HMM和噪声HMM从倒谱域变换到线性频域,然后根据失配函数合成后,再变换至倒谱域,获得混噪语音的声学模型。数据驱动并行混合模型(Data-driven PMC,DPMC)则采用蒙特卡罗方法获得清晰语音和噪声的概率分布,然后进行混合,运算复杂度也很高。尽管文献报道PMC取得了好的效果,但该方法在实际应用中存在一定的缺陷,表现为,一方面需要为每种噪声训练模型,另一方面,当噪声时变时,还必须随时更新模型。

另外,各种自适应方法,诸如最大似然线性回归(Maximum Likelihood Linear Regression,MLLR)[85]、CML-LR和最大后验概率(Maximum A-Posteriori,MAP)[86]等用畸变环境下的标注语音进一步训练模型也能增强系统鲁棒性。这几种方法最初用于说话人自适应,而实验表明,这些方法也同样适用于环境自适应。MLLR假定清晰语音和混噪语音的模型均值和方差可以通过一个线性变换矩阵相互转换,然后在期望最大化(Expectation-Maximum,E-M)算法框架下通过最大化自适应数据的似然比得分,最终求得该变换矩阵。CMLLR与MLLR的不同之处则在于前者的均值变换矩阵与方差变换矩阵同一,而后者却无此限制。MAP自适应在最大化混噪数据后验概率的准则下重估模型参数。由于MAP估计的参数多于MLLR,因此需要更多的自适应数据。当自适应数据不足时,其性能明显低于MLLR,而随着自适应数据的增加,其性能将趋近于匹配训练方法。

2 结束语

9.基于DSP的语音识别系统设计 篇九

近年来,语音识别技术取得了飞速发展,并逐渐应用于通信、军事、人工智能、工业自动化等多个领域。目前的人机“交流”大多数是通过操作繁琐的键盘实现的,这就要求操作人员具备一定技能。语音识别技术的出现,使人们和机器通过自然语言交流成为可能,不仅解决了人机“交流”大众化中的障碍,提高了人机交互的效率,而且给人体无法接触或不便接触来实现操作控制的场合带来了极大的方便。

虽然人们早已在实验室环境下突破了大词汇量、连续语音和非特定人这三大障碍,但做此类研究需要一定的技术设备,并且难度较大。目前很多语音识别系统的识别率都很高,特别是中小词汇量非特定人语音识别系统识别精度已大于98%,特定人语音识别系统的识别精度就更高,这些技术已经能够满足通常应用的要求[1]。我们根据自身实际情况,选择特定人、小词汇量、孤立词来进行语音识别系统的研究。常见的语音识别方法有动态时间归整技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)[2]。由于HMM模型需要大量的前期训练工作和大量的存储资源,并且计算复杂,不太适合于在DSP系统中实现,更适合于在PC机上完成。DTW算法计算量较小,无需前期的长期训练,容易满足嵌入式应用要求,易于移植到DSP上实现语音识别,且能满足实时性要求,在特定场合可以得到较高的识别率[3]。

本文以TMS320VC5502作为处理芯片,配合TLV320AIC23共同构成嵌入式语音识别系统。系统利用DTW算法能够完成对特定人、小词汇量、孤立词的识别,并且能发出相应的控制信号,达到设计的要求。

1 系统的硬件结构

本系统由语音采集模块、语音处理模块和其他功能模块组成,语音信号由麦克风输入语音至TVL320AIC23B,AIC23对语音信号进行A/D转换和滤波后,再通过DSP芯片TMS320C5502对信号进行端点检测、特征参数提取等处理后得到MFCC系数,与模板库中的语音参数进行匹配识别,并通过LED闪灯次数检测识别结果。系统硬件结构框图如图一所示:

1.1 语音采集与输出模块

语音采集与输出模块主要由TLV320AIC23B来完成。该芯片是TI公司推出的一款高性能的音频Codec芯片,内置耳机输出放大器,支持MIC和LINE IN两种输入方式,且对输入和输出都具有可编程增益调节,针对音频领域的应用,该芯片高度集成了模拟电路功能。TLV320AIC23B的模数转换(A/D)和数模转换(D/A)部件高度集成在芯片内部,采样频率在8K到96K可编程设置,可在小型低功耗设计中实现高保真录音,并且回放出高质量的数字音频[4]。另外,TLV320AIC23B还具有低功耗、连接电路简单、性价比高的特点。

1.2 语音处理模块

语音处理模块采用的是TI公司一款高性能、低功耗、高性价比的16位定点DSP芯片TMS320VC5502,兼容TMS320C54X系列芯片指令系统,最高可在300MHz主频下工作,具有16kBytes的缓存和17 bit×17 bit双乘法器,并带有32 k×16 bit的RAM和16 k×16 bit的ROM。其片上外设主要包括时钟发生器、DMA控制器、外部存储器接口(EMIF)、主机接口(HPI)、I2C总线、通用输入输出GPIO口、3个多通道缓冲串行端口(McB-SP)、两个64位通用定时器(GPT)和一个可编程看门狗定时器、通用异步收发器(UART),外部寻址空间达8 MB,可扩展大容量SDRAM[5]。

TLV320AIC23B的数据口通信方式比较固定,而TMS320VC5502的McBSP却可以灵活配置,从而实现TLV320AIC23B与TMS320VC5502的连接和通信,二者的接口连接如图二所示。

TMS320VC5502通过多通道缓冲串口与TLV320AIC23B进行音频数据的收发。其中,位同步信号、帧同步信号由TLV320AIC23B提供,数据音频数据传输接口采用DSP模式[6]。TLV320A-IC23B中数字接口的DSP模式的时序图如图三所示。

1.3 其他功能模块

(1)TMS320VC5502采用双电源供电,其中I/O供电电压为3.3 V,内核供电电压仅为1.26V。由于实际系统使用5 V电源,所以必须采用电源转换芯片。选用PT75233和PT70302两块电源转换芯片,与DSP可以进行无缝连接,分别接上少量的外围电路,即可调整两块芯片的输出电压分别为3.3 V和1.26 V。

(2)由于TMS320VC5502片上没有FLASH且片内RAM只有32K,要想使其成为独立系统就必须外扩外部存储器,这里选用了存储容量为256K的低功耗FLASH芯片SST39VF400A。当系统上电后,DSP芯片自动读取FLASH芯片中保存的程序并自主运行程序。

(3)JTAG可以对DSP片上的各引脚逻辑值进行扫描和测试,片内的各种资源都能通过JTAG口进行访问,包括各寄存器、ROM、RAM、各片内外设等,还可通过JTAG口下载程序进行系统调试,功能很强大。

2 系统的软件设计

2.1 语音识别系统原理

本系统实现了语音输入、预处理、特征提取、训练建立模板库和识别等模块,其原理框图如图四所示。

其中预处理模块包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等处理工作,经过预处理的语音数据可以进行特征参数提取得到MFCC系数并保存为模板库。语音信号经过语音通道得到语音参数,生成测试模板,与参考模板进行匹配,经过DTW运算后将匹配度最高的参考模板作为识别结果。

2.2 算法设计

系统流程图如图五所示,以下着重介绍流程中端点检测、特征参数提取、DTW算法实现三个过程。

2.2.1 端点检测

语音端点检测是指用计算机数字处理技术从包含语音的一段信号中找出字、词的起始点及结束点,从而只存储和处理有效语音信号[8]。

本系统使用语音信号的短时能量、短时过零率、双门限端点检测。在开始检测之前需要设定4个门限,即分别为短时能量和短时过零率各设置一个高门限和一个低门限:EHigh、ELow和ZHigh、ZLow。整个语音端点检测分为四部分:静音段、过渡段、语音段、结束段。在静音段中如果能量或过零率有一个超过了其低门限,则认为进入了过渡段。在过渡段中,由于参数数值较小,还不能确定是否真的进入语音段,只有两个参数的其中一个超越了高门限才被认为是进入语音段,当参数降至低门限则认为进入结束。

部分源代码及分析如下:

2.2.2 特征参数提取

经过预处理的语音数据就可以进行特征参数提取,特征参数的好坏将直接影响系统的性能和效率。对特征参数的要求包括:

(1)提取的特征参数能有效地代表语音特征,具有很好的区分性;

(2)各阶参数之间有良好的独立性;

(3)特征参数要计算方便,最好有高效的计算方法,以保证语音识别的实时实现。

MFCC系数则构造人的听觉模型,以语音通过该模型(滤波器组)的输出为声学特征,直接通过离散傅立叶变换进行变换[9]。部分源代码及分析如下:

2.2.3 DTW算法实现

DTW算法是把时间规整和距离测度计算结合起来的一种非线性规整技术,该算法基于动态规划的思想,解决了发音长短不一的模板匹配问题[10]。DTW算法原理:假设待测语音共有N帧矢量,参考模板共有M帧矢量,且N≠M,则动态时间规整就是寻找一个时间规整函数j=w(i),它将测试矢量的时间轴i非线性地映射到模板的时间轴j上,并使该函数w满足第N帧测试矢量和第M帧模板矢量之间的距离测度最小。通常规整函数w(i)被限制在一个平行四边形内,它的一条边的斜率为2,另一条边的斜率为1/2,规整函数的起始点为(1,1),终止点为(N,M)。部分源代码及分析如下:

3 结束语

本文介绍了一个以TMS320VC5502和TLV320AIC23B为核心的特定人、小词汇量、孤立词的嵌入式语音识别系统,通过语音命令控制LED的闪灯次数检测识别结果。其中采用的DTW算法计算量较小,识别效果良好;硬件电路简单、功耗低、工作性能稳定。为取得更好的识别效果,今后应在系统的算法优化上做进一步的完善。由于具有比传统键盘输入操作更多不可比拟的优势,语音识别技术在未来会有更广阔的应用前景。

参考文献

[1]朱淑鑫,谢忠红.浅谈语音识别技术的应用及发展[J].长春理工大学学报(高教版),2009,(02).

[2]朱淑琴.语音识别系统关键技术研究[D].西安:西安电子科技大学,2004.

[3]杨占军,杨英杰,王强.基于DSP的语音识别系统的设计与实现[J].东北电力大学学报,2006,(02).

[4]李双勋,欧建平.TLV320AIC23在音频处理中的应用[J].国外电子元器件,2003,(10).

[5]陈涛.基于DSP的语音信号识别系统的研究与实现[D].成都:成都理工大学,2010.

[6]蒋永生,张雄伟,曾宏辉.一种基于DSP的语音处理系统软硬件设计[J].电力系统通信,2007,(11).

[7]曾日波.小词表实时语音识别系统的定点DSP实现[J].现代电子技术,2004,(11).

[8]TI.SST39LF/VF200A/400A/800A Data Sheet.

[9]贾克明,陶洪久.基于DSP的嵌入式语音识别系统的研究与实现[J].武汉理工大学学报(信息与管理工程版),2006,(0).

10.语音识别机器人论文 篇十

【摘 要】目前,基于语音识别的人机对话接口技术正在发展之中,相比于键盘、手写版、触屏等而言,该项技术还不够普及,但是随着电子信息技术的发展,该项技术也将会逐渐进入人们的生活之中,较好地为人们服务。在未来,语音识别技术不仅仅应用于家庭,也将会在商业、军事、学校等领域得到广泛的应用。

【关键词】语音识别技术 步进减速电机 舵机

1 概述

本系统主要以单片机为控制核心,通过语音识别技术对机器人小车的步进减速电机、螺旋升降器、机械臂舵机MG945进行控制,从而实现对用户的智能服务。目前,随着我国人均生活水平的提高,老龄化问题加重,与此同时也有很多行动不便的老人、残疾人等,因此家庭服务机器人有非常大的市场需求。

2 步进电机的控制

本设计采用57步进减速电机,其工作原理:步进电机是将脉冲信号转变为角位移或线位移的开环控制机件,通过控制脉冲个数来控制角位移量,从而达到准确定位的要求;同时可以通过控制脉冲频率来控制电机转动的速度和加速度,达到调速目的。

控制过程:由57步进驱动器驱动步进电机转动,主要采用THB7128芯片,THB7128步进电机驱动器是一款专业的两相步进电机驱动,可实现正反转控制。通过3位拨码开关(S4、S5、S6)选择8档细分控制(1、2、4、8、16、32、64、128 ),通过3位拨码开关(S1、S2、S3)选择6档电流控制(0.5A,1A,1.5A,2.0A,2.5A,3.0A)。驱动器有噪音小,震动小,运行平稳的特点。本系统采用共阳接法,如下图:

CLK+:脉冲信号输入正。CLK-:脉冲信号输入负。CW+:电机正、反转控制正。CW-:电机正、反转控制负。EN+:电机脱机控制正。EN-:電机脱机控制负。通过相应引脚的控制,实现步进电机的正反转及调速运动。

3 舵机的控制

MG945是通过PWM信号,利用占空比的变化来改变舵机位置的执行元件;工作原理是:控制信号由接收机的通道进入信号调制芯片,获得直流偏置电压。其内部有一个基准电路,产生周期为20ms,宽度为1.5ms的基准信号,将获得的直流偏置电压与电位器的电压比较,获得电压差输出。最后,电压差的正负输出到电机驱动芯片决定电机的正反转。当电机转速一定时,通过级联减速齿轮带动电位器旋转,使得电压差为0,电机停止转动。如下图:

控制过程:在整个舵机控制过程中,根据其舵机控制原理图进行调试就可以实现对其正反转控制。在这个过程中,首先要完成两个任务:一是PWM周期信号的产生(周期信号20ms)。二是对脉宽的调整,即占空比的调整。该设计以单片机为控制核心,主要采用定时器/中断系统进行控制,这样使其整个控制系统精确、稳定。

4 语音控制系统

语音模块由LD3320 ASR非特定语音识别芯片组成的语音识别系统,通过对非特定用户语音的识别,从而实现轻松的语音控制。控制过程:通过事先对LD3320 ASR非特定语音识别芯片设置,当用户讲“准备”,并开始模式识别、匹配,芯片识别到后,串口将会返回一个数值(设定值)。主控IAP15F2K61S2芯片利用串口接收到“设定值”后,将设定值作进一步处理,从而控制步进减速电机和舵机实现相应的动作(前进、后退等)。

5 综合调试

在检验各个模块都工作正常后,将各个模块进行整体融合,完成系统设计任务。当用户说出语音指令时,系统能较好地进行识别。如果是正确的语音指令,系统将执行该条语音指令,完成对应的任务。如:当用户说“前进”时,系统将会驱动家庭服务机器人的步进电机,保持“前进”动作,等待用户下一条语音指令。

6 结语

本次设计,完成了系统中各个模块之间的相互融合。通过各个模块的协调工作,完成指定动作和简单的家庭服务功能。通过对非特定用户语音的识别,来实现智能控制。在实际的生活中,能够成为老人、残疾人的得力助手,也可以在其他各个领域广泛地应用,从而提高人们的生活服务水平。

参考文献:

[1]李全利.单片机原理及接口技术[M].高等教育出版社.2009: 163-218

[2]艾山.智能机器人结构设计及控制研究[D].哈尔滨工程大学.2013:26-32

[3]李瑞峰.移动式作业型智能机器人的研制[J].机器人技术与应用.2003

[4]王志新.罗文广.电机控制技术[M].机械工业出版社.2011:34-116

作者简介:李景(1992.6.2-)男,重庆人,本科在读,研究方向:无线通讯技术。

指导老师:王彩霞、王涛。

上一篇:拥抱阳光珍爱生命下一篇:初二生物上学期期末生物题纲