语音识别技术

2024-09-19

语音识别技术(共13篇)

1.语音识别技术 篇一

Office语音识别是通过语音识别引擎来完成工作的,就像多媒体播放器需要利用多媒体解码包来播放出视频、音乐一样,更改Office语音识别引擎可以用另一种语言听写或使用第三方引擎。

1、在 Microsoft Windows XP控制面板中,单击声音、语音和音频设备,再单击语音,

在 Windows 控制面板中,双击语音图标。

2、单击语音识别选项卡。

3、在语言下,选择语音识别引擎。

注释

如果您要切换语音识别引擎:

若要使用听写,您必须切换键盘布局以便与语音引擎的语言相匹配。

若要使用声音命令,请确保您正在使用的语言用户界面与语音引擎的语言用户界面相匹配。

2.语音识别技术 篇二

语音是由人的发音器官发出来的代表一定意义的声音, 是语言存在的物质外壳[1]。语音是人类相互之间进行交流时使用最多、最自然、最基本也是最重要的信息载体。在高度信息化的今天, 语音处理的一系列技术及其应用已经成为信息社会不可或缺的重要组成部分[2]。

语音的产生是一个复杂的过程, 包括心理和生理等方面的一系列动作。当人需要通过语音表达某种信息时, 首先是这种信息以某种抽象的形式表现在说话人的大脑里, 然后转换为一组神经信号, 这些神经信号作用于发声器官, 从而产生携带信息的语音信号。

2 语音识别 (Speech Recognition) 概述

语音识别是试图使机器能“听懂”人类语音的技术[3]。语音识别的作用是将语音转换成等价的书面信息, 也就是让计算机听懂人说话。作为一门交叉学科, 语音识别又是以语音为研究对象, 是语音信号处理的一个重要研究方向, 是模式识别的一个分支, 涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域, 甚至还涉及到人的体态语言 (如人在说话时的表情、手势等行为动作可帮助对方理解) , 其最终目标是实现人与机器进行自然语言通信[4]。)

3 语音识别的研究历史及现状

3.1 国外研究历史及现状

语音识别的研究工作可以追溯到20世纪50年代[5]。1952年AT&T贝尔实验室的Audry系统, 是第一个可以识别十个英文数字的语音识别系统。

20世纪60年代末、70年代初出现了语音识别方面的几种基本思想, 其中的重要成果是提出了信号线性预测编码 (LPC) 技术和动态时间规整 (DTW) 技术, 有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化 (VQ) 和隐马尔可夫模型 (HMM) 理论。

20世纪80年代语音识别研究进一步走向深入:其显著特征是HMM模型和人工神经网络 (ANN) 在语音识别中的成功应用。

90年代, 在计算机技术、电信应用等领域飞速发展的带动下, 迫切要求语音识别系统从实验室走向实用。最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系统。这些系统具有说话人自适应能力, 新用户不需要对全部词汇进行训练, 便可在使用中不断提高识别率。

3.2 国内研究历史及现状

我国在语音识别研究上也投入了很大的精力, 国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项, 我国语音识别技术的研究水平已经基本上与国外同步。

4 语音识别系统的分类

从不同的角度和要求出发, 语音识别有不同的分类方法。

按照说话人的限定范围, 可以分为: (1) 特定人识别系统:仅考虑对于专人的话音进行识别; (2) 非特定人语音系统:识别的语音与人无关, 通常要用大量不同人的语音数据库对识别系统进行学习。

按照词汇表大小分, 可以分为: (1) 小词汇量语音识别系统。通常包括几十个词的语音识别系统。 (2) 中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。 (3) 大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。一般而言, 随着词汇表中词汇量的增多, 各词汇之间的混淆性增加, 系统的识别率也会降低[5]。

按照发音方式分, 可以分为: (1) 孤立词识别:孤立词识别是指在发待识别语音时, 每次只含词汇表中的一个词条。孤立词识别是语音中最简单也是最成熟的识别技术。 (2) 连接词识别:连接词识别每次说词汇表中的若干个词条进行识别, 该若干词条以慢速连读的方式连续说出。 (3) 连续语音识别系统:连续语音识别指说话人以日常自然的方式讲述并进行识别。连续语音输入是自然流利的连续语音输入, 大量连音和变音会出现。

5 语音识别的几种基本方法

当今语音识别技术的主流算法, 主要有传统的基于动态时间规整 (Dynamic Time Warping, 简称为DTW) 算法、基于非参数模型的矢量量化 (Vector Quantization, 简称为VQ) 方法、基于参数模型的隐马尔可夫模型 (Hidden Markov Models, 简称为HMM) 的方法和基于人工神经网络 (Artificial Neural Network, 简称为ANN) 等语音识别方法[6]。

5.1 动态时间规整 (DTW)

语音信号的端点检测是进行语音识别中的一个基本步骤, 它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落 (如音素、音节、词素) 的始点和终点的位置, 从语音信号中排除无声段。在早期, 进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。上世纪60年代日本学者Itakura提出了动态时间规整算法。算法的思想就是把未知量均匀地伸长或缩短, 直到与参考模式的长度一致。在这一过程中, 未知单词的时间轴要不均匀地扭曲或弯折, 以使其特征与模型特征对正。在连续语音识别中仍然是主流方法。同时, 在小词汇量、孤立字 (词) 识别系统中, 也已有许多改进的DTW算法提出。

5.2 隐马尔可夫模型 (HMM)

隐马尔可夫模型是20世纪70年代引入语音识别理论的, 它的出现使得自然语音识别系统取得了实质性的突破。目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型, 将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov 链来模拟语音信号统计特性变化的隐含的随机过程, 另一个是与Markov 链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来, 但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程, 语音信号本身是一个可观测的时变序列, 是由大脑根据语法知识和言语需要 (不可观测的状态) 发出的音素的参数流。可见HMM合理地模仿了这一过程, 很好地描述了语音信号的整体非平稳性和局部平稳性, 是较为理想的一种语音模型。

5.3 矢量量化 (VQ)

矢量量化是一种重要的信号压缩方法。与HMM相比, 矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k个样点的每一帧, 或有k个参数的每一参数帧, 构成 k 维空间中的一个矢量, 然后对矢量进行量化。量化时, 将 k 维无限空间划分为 M 个区域边界, 然后将输入矢量与这些边界进行比较, 并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书, 从实际效果出发寻找到好的失真测度定义公式, 设计出最佳的矢量量化系统, 用最少的搜索和计算失真的运算量, 实现最大可能的平均信噪比。

5.4 人工神经网络 (ANN)

人工神经网络的出发点是通过模拟大脑的机制, 将包括听觉系统的生物神经系统的信息处理机制引入机器学习的研究中, 使其具有学习和理解的能力。系统的所有计算都是由神经元单元完成的, 而单元之间的连接权决定了网络对任意输入模式的计算响应。连接权的建立是通过训练算法进行的, 具有传统的数字计算机系统即线性网络没有的优点[7]。

5.5 支持向量机 (SVM)

支持向量机 (Support vector machine) 是应用统计学理论的一种新的学习机模型[8], 采用结构风险最小化原理 (Structural Risk Minimization, SRM) , 有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力, 在解决小样本、非线性及高维模式识别方面有许多优越的性能, 已经被广泛地应用到模式识别领域。

6 语音识别系统的结构

语音识别本质上是一种模式识别的过程, 其基本原理框图如图1, 主要包括语音信号预处理、特征提取、特征建模、相似性度量和后处理等几个功能模块, 其中后处理模块为可选模块。

预处理模块, 对输入的原始语音信号进行处理, 滤除掉其中的不重要的信息以及背景噪声, 并进行语音信号的端点检测、语音分帧以及预加重等处理。

特征提取模块负责计算语音的声学参数, 并进行特征的计算, 以便提取出反映信号特征的关键特征参数, 以降低维数并便于后续处理。

在训练阶段, 用户输入若干次训练语音, 系统经预处理和特征提取后得到特征矢量参数, 建立或修改训练语音的参考模式库。

在识别阶段, 将输入的语音的特征矢量参数和参考模式库中的模式进行相似性度量比较, 将相似度最高的模式所属的类别作为识别的中间候选结果输出。

后处理模块对候选识别结果继续处理, 通过语言模型、词法、句法、和语义信息的约束, 得到最终的识别结果。

7 语音识别所面临的问题及展望

1) 就算法模型方面而言, 需要有进一步的突破。目前使用的语言模型只是一种概率模型, 还没有用到以语言学为基础的文法模型, 而要使计算机确实理解人类的语言, 就必须在这一点上取得进展。

2) 就自适应方面而言, 语音识别技术也有待进一步改进, 做到不受特定人、口音或者方言的影响, 这实际上也意味着对语言模型的进一步改进。

3) 就强健性方面而言, 语音识别技术需要能排除各种环境因素的影响。目前, 对语音识别效果影响最大的就是环境杂音或嗓音, 个人能有意识地摒弃环境嗓音并从中获取自己所需要的特定声音, 如何让语音识别技术也能达成这一点是一个艰巨的任务。

4) 多语言混合识别以及无限词汇识别方面:将来的语音和声学模型可能会做到将多种语言混合纳入, 用户因此就可以不必在语种之间来回切换。此外, 对于声学模型的进一步改进, 以及以语义学为基础的语言模型的改进, 也能帮助用户尽可能少或不受词汇的影响, 从而可实行无限词汇识别。

5) 多语种交流系统的应用:是将语音识别技术、机器翻译技术以及语音合成技术的完美结合, 全世界说不同语言的人都可以实时地自由地交流, 不存在语言障碍。可以想见, 多语种自由交流系统将带给我们全新的生活空间。

6) 语音情感识别:近年来随着人工智能的发展, 情感智能跟计算机技术结合产生了情感计算[9]这一研究课题, 这将大大的促进计算机技术的发展。情感自动识别是通向情感计算的第一步。语音作为人类最重要的交流媒介, 携带着丰富的情感信息。如何从语音中自动识别说话者的情感状态近年来受到各领域研究者的广泛关注。

参考文献

[1]戴庆厦.语言学基础教程[M].北京:商务印书馆, 2006.

[2]张雄伟, 陈亮, 杨吉斌.现代语音处理技术及应用[M].北京:机械工业出版社, 2003.

[3]王士元, 彭刚.语言、语音与技术[M].上海:上海教育出版社, 2006.

[4]http://www.ctiforum.com CTI论坛.语音识别技术及发展.

[5]蔡莲红, 黄德智, 蔡锐.现代语音技术基础与应用[M].北京:清华大学出版社, 2003.

[6]赵力.语音信号处理[M].北京:机械工业出版社, 2003.

[7]息晓静, 林坤辉, 周昌乐, 蔡骏.语音识别关键技术研究[J].计算机工程与应用, 2006 (11) .

[8]宇缨.支持向量机及其在自然语言处理中的应用[J].东莞理工学院学报, 2007 (14) .

3.论基于机器人的语音识别技术 篇三

关键词 机器人 语音识别 声学模型 语音特征参数

中图分类号:TP242 文献标识码:A

1语音识别技术的研究意义

人们使用的声音语言是一种人在特定高度思维和意识活动下的产品。语言是人类最直接以及最理想的交流方式,也是人机通信是最方便的方式。在机器人发展的高级发展阶段中,机器人的智能语音识别与人类的活动是密切相关的,有声语言的人机交互信息成为重要的手段。例如,语音识别获取外界信息很自然,没有特殊的训练方法,随着机器人技术的发展和广泛应用,有越来越多的机会来接触人类和机器人,所以人们希望通过语音识别和机器人去处理,不管谁能能准确安全,方便地操纵机器人。机器人和人类之间的信息交互,表现在两个方面,一是对更高层次的机器人操作,方便软件的设计开发,这种多为教学机器人,另一种是在实际操作的要求下完成信息交互任务的机器人。智能机器人作为机器人技术发展的高级阶段,其发展趋势是:不仅要求机器人具有高度的自治能力,还要使机器人和人类之间的协调也具有一定的智能性。这就要求机器人具有不同的高性能主动做事能力,而不是被动地接受任务,为了实现这一目标,自然语言作为人机信息交换将发挥越来越重要的作用。目前,智能机器人已成为机器人研究领域的一个热点。工业机器人是智能机器人的一个重要研究领域。当今,工业机器人的发展方兴未艾,巨大的市场潜力,使真正的工业机器人的已经在市场上崭露头角,以满足人们日益增长的需求,我们不能没有一个高性能的语音识别系统。由于工业机器人是面向生产实际的需要,最好的工作方式是让机器人能顾听懂最常见的人类语言,完成指定的工作,并能与人交流。机器人语音识别是机器人研究领域中的语音识别应用,最终的目标是让机器人了解人们的口头语言,然后按照人们的命令来行动或反应,从而形成一个良好的人机对话系统。为了能够进一步推动智能机器人的开发应用,因此,在语音识别机器人的研究领域中,机器人语音识别系统是工业机器人的实际推广应用,具有重要的意义。

语音识别技术在智能机器人中的应用已经有很多年的历史,作为智能机器人的一个分支,工业机器人得到了迅速发展,工业机器人通过语音识别从工业噪声中提取有效的语音命令。为了实现机器人在一些特殊工业环境中工作的目的,机器人要能够识别命令意图。语音识别技术,可以实现人机对话,从而让机器能模仿人类完成所有工作的分配,使其在各行各业中能够得以应用。目前所面临的实际问题是:噪声和干扰环境下对大型工业机器人的语音识别有严重的影响。在机器人识别领域,工业环境中的实时性是一个非常重要的任务。机器人在工业环境下应用的听觉识别是使智能机器人发展速率低的瓶颈。

2语音识别系统的发展

2.1语音识别系统的发展方向

语音识别系统是基于一套应用软件系统的硬件平台和操作系统的一些。语音识别一般分为两个步骤。第一步是学习或培训。这一阶段的任务是建立基本单元的声学模型来进行识别和模型的语音语法分析等。第二步是识别或测试。根据识别系统的类型可以满足一个识别方法的要求,使用语音分析的方法来分析语音特征参数,并建立了比较和测量系统模型,根据一定的标准,鉴定结果。

语音识别系统的应用可分为两个发展方向,其中一个是大词汇连续语音识别系统,主要应用于计算机的听写机,以及结合电话网或互联网的语音信息服务系统,这些系统是在计算机平台上的一个重要发展方向。其次是应用的小型化,便携式音频产品,如无线移动电话的拨号,语音控制车载设备,智能玩具,家用电器和其他方面的应用的远程控制,这些应用系统大多采用特殊的硬件系统来实现,特别是语音信号处理芯片和语音识别芯片,最近几年快速发展,为其广泛应用创造了极为有利的条件。

2.2语音识别系统的模型与模式

语音识别系统的核心是声学模型和模式分类。首先通过学习算法,训练语音声学模型的特点是通过学习过程来生成声学模型,这是识别潜在的模型的前提,是最关键的语音识别系统的一部分。声学模型的目的是提供一种有效的方法来计算特征向量的声音序列和每个发音模板之间的距离。人的发音在每一刻发音之前和之后都会受到影响。

为了模仿自然连续的协同发音和识别不同的发音,通常需要使用复杂的声学模型。声学模型和语言的发音特点的设计是密切相关的。声学模型单元大小与单词发音,音节模式和音位语音训练数据大小有关,故要求其系统识别具有很大的灵活性。大词汇量语音识别系统,通常采用较小的单元和少量的计算,该模型只有较小的存储容量,减少训练数据的数量,但相应的声音定位和分割问题就显得更加困难,规则识别模型变得越来越复杂。通常大型模型中识别单元包括协同发音,这有利于提高系統的识别率,但训练数据也相对增加。必须根据不同语言的特点来识别词汇,词汇量大小决定单位大小。

参考文献

[1] 李昌禄,苏寒松.?基于单片机平台下语音识别技术的应用方式[J].实验室科学,2009(06).

[2] 薛同泽,陈书旺.?语音识别的智能门控系统设计[J].微计算机信息,2008(14).

4.语音识别技术 篇四

新建配置文件

1、在 Microsoft Windows XP控制面板中,单击声音、语音和音频设备,再单击语音,

在 Windows 2000控制面板中,双击语音图标。

2、单击语音识别选项卡。

3、在识别配置文件下,单击新建并按照配置文件向导中的指令操作。

为当前用户选择一个配置文件

1、在语言栏上,单击工具。

5.语音识别技术 篇五

摘要:介绍分组语音技术的概念、用途以及用AMBE-1000实现语音分组技术的方法;介绍这一方法在实际工程中应用的个实例,尤其对AMBE-1000的功能及其在实际应用中的价值作了详细的介绍。

关键词:分组语音 PSTN 电话接口

1 概述

随着信息技术的不断发展和完善,信息的快速传递在生产和生活中显得越来越重要。在各种信息传递方式中,语音的互通占据着重要的位置。最为大家熟知的是以PCM编码方式传送语音的普通电话业务,实时性强、语音质量高,占据着语音通话业务的主体。但近年来随着IP电话的普及和网络技术的发展,另一种语音处理技术越来越为人们所熟悉,那就是语音分组技术。语音分组是指将语音信号转化为一定长度和速率的数字化语音包,采用存储转发的方法并以包的形式进行交换和传输。它随着互联网的普及,尤其是IP电话的普及而得到越来越多应用。但由于互联网不能对传输带宽提供保证,因此,语音包在其传输过程中就会产生延迟、抖动、包丢失等影响语音质量的因素。直到近年来由于低速率编解码算法的出现和软硬件性能的提高,人们才注意到分组语音技术的.商业价值,并投入开发力量。

早期分组语音技术的应用大都采用软件实现。近年来,随着大规模集成电路的飞速发展,硬件价格大幅度下降,从而出现了许多用硬件实现分组语音的产品。硬件具有对数据处理速度快,可处理大量数据的特点,所以使用硬件实现分组语音可以很好地处理延迟、抖动、回声抑制等问题,从而得到良好的音质。采用硬件实现分组语音的另一个优点是:在一个硬件电路中可以实现多种压缩标准的分组语音,能很灵活地适应不同网络环境下的多个语音终端的互通。

本文着重介绍采用一种专用的DSP芯片AMBE-1000实现语音分组的方法,并用这种方法实现了铁路站场中的信号作业电话。由此可以看出,分组语音技术在一些专门领域应用的广阔空间。

2 AMBE-1000简介

AMBE-1000是Digital Voice Systems公司的语音编解码芯片,用来实现双工的语音压缩/解压缩功能,能实现低传输速率下高质量的通话。它采用先进的AMBE压缩算法,压缩速率最低可达2.4Kb/s目前,这种算法以其能实现的低传输速率和高通话质量而在世界范围内得到了广泛应用,甚至用在下一代移动通信系统中。具体来说,AMBE-1000具有如下独特之处:

*低硬件成本和高通话质量;

*无需外围辅助设备;

*比特差错和背景噪声良好的鲁棒性;

*可变传输速率2.4Kb/s~9.6Kb/s;

*可自动插入舒适噪声;

*可选的串行和并行接口;

*自带回声抑制功能;

6.语音识别技术 篇六

教学目标:

1.使学生学会用手写和语音输人法输人汉字;2.使用手写输人法输人生僻字,用语音输人法输人长段文字;3.体验我国在手写和语音输人方面的技术创新与发展。教学重点:

学会用手写和语音输人法输入汉字。教学难点:

两种输人法灵活切换。课前准备:

微机室 教学过程:

一、导入新课: 提出问题,进行交流。

(1)手机和平板电脑已经成了我们生活的必备品,除了拼音输人法你还发现里面有什么其他的输人法?(板书课题和两种输人法)(2)什么人群使用手写输人?为什么使用手写输人?(3)语音输人的好处是什么?

二、做中学:(一)初体验语音输人

师:正值春回大地,让我们感受古人眼中的春景,请同学们在(平板电脑)备忘录中按照屏幕上的格式输人古诗(出示<春夜喜雨>),有问题可以参考课本进行自学。教师巡视,找出有共性的问题集中解答;没有代表性的问题个别解答或组织身边的同学加以帮助。

教师集中解答共性问题。

师:请同学们按照大屏养上的格式再输人一遍这首古诗。(二)进一步体验语音输人

师:我们再来输人一首(课件出示<大林寺桃花>)看谁的准确率高。学生练习.教师巡视

师:同学们在刚的输人过程中有什么体会? 生:速度快.也非常准确。

帅:是呀!这么好用的输入法是不是应该推荐给我们的爷爷奶奶们啊? 生:是.师:不过爷爷奶奶们的普通话可不算好啊,怎么办? 生:语音输人可以说家乡话,不用说普通话。(板书方言)师:那就赶快让我们试试吧。(课件出示<初春小雨>)师:我们已经成功地输人了三首关于春天的古诗了,看着自己输人的古诗,同学们一定很有成就感吧。知道吗,普通人正常语速在150字/分钟左右,而打字速度却只有50字/分钟左右,有三倍的差距呢。语音输人不仅方便快捷,还能听懂方言,真是太贴心了:这就是科技进步给我们带来的便利。

(三)体验手写输人 师:古代的诗人经常游历祖国的名山大川,写下流传千古的名词佳句。说到名山大川.庐山就是其中之一,同学们知道谁游览过庐山吗? 生:李白。(出示李白<望庐山瀑布>)师:大家一起来念一下.师:其实,还有一位诗人也写过一首赞美庐山瀑布的诗。(出示张九龄<湖口望庐山瀑布>)找学生朗读。

师:遇到不会的字,可不能轻易放过,一定要弄清楚这两个字怎么念。怎么办?生:可以用手写输人不认识的学,屏第上会显示出这个学的拼音。

师:这个方法可真不错。不过语音和手写米四切换是不是有点儿麻烦?(课件出示手机界面,给学生介绍如何调整)学生调整输人法并输人张九岭<湖口望庐山瀑布)。师:在刚才的学习中,你有什么收获? 生:语音输人很方便。

生:遇到生僻字可以用手写输人知道它的读首。

三、练一练:

师:总结的太棒了,我这里还准备了几首诗,里面也都有生僻字。请同学们使用今天学到的新技能完成输人。(课件出示《长歌行》《观沧海》《水调歌头》)四总结 今天我们不仅感受了诗歌之美,还体验了手写和语音输人,可谓是科技与传统的结合。不过,古诗词就只有诵读这一种形式吗?让我们来听一首歌。

播放《水调歌头》歌曲一遍。

请同学多多亲近我们优秀的传统文化,做一个地地道道的中国人。今天的课就上到这里。

7.语音识别:从技术应用到习惯应用 篇七

近日,百度Big Talk2015年第一期在美国硅谷开讲,百度首席科学家吴恩达(Andrew Ng)在会上表示,百度是第一个建立深度学习的网络,而深度学习将改变人工智能,这些机会体现在文本、图像和语音识别上。吴恩达以火箭为例,指出,“建造火箭需要一个很多的燃料(数据)和很大的引擎,深度学习就是让火箭腾飞的引擎。”他认为,神经元网络的技术很有前景,建立了有效的深度学习的算法将会改变整个人工智能。

语音识别技术的应用

与机器进行语音交流,让机器明白你说什么,这是我们长期以来梦寐以求的事情。而提起语音识别,我们最容易想到的还要数不会讲笑话的Siri。

作为世界上第一家上市的语音识别公司,Siri的“娘家”Nuance有着辉煌的历史,曾经在语音领域一统江湖。苹果i Phone手机的虚拟语音助手Siri、三星的语音助手S-Voice、各大航空公司和顶级银行的自动呼叫中心和虚拟在线语音助手,都采用了Nuance的技术。近年来,Nuance的语音识别技术已经从实验室走向市场,将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

在智能车载领域,Nuance定制的汽车级语音平台Dragon Drive获得了2015CES创新大奖,通过将车载平台与手机连接,Nuance可以帮用户实现语音控制GPS导航、信息收发、电话接打、社交网络更新等等。

在前一段时间,Nuance在其官方博客上,公布了将发力医疗领域的消息。消息中说,Nuance在医疗领域进军,不仅仅通过智能手表追踪运动情况和心率,还将会直接根据人的身体状况匹配相应的服务,如合适的餐厅或食物等,当然这些大多是基于可穿戴设备的。另外他们还考虑到更多场景,诸如紧急语音求助、医患对话存档、呼叫中心的对话听写等。

随着互联 网技术的 快速发展,以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。从Nuance向医疗领域发力看出,由于医疗领域词汇库专业性强演变性弱,只要建立完整的数据库,就可以做到对疾病名称、药品名称相对精确的识别。

如今国内 也有了相 应的应用如支持语音搜索功能的病历夹与珍立拍,致力于为医生提供一个安全存储病历资料的云空间,方便查找病例。而科大讯飞、云知声、盛大、捷通华声、中科信利、尚科语音、搜狗语音助手、紫冬口译、腾讯语音、百度语音等都日渐被用户习惯的系统,都采用了最新的语音识别技术,市面上其他相关的产品也直接或间接嵌入了类似的技术。

从打字到语音的习惯改变

随着语音识别在移动终端上的应用越来越火热,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。

腾讯、百度都建立了自己的语音团队,在移动搜索领域发力。随着吴恩达加盟,担任首席科学家,负责百度研究院,百度看起来更加高大上了许多。吴恩达的研究领域就是机器学习和人工智能,研究重点是深度学习。深度学习被认为是当前的机器学习算法里最接近人脑思维的一种。在语音识别方面,会对互联网、家用电器带来很大的改革。在百度Big Talk2015年第一期公开课上,吴恩达说,“语音会是改革互联网的很大一个因素。语音识别会推动物联网的革命,比如汽车界面、家用设备,以及可穿戴设备。在这方面,特别是在移动互联网方面,中国其实领先于美国和其他国家很多。”

今天国内的很多用户都会使用语音搜索,如年幼的用户、年龄大的用户,或文化程度不高的用户,对于他们来说,用语音搜索或许是可以让我们知道他们需求的唯一方式。因此,语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群。比如搜狗在移动搜索领域“发声”,推出“微信头条”功能,宣称可以根据用户兴趣变化,来智慧地满足用户的差异化阅读需求。

而我们今天最常用的语音识别服务,莫过于打车软件中的“马上叫车”。我们习惯直接与司机语音互动,比如说“我想打车到国贸大厦”就能实现叫车功能。作为一款基于语音识别、语意理解技术,“出门问问”每周在迭代的嘀嘀打车后台,通过语音识别技术发布订单。作为面向移动搜索领域的智能手机应用,用户可以通过语音提问的方式直接获取到自己需要的各种生活信息。而交互能力、信息抓取、智能语音推荐,为手机端、可穿戴智能设备上的出门问问的语音搜索功能侧重于有应用场景之下使用提供了可能。出门问问CEO李志飞说,“技术能够真正帮助所有人提高生活质量,这也是技术的目的。”

8.语音识别技术 篇八

语音识别已经不再遥不可及!

近日,微软新推出的Windows Vista就安装了语音识别系统。不懂鼠标和键盘操作的人,有了此软件的帮助,问题就能迎刃而解。这也是这一操作系统的一大亮点。

从上世纪50年代开始,语音识别作为重要的研究对象,引起了科学家的广泛兴趣。今天,半个多世纪过去了,语音识别技术已经发生了突飞猛进的变化,IBM、苹果和微软等公司甚至已经把它应用于自己的部分产品中。

目前,语音识别软件主要运用于法律和医药领域,但随着软件的日趋完善,将被更多领域采纳和运用,并帮助人们解决疑难问题。

不过,语音识别软件目前或多或少存在缺陷,如抗干扰差、语音识别误差较大、易受黑客攻击等。因此,要想短期内取代手工操作还不现实。

备受青睐

其实,自电脑诞生以来,让电脑听懂人们的说话,就是科学家们奋斗的目标。几年前,这方面还仅局限于实验室内的演示。不过现在不同了,电脑的语音识别功能已经有了质的飞跃,并被广泛运用到各个领域。

微软和福特汽车正在进行一项有趣的工作,他们希望人们能向汽车发出口头指令,这让人觉得有些不可思议。不过,人们通过芯片进行口头交流,早已成为现实,只是目前还没有被广泛应用到日常生活中,所以大家对此感到陌生。可以肯定的是,随着技术的日趋成熟,今后人们和芯片的交流的机会将越来越多。

前不久,在拉斯维加斯举行的国际电子消费品展览会上,比尔·盖茨和福特汽车的高管们,展示了微软的Sync软件,它可让驾车者们如何通过口头指令,在车内播放音乐和拨打电话。但是,通过口头指令驾驶汽车还难以被广泛运用,至少目前还不行。

IBM在语音识别技术上,一直走在最前沿。以它的ViaVoice软件为例,这种软件可以帮助人们通过麦克风用语音向字处理软件输入文字,能识别英语、意大利语、德语、法语、日语、汉语等语种。由于大量的无线上网设备的使用,语音识别软件的销售前景看好,特别适用于医生、律师和作家等职业。

从去年9月1日开始,该语音识别软件已经开始降价销售,其中最便宜的一款只需30美元。据估计,目前,全世界已有1000多万人在使用ViaVoice软件。

微软新版的Windows操作系统Vista,也配置了先进的语音识别软件。用户可以通过语音和计算机交流——对于无法操作键盘和鼠标设备的人们,这是一个很重要的功能。经过训练,Vista能识别用户的语音。这样,用户就可以通过口述来“书写”信件或电子邮件。一言以敝之,用户可以通过语音来执行大多数常见任务。

不过,目前世界上最先进的语音识别软件,既不是微软生产的,也非IBM制造,它的名字叫做Naturally Speaking,出自于Nuance Communications公司。

Naturally Speaking已经得到了大多数用户的认可。用户对着麦克风说话,屏幕上就显示出说话的内容,很容易识别和纠正错误。久而久之,该软件就会适应用户的说话风格,当然,用户如果在说话过程中发现软件无法识别的,也相应地作出调整,这样一来,语音识别的正确率就会逐渐提高。

用途广泛

在语音识别软件领域,比尔·迈森很有发言权,他是这方面的专家。他指出:“目前该软件主要用于法律和医学等特定领域。例如,放射线学者们越来越多地通过语音识别软件口授诊断报告和结果,而不再由录音机录下口头报告,再加以转录。”

语音识别软件是利用非常复杂的统计方法,把人们的讲话与单词相对应起来的。如今,语音识别技术在一些领域已经得到广泛应用,如呼叫中心。采用这项技术,可以省去不少麻烦,目前已有不少电脑查询服务采用了Nuance公司的技术,来处理客户的需求。

可以看出,语音识别技术的特点就是使工作变得自动化。但也有人指出,语音识别技术发展到足够强大并得到普遍应用的时候,在给人类带来方便的时候,同时也会使更多的人失去工作。比如,现在很多公司都设置咨询室,将来有可能被机器取代,人们可以通过公司的电脑发出口头指令来完成各项咨询。

迈森预言:“接下来,语音识别技术将被用于网络搜索。”不久的将来, Google和雅虎将推出面向手机用户的语音搜索服务,用户只要说出自己要找什么,就可以听到电脑的自动答复。这2家公司都已聘请了语音识别技术专家。Nuance还与雅虎对簿公堂,因为雅虎挖走了Nuance的13名工程师。

IBM也不甘步人后尘,此前它在语音识别一直处在领先位置。目前,IBM正在实施一个超前的计划——研制一种能监听4-5个人参加的小型会议的语音识别软件,用以提供准确的书面记录。这一步迈得很大,不知道何时能取得成功。

此外,负责IBM的语音识别技术开发的戴维·那哈莫还表示,该公司已经开发出了其他一些应用软件。其中一项能自动翻译外语广播——该软件首先通过语音识别技术记录下说话者所说的话,然后通过翻译软件把外语翻译成英语。

尽管这一软件目前还不成熟,不过它已经能够翻译出说话者的要点。这一软件的卖点不错,尤其受缺乏外语人才的机构和部门欢迎,比如情报机构。当然,该软件也适合缺乏人手的电视台,为听觉有障碍的观众提供字幕服务。

正视缺陷

当然,语音识别软件还没有发展到能够取代键盘和鼠标的程度,还有很多不完善的地方,这也是所有语音识别软件目前普遍存在的问题。比如抗干扰,这类软件还无法分辨出哪是人的发音,哪是音响的发音。

在语音识别上,目前也存在差错。在一家公司的一次演示中,与会者大跌眼镜。这家公司的工作人员试图让自己开发的软件识别“Dear Mom”这个短语的发音,然而,让人哭笑不得的是,语音识别软件却把它理解为“Dear aunt”,也就是著名的“认母为姨”。

此外,语音识别还可能被黑客利用,不久前就传出Vista的语音功能存在缺陷,容易遭致黑客利用进行远程语音攻击。微软对此表示,安全人员此前公布了该漏洞,影响微乎其微。

微软安全响应中心的发言人宣称,攻击者利用此漏洞仅能获得当前用户的权限,并不能绕过用户帐户控制系统的监管运行任何管理员级别的命令。黑客要想成功发动攻击,前提条件是目标系统已经设置好语音识别功能,并且启用话筒和音箱,此时他们可以通过音频文件的播放执行复制、删除、关机等命令。因此微软方面建议不要一直同时开启麦克风和音箱。如发现有执行命令的音频文件播放,要关闭媒体播放器和语音识别,重启电脑。

安全响应中心的程序经理Adrian Stone称:“我们对该问题十分重视,经过调查,我可以自信地说,没有必要担心该问题。”

9.公交IC卡射频识别技术原理 篇九

(3)防冲突问题:多张卡同时进入读写器发射的能量区域(即发生冲突)时如何对卡逐一进行处理。5 非接触式IC卡在卡的表面上无触点,IC卡与读写器之间通过无线方式(即发射和接收电磁波)进行通信,因此非接触式IC卡的使用依赖于射频识别(RFD)技术的发展,故又将非接触式IC卡称为射频卡(RFC)。典型的射频识别系统由应答器和寻呼器组成,非接触式IC卡的读写器就是寻呼器,而卡则是应答器。6 读写器和IC卡之间的工作关系如下:(1)读写器发射激励信号(一组固定频率的电磁波)。

(2)IC卡进入读写器工作区内,被读写器信号激励。在电磁波的激励下,卡内的LC串联谐振电路产生共振,当所积累的电荷达到2 V时,此电容可以作为电源为其他电路提供工作电压,供卡内集成电路工作所需。

(3)同时卡内的电路对接收到的信息进行分析,判断发自读写器的命令,如需在EEPROM中写入或修改内容,还需将2 V电压提升到15 V左右,以满足写入EEPROM的电压要求。

(4)IC卡对读写器的命令进行处理后,发射应答信息给读写器。(5)读写器接收IC卡的应答信息。7 图中阴影部分为fc=13.56 MHz载波,数据传输速率=13.56 MHz/128=106 kb/s(9.4 μs/b),从PICC发向PCD的信号用副载波(subcarrier)调制,副载波的频率fs=fc/16=847 kHz。一个位时间等于8个副载波周期。

可以看到,两种方式最主要的分别在于载波调制程度的不同(如图3.6(a)所示)以及二进制数据的编码方法不同(如图3.6(b)所示)。从TYPE A和TYPE B的比较可以看出以下几点:

(1)从读写器到卡的调制,TYPE A用100%ASK,因此其信号区别明显,易于检测,抗干扰能力强;但在每一位的传送(传送速率为106 kb/s时,传送周期为9.4 μs)中,有约3 μs的信号间歇,这时的读写器到卡的能量供应中断,必须在卡内电路中加一个大容量电容以维持一定的能量供应;而TYPE B用10%ASK,卡片可以从读写器获得持续的能量;但信号区别不明显,容易造成误读/写,抗干扰能力较差。

(2)TYPE A的防冲突需要卡片上较高和较精确的时序,因此需要在卡和读写器中分别加一些硬件,而TYPE B的防冲突可以用软件来实现。

目前TYPE A与TYPE B孰优孰劣尚在争议中。TYPE A 的产品具有更高的市场占有率,如Philips公司的MIFARE系列占有了当前约80%的市场,且在较为恶劣的工作环境下更有优势。但TYPE B应该在安全性、高速率和适应性方面有更好的前景,并且更适合于CPU卡。8 AntiCollision防冲突(1)指令功能:如果有多于一张的MIFARE 1卡处在MCM天线的有效工作范围(距离)内,则发生了冲突。AntiCollision指令使MCM能够在这一叠 MIFARE 1卡中选择某一张卡。

AntiCollision指令开始于一个AntiCollision Loop(防冲突循环,内部处理)。AntiCollision循环的启动是通过设置STACON寄存器中的AC位来完成的。防冲突循环结束时,AntiCollision指令将提供给用户在这些卡片中选定的那张卡片的一个有效的40位长的序列号(SN,Serial Number)。全球每一张MIFARE 1卡的SN各不相同。14 1.RF射频接口电路

在卡的RF射频接口电路中,波形转换模块接收读写器所发送的13.56 MHz的无线电调制信号。一方面送调制/解调模块,经解调得到相应的数字信息送数字电路模块;另一方面进行波形转换,将正弦波转换为方波,然后对其整流滤波,由电压调节模块对电压进行进一步的处理,包括稳压等,最终输出提供卡片上各电路的工作电压。

POR模块主要是对卡片上的各个电路进行POWER-ON-RESET(上电复位),使各电路同步启动工作。

而数字电路模块送出的数字信息则经由调制/解调模块调制为13.56 MHz的无线电调制信号,再送往波形转换模块发送给读写器。

2.数字电路部分模块

1)ATR模块:Answer To Request(“请求之应答”)

当一张MIFARE 1卡处在读写器的天线工作范围之内时,程序员控制读写器向卡发出Request all(或Request std)命令后,卡的ATR将启动,将卡片Block 0 中2个字节的卡类型号(TagType)传送给读写器,建立卡与读写器的第一步通信联络。

如果不进行第一步的ATR工作,读写器对卡的其他操作(读/写操作等)将不会进行。

2)AntiCollision模块:防(卡片)冲突功能

如果有多张MIFARE 1卡处在读写器的天线工作范围之内,则AntiCollision模块的防冲突功能将被启动工作。读写器将会首先与每一张卡进行通信,读取每一张卡的序列号(Serial Number)。由于每一张MIFARE 1卡都具有惟一的序列号,决不会相同,因此程序员将启动读写器中的AntiCollision防重叠功能配合卡上的防重叠功能模块,根据卡序列号来选定其中一张卡。被选中的卡将被激活,可以与读写器进行数据交换;而未被选中的卡处于等待状态,随时准备与读写器进行通信。

AntiCollision模块(防重叠功能)启动工作时,读写器将得到卡片的序列号(Serial Number)。序列号存储在卡的Block 0中,共有5个字节,实际有用的为4个字节,另一个字节为序列号的校验字节。

3)Select Application 模块:卡片的选择

当卡与读写器完成了上述两个步骤,读写器要想对卡进行读/写操作时,必须对卡进行“Select”操作,以使卡真正地被选中。

被选中的卡将卡片上存储在Block 0中的卡容量“Size” 字节传送给读写器。当读写器收到这一字节后,方可对卡进行进一步的操作,如密码验证等。4)Authentication & Access Control 模块:认证及存取控制模块

完成上述的三个步骤后,读写器对卡进行读/写操作之前,必须对卡上已经设置的密码进行认证,如果匹配,则允许进一步的读/写操作。

MIFARE 1 卡上有16个扇区,每个扇区都可分别设置各自的密码,互不干涉,必须分别加以认证,才能对该扇区进行下一步的操作。因此每个扇区可独立地应用于一个应用场合,整个卡可以设计成一卡多用(一卡通)的形式来应用。5)Control & Arithmetic Unit:控制及算术运算单元

这一单元是整个卡的控制中心,是卡的“头脑”。它主要对卡的各个单元进行操作控制,协调卡的各个步骤;同时它还对各种收/发的数据进行算术运算处理、递增/递减处理和CRC运算处理等,是卡中内建的中央微处理器(MCU)单元。6)RAM/ROM 单元

RAM主要配合控制及算术运算单元,将运算的结果进行暂时存储,例如将需存储的数据由控制及算术运算单元取出送到EEPROM存储器中;将需要传送给读写器的数据由控制及算术运算单元取出,经过RF射频接口电路的处理,通过卡片上的天线传送给读写器。RAM中的数据在卡失掉电源后(卡片离开读写器天线的有效工作范围)将会丢失。

同时,ROM中则固化了卡运行所需要的必要的程序指令,由控制及算术运算单元取出,对每个单元进行指令控制,使卡能有条不紊地与读写器进行数据通信。7)Crypto Unit:数据加密单元 该单元完成对数据的加密处理及密码保护。加密的算法可以为DES标准算法或其他。

8)EEPROM存储器及其接口电路:EEPROM INTERFACE/EEPROM MEMORY 该单元主要用于存储用户数据,在卡失掉电源后(卡片离开读写器天线的有效工作范围)数据仍将被保持。

10.语音识别技术 篇十

图像识别技术“一眼”看出你有多疼(图片来自新浪)

据介绍,如果你龇牙咧嘴,那么你的疼痛感应该比紧锁眉头要更强一些,

他可能没有了解你的父母懂得“疼在你身,痛在我心”,但是应该能比过与你素不相识的护士小姐。

这项技术并非纸上谈兵,它的确有实用价值。护士可借此判断你在外科手术时是否注射了足量的麻醉剂。这项拘束很像电影《超能陆战队》里的机器人“大白”,它只要看一眼就能判断出你是否受伤。

11.语音识别技术 篇十一

飞康CDP成功救灾基金公司业务系统

日前,国内某基金公司的IT管理人员发现,由于前一天的误操作,导致其清算系统已经全面故障,严重地影响到了当天下午的清算业务。清算系统是这家基金公司生产系统中最为核心的系统之一,发生故障将直接影响到前台的业务交易正常运行。因此,IT管理人员决定启用CDP灾备系统,将系统恢复到误操作前的最近时间点,以最快的速度恢复系统正常运行。在飞康技术人员的协助下,该公司利用飞康CDP的全回滚和生产磁盘增量同步技术,在1小时内就将出现故障的清算系统全面恢复了正常运行,避免了不可估计的业务、资产及名誉损失。

博科降低虚拟化IT环境中的网络复杂性

日前,博科公司宣布推出Brocade ServerIron ADX 4000系列扩展产品,其中包括高性价比的入门级机箱解决方案ServerIron ADX 4000 ASM-4捆绑包,能够提供业界领先的4~7层交换功能,以帮助客户实现按需、自动化数据中心计算的承诺。专为中型市场企业环境而设计的ASM-4捆绑包使客户能够体验模块化平台的灵活性和可扩展性优势。ASM-4模块可以通过许可证激活的方式按需扩展,使客户能够采用“按需付费”的投资方式,在不增加硬件或从网络移除交换机的情况下,使吞吐量翻一番,构建面向未来的负载均衡网络。

昆腾发布新款重复数据删除设备

12.语音识别技术 篇十二

近期, 语音识别在移动终端上的应用最为火热, 语音对话机器人、语音助手、互动工具等层出不穷, 许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用, 目的是通过语音交互的新颖和便利模式迅速占领客户群。我国采用嵌入式芯片设计技术研发了语音识别专用芯片系统, 这是国内研发的第一块语音识别专用芯片。芯片中包括了语音识别、语音编码、语音合成功能, 可以识别30条特定人语音命令, 识别率超过95%[1]。这些系统的识别性能完全达到国际先进水平。研发的成果已经进入实用领域, 一些应用型产品正在研发中, 其商品化的过程也越来越快, 而孤立词识别凭借着识别凭借着识别准确度高、具有较强使用价值等优点打开了广阔的应用前景。

1 孤立词音识别技术的难点[2]

首先, 实现小词汇量语音识别系统最可靠的方法为孤立词语音识别。虽然孤立词语音识别较其他类型的语音识别成熟完善, 基本可以达到使用要求, 但在实际的具体系统应用环境中, 仍存在一些影响因素使其识别率降低, 孤立词语音识别存在的难点问题有:

(1) 系统在面对环境变化时的稳定性:环境噪声广泛存在易造成训练与测试环境不匹配, 致使系统性能严重下降。

(2) 系统词汇的变化 (增加) :生活中, 每天都会有大量新词汇产生, 这导致模型训练和识别难度加大, 系统识别能力下降。

(3) 选取识别基元:如何选择识别基元, 才能在稳定性 (大基元) 和灵活性 (小基元) 间达到最佳的取舍, 是研究难点。

2 孤立词音识别的基本原理和思路

2.1 基本原理

孤立词语音识别系统指人在发音时, 以单字的发音方式向语音识别系统输入语音, 词语词之间要有足够的时间间隙, 以便系统能够检测到始末点。采用这种方式的语音识别系统可以做到很高的识别率。语音识别系统本质上是一种模式识别系统, 因此它的基本结构与常规模式识别系统一样, 包含特征提取、预加重、分帧、端点检测、模式匹配、参考模式库等单元。图1为孤立词语音识别系统的原理框图[3]。

2.2 基本思路

孤立词语音识别从本质上来说是模式识别, 语音识别过程就是根据模式匹配原则, 按照一定的相似性度量法则, 使待测语音的特征矢量与语音模式库中的某一个模板获得最佳匹配的过程, 如图2所示。

2.3 典型技术解决方案

隐马尔科夫模型 (Hidden Markov Model, HMM) :HMM是一种统计分析模型, 是在马尔可夫链的基础上发展起来的。HMM有算法成熟、效率高、易于训练等优点, 被广泛应用于语音识别、行为识别、文字识别和故障诊断等多种领域, 是目前语音识别的主流技术。对于非特定人连续识别, HMM的表现性能良好。

HMM的缺点在于统计模型的建立需要依赖一个较大的语音库, 这在实际工作中占有很大的工作量, 且模型所需要的存储量和匹配计算的运算量相对较大[4]。

在已知系统目前的状态 (现在) 的条件下, 一个过程的“将来”仅依赖“现在”而与“过去”无关, 这种过程称为无记忆的单随机过程 (马尔可夫过程) 。时间和状态都离散的马尔可夫过程称为马尔可夫链。设S是一个由有限个状态组成的集合, S={1, 2, 3, …, n-1, n}, 可以把马尔可夫链看做小球随时间在n种状态跳动的过程。

3 孤立词语音识别的技术方法[5]

3.1 预处理

预处理模块, 是对由用户录入的语音信号进行初步处理, 其目的是滤除与语音识别无关的较小的、会产生负面影响的信息等, 并对语音进行端点检测, 需要有滤波器完成。

3.2 预加重

预加重的目的是为了使语音信号的频谱更加平坦, 响应函数为

(1) 语音分帧

语音分帧是为了获得一个准稳态过程, 以方便对语音信号进行理论分析。加汉明窗可有效克服频率泄漏现象。

(2) 特征提取[6]

通过话筒采集到的语音信号中含有很多冗余的信息, 只有从语音信号中撮出的表示其特性关键参数来表征其特性, 才可以为更语音模型库的建立创造良好的前提条件。由于Mel频率滤波器组对人耳的拟合精确度较高, 故相关研究人员将Mel频率的倒谱系数 (MFCC) 视为一种理想的特征参数, 如图8所示。

(3) 建立声学模型库

建立声学模型库最主要是, 考虑两方面的问题, 即识别基元选择问题和声学模型的训练问题。语音识别的准确度 (识别性能) 与以什么训练方式得到模板有很大关系

A偶然训练法 (单一用户、小词汇量)

B多模板平均法 (重复朗读、特征矢量序列、动态时间规整DTW平均)

C聚类训练法 (用于非特定人的语音识别)

4 孤立词语音识别技术的发展方向[6]

语音作为当前通讯系统中最便捷的通信载体, 随着计算机和语音处理技术的发展, 语音识别系统的实用性将进一步提高。今后孤立词语音识别技术的发展方向:

(1) 不同语种之间的互译——语音翻译;

(2) 非特定人、小词汇、孤立词、连续语音识别;

(3) 人体语音口语与机器语音相结合的人机交互技术;

(4) 网络语音和电话语音、面向通讯和互联网的语音识别;

(5) 逐步微型化发展, 从PC机平台到PDA堂上电脑, 再到嵌入式的语音识别。

21世纪是信息和网络的时代, Internet把全球各连接成一个地球村, 海量的信息资源能够通过互联网在短暂的时间内迅速传播到全球各地, 人与机器进行信息互通的需求不断增强, 迫切需要语音识别技术领域的技术成果, 以满足人们在任何地方、任何时间、对任何事物都能够通过语音交互的方式得以实现。从语音识别技术的发展可以看出, 科学技术推动了社会发展, 满足人们的需求, 社会需求也反过来推动科学技术发展, 随着语音识别技术的快速发展, 我们将深切体会到语音识别带来的种种便利。

5 孤立词语音识别技术的应用前景分析

语音识别技术发展到今天, 特别是中小词汇量非特定人语音识别系统识别精度已经大于98%, 对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展, 这些复杂的语音识别系统也已经完全可以制成专用芯片, 大量生产。在西方经济发达国家, 大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能, 还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息, 并且取得很好的结果。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。

可以预测在近五到十年内, 语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上, 人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统, 要建成这样一个系统仍然是人类面临的一个大的挑战, 我们只能一步步朝着改进语音识别系统的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。作为一项具有实用性的技术, 孤立词语音识别的应用越来越广。为了满足实际需求人们一直在致力于不断完善孤立词语音识别系统, 使语音识别具有更高的便捷性、高效性、随机性、交互性等显著特点, 从而进一步推动人类社会的信息化和自动化进程。

摘要:孤立词语音识别技术, 采用的是模式匹配法, 是语音识别技术的核心之一。首先, 用户将词汇表中的每一词依次说一遍, 并且将其特征矢量作为模板存入模板库。然后, 将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较, 将相似度最高者作为识别结果输出。本文介绍了孤立词语音识别技术的研究现状及几种常见的技术方法, 并且分析探讨了孤立词语音识别技术的应用和发展前景。

关键词:语音识别,孤立词

参考文献

[1]刘钰.语音识别技术概述[J].计算机光盘软件与应用.2010 (14-17) .

[2]倪崇嘉, 刘文举, 徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报.2009 (01) .

[3]王敏妲.语音识别技术的研究与发展[J].微型机与应用.2009 (55-58) .

[4]李刚建.语音识别模式发展方向研究[J].吉林建筑工程学院学报.2006 (03) .

[5]安镇宙, 杨鉴王, 红余映.范一种新的基于并行分段裁剪的DTW算法[J].计算机工程与应用2007 (43) 研究.

13.射频识别技术在酒类防伪中的应用 篇十三

近年来由于改革开放以及中国加入世贸组织的影响,我国的酿酒行业在技术以及新品的研发上有了长足发展。酒类产品的制作工艺以及产销量也在不断提高。具不完全统计,截止2010年底酒类行业的工业总产值已经突破2千亿元,其中白酒占总产值的65%红酒占到了总产值的30%以上,但是由于酒类市场的不断发展壮大,使越来越多的不法分子看到其中所存在的巨大利益,假冒伪劣的酒类制品屡禁不止极大地破坏了市场环境,对企业造成了巨大的经济损失也严重影响了人们的身体健康与生命安全。在这种情况之下我们迫切需要一种新的防伪管理技术来有效制止假冒劣质酒在市场的流通,建立起监管追溯一条龙的运营模式。而射频识别技术(RFID)可以有效的解决这一难题,该技术的优点在于为每一瓶酒加装一个独一无二的电子身份证。从原产品的种植,仓储,物流运输,到经销商的信息进行全面的记录并提供查询服务,建立起生命链防伪溯源管理从根本上杜绝假酒的产生。

一、酒类防伪现状以及存在的问题 我国大小酒制品企业30000多家,但是真正获取生产许可的只有不到1万家,而在2005年的酒类生产资格调查中显示通过率仅为百分之15%,这说明中小企业假冒伪劣侵权行为严重,并潜在食品安全性问题。此现象发生的原因是因为行业经营比较集中,传统名优酒类品牌知名度高,但行业防伪手段落后,使得不法分子选择对高端酒类造假成为其快速谋取暴利的手段。据《北京晨报》2010年12月23日报道,河北昌黎县周边少数葡萄酒厂家生产假冒伪劣葡萄酒,傍名牌一条龙造假行为尤为猖獗,给当地的知名葡萄酒企业造成了严重的影响,一瓶成本几块钱的酒经过灌装,贴牌,包装后就成了知名品牌的酒,价格也翻了十几倍。尽管各知名酒商不断进行防伪措施的更新换代,但归根结底造成此类原因的问题在于以下三方面:一是大酒厂防伪手段落后;二是标签贴装工艺简单容易造假(通过标签生产商,回收等);三是标签可识别性差,消费者不能判断标签真伪。现有酒类商品防伪手段主要分为:数码防伪(短信防伪),光学防伪,化学油墨防伪,条形码防伪,包装防伪等。这些防伪手段在制作商具备一定的科技含量,但都存在相似的缺点即;防伪信息肉眼可见。包装和防伪标签可被回收再利用或被仿制。而且仿制的产品其外观特征与原包装几乎相同,消费者能难辨别真伪。所以需要研发一种新型防伪技术改善这些存在的问题,提高企业的防伪管理水平。

二、国内外酒类RFID技术的发展现状及应用情况(一)RFID射频识别技术及工作原理:

RFID(RadioFrequencyIdentification)是一种无线射频识别技术,它是自动识别技术的一种。从概念上来讲,RFID类似于条码扫描,对于条码技术而言,它是将已编码的条形码附着于目标物并使用专用的扫描读写器利用光信号将信息由条形磁传送到扫描读写器;而RFID则使用专用的RFID读写器及专门的可附着于目标物的RFID标签,利用频率信号将信息由RFID标签传送至RFID读写器。RFID系统组成如下图所示。标签进入磁场后,接收解读器发出的射频信号,凭借感应电流所获得的能量发送出存储在芯片中的产品信息(PassiveTag,无源标签或被动标签),或者主动发送某一频率的信号(ActiveTag,有源标签或主动标签);解读器读取信息并解码后,送至中央信息系统进行有关数据处理。

(二)国外RFID发展现状

美国早在1970年酒开始了RFID的民用化推广,1980年末美国与欧洲的很多家公司开始生产RFID电子标签,如今RFID技术已被光放应用到各个领域,如门禁管理,城市一卡通,物流管理追溯等。2006年初美国的EJGallo葡萄酒公司率先应用了RFID标签,他的主要目的是进行大范围的仓储盘点以及货物运输,但随着市场的不断发展扩大,这种技术逐渐被运用于酒类的溯源防伪领域。近年来德国的伏特加假酒案,印度假酒案致143人甲醇中毒死亡案等不断涌现,在这种情况之下大部分国外知名酒商纷纷采用了RFID射频监测手段来进行有效的监管。直至2010年初RFID酒类溯源技术已经推广到了欧洲9个国家以及美国,印度等国。知名酒商如Jebson&Co,WolfBlassYellowLabelCabernetSauvignon等都率先采用这种技术。

(三)国内RFID发展现状

RFID技术在国内的应用还不是很广泛,只有部分领域使用了这种技术,如公交一卡通,邮政包裹,二代身份证等,并且功能及作用范围十分有限。2006年科技部等15部委发布《中国射频识别技术政策白皮书》指出RFID产业将成为国民经济的新增长点,并在重大项目尅申请指南中强调:在“十一五”期间大力发展射频识别技术。我国酒类制品造假由来已久,早在1994年山西溯州假酒案造成十几人中毒死亡,使与本案无关的中国四大名酒之首山西汾酒从行业第一(“汾老大”)跌落20名以外,十余年不能恢复元气。当今假烟假酒盛行已是公开的事实。市场盛传茅台真假比例为1:9,五粮液真假比例为1:3,洋河真假比例为1:1,等等。这些是无法统计无法验证的。2009年末为响应国家对于食品安全朔源的管理要求和提升行业品牌形象,五粮液、茅台、双钩、泸州老窖纷纷开始尝试应用RFID技术进行防伪管理,但由于方案设计不够成熟成本以及成本过高等原因,其实无法大力推广使用。

三、RFID酒类防伪追溯管理解决方案

(一)防伪需求分析

1.产品假冒:今年来各个知名白,红酒厂家均被假冒伪劣产品所困扰,年损失几千万,使用的防伪技术老旧无法从源头解决根本问题。2.消费者对商品信息的需求:消费者需要了解酒的质量,是否假冒,以及产地,生产厂家,生产日期,品种,等级是否与实务相符以及酒的原料成分,生长环境,制作工艺,文化内涵等。3.生产企业对防伪信息的需求:需要做到高度可靠,难以伪造,保证物流过程产品安全等。4.流通企业对产品信息的需求:做到使用方便,操作简单,防伪及产品质量安全信息能够快速查询,投入的设施和费用企业能够承担。5.政府监管部门对信息的需求:酒类流通监管,结合管理制度建立产品履历管理体系,产品检验及鉴定信息等。

(二)项目可行性分析

选择有市场基础和雄厚实力并且迫切需要此类技术进行产品完善工作的昌黎葡萄酒公司为试点,建立基于RFID技术的酒类防伪综合示范的标准化基地,从酒的整个生产流程推行基于RFID技术的酒类防伪示范工程,开展酒类防伪综合应用试点,项目运营成熟后在逐渐推广到其他酒类企业。目前,酒类防伪系统在国内市场还处于导入期,需要广泛的宣传以及政府的支持。通过研究RFID在酒类防伪溯源中的应用,提出低成本合理化的RFID技术解决方案,实现RFID技术在酒类行业的推广,形成行业应用标准,带动我国RFID技术产业化的发展,同时也宣传了酒类防伪溯源的离你那,推动了传统名优白酒产业在“十一五”的健康发展,有利于出尽白酒产业向名优白酒方向的发展。在技术方面,传统的酒类防伪溯源技术存在着很多缺陷,如记载信息量太小,不能完整的记录涉及的所有信息,信息只读不支持写入,识读范围小,容易损坏,不能适应潮湿的环境等。而RFID则基于无线射频技术,可以完成对于标签内容的识读与数据集成,可以记载大量的商品物流信息等,并且可读可写式的记录方式可以有效的做到产品的追溯工作能够及时发现存在的问题。此外,RFID标签具有使用寿命长,安全性高,对环境要求低等优点,拥有条形码不具备的防水,防磁,耐高温等性能。近年来RFID技术发展迅速,我国的铁路,公交,邮政,物流,烟草,医药,公安等诸多行业都已经使用了RFID技术。由于其技术给人带来极大地方便,并且随着价格的下降技术的完善,RFID技术正向日常生活工作的各个方面快速渗透。RFID的普及为基于RFID技术的酒类防伪系统研究提供了基础,通过研究RFID在酒类防伪系统中的技术应用,有助于探索酒类防伪标准中的关键技术标准规范,加快创新,推动RFID产业发展。企业方面,基于RFID技术的酒类防伪追溯系统可以帮助企业实现标准化的防伪规范和防伪操作流程,能够利用RFID技术优势实现自动数据采集提高工作效率,帮助企业提高监管生产能力,扩展品牌质量优势。我国是酒制品生产大国,酒类企业众多,基于RFID的防伪溯源技术拥有广阔的市场前景。

消费者方面,消费者对于酒类的质量,卫生情况有着越来越高的要求。RFID酒类溯源防伪能够提供给消费者一系列的酒类信息并且保证酒品的安全,并能消费者对于酒的知情权和选择权,使消费者购买的更放心。(三)总体方案 1.方案概述 在竞争日益加剧的今天,产品质量已经关乎到企业的生死,是每个企业都不能忽视的问题,企业必须加快技术革新,采用先进的工艺技术,加强产品质量监管,增强国内外市场竞争力,减少投入,不断提高经济效益。质量管理对于企业是非常现实的需求,在实现质量的过程中,质量追踪起着重要的作用。系统覆盖了从生产至出入库至市场查询等流通环节,具有很高的完整性和灵活性。其与物流系统结合后,将具有强大的防伪防窜和全方位的追踪溯源功能。该系统采用自动化技术,自动识别技术以及信息加密技术,给每件产品赋予唯一的身份标签,通过在生产过程中进行产品赋码及对流通销售信息的监管,实现对每件酒类产品的物流,信息流进行监督管理和控制。方案以RFID技术为数据管理手段,对企业生产分销等环节的作业过程进行自动识别实现信息化管理,以确保业务过程中对各种对象管理的正确性,准确性。信息化建设主要针对防伪,溯源管理,仓库管理,分销管理,流向追溯无方面开实施。在商品防伪领域内,防伪技术是保护消费者权益和企业利益的重要技术。然而目前市场上的防伪产品采用的防伪技术绝大部分仍然是纸质材料,这些材料和技术容易被复制和替换不能起到其应有的作用,而RFID芯片内容无法被仿制。在生产环节中提前将RFID标签标签初始化并关联到相应的生产任务中,生产时将RFID标签缝制在红酒内,为以后的业务过程打下数据基础。生产环节根据企业需要还应对圆脸的采购,加工,生产的工序,公式等进行相应的管理。仓库管理除了基本的入库,盘点管理外,还应明确货区货位,对产品的销售周期,库存成本,库龄周期,库存属性,库内业务效率等做相应的分析管理。分销环节中使用定制的线体对大型仓库的出入库数据进行采集,门店应用无线终端进行收发货操作。以此来实现总公司到分公司到代理商,加盟店店的数据共享。当企业的管理平台搭建成功后,就可以对从生产到销售终端的质量追溯,防伪防串,渠道优化整合等出具管理依据。2.整体技术方案 由上图所示该系统架构分为五部分组成:接入层;数据层;服务层;应用层;表示层。

(1)接入层:主要的作用是通过读写器,传感器,无线网络等设备采集相关射频信号数据并发送这些数据层进行下一步操作。

(2)数据层:包括单位信息,产品数据,容器信息,事件信息等,并把这些信息发送到服务层进行解码转换等工作。

(3)服务层:包括注册编码解析,RFID信息服务,RFID发现服务,异常处理服务等,其作用是通过特定的编码解析把射频数据转换为数字数据并储存到中心服务器中以备后续调用;此外通过数据的交互可对RFID设备的运行请款进行管理,并能处理发生的问题。

(4)应用层:包括采购管理,生产管理,物流管理,质量管理,跟踪追溯等应用系统。这些管理系统跟服务层的中央数据库相连并调用数据库中的数据,了解事实储存的信息进行生产,物流仓储等方面的管理。

(5)表示层:是企业网站和相关部门的网站入口,现有的企业ERP或信息系统可以在应用层通过接口集成。使各个监管部门可以有效的进行管理并执行检查的工作。

此整体技术方案目的是通过RFID电子标签的特性把酒类防伪应用中遇到的防伪技术仿造问题解决,彻底解决防伪标签防伪码被再利用的问题通过防止回收使用的电子标签封转技术解决,解决电子标签在酒类瓶装封装环境下的自动写入,可识读适应性问题,解决酒类产品全程追踪溯源问题。在产品出现问题的情况下可以快速找到出问题的环节。3.流程设计思路

系统在一台服务器的平台上运行,其功能主要由五个模块组成:单件酒类防伪管理模块;酒类跟踪管理模块;自动化生产管理模块;酒类仓库管理模块;酒类物流管理模块。追溯体系包含如下环节:

(1)原料储存环节:原料库RFID分类管理,先进先出,原料等级分区。(2)生产管理环节:生产线赋予每瓶酒RFID标签并进行生产工位计件。(3)成品中心库管理环节:生产完的酒瓶通过RFID自动感应上传入库信息;并实现库存酒RFID手持机快速盘点

(4)异地库管理环节:异地库可通过RFID手持PDA进行收货,确认货物是否完整被调换过,从何处发货等。

(5)经销商管理环节:经销商通过RFID手持PDA可查到此货物的发货运输信息。

(6)终端用户管理环节:终端客户通过RFID终端查询机可以查到每瓶酒的原料生产过程,仓储,物流,经销商所有信息,起到全程追溯的作用。4.应用方案(1)防伪瓶盖的设计:瓶盖的内嵌RFID电子标签与瓶盖的热塑膜封口相连,当撕开热塑膜封口后机械结构会把RFID芯片破坏从而达到开盖即损,无法回收的效果。

(2)电子标签数据信息

EPC编码结构标准包括:EPC-64,EPC-96,EPC-256。考虑到酒类产品出货量为中等,选择64b进行EPCID编码。现有条形码的主要数据信息为商品身份,其他包括生产厂家、产地、规格、生产日期等。EPC标签存储的信息要远大于条形码,但数据信息影响标签的读取速度,用RFID防伪是根据EPCID码进行数据库的检索操作,射频标签的数据格式关键在数据库的检索码DSC(DataSearchedCode)。出于上述考虑,酒类EPC标签数据信息设计为APC+PTC+ATC+UID,每块分配16b数据,也可根据需要分配。其中,APC为生产厂家代码,PTC为产品类型代码,ATC为产地、生产日期,UID为单个产品的惟一序列标识码。主要技术指标: 工作频率:925MHZ 适用温度:-40°至150° 通信速率:≥260kbps 存储容量:≥512kbits 康液体环境(3)防伪识别器

防伪识别器是检测产品真伪的终端设备,可以通过视频显示消费者需要的真伪信息。其主要分布在各大酒类销售场所,超市街头等,消费者可以很容易找到。(4)防伪识别器硬件架构:

读写器,用来读取酒类EPC标签信息并传送到处理平台。

工业计算机(IndustryComputer,IC),实现数据处理、传送、查询、显示。中间件,转换不同标准读写器和防伪识别器的连接 图6.防伪识别器硬件架构(5)防伪识别器软件架构:

读写器控制模块:发送读写器控制指令实现射频标签的数据读取与传输。用户操作平台的搭建:提供完善直观的界面,操作简单,可快速查询酒类信息。

产品数据库:管理酒类产品的信息查新,更新,删除。数据传输:负责与监管中心进行数据交换。(6)主要技术指标:

工作频率:925MHZ 通信协议:ISO180006C 输出功率:+20dBm-+30dbm 调制方式:100%ASK调制 最远读取距离:3米,最远写入距离:0.5米

多标签读取速率:≥300个每秒 工作温度:-20°至60° 酒类产品生命周期流程追踪设计

(1)黏贴射频电子标签:通过自动化的方法在产品的相应位置放置RFID防伪射频标签。

(2)生产线上安装固定式读写设备,向标签内写入数据,并自动记录该信息酒类在包装生产线的末端放置有读写设备,电子标签通过读写区域时,读写器自动读出标签ID号,并写入酒类的EPC代码,同时在用户数据区内写入其他信息如产品下线时间等;同时,读写器可以根据一定的算法为每一个标签设定不同的访问密码,防止有人企图修改标签内部的数据。另外,服务器记录该标签信息,为每瓶酒建立档案以便查询。完成数据写入工作后将酒类装入包装箱准备入库。(3)仓储管理:在每瓶出产的酒的瓶颈上运用EPC的电子标签,记录摆放位置、产品类別、日期等数据;而透过在酒瓶上的标签,则可根据每个产品特有的编码,随時掌握货品状态、包括温度是否适合、酒的质量情况等,以便仓储管理,也能立即了解需要补货的项目,方便于缺货管理。而且在退换货的情况时只要倒入系统里,便可以对数据进行修改。

(4)配送物流管理:通过RFID读取包装箱上的标签数据进行快色货物盘点,了解货物种类并进一步录入数据,如配送地点配送时间及配送的酒类数量等。(5)经销商、零售商配备手持机检验酒的真伪:在消费者购买酒类产品时零售商用手持机当场检验酒类的真伪,如果可以顺利读到数据,表明该瓶酒是真酒,如果不能读出标签内数据,消费者可以拒绝购买。以此方式可以从源头上杜绝假酒的产生。电子标签不可能做到重复利用,可以排除不法分子回收旧酒盒后,将电子标签拆下再次使用冒充真酒的可能;此外,假酒生产厂商伪造仿冒RFID系统的代价太过于高昂基本不可能实现。

四、结语

上一篇:温暖的法律与法同行下一篇:郑州九年级物理二模