语音识别技术范文

时间:2023-01-05 23:03:54

引言:寻求写作上的突破?我们特意为您精选了12篇语音识别技术范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。

语音识别技术

篇1

关键词:语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。 二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考文献

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展.企业专栏.通讯世界,2007.2:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)

篇2

中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2013)13?0043?03

Summary of speech recognition technology and its application

YU Lin?lin

(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)

Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.

Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system

0 引 言

语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。

1 语音识别技术的发展

语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。

20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。

20世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warping, DTW)技术基本成熟,特别提出了矢量量化(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)理论[1]。

20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛应用于大词汇量连续语音识别(Large Vocabulary Continous Speech Recognition, LVCSR)的声学建模[2?3];在语言模型方面,以N元文法为代表的统计语言模型开始广泛应用于语音识别系统[4]。在这一阶段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统,语音识别技术取得新突破。

20世纪90年代以后,伴随着语音识别系统走向实用化,语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展[5]。同时,人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题[6]。此外,语音识别技术开始与其他领域相关技术进行结合,以提高识别的准确率,便于实现语音识别技术的产品化。

2 语音识别基础

2.1 语音识别概念

语音识别是将人类的声音信号转化为文字或者指令的过程[7]。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域[8]。

根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

2.2 语音识别基本原理

从语音识别模型的角度讲,主流的语音识别系统理论是建立在统计模式识别基础之上的。语音识别的目标是利用语音学与语言学信息,把输入的语音特征向量序列[X=x1,x2,…,xT]转化成词序列[W=w1,w2,…,wN]并输出。基于最大后验概率的语音识别模型如下式所示:

[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]

上式表明,要寻找的最可能的词序列[W],应该使[P(X|W)]与[P(W)]的乘积达到最大。其中,[P(X|W)]是特征矢量序列[X]在给定[W]条件下的条件概率,由声学模型决定。[P(W)]是[W]独立于语音特征矢量的先验概率,由语言模型决定。由于将概率取对数不影响[W]的选取,第四个等式成立。[logP(X|W)]与[logP(W)]分别表示声学得分与语言得分,且分别通过声学模型与语言模型计算得到。[λ]是平衡声学模型与语言模型的权重。从语音识别系统构成的角度讲,一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果[9]。

语音识别系统基本原理框图如图1所示,其中:预处理模块滤除原始语音信号中的次要信息及背景噪音等,包括抗混叠滤波、预加重、模/数转换、自动增益控制等处理过程,将语音信号数字化;特征提取模块对语音的声学参数进行分析后提取出语音特征参数,形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键,对识别效果极为重要。

图1 语音识别基本原理框图

由于语音信号本质上属于非平稳信号,目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后,通过对语音信号进行加窗,实现短时语音片段上的特征提取。这些短时片段被称为帧,以帧为单位的特征序列构成语音识别系统的输入。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度准确刻画语音信号,已经成为目前主流的语音特征。为补偿帧间独立性假设,人们在使用梅尔倒谱系数及感知线性预测系数时,通常加上它们的一阶、二阶差分,以引入信号特征的动态特征。

声学模型是语音识别系统中最为重要的部分之一。声学建模涉及建模单元选取、模型状态聚类、模型参数估计等很多方面。在目前的LVCSR系统中,普遍采用上下文相关的模型作为基本建模单元,以刻画连续语音的协同发音现象。在考虑了语境的影响后,声学模型的数量急剧增加,LVCSR系统通常采用状态聚类的方法压缩声学参数的数量,以简化模型的训练。在训练过程中,系统对若干次训练语音进行预处理,并通过特征提取得到特征矢量序列,然后由特征建模模块建立训练语音的参考模式库。

搜索是在指定的空间当中,按照一定的优化准则,寻找最优词序列的过程。搜索的本质是问题求解,广泛应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等),在状态(从高层至底层依次为词、声学模型、HMM状态)空间中找到最优的状态序列。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。在识别阶段,将输入语音的特征矢量参数同训练得到的参考模板库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别中间候选结果输出。为了提高识别的正确率,在后处理模块中对上述得到的候选识别结果继续处理,包括通过Lattice重打分融合更高元的语言模型、通过置信度度量得到识别结果的可靠程度等。最终通过增加约束,得到更可靠的识别结果。

2.3 声学建模方法

常用的声学建模方法包含以下三种:基于模式匹配的动态时间规整法(DTW);隐马尔可夫模型法(HMM);基于人工神经网络识别法(ANN)等。

DTW 是较早的一种模式匹配的方法。它基于动态规划的思想,解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题。在实际应用中,DTW通过计算已预处理和分帧的语音信号与参考模板之间的相似度,再按照某种距离测度计算出模板间的相似度并选择最佳路径。

HMM是对语音信号的时间序列结构所建立的统计模型,是在马尔可夫链的基础上发展起来的,它是一种基于参数模型的统计识别方法。HMM可模仿人的言语过程,可视作一个双重随机过程:一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程[10]。

ANN以数学模型模拟神经元活动,将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域,并结合神经网络和隐含马尔可夫模型的识别算法,克服了ANN在描述语音信号时间动态特性方面的缺点,进一步提高了语音识别的鲁棒性和准确率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估计音素或状态的后验概率。2011年,微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。

3 语音识别的应用

语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中,它使得人们可以甩掉键盘,通过识别语音中的要求、请求、命令或询问来作出正确的响应,这样既可以克服人工键盘输入速度慢,极易出差错的缺点,又有利于缩短系统的反应时间,使人机交流变得简便易行,比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言的语音输入翻译为另一种语言的语音输出,实现跨语言交流[11]。

语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发,并在军事领域首先应用、首获成效的,军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前,语音识别技术已在军事指挥和控制自动化方面得以应用。比如,将语音识别技术应用于航空飞行控制,可快速提高作战效率和减轻飞行员的工作负担,飞行员利用语音输入来代替传统的手动操作和控制各种开关和设备,以及重新改编或排列显示器上的显示信息等,可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来,以便更快获得信息来发挥战术优势。

4 结 语

语音识别的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展,语音识别技术将取得更多重大突破,语音识别系统的研究将会更加深入,有着更加广阔的发展空间。

参考文献

[1] 马志欣,王宏,李鑫.语音识别技术综述[J].昌吉学院学报,2006(3):93?97.

[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.

[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.

[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.

[5] 倪崇嘉,刘文举,徐波.汉语大词汇量连续语音识别系统研究进展[J].中文信息学报,2009,23(1):112?123.

[6] 顾亚强.非特定人语音识别关键技术研究[D].长沙:国防科学技术大学,2009.

[7] 中华人民共和国国家质量监督检验检疫总局.GB/T21023?2007 中文语音识别系统通用技术规范[S].北京:中国标准出版社,2007.

[8] 王文慧.基于ARM的嵌入式语音识别系统研究[D].天津:天津大学,2008.

篇3

一、引言

随着我国外语教学的不断发展,各种外语口语教学工具与学习方法也应运而生。然而外语口语的学习对于学习者而言既是重点也是难点,当前的计算机辅助教学只是侧重于外语单词记忆教学与语法教学,并且因为外语口语学习者的学习水平不一,在学习过程中很难将自己的不正确发音找出来。于是,在外语口语学习中就可以应用语言识别技术,该系统具备外语口语发音的纠正功能,学习者通过该系统进行外语口语的学习与练习,就能纠正自己错误的发音,避免因为多次错误发音而形成不良习惯。因此,对外语口语训练中语音识别技术进行研究,能够提高外语口语学习者的学习效率。

二、外语口语学习中语音识别技术应用的重要意义

随着中国改革开放程度的深化以及全球经济一体化的飞速发展,世界各国的交往越来越频繁,学习并掌握一门外语,对于人们的工作与生活而言,已经成为必不可少的工具。在学习外语的需求不断增长的情况下,出现了各种外语教学方法、教学工具以及语言学校等,然而国人在外语学习过程中,外语的口语教学与学习一直是较难突破的难题,其主要原因有以下几个方面:

(一)各种外语发音的特点与汉语发音的特点存在较大差异,因而可能导致国人在学习外语时由于受到母语的深厚影响而犯下许多自己根本无法察觉或者是很难察觉的发音错误。

(二)目前在国内合格的外语口语教师还是很少,自己发音标准又能够准确地指导别人进行口语学习的外语教师,即便是在一些大中城市的中小学中也相当缺乏。同时,一般的媒体教学也不能够针对学生的特定情况,有效地让学生与教师互动进行口语训练,只能够单方面地进行传授,所以起到的作用也不是很有效。

外语口语训练中语音识别技术的应用,让软件具备了矫正错误发音的功能,能够为学习者及时改正错误的发音提供帮助,从而有效避免错误反复而变成一种恶性习惯,并使外语学习者口语学习的效率与效果得到一定程度的提高,获得更大的市场价值与社会效益。

三、外语口语训练中语音识别的关键技术

(一)语音识别

在语音识别技术中,语音识别是第一步也是最重要的一步,接下来几个步骤的精确度都会受其影响,它能够在语法与音素模型的基础上,将输入的语音信号翻译成单词串。同时,许多基于计算机的语言训练活动都可以应用这一部分,比如基于语音的选择题或者是与计算机的对话训练等等。

(二)语音评分

在基于语音识别技术的外语口语学习系统中,语音评分技术是最基本也是最核心的组成部分。语音评分技术能够评价并反馈学习者的口语发音情况,可以让学习者通过反馈的结果对自己的学习结果进行检查。通常情况下,按照语音评分技术,目前的外语口语学习系统主要可以分为两种:一种是基于语音特征比较的评分方法,它通过将学习者的发音与标准语音进行对比参考,从一个较为主观的角度对一段语音质量进行评价,通常采用动态时间规整技术实现,因为其具备运算量小的特点,因而在嵌入式系统与手持设备中运用较多;另一种是基于声学模型的评分方法,它能够通过语音识别技术将以计算发音质量所需的小单元切割出来,然后再通过事先训练好的声学模型与其进行对比,最后根据评分机制对其评分,因为该方式较为客观,目前主流的外语口语学习系统中均采用这种技术,其主要是基于隐马尔可夫模型(HMM)技术实现。

如图1,基于HMM的语音评分流程图所示,其语音评分的关键技术分为以下几步:

图1 基于HMM的语音评分流程图

1.首先,对学习者所输入的语音进行特征提取;

2.其次,将已经训练好的HMM作为模板,再采用Viterbi算法将语言以计算发音质量所需的小单元进行分割,并强制对齐;

3.最后,采用不同的评分机制对不同的需要进行评分,将评分结果得出。同时,在某些情况下,要注意将说话验证在语音评分开始时加入,从而将学习者发音内容与标准发音完全不同的部分挡下,保证整个口语学习系统的可信度更高。此外,由于同样的声音可能代表的意义不同,因而在这些更加复杂的应用中,需要将各种词发生概率的大小、上下文的关系进行综合考虑,并将语言模型加入,从而为声学模型的判断提供更好的辅助。

(三)发音错误检测与错误纠正

对于外语学习者而言,虽然知道系统能够评价其发音质量,但是单凭非母语学习者自己对其自身错误的所在还是不能清楚地了解到,对这个错误也不知道如何进行纠正。因而,外语口语学习者需要通过系统对发音的错误进行检测与定位,并将相应的错误纠正建议提供给学习者进行有效纠正。

1.发音错误的检测与定位

在外语口语训练中,导致错误发音的因素有很多。例如学习者不会发某种声音,或者是受到其他语言拼读方法的影响以及不能正确体会到两种声音的差别等等。语音识别器也是发音错误检测中使用的一种方法,比如用母语训练的语音识别器,但是因为在没有使用自适应技术的情况下,学习者发音的识别错误也有可能会当成是发音错误,因而这种方法就很难准确地检测到非母语学习者的发音是否正确。所以,目前对错误发音的检测比较合理的一种做法是:首先以发音专家的知识为依据,严格将容易出错的发音进行合理的分类,然后以不同的错误类型为依据,将其相应的检测算法设计出来,最后用各种错误检测算法对学习者的发音分别进行检测。

2.发音错误的纠正

系统将发音错误检测出来后,同时就对学习者所犯的错误根据专家关于发音错误的知识给出相应的错误提示与错误纠正建议。其中,对于这些发音专家知识的构建而言,是通过事先收集大量的经验数据而积累而成的,例如不同学习者的发音特点等,然后通过数据挖掘的聚类算法将不同学习者不同发音特征的聚类准确地计算出来,再由专家客观地评判分类的发音,最后将各聚类的改进建议提出来。

(四)回馈展示

在基于语音识别技术的外语口语学习系统中,这一部分是整个系统对用户的窗口,上述部分所产生的信息都可以通过分数条或者是数字的形式为外语学习者展示出来。同时只有通过这个模块,外语学习者才能够从基于语音识别技术的外语口语学习系统中获益,所以,整个系统的可用度都通过这一模块设计的好坏来决定。

四、结语

总而言之,随着社会经济与科学技术的快速发展,各种带有语音识别技术的便携式终端设备出现在人们的日常生活与学习中,为广大外语爱好者与学习者提供了不受教师资源、地点以及时间等限制的智能外语学习系统,有效地提高了外语学习者的学习效率与学习效果,相信在未来,也能够为外语学习者们提供更快、更好的电子学习手段。

【参考文献】

[1]卢永辉.语音识别技术在外语口语训练中的应用[J].电脑知识与技术,2014(04):836-837,843.

[2]吴艳艳.孤立词语音识别的关键技术研究[D].青岛:青岛大学,2012.

篇4

中图分类号:TP37文献标识码:A文章编号:1009-3044(2009)13-3541-02

1 引言

语音识别起源于20世纪50年代AT&T贝尔实验室的Audry系统,它第一次实现了10个英文数字的语音识别,这是语音识别研究工作的开端。作为一门交叉学科,它正逐步成为信息技术中人机接口的关键技术,被认为是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术与语音合成技术结合使人们能够甩掉键盘,取而代之的是以语音输入这样便于使用的、自然的、人性化的输入方式。

2 相关技术简介

2.1 语音识别技术

所谓语音识别技术就是让计算机(或机器)通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术,属于多维模式识别和智能计算机接口的范畴。语音识别技术的终极目标就是研制出一台能听懂任何人、任何内容的讲话的机器。语音识别按发音方式分为孤立词、连接词和连续语音的语音识别系统;按词汇量大小分为小词表、中词表和大词表以及无限词汇量语音识别;按说话人适应范围分为特定人、限定人和非特定人语音识别。

2.2 多Agent技术

Agent的研究起源于人工智能领域,Agent具有自治性、社会性、反应性和能动性。智能Agent对自己的状态和行为有完全的控制能力,它能够在没有人或者在其他Agent的直接干预下,对复杂的刺激进行响应并产生内部状态的控制和适应性的行为,外界通过Agent的接口对Agent实现功能调用和通信,而无需知道Agent内部的具体工作过程。多Agent系统(MAS)由多个自主或半自主的智能体组成,每个Agent或者履行自己的职责,或者与其他Agent通信获取信息互相协作完成整个问题的求解。语音识别技术本就是人工智能的一个应用方面,而将人工智能的前沿理论―多Agent技术引入语音识别技术中是一项有意义的工作。

3 在语音识别中引入多Agent技术

3.1 多Agent语音识别原理

传统的语音识别存在自适应问题,对环境条件的依赖性强;噪声问题,讲话人产生情绪或心里上的变化,导致发音失真、发音速度和音调改变,产生Lombard/Loud效应;其它如识别速度问题、拒识问题以及关键词检测问题。而多Agent技术中自治智能和分布协同的特性能够在一定程度上解决这些问题。多Agent语音识别其基本原理就是将输入的语音,经过处理后,将其和语音模型库进行比较,从而得到识别结果,具体原理见图1。

该图中语音输入Agent就是待识别语音的原始输入,语音采集Agent指话筒、电话等设备的语音输入;数字化预处理Agent的功能包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等;特征提取Agent用于提取语音中反映本质特征的声学参数,常用的特征有短时平均能量或幅度、短时平均跨零率、线性预测系数、基音频率、倒谱和共振峰等。在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板,通过模型匹配Agent和规则判别Agent将匹配分数最高的参考模板作为识别结果。同时在模式匹配和规则判别时还可以在很多专家知识的帮助下,以便提高识别的准确率。

3.2 多Agent语音识别流程

加入了多Agent技术的语音识别系统具体实现细节与传统的语音识别系统有所不同,加入了更多的智能协作的因素,但所应用的识别过程大致相似,具体流程见图2。

首先是系统中的协调Agent确定语音识别单元的选取。语音识别单元有单词(句)、音节和音素三种。然后在特征提取Agent中去除语音中对识别无关紧要的冗余信息,目前广泛应用的有基于线性预测分析技术提取的倒谱参数和基于感知线性预测分析提取的感知线性预测倒谱。接着采用适当的语音识别方法,通过对确定的语音特征进行模型训练、智能学习后得到模板库,然后用若干个特征提取Agent将待识别的输入语音信号的各个量化的特征通过分工协作的方式进行提取,最后模型匹配Agent将量化的语音特征与模板库进行模式匹配,通过友好的人机界面把识别结果输出。

4 多Agent语音识别技术在军事上的应用

最近十年内语音识别技术军事化应用非常广泛,目前研究比较多的有语音识别技术在智能武器装备开发领域的应用、在军事作战文书自动化过程中的应用、在军事测试设备和军队话务台的应用。下面重点介绍多Agent语音识别技术在军事作战文书自动化过程中的应用。

作战文书句式变化不大、语法简单、使用人群范围可定、语音识别模板库易于建立且要求不高,其语音识别易于实现。总体方案是:尽可能统一各军兵种作战文书类型;收集不同类型作战文书实例;构造作战文书词汇库;针对标图地域构造地名数据库;建立不同类型作战文书的句型库;分析军队标号的涵义建立模板库;将作战文书编译成标图指令来完成军事地图的标绘。其一般过程为作战文书的词处理、作战文书的语法分析、作战文书标图指令的形成,最后通过API接口传输给计算机完成自动标绘工作,如图3所示。

5 结束语

语音识别技术是非常重要的人机交互技术,有着非常广泛的应用领域和市场前景,为网上会议、商业管理、医药卫生、教育培训等各个领域带来了极大的便利。随着人工智能技术的发展,把多Agent技术应用到语音识别系统中,通过自治智能和分布协同的特性较好地解决了传统语音识别技术中存在的突出问题,这必将成为语音识别系统发展的主流。

参考文献:

[1] 胡斌,汤伟,刘晓明.基于自然语言理解的文本标图系统设计与实现[J].理工大学学报:自然科学版,2005,6(2):132-136.

[2] 赵力.语音信号处理[M].北京:机械工业出版社,2003:215-240.

[3] 王作英,肖熙.基于段长分布的HMM语音识别模型[J].电子学报,2004,32(1):46-49.

[4] 曹承志.智能技术[M].北京:清华大学出版社,2004.

[5] 杜琳.基于COM技术的军事标图组件的设计与实现[D].郑州:信息工程大学,2006.

[6] 朱民雄,闻新,黄健群,等.计算机语音技术[M].北京:北京航空航天大学出版社,2002.

[7] 方敏,浦剑涛,李成荣,等.嵌入式语音识别系统的研究和实现[J].中文信息学报,2004(6):73-78.

篇5

中图分类号:TN912.34

1 语音识别技术基本原理及过程介绍

语音识别系统由语音信号预处理、特征提取、模式匹配三部分构成。第一步预处理,主要有A/D变换、预加重和端点检测部分。经过预处理之后的语音信号,要进行第二步特征提取,该过程就是在原始语音信号中提取出所需要的特征参数,从而得到特征矢量序列,特征提取完成后,接下来就是语音识别的核心,也就是第三步模式匹配,也就是模式识别。系统框图如下[1]。

图1 一般语音识别系统框图

2 语音识别方法

目前,主要的语音识别方法主要有特征参数匹配法、隐马尔可夫法和人工神经网络法。

2.1 动态时间规整

动态时间规整(DTW)是早期的模式匹配方法。由于语音信号是一种随机性非常大的信号,例如相同的字,不同人说时的发音会不同,时间长短也会不同,即便是同一个人说相同的语句,发音结果也会不同,于是,在模式匹配时,要识别字词的时间轴将不断扭曲,以测试模板与参考模板对齐。DTW是一个比较典型的优化问题,它用满足一定条件的时间规整函数W(n)描述测试模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数。动态时间规整也存在一些问题,它的计算量大,比较适合同一个人说话语音的识别,而且不能对样本做动态训练,语音信号的时序动态特性并没有很好地利用,所以DTW多用于孤立字词的识别。

2.2 隐马尔可夫模型

隐马尔可夫模型(HMM)是一种统计模型,用来描述随机过程的统计特性。它是由马尔可夫链演变来的。[2]

HMM可用三元组表示:λ=(π,A,B)

A:状态转移概率的集合。

B:观察概率的集合,表示每个状态输出相应观察值的概率。

π:系统初始状态的集合。

这三个元素π,A,B可以分为由π、A描述的Markov链和由B描述的随机过程。

HMM是一种理想的语音信号模型,如今,连续语音识别,非特定人识别系统大多是基于HMM模型的。HMM是对语音序列的时间序列结构建立统计模型的,HMM是数学上的双重随机过程:一个是具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程[3]。

尽管马尔可夫模型是一种理想的语音信号模型,但是它还有很多不足。HMM有三个不现实的重要假设,假设一“状态转移的Markov假设”:系统在当前时刻的状态向下一时刻所处的状态转移的状态转移概率仅仅与当前时刻的状态有关,而与以前的状态无关。假设二“不动性假设”:状态与具体时间无关。假设三“输出值的Markov假设”:输出仅与当前状态有关。这三个假设之所以不合理,是因为任一时刻出现的观测值的概率不仅是依赖于系统当前所处的状态,也可能依赖于系统之前时刻所处的状态[4]。

2.3 人工神经网络

人工神经网络(ANN)是在模拟人脑神经组织的基础上发展起来的全新计算机系统。ANN是模拟人类思维中“信息的处理是通过神经元之间同时相互作用的动态过程来完成思维”。ANN是一种非线性动力学系统,它的特点在于信息的分布式储存和并行协同处理。单个神经元的结构简单,但是大量的神经元所构成的神经网络却是一种复杂的网络。ANN更接近于人的认知过程。人工神经网络也存在一些不足,它的训练、识别时间较长、动态时间规整能力较弱并且不容易实现。

3 语音识别的应用和前景

如今的科技领域,几乎每天都有新的技术,新的研究成果出现,而语音识别也是这科技研究的一热门领域,也应用到了人类生活的方方面面。

语音识别的应用非常广泛,语音输入技术的出现,可以使人们通过说话,而非手动输入来作出正确的响应,这样使输入变的更加简单,提高了工作学习的效率。语音识别技术可以应用于汽车,可以使驾驶员用语音指令操纵车载设备,提高汽车驾驶的安全性和舒适性。将语音识别、语言理解与大量的数据库检索和查询技术相结合,就能够实现更轻松的信息查询方式。比如,图书馆的资料信息将能够对来自用户的语音输入进行理解,并将它转化为相应的指令,从数据库中获取结果并返回给用户。这种技术同样可以运用于银行服务、医疗服务等方面。语音识别技术还可以应用于口语翻译,例如,可以让与聋哑人对话的对方带上一个智能语音识别的微型摄像装置,或者给聋哑人带上一种特制的手套,然后,就可以通过语音合成技术和语音识别技术将手语翻译成声音语言,同时,系统还能够完成将正常人的语言翻译成聋哑人的手语,这种口语翻译一种语音输入翻译为另一种语言的语音输出。除此之外,语音识别在军事,航空等领域也有广阔的应用空间。语音识别将不断发展,不断丰富人类的生活。

参考文献:

[1]赵力.语音信号处理第2版[M].北京.机械工程出版社,2009(05).

[2]何彦斌,杨志义,马荟.一种基于HMM的场景识别方法[J].计算机科学,2011(04):254-256.

[3]吕云芳,基于模板匹配法的语音识别系统研究与基本实现[D].天津:河北工业大学,2005.

篇6

1 语音识别技术原理

语音识别是为了让机器“懂”我们的语言,准确无误地识别出我们发出语音内容,并且做出符合语音内容的一系列动作,执行我们的意图。分析人类语言交流通信的过程,可以启发我们的研究思路。对人类语音通信流程[1-2]分析如图1。

由人类语音通信流程框图可以看出,人类发出语音过程如图左半部分,语音理解过程如图右半部分。语音识别包括两种含义,一是:将人类说的话转换成文字,二是:在充分理解口述语音的基础上,不仅仅是将语音转换为文字信息,而且对语音内容也要作出正确响应[3]。在此,本文认为语音识别和语音理解意义等同,所以可用图1右侧部分流程可将语音识别过程。

目前语音识别技术应用中大部分都是小词汇量,词语间相互独立基于简单模板匹配工作原理的识别模式。针对这种典型的语音识别模式,原理流程路线图[4]如图2所示:

1.1 基于发音模型的语音信号产生模型

语音信号的产生是语音识别技术的基石,在语音信号处理的大部分过程中对语音信号产生模型有很强的依赖性。本文研究过程中,首先对人类发音过程进行了解:人类发音流程是首先肺部收缩,迫使气流通过声门和声道引起音频震荡产生[3]。根据人的声道三种不同激励方式,分别对应产生了三种被大家熟知的发音类型,分别是浊音,摩擦音或清音,爆破音。

语音信号可看做由线性系统受到激励信号的激励输出产生。如图3是基于发音模型的语音信号产生模型流程图:

如图3建立的语音信号产生模型中认为浊音是周期为N0的冲激信号,且N0=fs/F0(其中F0是基音频率,fs是采样频率)。清音认为是一个均值为0,幅值是正态分布的波形信号。参数Av,Au分别用来调节浊音和清音的幅值。

从已有语音识别技术研究结果可知,窗函数类型众多,使用不同形式的窗函数对短时分析处理语音信号结果有很大的影响。已知目前应用最广泛的窗函数是汉明窗,结合仿真实验分析可以看出:高斯窗函数的横向主瓣宽度最小,但其纵向旁瓣高度最高;汉明窗函数的横向主瓣宽度最宽,纵向旁瓣高度是三种窗函数中最低的。

2.3 端点检测

语音信号的起始点是语音信号处理的关键分界点,端点检测的目的就是找到连续语音信号中的信号起始点。常用的端点检测方法有两种,分别是短时平均能量和短时过零率[6]。当下流行的端点检测方法是短时平均能量和短时过零率两者的结合,称这种方法为双门限端点检测算法[7]。

在实际问题中通常采用两者结合解决问题。本文同样是采用两者结合的方法,利用短时过零率方法检测语音信号波形穿越零电平的次数,既代表的是清音;用短时平均能量方法计算第y帧语音信号的短时平均能量E(y),既代表的是浊音,进而实现可靠的端点检测。

3 特征提取

目前特征是语音信号预处理中的重要步骤。在实际特征提取中,较常采用的参数是线性预测倒谱系数(LPCC)和Mel倒谱系数(MFCC)。二者采用的均是时域转换到倒谱域上,但是出发思路两者不同。线性预测倒谱系数(LPCC)以人类发声模型为基础,采用线性预测编码(LPC)技术求倒谱系数;Mel倒谱系数(MFCC)以人类听觉模型为基础,通过离散傅利叶变换(DFT)进行变换分析。

其中k表示第k个滤波器,Hm(k)表示第k个mel滤波器组,f(m)为中心频率,m=1,2,…K,K表示滤波器个数。

经过仿真实验分析比较,可以分析得出Mel倒谱系数(MFCC)参数较线性预测倒谱系数(LPCC)参数的优点,优点如下:

(1)语音低频信号是语音信息的聚集区,高频信号相对低频语音信号更容易受到周围环境等的干扰。Mel倒谱系数(MFCC)将线性频标转化为Mel频标,强调语音的低频信息,从而突出了有利于识别的信息,屏蔽了噪声的干扰[8]。LPCC参数是基于线性频标的,所以没有这一特点;

(2)MFCC参数无任何假设前提,在各种语音信号预处理情况下均可使用,但是LPCC参数首先假定所处理的语音信号是AR信号,对于动态特性较强的辅音,这个假设并不严格成立[8];

(3)MFCC参数提取过程中需要经过FFT变换,我们可以顺便获得语音信号频域上的全部信息,不需要多花费时间处理,有利于端点检测、语音分段等算法实现[8]。

4 训练与识别

训练和识别是语音识别的中心内容,有很多专家学者研究了一系列成果。语音识别实质是模式匹配的过程,而对分类器和分类决策的设计[9]又是模式匹配的核心。在现有的分类器设计[10-11]中,经常使用的有:动态时间规整(Dynamic Time Warping,DTW)分类器、基于人工神经网络(Artificial Neural Networks,ANN)分类器、基于高斯混合模型(GMM)分类器、基于Bayes规则的分类器、基于HMM分类器[12]等。

本文重点讨论语音信号预处理中技术及实现,对训练和识别技术不再做研究描述。

【参考文献】

[1]尹岩岩.基于语音识别与合成的低速率语音编码研究[D].上海师范大学,2013.

[2]伟伟.通信系统中语音质量评价的研究[D].北京邮电大学,2014.

[3]朱淑琴.语音识别系统关键技术研究[D].西安电子科技大学,2004.

[4]王伟臻.基于神经网络的语音识别研究[D].浙江大学,2008.

[5]钟林鹏.说话人识别系统中的语音信号处理技术研究[D].电子科技大学,2013.

[6]周刚,周萍,杨青.一种简单的噪声鲁棒性语音端点检测方法[J].测控技术,2015,(02):31-34.

[7]薛胜尧.基于改进型双门限语音端点检测算法的研究[J].电子设计工程,2015,(04):78-81.

[8]惠博.语音识别特征提取算法的研究及实现[D].西北大学,2008.

[9]张宁.基于决策树分类器的迁移学习研究[D].西安电子科技大学,2014.

篇7

中图分类号:TN912.34 文献标识码:A 文章编号:1671-2064(2017)08-0020-01

随着广播电视管理的不断完善,对电视节目内容的监管也越来越严格,对音频搜索等技术的需求也在逐渐增加。但是,音频搜索技术还有很多难题尚未解决,如中文分词瓶颈、第三方数据存储量限制、数据处理分析瓶颈和音频识别准确度等等,这样在应用时会出现很多问题,相关部门需加大研发力度,让音频识别技术更加完善和规范。

1 语音识别关键技术介绍

1.1 语音模型自适应技术

因为环境、人的性别和口音等因素的干扰,语音数据会产生较大变化,在特殊条件下的训练无法推广应用,而自适应就可以根据测试数据进行调整避免误判。在变换的自适应中,采用相同的变换更新参数,当自适应模型参数确定后,就可以用少量自适应数据变换方程,利用变换方程来重新估计模型参数[1]。一般来说,变换方程的数目小于目标模型参数,所以使用少量自适应数据就可以估计出变换方程。但是变换方程并不能探测出单个模型的特征,其渐进性较差,无法估计特征相近人模型。

1.2 说话人识别技术

说话人识别也被称为声纹识别,通过语音信号来识别说话人的身份。说话人识别主要分为两类,即开集识别和闭集识别,两者主要通过是否需要拒识来区别。开集识别更具普遍性,相比闭集识别技术更难。比如说,我们同时监听多个人说话,开集识别需要在多个说话人中找到指定的说话人。开集说话有两大缺陷:虚警错误和漏报错误,两者之间互相制约互相影响。在应用过程中,可调整识别模块更倾向于少虚警错误或漏报错误。研究中会通过等错误率去判断说话人识别系统的性能是否达标,如果虚警错误率和漏报错误率相等就是等错误率[2]。等错误率会受到测试语音长短、样本语音信道匹配度和说话人语音长短等因素的影响,如果说话人语音越长,测试语音也就越长,两者的差异也就越小,等错误率也会相应降低。

1.3 P键词识别技术

关键词识别技术分为单阶段系统和两阶段系统两大类,单阶段系统识别主要是在关键词系统中进行识别,当关键词出现变化,系统就要重新识别。两阶段系统是将一般意义的连续语音转换为文本,然后借助文本匹配途径找到关键词。这种系统比较灵活,可以随时变换关键词,是目前使用最多的关键词识别技术。通过语音关键词检测特定内容具有两个优势:首先是准确率更高,其次是关键词会多次出现。这样在内容监管中就可以允许出现漏检错误,不必每次都准确地识别关键词。

2 语音识别技术的具体应用

2.1 音频模板匹配技术

在已知节目片头曲的条件下,可以使用音频模板匹配技术进行自动打点和分割。因为受到音频压缩和信号传输的影响,导致模板之间存在差异,就可以通过提取多频带能量相对比率,利用各个频带能量分布趋势稳定的特点,就可以解决音频信号扭曲造成的不稳定问题。

2.2 音频切分和分类技术

在处理广播电视音频信息的时候,例如语音识别和检测关键词,需要先对广播电视的音频进行切分,一般都会采用静音检测法来切分,这样可以准确定位,为音频分类工作奠定了基础。对切分的音频片段进行分类,需要根据音频类型采取不同的处理方法。非静音主要分为语音和非语音两类,而语音又分为纯语音和非纯语音,非语音分为音乐和环境音。

2.3 自动发现技术

将广告识别作为案例,利用音频检测获取新广告:首先是针对未知节目和广告而设计,因此需要去除已知模板,这样可以减少计算量。接着是利用音频向量的快速搜索算法确定重复片段的预留位置,因为音频向量都是通过音频段的信息展开检索,就会出现音频字分布相同、但排列不同的音频片段,也会有一些错误片段,所以需要筛选过滤一遍。最后是利用音频指纹搜索找出音频向量模型的重复片段。因为音频指纹检索技术是利用音频帧的排列信息开展工作,所以准确度更高,可以检测出误报片段。完成上述步骤以后,就可以通过图像帧变化率来区分非广告的重复部分。因为广告的播出费用是按照播放时间来定的,所以广告商需要在有限的时间内向观众传递更多的信息,所以视频帧的变化率就比较大,而电视剧的变化率较小,这样就可以去除重播的非广告类节目[3]。

3 结语

随着科学技术的不断发展,语音识别技术的应用范围也越来越广,识别的准确度也在不断提高。广播电视对语音监管的要求也在提高,语音识别技术必须达到要求,这样不仅可以提高节目的搜索速度,对关键内容进行快速定位,还可以减轻工作人员的工作压力,提升监管水平。

参考文献

篇8

另外,模板仅能解决一些常规情况的描述,如果完全按照模板填写,对每位患者的情况记录就缺少了个性化描述,不利于后续诊断使用。为提高文本录入效率,有些医生会使用“复制”、“粘贴”方式,通过在相似患者的病历上进行修改完成病历记录,但有漏改、漏删情况,这种方式在很大程度上增加了病历记录的出错率,对医疗文本录入的准确性是一个比较大的挑战。

语音识别技术在医疗领域的应用越来越多

语音识别技术在欧美国家医疗领域已使用将近10年,主要用于节约医生电子文本录入的时间,降低文本录入工作难度,提高医生工作满意度,让医生把更多时间和精力用在与患者及家俟低交流、为更多患者诊断等事情上。

美国Nuance公司的英文语音识别技术及电脑辅助病历抄写系统,医生可使用掌上移动型设备将病患看诊状况口述下来,存成语音档案,直接传送到语音识别服务器,10小时的语音可在5分钟内完成转录,大大缩短音频文件转录文本的时间。皇家飞利浦电子公司推出的面向医疗领域实时语音识别的专用麦克风,表面采用符合医疗专业要求的防菌抑菌材质,并定制了针对实时语音识别所需的声学硬件模块,使医院工作站实时语音识别实现成功应用,并已在欧美医院成功推广。在放射科等文本录入工作量很大的医技科室尤其受到欢迎。

从统计资料看,美国临床中使用语音识别录入的应用比例已达到10%~20%,主要用于放射科、病理科、急诊室等部门,有效控制电子文本记录及诊断报告生成时间和质量,明显提高工作效率。

语音识别技术是理想的人机交互方式之一,它能够让机器通过识别和理解过程把语音信号转变为相应的文本或命令。北京协和医院在国内首先提出使用语音识别技术录入医疗领域电子文本时,医生纷纷表示担忧,在国内的医疗中语音识别技术的使用和推广面临以下几个难点。

目前国内主流的HIS系统已做了大量工作减少医生输入病历、医嘱时的工作量,如提供大量结构化的病历。医生已习惯这种工作模式。通过语音识别来录入电子文本,尤其在超声科、门诊等环节,医生需要一个熟悉过程。

国内医生的工作环境较复杂,口音等问题也较国外更加突出,医疗特殊单位特殊符号较多,如何保证识别的准确率,让医生用的更加流畅,也是这个项目面临的重要挑战之一。国内移动医疗的趋势越来越明显,基于移动端小屏幕的文本输入一直是语音识别应用致力于解决的问题。如何保障医院复杂环境下移动端的语音识别效果是需要探讨的问题之一。

由于医疗行业的专业性较强,每个学科差异较大,所使用的信息化系统也比较分散,如影像科使用PACS,内科使用HIS等。需要录入文字的工作量较大,但使用的信息化系统较多,要求提供的语音录入文本解决方案,需同时支持多个信息化系统使用,且最大限度降低与原有系统的耦合性。

以上问题,经过为期1年的医疗领域语音识别应用探索和实践,都得到较好解决,超过95%的中文医疗垂直领域语音识别准确率已达到实用水平,中文医疗语音识别技术探索应用方案得到北京协和医院医生认可。

北京协和医院语音识别应用探索和实践

医疗语音识别技术的应用,能将医生口述的语音转成准确度高、完全格式化的初步文件,医生可快速加以核对、编辑,每天可节约1小时左右时间。医生普遍认为语音录入病历可提高文字输入效率,降低工作难度,从总体上提高医院收容处理病人的能力,同时缩短病人的无效等待时间,增加病人满意度。

针对中文医疗语音识别的技术难点,北京协和医院做了很多探索实践工作。

一是定制医疗领域语言模型:针对各科室业务进行梳理,整理了超过30G的医疗文本资料,并对这些资料进行分类、检索等处理。使得定制语音模型覆盖各个科室常用的病症、药品名称、操作步骤等关键信息,使语音识别准确率超过95%的水平。 二是定制个性化语言模型:不同科室的医生在录入医嘱时说的话也不同。北京协和医院语音录入系统和用户的账号系统绑定。医生登录HIS时会加载所在科室的语言模型,这样就可以有效降低模型大小,提高识别准确度。同时医生也可根据自己的使用习惯,向系统中添加自己常用的词汇。 三是一体化私有建设:实现一套私有化部署的语音云支持多渠道多终端的一体化建设。除支持HIS、PACS等PC端应用,还支持移动查房等pad端应用,真正实现跨平台的多渠道互联互通应用,大大降低医疗信息化建设成本。 医疗语音识别系统采用分布式计算,具有高健壮性、高度灵活性、高性价比等特点,主要包括操作系统层、引擎层、资源包和管理工具4个层次。操作系统层提供开发接口,以及开发人员关注的接口定义、功能和使用方法;引擎层提供核心的语音处理功能,作为应用接口的功能实现者;在引擎层之上提供覆盖医疗领域的资源包,为科室提供语音识别优化的功能。同时系统完美地支持传统API调用和手机APP开发,为医院原有信息化系统提供了相关接口和SDK。

北京协和医院医疗语音识别应用效果初现

据了解,医疗语音识别已在北京协和医院病房、医技科室、手术休息区进行了尝试使用。为更好地测试语音识别效果,北京协和医院组织医生进行了语音识别系统测试和主观体验,随机抽样了135例样本进行精确统计。

篇9

语音识别技术目前在嵌入式系统中的应用主要为语音命令控制,它使得原本需要手工操作的工作用语音就可以方便地完成。语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。使用语音作为人机交互的途径对于使用者来说是最自然的一种方式,同时设备的小型化也要求省略键盘以节省体积。

嵌入式设备通常针对特定应用而设计,只需要对几十个词的命令进行识别,属于小词汇量语音识别系统。因此在语音识别技术的要求不在于大词汇量和连续语音识别,而在于识别的准确性与稳健性。

对于嵌入式系统而言,还有许多其它因素需要考虑。首先是成本,由于成本的限制,一般使用定点DSP,有时甚至只能考虑使用MPU,这意味着算法的复杂度受到限制;其次,嵌入式系统对体积有严格的限制,这就需要一个高度集成的硬件平台,因此,SoC(System on Chip)开始在语音识别领域崭露头角。SoC结构的嵌入式系统大大减少了芯片数量,能够提供高集成度和相对低成本的解决方案,同时也使得系统的可靠性大为提高。

语音识别片上系统是系统级的集成芯片。它不只是把功能复杂的若干个数字逻辑电路放入同一个芯片,做成一个完整的单片数字系统,而且在芯片中还应包括其它类型的电子功能器件,如模拟器件(如ADC/DAC)和存储器。

笔者使用SoC芯片实现了一个稳定、可靠、高性能的嵌入式语音识别系统。包括一套全定点的DHMM和CHMM嵌入式语音识别算法和硬件系统。

1 硬件平台

本识别系统是在与Infineon公司合作开发的芯片UniSpeech上实现的。UniSpeech芯片是为语音信号处理开发的专用芯片,采用0.18μm工艺生产。它将双核(DSP+MCU)、存储器、模拟处理单元(ADC与DAC)集成在一个芯片中,构成了一种语音处理SoC芯片。这种芯片的设计思想主要是为语音识别和语音压缩编码领域提供一个低成本、高可靠性的硬件平台。

该芯片为语音识别算法提供了相应的存储量和运算能力。包括一个内存控制单元MMU(Memory Management Unit)和104KB的片上RAM。其DSP核为16位定点DSP,运算速度可达到约100MIPS.MCU核是8位增强型8051,每两个时钟周期为一个指令周期,其时钟频率可达到50MHz。

UniSpeech芯片集成了2路8kHz采样12bit精度的ADC和2路8kHz采样11bit的DAC,采样后的数据在芯片内部均按16bit格式保存和处理。对于语音识别领域,这样精度的ADC/DAC已经可以满足应用。ADC/DAC既可以由MCU核控制,也可以由DSP核控制。

2 嵌入式语音识别系统比较

以下就目前基于整词模型的语音识别的主要技术作一比较。

(1)基于DTW(Dynamic Time Warping)和模拟匹配技术的语音识别系统。目前,许多移动电话可以提供简单的语音识别功能,几乎都是甚至DTM和模板匹配技术。

DTW和模板匹配技术直接利用提取的语音特征作为模板,能较好地实现孤立词识别。由于DTW模版匹配的运算量不大,并且限于小词表,一般的应用领域孤立数码、简单命令集、地名或人名集的语音识别。为减少运算量大多数使用的特征是LPCC(Linear Predictive Cepstrum Coefficient)运算。

DTW和模板匹配技术的缺点是只对特定人语音识别有较好的识别性能,并且在使用前需要对所有词条进行训练。这一应用从20世纪90年代就进入成熟期。目前的努力方向是进一步降低成本、提高稳健性(采用双模板)和抗噪性能。

(2)基于隐含马尔科夫模型HMM(Hidden Markov Model)的识别算法。这是Rabiner等人在20世纪80年代引入语音识别领域的一种语音识别算法。该算法通过对大量语音数据进行数据统计,建立识别条的统计模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各种突况。因此,HMM算法具有良好的识别性能和抗噪性能。

基于HMM技术的识别系统可用于非特定人,不需要用户事先训练。它的缺点在于统计模型的建立需要依赖一个较大的语音库。这在实际工作中占有很大的工作量。且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算)的运算量相对较大,通常需要具有一定容量SRAM的DSP才能完成。

在嵌入式语音识别系统中,由于成本和算法复杂度的限制,HMM算法特别CHMM(Continuous density HMM)算法尚未得到广泛的应用。

(3)人工神经网络ANN(Artificial Neural Network)。ANN在语音识别领域的应用是在20世纪80年代中后期发展起来的。其思想是用大量简单的处理单元并行连接构成一种信息处理系统。这种系统可以进行自我更新,且有高度的并行处理及容错能力,因而在认知任务中非常吸引人。但是ANN相对于模式匹配而言,在反映语音的动态特性上存在重大缺陷。单独使用ANN的系统识别性能不高,所以目前ANN通常在多阶段识别中与HMM算法配合使用。

3 基于HMM的语音识别系统

下面详细介绍基于HMM的语音识别系统。首先在UniSpeech芯片上实现了基于DHMM的识别系统,然后又在同一平台上实现了基于CHMM的识别系统。

3.1 前端处理

语音的前端处理主要包括对语音的采样、A/D变换、分帧、特片提取和端点检测。

模拟语音信号的数字化由A/D变换器实现。ADC集成在片内,它的采样频率固定为8kHz。

特征提取基于语音帧,即将语音信号分为有重叠的若干帧,对每一帧提取一次语音特片。由于语音特征的短时平稳性,帧长一般选取20ms左右。在分帧时,前一帧和后一帧的一部分是重叠的,用来体现相邻两帧数据之间的相关性,通常帧移为帧长的1/2。对于本片上系统,为了方便做FFT,采用的帧长为256点(32ms),帧移为128点(16ms)。

特征的选择需要综合考虑存储量的限制和识别性能的要求。在DHMM系统中,使用24维特征矢量,包括12维MFCC(Mel Frequency Cepstrum Coefficient)和12维一阶差分MFCC;在CHMM系统中,在DHMM系统的基础上增加了归一化能量、一阶差分能量和二阶差分能量3维特征,构成27维特征矢量。对MFCC和能量分别使用了倒谱均值减CMS(Cepstrum Mean Subtraction)和能量归一化ENM(Energy Normalization)的处理方法提高特征的稳健性。

3.2 声学模型

在HMM模型中,首先定义了一系列有限的状态S1…SN,系统在每一个离散时刻n只能处在这些状态当中的某一个Xn。在时间起点n=0时刻,系统依初始概率矢量π处在某一个状态中,即:

πi=P{X0=Si},i=1..N

以后的每一个时刻n,系统所处的状态Xn仅与前一时刻系统的状态有关,并且依转移概率矩阵A跳转,即:

系统在任何时刻n所处的状态Xn隐藏在系统内部,并不为外界所见,外界只能得到系统在该状态下提供的一个Rq空间随机观察矢量On。On的分布B称为输出概率矩阵,只取决于Xn所处状态:

Pxn=Si{On}=P{On|Si}

因为该系统的状态不为外界所见,因此称之为“稳含马尔科夫模型”,简称HMM。

在识别中使用的随机观察矢量就是从信号中提取的特征矢量。按照随机矢量Qn的概率分布形时,其概率密度函数一般使用混合高斯分布拟合。

其中,M为使用的混合高斯分布的阶数,Cm为各阶高期分布的加权系数。此时的HMM模型为连续HMM模型(Continuous density HMM),简称CHMM模型。在本识别系统中,采用整词模型,每个词条7个状态同,包括首尾各一个静音状态;每个状态使用7阶混合高斯分布拟合。CHMM识别流程如图1所示。

由于CHMM模型的复杂性,也可以假定On的分布是离散的。通常采用分裂式K-Mean算法得到码本,然后对提取的特征矢量根据码本做一次矢量量化VQ(Vector Quantization)。这样特征矢量的概率分布上就简化为一个离散的概率分布矩阵,此时的HMM模型称为离散HMM模型(Discrete density HMM),简称DHMM模型。本DHMM识别系统使用的码本大小为128。DHMM识别流程如图2所示。

DHMM虽然增加了矢量量化这一步骤,但是由于简化了模型的复杂度,从而减少了占用计算量最大的匹配计算。当然,这是以牺牲一定的识别性能为代价。

笔者先后自己的硬件平台上完成了基于DHMM和CHMM的识别系统。通过比较发现,对于嵌入式平台而言,实现CHMM识别系统的关键在于芯片有足够运算太多的增加。因为词条模型存储在ROM中,在匹配计算时是按条读取的。

3.3 识别性能

笔者使用自己的识别算法分别对11词的汉语数码和一个59词的命令词集作了实际识别测试,识别率非常令人满意,如表1所示。

表1 汉语数码识别率

DHMMCHMM特征矢量维数2427识别率93.40%98.28%识别速度(11词)10ms50ms模型大小(1个词条)1.5KB<5.5KB码本6KB无对于59词命令词集的识别,还增加了静音模型。由于基线的识别率已经很高,所以静音模型的加入对于识别率的进一步提高作用不大,如表2所示。但静音模型的加入可以降低对端点判断的依赖。这在实际使用中对系统的稳健性有很大的提高。

表2 59词命令词集识别率

篇10

前言

随着科技的发展,语音交互逐步走了进人们的生活中。例如苹果手机中Siri和Win10系统中小娜都已被人们所熟悉,小米语音识别遥控器也给智能家居带来新体验。考虑到智能语音识别技术在未来科技和生活中的普及是必然,我国在上世纪末期已开展对其的研究。因此,将非特定性语音识别技术运用到智能家居中,并以语音控制方式进行控制家具电器设备,为人们的生活带来了很大的便捷[1]。

1 语音识别系统简介

语音识别技术其任务是将人类的声音转换成计算机可识别的信息。语音识别技术过程为:语音信号采集、预处理、特征信号提取、根据库模板测度估计、语音识别、语音输出[1]。

语音识别技术有两方面的应用[2]:一是连续语音大词汇语音识别系统,应用于听写机及语言信息查询服务系统;二是体积小、方便携带的语音设备,如智能手机、玩具、家电遥控器等。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术[3]。语音识别技术过程为:语音信号采集、预处理、特征信号提取、根据库模板测度估计、语音识别、语音输出。

2 系统主要硬件组成

2.1 语音识别系统的硬件总体设计

本系统包括语音信号采集模块、语音信号调理模块、单片机控制模块、语音识别模块、液晶显示模块、控制执行模块等[1]。

语音信号调理模块包括自动调整增益电路和带通滤波电路。语音信号强度会随传播距离的增加成指数下降,为了防止近距离出现饱和限幅现象,因此采用自动调整增益电路[1]。人类的语音信号主要分布在300Hz-3.4KHz,带通滤波电路可以有效地防止造成干扰,提高识别效率[1]。

2.2 单片机控制模块电路设计

市面上可用于语音识别的单片机多种多样,文章所用的是HR7P194单片机。HR7P194单片机具有单时钟周期短、运行速度快、性能稳定的特性,采用哈弗型RISC,66条精简指令集,工作频率最高16MHz,支持硬件除法器,支持17个中断处理,具有8KB Flash程序储存器、496字节的SRAM、1路8位定时器T8N、3路8位PWM时基定时器T8P1/T8P2/T8P3、1路16位门控定时器T16G、10位模拟数字转换器ADC、液晶显示控制器LCDC、41根I/O口线以及1个全双工异步串行口和1路IIC总线主控器IICM等。

HR7P194单片机控制模块最小工作系统电路如图1所示。

2.3 语音识别模块

以LD3320为核心的语音识别技术有语音识别和声音控制方面的优势,其优点是在不需要存储器及模数转换器的情况下,由HR7P194进行独立控制;此外LD3320是一款自定义关键词进行识别的芯片,用户语音操作便捷。

2.4 液晶显示系统

相较于其他显示方式液晶显示具有显示便捷、功耗小、使用寿命长的优势[4],基于液晶显示的优点文章采用LCD128*64液晶显示屏。LCD128*64这种通用模块其优点主要在能够显示文字、数字、字母及图形。利用该模块主要显示语音识别出的命令、处理器发出的控制指令及系统状态,同时利用其可以显示图形的特点,可以模拟显示人的声音动态波形,科技感更强。

3 系统软件设计

主程序开始先对包括单片机在内的所有元件进行初始化[4],包括单片机控制模块初始化、语音识别模块初始化、液晶显示模块初始化、控制执行模块初始化。初始化之后进行语音识别,通过对LD3320读写芯片的控制,获取语音命令,根据识别情况判断是否调用相应的子程序并进行数据处理,最后控制继电器和液晶显示。

4 系统测试

系统硬件实验平台设计、组装调试好后,通过东软载波单片机开发工具HR10M将程序下载到HR7P194单片机中。然后分别在一个没有噪音室内环境中和具有一定噪音的室外环境中进行语音训练。通过训练后分别在两种环境中进行测试:通过5人分别说出“开灯”“关灯”等命令来进行验证。实验结果为:语音识别系统对5种不同的声音均可良好的识别并做出相应的动作,在外界环境良好的状况下(无噪音的情况下),识别效率在92%以上;在具有一定噪音的室外环境中,识别效率有所降低,在85%以上。

经过长期、多次测试结果表明:本系统能够识别语音信息,识别效率高、性能稳定,适合智能家居环境的语音交互系统。

5 结束语

文章所构建基于HR7P194单片机和LD3320芯片的智能家居语音识别系统,能够有效地识别人的声音,实现语音控制电灯开关、风扇转速、电视及热水器等家用电器,同时东软载波单片机具有非常良好的稳定性,在后期产品稳定性测试中发挥重要作用。

参考文献

[1]陈涛,高必梵,艾菊梅.语音识别技术在智能家居控制系统中的应用研究[J].电子质量,2015(3):1-3.

篇11

1.引言

现存的一些矢量量化方法一般都需要预先确定码本大小,比如LBG[1],K-means算法等,然而在现实条件很难预先确定码本大小。由中山大学赖剑煌教授和王长东提出的基于能量的竞争学习算法[2]应用在图像分割中,这种算法能自动确定数据聚类个数,能够保持类的大小(即一个类中所包含的样本个数)和稀疏度(类中样本的稀疏程度)均衡,并且具有自适应学习速率;本文尝试将基于能量的竞争学习算法应用到特定人汉语数字0-9语音识别中,在基于能量的竞争学习算法确定初始化码字中,笔者用广度优先搜索邻居的聚类算法进行了改进。

2.基于能量的竞争学习算法及其改进

3.2 实验结果

4.结论

本文将EBCL学习算法运用在特定人的数字语音识别中,这个算法的优点就是能够自动初始化,自动确定码本的大小,这是此算法相对于以往的矢量量化算法所不具备的优点。从表1可以看出基于EBCL的数字语音识别可以达到较高的识别率,比经典的LBG算法的识别率还要高;LBG算法在码本提取中需要事先确定码本大小而EBCL能够自动确定码本大小,从表2中可以看出,在识别率相当的情况下,用EBCL算法获得的每个数字语音的码本大小不尽相同而LBG算法获得的码本大小是固定的;EBCL获得的码本的大小相对于LBG的更小,这样使得码本存储空间更小,EBCL算法识别时间更短。将此算法运用到非特定人数字语音识别中时我们今后工作的重点。

参考文献

[1]刘刚,刘晶,王泉.使用新的码字分割方法的快速LBG算法[J].计算机工程与应用,2009,45(28):199-202.

[2]Chang-DongWang,Jiang-HuangLai.Energybasedcompetitivelearning[J].Neurocomputing,2011,74:2265-2275.

[3]钱江波,懂逸生.一种基于广度优先搜索邻居的聚类算法[J].东南大学学报,2004,34(1):109-113.

[4]蔡莲红,黄德智,蔡锐.现代语音技术基础与应用[M].北京:清华大学出版社,2003:236-238.

篇12

中图分类号:TP391 文献标识码:A

Earthquake site intercom communication optimization technology based on speech recognition

XU Nian, LI Wei, CHENG Fei

(Earthquake Administration of Jiangsu Province,Nanjing 210014,China)

Abstract: Nowadays, using walkie-talkie call is an essential method of communication when the earthquake emergency rescue. But when rescue workers call, it is necessary to press PTT by hand,which could influence the work convenience of rescue workers. Based on this, the paper uses the latest digital processing technology and the incorporated algorithm to identify only the human voice,so that the outside sound and shock are not recognized. After that, for the rescue workers in the state of speech, automatic identification could be gotten to produce PTT, and the call could be achieved. Hands of rescue personnel are completely liberated, and intercom speech are automatically launched. It is concluded that the proposed optimization communication method could improve the efficiency of the rescue,therefore gain significant benefits.

Keywords: PTT;speech recognition;communication

0 引言

地震应急救援是我国防震减灾事业3+1体系的重要组成之一。最大限度地降低地震灾害损失是抗震救灾工作的核心设定目标,而实现这一目标的基础环节之一就是提高地震应急救援水平。我国的地震应急救援系统和管理体系迄今为止仍有待完善,2008年的汶川地震和2010年的玉树地震救援工作已经清晰表明了应急救援的强大背景支撑作用,与此同时更进一步揭示了在突发地震灾害面前应急救援技术及应用的广阔施展空间与不断增长的现实需求。特别地,已有研究指出,稳定可靠的对讲机自动对讲和多功能、全方位的语音通话在地震救援现场正在担负和执行着日趋显著、且不可或缺的使命任务与功能角色。这种通信方式的优化对于提高地震救援效率则有着不言而喻的实用价值与积极推动意义。本文即针对这一课题内容展开研究论述。

1 基本原理

语音识别是新兴的人机交互技术之一。研究可知,语音识别系统则由语音信号的预处理、特征提取、语音模板库以及匹配判决这4个部分构建组成。在此,给出语音识别系统的院里构成如图1所示。

如图1所示,对于语音识别系统各组成部分的效果实现可提出如下设计分述:

1)预处理

预加重。预加重过程可以使语音的高频部分得到提升,减小语音的动态范围,增加信噪比,使信号的频谱更趋平滑,利于展开频谱分析。

分帧与加窗。采用一个有限长的窗序列,并利用其滑动来实现对原始语音信号的分帧,另外采用交叠分段方法使相邻帧之间过渡更为流畅。

2)端点监测。端点检测是指从一段语音信号中检测出说话的起始点与终止点,删除无声段,以降低特征提取的计算量,缩短系统的训练与识别时间,进而提高准确度与识别率。常用的端点检测方法主要基于2个参数:短时平均能量和短时平均过零率。

3)特征提取。在语音信号处理中,可以采用如下特征:语音信号能量、基音周期、共振峰、LPCC及MFCC等。其中,LPCC是依据说话人的声道模型得来的,整体实现思路是对语音信号进行线性预测分析,再将所得到的线性预测系数启用倒谱运算,该种参数优点是计算过程清晰,且能够优质描述元音信号,但其缺点却在于对辅音信号的描述性能欠佳,且极容易受到噪声的干扰而产生失真。而MFCC参数的获取则是基于人耳的听觉特性,其完整思路是将语音信号的频谱通过带通滤波器转换为基于美尔频率尺度的非线性频谱,接下来就是对滤波器的输出设计展开对数及离散余弦变换,由于该参数为符合贴近人耳的听觉特性,因此相比较而言即LPCC参数具有较好的抗干扰能力。

4)模板匹配。动态时间规划(DTW)是模板匹配法中核心经典的算法之一。DTW算法通过不均匀地扭曲或弯折待测语音信号的时间轴,使待测语音特征和模板特征彼此对齐,并通过不断地在2个模板之间搜索模板中对应矢量最小距离的匹配路径,最终得到一个规整函数,这个函数可使2个模板中的矢量匹配时累计距离最小。因此,DTW是一种结合了时间规整和距离测度的非线性规整技术。

2系统软件设计

本项目软件主要在CCS上获得开发实现。CCS是TI公司开发的用于开发DSP应用程序的可视化集成开发环境,具体支持C2000、 C5000、 C6000系列,包括代码编辑、调试工具、可执行代码生成工具以及实时分析工具,可用于汇编语言和C/C++语言混合编程。

基于CCS的TMS320VC5409A的标准软件开发流程如图2所示。

由图2可以看出,软件开发过程中涉及到C编译器、汇编器、链接器等开发工具,重点包括了C编译、汇编、链接和调试总共4个阶段,具体步骤如下:

1)用C编译器将C语言源代码程序自动编译为C5X的汇编语言源代码程序;

2)用文本编辑器编辑得到符合C5X汇编器格式要求的汇编源程序;

3)调用汇编器将该源文件导入汇编,如果源文件中调用了宏,汇编器还会到宏库中搜索该宏;

4)汇编后,将生成格式为公共目标文件格式的目标文件(.obj),称为COFF目标文件;

5)调用链接器对目标文件提供链接,如果包含了运行支持库和目标文件库,链接器还会到所保护的库中搜索所需的成员。

6)链接之后,生成COFF执行文件(.out);

7)将COFF执行文件下载到C5XDSP中展开运行,同时也可借助调试工具对程序进行跟踪调试或优化。另外,还可利用交叉参考列表器和绝对列表器生成一些包含调试信息的表。

3系统硬件设计

3.1基本组成

语音识别受送话器主要由耳机、麦克风部分和主机部分组成,详细原理框图如图3所示。

3.2控制处理电路

控制处理电路相当于人的大脑,是语音识别受送话器的核心构成。该电路由信号滤波、模数转换、识别、存储、延时、收发控制、产生提示信号、灵敏度调节等各部分组成,每一独立功能均由软件程序调试控制完成。在此,针对该控制处理电路的基础功能模式流程展开设计解析,具体论述如下。

3.2.1 信号滤波、模数转换、语音实现

控制处理电路将收到的前置放大电路送来的信号首先进行滤波、去除外带无用的信号,而后进行模数转换,即编码,将模拟信号转为数字信号。

语音实现部分,本文研究选用了MC145483。这是一款功能全面的音频编解码器,MC145483的主要外接管脚有PCM数据输入端DR,PCM数据输出端DT、芯片主控制时钟MCLK(频率可为256kHz,512kHz,1.536MHz,2.048MHz,4.096MHz)、接收帧同步信号FSR(8kHz)、发送帧同步信号FST(8kHz)、接收端的位时钟BCLKR(256kHz到4096kHz)。MC145483可以提供高质量的语音通信,而且电路简单,通过调节相应的电阻比值即可改变麦克风和扬声器的增益数值。研究可得,语音实现电路如图4所示。

图4 语音实现电路图

Fig.4 Phoneticalisation circuit diagram

至此,MC145483则通过数字输入/输出接口连接至DSP芯片。由于DSP芯片是专门针对数字信号设计和开发的,所以在数字信号分析和处理的领域中,比通用CPU芯片的处理速度更快,效率更高,稳定性更好。本次研究最终选择了TMS320VC5409芯片。总而言之,MC145483可将输入的模拟音频信号经过抽样、量化、编码后变成数字音频信号发送给DSP处理,也可从DSP接收经过其处理后的数字音频信号,并将其通过DA转换后还原为模拟音频信号输出。

3.2.2 信号识别、存储、延时

这一功能是控制处理电路的重点与关键。收到转换后的数字信号后,通过分析判断是否为人的讲话声音。如果不是,系统选择忽略;如果是,则将数字信号进行存储,同时使系统转为发射状态。再将存储的数字信号经过数模转换,即信号解码,恢复为模拟信号,经过不到1s的延时送至输出放大电路输出。信号识别可以确保系统运行高度可靠,而延时则可以实现信号的理想成功传送。

3.2.3 受送话结束提示音

为了获得最佳使用,设置受送话结束提示音。受送话结束提示音分为送话结束提示音和受话结束提示音。下面将基于各自实现阐释。

1)送话结束提示音。结束讲话时,系统需判定使用者讲话是否结束。判定的方法是在使用者结束讲话后1~2s内没有重新讲话,便可视作讲话结束。在1~2s后系统将由发射状态自动调为接收待机状态,同时发出“嘀”的提示音,告知使用者系统目前已处于接收状态。

2)受话结束提示音。当使用者接收到对方电台的声音时,接收的声音一般是连续的,在对方讲话期间,使用者是不能发送的。在对方停止讲话后,系统会产生一个“嘀”的提示音,通知使用者对方讲话已结束,可以讲话发射了。

3.2.4 发射屏蔽信号

发射屏蔽信号主要用来在接收时屏蔽发射功能,这是另一重要设计组成部分。其实现作用如下:当使用者在接收对方讲话期间,因为电台处于接收状态,对方电台则处于发射状态,此时是不能发射的。即使己方电台发射,由于对方电台也同样处于发射状态,对方也是听不到使用者讲话的,相应地使用者也不能听到对方的讲话了。这种现象是人为原因造成的通信线路紊乱。为了避免这一现象的不利效果的干扰出现,设计时处理电路会监视收到的信号,在对方处于讲话期间,即便使用者发声讲话,处理电路也将屏蔽讲话信号(此种状态下,即使不使用通信系统,电台同样不能在对方讲话期间发射),只有在对方讲话结束,即受话结束提示音响过以后才能讲话、发射,确保不会产生通信紊乱现象。

4应用效果

2016年5月23~25日,“2016年中国杭州G20峰会地震安全保障・华东地震应急联动协作区应急支援演练” 在杭州临安举行,来自江苏、福建、安徽、江西、浙江和上海五省一市地震局的6支队伍参加了演练。江苏局研发的骨传导数字语音识别受送话器在地震现场搜救科目中发挥了高效作用,有效提高了救援效率。得到了中国地震局应急救援司领导和参与专家的一致好评。

5结束语

骨传导数字语音识别受送话器在江苏局的应用,首要优势即是控制消除了对外界声音和冲击等的辨识接收。当救援人员讲话时,自动识别产生PTT,就可以实现通话。救援人员的双手获得了彻底解放,讲话时对讲机自动发射,这种通信方法的优化,对于提高救援效率,已然呈现出显著现实益处与良好的方法指导意义。

参考文献

[1]李宁,徐守坤,马正华,等.自适应语音识别算法仿真研究[J].计算机仿真,2011,28(8):181-185.

[2]张雪英.数字语音处理及MATLAB仿真[M].北京:电子工业出版社,2010:189-189.

友情链接