首页 IP资讯 专业领域
语音识别技术专利申请分析及关键技术展望(下)

语音识别作为人工智能的重要分支技术,因其使用场景亲民而备受关注,它的技术目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。

本文首先对语音识别的现有技术进行梳理和总结,然后从专利申请趋势、主要申请人与发明人及其相关技术、关键技术等方面对语音识别中国专利申请情况进行统计分析。最后,对语音识别技术的国内申请情况进行总结。

由于本文干货充足篇幅较长,为方便大家阅读分享故分上、下两篇进行推送。今天推送的是第二部分,包括:语音识别关键技术及其发展、总结。

三.语音识别关键技术及其发展

近几年来,特别是2009年以来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。将机器学习领域深度学习研究引入到语音识别声学模型训练,使用带RBM预训练的多层神经网络,极大提高了声学模型的准确率。在此方面,微软公司的研究人员率先取得了突破性进展,他们使用深层神经网络模型(DNN)后,语音识别错误率降低了30%,是近20年来语音识别技术方面最快的进步。

目前大多主流的语音识别解码器已经采用基于有限状态机(WFST)的解码网络,该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络,大大提高了解码的速度,为语音识别的实时应用提供了基础。随着互联网的快速发展,以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。语音识别技术关键点大致分为三部分:语音信号预处理与特征提取、声学模型与模式匹配、语言模型与语言处理。




(一)语音信号预处理与特征提取

预处理模块对输入的原始语音信号进行预处理,滤除掉其中的不重要的信息以及背景噪声等,进行分帧和预加重处理工作,并进行语音信号的端点检测,即判定语音有效范围的开始和结束点位置。其关键点步骤包括语音信号的采样和量化、预加重、语音信号的分帧和加窗以及端点检测。

特征参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息,同时对语音信号进行压缩。在实际应用中,语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息,提取哪些信息,用哪种方式提取,需要综合考虑各方面的因素,如成本,性能,响应时间,计算量等。非特定人语音识别系统一般侧重提取反映语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。




Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。从目前使用的情况来看,梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与接收声音的特性,具有更好的鲁棒性(Robustness)。也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

下面对一些重点中国专利申请进行介绍:

1.专利申请CN101118745A公开了一种用于语音识别系统的置信度快速求取方法,包括:预处理分帧;提取每帧语音的语音特征;根据状态图、声学模型和该帧语音的特征向量,计算每一帧语音对应于状态图中每一个状态的似然概率p(xt/sj);按照帧号和状态号存储似然概率p(xt/sj);根据似然概率p(xt/sj)对状态进行剪枝;计算剪枝后声学空间的似然概率和以及广义后验概率;计算每个音素的广义后验概率并将其作为置信度得分。现有技术中,需要在进行音素搜索得到音素候选后,为计算置信度再使用不同的声学模型进行第二次搜索,该专利申请实质是一种同步计算方法,是在识别器进行帧同步束搜索的过程中,使用相同的声学模型计算置信度,只需进行一次搜索,节省了系统的运行时间和计算的复杂度。

2.专利申请CN1264889A公开了一种语音识别系统中的特征提取方法。包含以下步骤:输入一数字化信号;从数字化信号产生各表示性系数;从表示性系数产生各差分系数;以及选择性地仅使用表示性系数和差分系数的一部分,以通过使用间隔的系数构成特征集来构成特征集。该专利申请克服了传统语音识别系统需要大量的易失性存储器(如随机存取存储器(RAM))和非易失性存储器(NVM)(如闪烁ROM或电可擦只读存储器(EEPROM))的缺陷。降低了传统语音模型训练需要大量MIPS从而降低资源利用率和降低操作速度等负面影响使,提高了语音识别的装置的性能。

3.专利申请CN101051462A公开了一种在背景噪声环境下补偿语音处理中 使用的语音的特征矢量补偿设备,包括:第一存储单元,在其中存储用于针对多个噪声环境的每个噪声环境补偿语音的特征矢量的补偿矢量;特征提取单元,在输入语音的多个帧中的每个帧中提取语音的特征矢量;估计单元,根据特征矢量序列和相似性程度估计噪声环境序列,所述噪声环境序列是生成作为针对多个帧的一系列多个提取的特征矢量序列的一系列多个噪声环境,所述相似性程度表示在当前帧以及当前帧的紧前一帧和紧后一帧中至少一 个的每一个中在噪声环境下生成特征矢量的确定性;计算单元,根据在第一存储单元内存在的补偿矢量,获得与在估计的噪声环境序列中的每个噪声环境对应的补偿矢量;和补偿单元,根据获得的补偿矢量补偿语音的提取的特征矢量。

(二)声学模型与模式匹配

声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。




声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。

目前常用的声学模型基元为声韵母、音节或词,根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节,包括轻音字,共有1282个有调音节字,所以当在小词汇表孤立词语音识别时常选用词作为基元,在大词汇表语音识别时常采用音节或声韵母建模,而在连续语音识别时,由于协同发音的影响,常采用声韵母建模。

基于统计的语音识别模型常用的就是HMM模型λ(N,M,π,A,B),涉及到HMM模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。

下面对一些重点中国专利申请进行介绍:

1.专利申请CN1331467A公开了一种产生声学模型的方法和装置,它能够将语音识别阶段存在的多个噪声样本分类为多个簇以从每簇中选择噪声样本,并且能够将选定的噪声样本作为训练用噪声样本叠加在训练用语音样本上以根据叠加噪声的语音样本训练未经训练的声学模型,从而生成声学模型。具体包括:用于采集M个噪声样本的装置,用于提取时间平均矢量的装置,依据所述时间平均矢量对所述M个噪声样本进行分类以获得N个第一簇噪声样本并从每个第一簇中抽取一个噪声样本作为训练用的噪声样本的装置,存储训练用的未经训练的声学模型的装置,以及利用抽取的训练用噪声样本来训练未经训练的声学模型从而生成语音识别用的声学模型的装置。该申请将多个对应多种噪声环境的第一噪声样本分类为从而在每个簇中选择噪声样本,由此根据每个选定的噪声样本训练未经训练的声学模型,生成语音识别用的训练过的声学模型,所以可以利用少量的噪声样本训练未经训练的声学模型并广泛覆盖多种无偏差的噪声,从而可以生成能够在任何未知环境下获得高识别率的经过训练的语音识别用的声学模型。

2.专利申请CN1531722A公开了一种使用内置式扬声器的语音识别系统,其包括:语者无关声学模型,语者特定声学模型,语音识别引擎,用于进行非监督式语音识别训练和测试,所述语音识别引擎将输入语音与所述语者无关声学模型的内容进行模式匹配以产生语者无关的模式匹配评价,将所述语者无关的模式匹配评价和与存储在所述语者特定声学模型中的模板相关的评价作比较,并且当所述语者无关的模式匹配评价好于与存储在所述语者特定声学模型中的模板相关的评价时,更新在所述语者特定声学模型中的至少一个模板。该系统采用独立于扬声器(SI)和依赖于扬声器(SD)的声学模型的组合。至少一个SI声学模型用于和至少一个SD声学模型的组合,以提供至少能相同与纯SI声学模型的语音识别性能的水平。所揭示的SI/SD VR系统可继续使用无人指导的训练,来更新一个和多个SD声学模型中的声学模板。混合的VR系统随后使用与至少一个SI声学模型组合中所更新的SD声学模型,提供在VR测试过程中改良的VR性能。

3.专利申请CN1591570A公开了一种用于紧凑声学建模的泡分裂法,该方法包括:根据至少一种语音相关标准(即声道长度)划分来自多个训练说话人的语音数据;将划分好的来自于具有相似语音特征的训练说话人的语音数据组合在一起;使用每个组合中的语音数据为该组合训练一个声学泡模型。该方法用于超大词汇表连续语音识别系统,为整个数据库建模提供了一种更为准确的紧凑声学模型。

(三)语言模型与语言处理

语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。

语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。




下面对一些重点中国专利申请进行介绍:

1.专利申请CN1295705A公开了一种基于语言模型的信息检索和语音识别方法,该语音识别系统可以访问第一类数据存储器和第二类数据存储器,其中第二类数据存储器比第一类数据存储器的数据量要大,该方法包括依据在第一类数据存储器中所包含的信息将信息检索查询公式化,依据该被公式化的查询,对第二类数据存储器执行查询,依据该查询从第二类数据存储器中检索信息;以及,依据被检索到的信息和第一类数据存储器中的信息,对该语言模型进行适配。该专利申请提供了一种更为精确地概率估算值的用户实际语言,为用户生成了具体的语言模型。

2.专利申请CN1351744A公开了一种具有互补语言模型的识别引擎。它包括输入装置,用于接收表示口语单词序列的时序的输入模式。该系统进一步包括多个大词汇量的语音识别器,每个识别器与对应的不同大词汇量识别模型相关联。每个识别模型以巨大词汇量的一个特定部分为目标。所述系统包括控制器,该控制器用于将输入模式导入多个语音识别器中,并用于从多个语音识别器识别的单词序列中选择被识别的单词序列。该申请可通过分离的识别服务器进行识别。在因特网语境中,这种服务器可以是网络上的分散站,或该服务器与诸如搜索引擎或类似于电子书店等服务提供者的现有网站结合。具体地,为许多用户操作的识别服务器需要能够支持适合于大部分用户的词汇表。若干特定大词汇量模型的使用使该系统能更好地、高识别精度地执行该任务。

四.总结

语音识别技术已进入快速发展期,新技术不断涌现,全球专利申请量持续快速增长。我国相比国外起步晚,虽近几年专利增长迅速,与美国、日本的专利数量差距在缩小,但仍存在核心技术掌握不足,企业总体技术实力薄弱,国际专利数量偏少等系列问题。国内企业应充分利用国外技术尚未大量进入中国市场这一有利条件,抓紧进行新技术研发,加快国内外市场的专利布局,力争赢得先机。


如需咨询语音识别相关业务

请联系邮箱:zixun@chofn.com

电话:010-53394826

本文作者:王博实