基于内容的语音信息检索技术的内容与实现

来源：免费论文网　|　时间：2019-08-09 11:52:57　|　移动端：基于内容的语音信息检索技术的内容与实现

基于内容的语音信息检索技术的内容与实现 本文关键词：内容，语音，信息检索，技术

基于内容的语音信息检索技术的内容与实现 本文简介：1语音信息及其特点　　自然界存在着各种各样的声音，对声音进行数字化处理得到的结果称为“音频”,是一种重要的计算机多媒体信息。20Hz~20kHz是正常的人耳能够感知合理频率范围。　　音频信息中的一种重要类型为“语音”,具有以下重要特征：　　（1）由高度

基于内容的语音信息检索技术的内容与实现 本文内容：

　　1 语音信息及其特点

　　自然界存在着各种各样的声音，对声音进行数字化处理得到的结果称为“音频”,是一种重要的计算机多媒体信息。20Hz~20kHz 是正常的人耳能够感知合理频率范围。

　　音频信息中的一种重要类型为“语音”,具有以下重要特征：

　　（1）由高度抽象的概念交流组成的媒体形式，主要由字、词、语法等语素组成。

　　（2）语音信息的频率大约分布在 300Hz~4000Hz 之间，主要组成部分为低频，且频谱中心（或亮度）也处于低频段。

　　（3）一般的语音信息中停顿点位于单词和句子之间，且静音所占比例较高.

　　（4）语音信息的特征结构为前部只要是由辅音引起的连续音节短摩擦周期，后部是元音的较长间隔.在辅音引起的连续音节短摩擦周期内有较高的平均过零率（ZCR），在 ZCR 上比音乐具有更高的可变性.

　　利用这些特征对语音信息进行特征提取，是针对性的研究和探讨基于内容的语音信息检索技术的前提条件.

　　2 语音信息检索技术

　　利用语音处理技术检索感兴趣的音频信息成为语音检索.

　　利用前人对语音信号数字化处理的研究成果，进行改进和优化后可以应用于语音检索.建立语音索引进行检索的主要策略见图1和图2所示.

　　在建立语音索引进行检索的策略 1 中，还应该包含语音中的发音者身份及其情绪等其它信息因素，这样可以提高语音索引的建立及进行检索的效率和准确度；建立语音索引进行检索的策略 2 便于利用数字化的信息检索技术对语音信号进行处理，这就是基于内容的音频检索技术的基本原理和方法。

　　以下主要具体探讨和总结几种目前比较成熟的语音信息检索技术和方法。

　　（1）大词汇语音识别技术：利用自动语音识别（ASR）技术将语音转换为文本信息，采用传统的文本检索方法进行检索。这种技术依赖于连续语音识别系统的识别率以及对语音信息的处理过程.

　　在新闻广播等标准语音环境下可以达到90%以上的词语正确度，但在实际应用由于存在说话人的差异和情绪等因素的干扰，语音识别率较低.考虑到检索任务只是匹配包含在音频数据中的查询词句，而不是追求一篇可读性好的完整文章，所以ASR识别出来的脚本仍然对信息检索有用，这种方法可作为语音检索的最初的模糊匹配，为进一步的精确匹配奠定基础.Carnegie Mellon 大学的 Info media 项目就是采用这种方法将电视电影中的声音转换为文本脚本，经过数据分析整理后形成适合全文检索的形式和结构[1].这种方法存在严重的缺陷是说话人地域及口音的差异会给识别带来困难，目前只能通过对系统加大模式识别训练量及采用多级交叉识别的方法来保证一定的识别率.

　　（2）基于子词单元检索技术：利用子词（Subword）索引单元处理不在系统的词库中的专业的词汇（例如人名、地点）。这种方法适合于处理各方面无限制主题的大范围语音资料，可以提高识别率，扩大范围进行进一步的识别搜索.

　　在ETH Zurich的一个研究小组利用VCV（2 个元音+2 个辅音+2 个元音子词单元）的音节形式单元作为索引进行语音检索.例如，“information”这个词的VCV形式为“info”、“orma”和“atio”.

　　进行检索查询时，用户的查询条件首先进行分解形成子词单元，然后将这些单元的特征与语音检索库中预先设定的特征进行匹配，以完成检索任务.

　　这种识别技术的仅针对英语语种，存在一定的局限，但可以作为设计其它语种进行的语音检索的一种思路和方法.

　　（3）基于关键词发现的检索技术：关键词发现（Keywordspotting）指在无约束的语音中自动检测词或短语的一种技术[6].

　　该技术的原理和方法主要是在长段语音录音或音轨中识别或标记用户设定的兴趣事件或某些重要时间节点，利用这些标记进行关键标记检索便可以获得用户所需结果.

　　例如，在足球比赛中通过检测比赛解说词中的“进球”词句并设定标记进行检索，便可以得到相关进球内容的检索结果.该技术通常可以作为一种建立音频索引的基本方法和技术.

　　由于该技术是利用预先确定的固定关键词句进行识别和索引的，因此存在识别率低，检索效率不高的问题，为了提高检索效率，可以将检索范围限定在某个特定领域。Cambridge 大学的 VMR 组通过预先计算生成语音网格，便可以在限定检索范围内实现无限制关键词发现，从而提高了检索的效率.

　　（4）基于说话人辨认进行分割的检索技术：该技术仅根据说话人的语音差别进行说话人的身份识别，而不对语音的内容进行识别。若在适当条件环境下可以达到较高的精确度，因此目前较多应用于安保系统的语音识别身份确认领域。同时在语音信息处理领域，运用该技术可以根据说话人的变化开展分割录音，并建立说话人身份的录音索引，从而可以再一段语音信息中将说话人进行分割，为后继处理提供基础。目前常用该技术技术检测视频或多媒体资源的声音信息中的说话人变化情况及其身份，从而建立相关的索引或依据需求确定某种类型的结构（如对话）。Xerox PARC 就是利用该技术对会议录音进行分割并展开分析，以说话人身份或声学类型（如掌声、音乐等）作为分割区段的依据。如果采用的用户界面是以时间线为坐标轴的形式展示分割区段，则对长篇的会议资料进行快捷方便地直接浏览[4][5].

　　3 自然语言的计算机信息处理技术

　　自然语言指主要受限于语法规则，其它因素对其只有较少束缚，属于非受控语言.若其的信息标引（如词组等）直接从原始信息中抽取，则其信息标引的错误率较低、准确度高，且具有较强的时效性.

　　而且若使用自然语言检索则用户无需过多考虑检索规则就可以实现信息检索.但是自然语言也存在词义模糊、词间关系不清等因素造成漏检和误检，从而导致检索效果不尽人意.解决的方法是在检索前建立系统内关键词词典、类主题词典和后控制词表等自然语言处理系统模块对自然语言进行预处理.

　　人工智能计算机是处理自然语言的基础，主要的技术为自动分词技术、人名和机构名自动识别技术、自动标引技术等，同时需结合自动文摘、文档自动分类、信息抽取、自动发现中文概念词以及概念词之间的语义关系的确定等复杂技术才能取得较好的处理效果.目前基于信息检索的自然语言处理技术仍只能针对简单语言的处理（如确认词根和词组等）.另外，由于历史和政治等原因造成汉语计算机处理字符集和内码体系没有统一标准，港澳台使用繁体而中国大陆和新加坡使用简体，台湾主要为大五码（big5），中国大陆为国标码（GB）等。这就使中文得自然语言处理技术必须解决编码自动转换与汉语自动切分两大难题.

　　在这个领域比较成熟的是尤里卡中文智能搜索引擎,其利用先进的自然语言理解技术，成功突破了“表达差异”和“忠实表达”的难题，实现了信息检索和导航服务的智能化，用户只需输入口语化的查询请求，便可以获得直接的、准确的和翔实的结果.

　　4 语音识别系统

　　简单的说，自动语音识别（ASR）属于模式匹配范畴.一般ASR系统应该具有训练阶段和模式匹配阶段.

　　（1）训练阶段：ASR 系统首先需采集大量的发音者的语音序列数据.具体步骤见图3所示.图中ASR系统提取的最小的语音单位为音素，识别数据库包含音素模型集合、同义词词库和语法等要素。

　　（2）模式匹配（识别）阶段：ASR 系统对输入语音进行处理的方法与训练阶段相似，通过对输入语音提取特征矢量，在识别数据库中搜索与输入语音的特征矢量最匹配的特征矢量的单词序列，从而通过模式匹配完成对输入语音的识别。

　　目前比较通用和流行的 ASR 模式匹配技术为：动态时间环绕技术、隐藏马可夫模型（HMM）和人工神经网（ANN）模型等。

　　其中应用较为广泛为基于 HMM 的技术。HMM 技术的主要核心思想为：首先将每个音素分解为可持续超过一个帧时间（一般设定为 10ms）的三个状态，分别为输入状态、中间状态和输出状态；然后在训练阶段中使用训练语音数据为每个可能的音素构建 HMM,每个音素的 HMM 均输入状态、中间状态和输出状态三个状态，并用状态转换概率和符号发生概率来定义。在该设定环境下，为每个帧计算的特征矢量称为符号。由于时间的单向性特征决定了一些转换是不允许的。在训练阶段后期，由不同的发音者、时间变化和周围的声音引起的变化均采用每个音素由捕获不同帧的特征矢量变化的一个HMM 表示；最后的语音识别阶段中，便可以按照帧的顺序来计算每个输入音素的特征矢量.

　　识别的目的就是去发现哪个音素的HMM最可能产生输入音素的特征矢量序列，从而进行匹配.HMM对应的音素被认为是输入音素，由于一个单词含有大量的音素，因此一般需将音素序列进行整体识别.计算 HMM 产生一个给定特征矢量序列的概率目前有多种算法，常用Viterbi 算法和前向算法。

　　Viterbi算法主要应用在识别连续的语音，前向算法主要应用于识别隔离的单词.

　　5 结束语

　　目前的语音检索技术还处于发展阶段，还面临着诸多挑战:

　　（1）对检索结果准确性的判断：如果检索出来的结果较多，那么用户必须对检索要求进行逐一判断，对于用户来说比较麻烦，而且需用较大的耗时成本去鉴别检索结果的准确性，这是一个急待解决的难题.

　　（2）需要制定更先进的和统一的编码标准：原始语音信息是无结构的，如果在其数字化时就用结构化的编码标准去生成，那么就可以直接进行检索.

　　语音信息检索是一个涉及较为广泛的研究领域，达到人脑那样对语义进行自动理解仍然进行进一步深入和广泛的研究，这是一个从实际认识向抽象理解不断发展的过程，同时也是基于知识理解的应用研究，属于多学科交叉的研究领域.在这个领域的研究和发展过程中，我们将面临更多的挑战，同时也会出现更多新的契机和机会.

来源：网络整理免责声明：本文仅限学习分享，如产生版权问题，请联系我们及时删除。

《基于内容的语音信息检索技术的内容与实现》由：免费论文网互联网用户整理提供；
链接地址：http://www.csmayi.cn/show/224521.html
转载请保留,谢谢!

上一篇：信息检索在论文创作和项目申报中的作用
下一篇：智能化信息检索技术的理论与设计分析

推荐专题

相关文章

1基于内容的语音信息检索技术的内容与实现

最新文章