语音技术在此腾飞

文/ 李馨

2008年09月01日

吴晓如

        近日，在刚刚结束的“2008 NIST Speaker Recognition Evaluation”——国际说话人识别评测大赛上，安徽科大讯飞语音实验室送评的识别系统获得综合指标第一名的优异成绩。这是继科大讯飞2006、2007年蝉联国际英文合成大赛（Blizzard Challenge 2006/2007）第一名后，在语音研究国际大赛上获得的又一殊荣。借此时机，记者采访了安徽科大讯飞信息科技股份有限公司副总裁吴晓如。
        记者：请您简单介绍一下说话人识别技术和此次国际说话人识别测评大赛的获奖情况。
        吴晓如：说话人识别技术，又称话者识别或声纹识别，是语音识别技术的重要方向和应用领域。该技术通过语音信号提取代表说话人身份的相关特征，从而识别出说话人的身份。
        此次说话人识别测评大赛是由NIST（美国国家标准技术研究院）举办的，作为国际上规模与影响力最大的说话人测评大赛，是国际一流的科研单位和企业角逐说话人识别技术桂冠的竞技平台。本次是讯飞第一次参赛，此前，我们在语音识别研究上一直在默默耕耘，经过多年脚踏实地地坚持与努力，我们积累了深厚的语音识别研究基础并组建了高水平研发团队。这次在时间紧、对手强的竞争压力下首次参赛就一举夺魁，大大激励了中国语音识别研究队伍的士气。
        记者：听说本次大赛是对产品的几个指标作了分别的评测，而讯飞的识别系统获得的是综合指标第一名的成绩，请分别介绍一下此次大赛的测评指标和讯飞的成绩。
        吴晓如：本次大赛有三项测试指标，包括识别等错误率（EER）、最小检测代价（minDCF）和检测代价（DCF），讯飞语音实验室报送的USTC-iFly系统获得了识别等错误率、最小检测代价两项第一名、检测代价第三名的优异成绩。其中识别等错误率，是识别说话人识别效果优劣最重要的一个指标。举个例子来讲，在一千个语音样本中，有十个样本是被检测对象，对这一千个样本进行检测，如果检测结果中检测出来的对象有缺漏，称“漏检”；如果检测出的对象是非被检测对象，称“虚检”。在一个结果都没有检测出来的时候，“虚检”为最小值零，但“漏检”值达到了最大，所以在一般情况下，需要虚检和漏检处在一个平衡点上，最好的结果就是检测出的十个对象均为被检测对象，这个指标就是识别等错误率，指检测出来的结果漏检和虚检都是最小的。
        另外，在这次比赛中，我们与新加坡信息研究所(IIR)等合作报送的I4U系统获得了识别等错误率、最小检测代价两项第二名，检测代价第一名的优异成绩。
        记者：请分别介绍一下讯飞的语音合成和语音识别技术情况。
        吴晓如：语音技术，通俗说，就是让计算机等智能机器具备“会说能听”能力的技术，使人与机器之间沟通变得像人与人沟通一样简单，它主要包括语音合成和语音识别两项关键技术。
        语音合成，就是让你的电脑“会说话”，解决的主要问题是如何将文本状态的文字信息转化为可听的声音信息。这样，有些只能用眼睛看的文字信息，现在也可以用耳朵来听。
        我们主要采用的技术是可训练和波形拼接相结合的语音合成方法。所谓波形拼接就是采用大语料库技术进行语音合成、实现高自然度高表现力合成语音，即从录制的大规模自然语流数据库中按照合适的声学、语音学算法提取合适的单元合成出连续的语流。但这种完全基于语料库的波形拼接需要录大量的语音资料，所录的库容量的要求比较大。所以我们将波形拼接和可训练相结合，采用可训练的办法，预测一个人的声道、韵律的特征，然后根据预测的特征参数，挑选合适的样本拼接成数据，使合成的语音数据更自然且清晰流利。
        另外，在存储空间不足的情况下，还可以单独使用可训练的方法，把训练出来的参数直接放到合成器里面，通过合成器直接产生语音。
        语音识别，就是让机器能听懂人类口述的自然语言，相当于给机器装上一个人工的“耳朵”。听懂有两层含意，第一层是将这种口述语言逐词逐字逐句地转换为相应的文字，例如对口授文章作听写；第二层则是对口述语言中所包含的要求或询问作出正确的响应。
        在语音识别方法中，目前占主导地位的是基于统计的方法。在声学模型方面，以Markov链为基础的语音序列建模方法HMM（隐式Markov链）比较有效地解决了语音信号短时稳定、长时时变的特性，并且能根据一些基本建模单元构造成连续语音的句子模型，达到了比较高的建模精度和建模灵活性。在语言层面上，通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外，人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。
        记者：最近，讯飞推出了一款电话语音识别产品InterReco，据了解这是讯飞推出的第一款电话语音识别产品。为什么会在这个时候推出这个产品呢，它有什么意义？
        吴晓如：讯飞今年发布了第一款电话语音识别产品InterReco，这标志着科大讯飞将通过优秀的语音识别核心技术、可靠的电话语音识别产品、专业的技术支持服务，加大拓展语音识别在电信级环境中应用的广度和深度。我们将帮助各行业合作伙伴在呼叫中心、电信增值服务、语音搜索等方面打造具有高增值效应的自助语音服务，为社会信息服务带来更大的便捷性，加速推动中国语音技术产业的发展。
        针对语音识别应用中面临的方言口音、背景噪声等问题，InterReco基于实际业务系统收集了涵盖不同方言和不同类型背景噪声的海量语音数据，通过目前最新的区分性训练方法进行语音建模，使语音识别系统在复杂应用环境下拥有良好的效果表现。它采用分布式架构，延续了讯飞语音平台久经锤炼的高稳定特性，能够满足电信级应用的高可靠性要求。
        为解决电话语音识别产品在应用系统中集成难度大，面向具体业务优化难度大的问题，InterReco产品提供了高效的开发接口、友好的开发环境、强大易用的语法开发工具和详尽的帮助文档及示例，将加速合作伙伴进行集成和应用开发的过程。同时，科大讯飞的专业服务团队将为合作伙伴提供高效的技术支持和应用优化服务，使InterReco的领先特性在应用系统得到充分体现。
        InterReco的推出和语音合成形成了“能听会说”的完整解决方案，将大幅推动语音识别和整个语音产业的发展。
        记者：目前讯飞发布的产品都有哪些类型？
        吴晓如：围绕语音核心技术，科大讯飞的主要产品包括语音支撑软件和语音应用软件两类。
        1、语音支撑软件
        科大讯飞语音支撑软件主要分为电信级语音平台和嵌入式语音软件两大类。电信级语音平台主要用于呼叫中心、电信增值业务、互联网服务等行业市场；嵌入式语音软件主要用于手机、汽车导航、学习机等终端产品市场。电信级语音平台和嵌入式语音软件从技术上又可细分为语音合成和语音识别两个主要方面。
        我们从2001年开始在中国市场率先推出电信级语音合成平台，经华为和中兴等合作伙伴大规模电信级测试后推向市场，首先在电信呼叫中心中得到应用。2004年开始在中国市场率先推出嵌入式语音合成软件，首先用于车载电话领域，经过两年多的市场开拓与技术积累，嵌入式语音合成软件的效果和应用价值已经得到产业界的广泛认可，从2006下半年开始进入高速成长期。
        在中文语音识别技术市场，讯飞从2003年底开始向电信级开发伙伴提供“合成＋识别”整体解决方案。目前，中文语音识别已在语音电话本、电信114号码百事通、移动和联通手机音乐搜索等业务中得到了成功应用。2007年初科大讯飞完全自主知识产权的嵌入式语音识别产品已经开始面市。
        2、语音应用软件
        科大讯飞在向开发商提供核心技术的同时，随着对行业应用的了解，也针对典型应用领域推出以语音为特色的行业应用解决方案（即语音应用软件）。例如，面向政府、教育、旅游、社区、企业等各个领域的信息管理与多渠道信息发布平台、语音服务热线等。
        目前，科大讯飞重点发展的行业应用软件主要有：“彩铃/炫铃语音搜索电信增值业务系统”和“普通话口语评测系统”。此外，为加快面向大型企业/政府的行业应用开发速度，科大讯飞推出了融合智能语音和语言技术，具有协作、通讯和互联等关键支撑服务的快速开发和模块复用支撑平台。
        记者：讯飞语音科技在技术上目前已经处于国际领先的地位，产品的市场发展应该也是非常不错的，那一直以来讯飞在技术研发上是按照一个什么样的思路去做的呢？
        吴晓如：我们的技术发展原则可以用一个词来概括，那就是：“顶天立地”。所谓“顶天”，就是要把技术做到最好；“立地”就是作为企业我们要把技术应用到实际中去。
        首先在技术上我们一定要有持续的潜力，在相当长的一段时间做到国际领先。在这种原则的指导下，很早开始我们就强调研究资源的整合，同清华大学、中国科技大学等成立了联合实验室，与国内语音研究领域最具优势的研究机构合作，共同把关键技术做到最好，最后再由讯飞把这些关键技术整合起来形成系统。同时，作为一个企业，我们需要把技术成果反映到产品上，以应用为导向进行技术研究，通过充分的市场调研确定最适合的研究方向，通过和合作伙伴的资源整合，把技术成果更好的推向应用。我们一直希望能通过自己的努力摸索出一条产、学、研形成互动的模式，从现在来看，这种模式运转得是很不错的，讯飞和合作伙伴一直以来都有很好的相互配合的关系。
        记者：讯飞下一步的发展方向是什么？
        吴晓如：科大讯飞作为中国实力最强、最具品牌影响力的专业语音技术提供商，一直致力于推动中文语音产业的发展，目前在国内语音交互市场的占有率超过70%，在各行各业拥有众多的成功应用案例。今后，我们仍将继续致力于核心技术的研发，然后在应用层面上拓展语音技术研究的广度和宽度，更深层次地挖掘语音识别产业的潜力。我们希望服务器级的产品能让大家在信息查询、信息获取上更加方便，在已经推出的电话语音命令式识别产品的基础上，进行连续语流识别产品的开发。另外语音检索也是我们努力的一个方向，通过技术研发，改变现在互联网中的语音数据必须附有文字标签的现状，直接通过语音检索获取语音数据，减少汉字输入的麻烦，从而带来更多的方便，努力使我们的语音技术给用户带来更大的便捷性。相信通过科大讯飞和合作伙伴的努力，中文语音技术产业将加速发展，语音识别技术将为大众获取信息服务提供更大的便捷，带来更完美的体验。