磨砺以须，深挖语音数据宝藏-《科技创新与品牌》杂志社

时至今日，让机器“听话”，已经不是什么新鲜事了。在不少场景下，动口替代了动手。

用语音控制手机，可以完成编辑短信、打电话、查询交通、指挥导航等指令；对电视说话，电视就能完成开关机、转台、调节音量亮度，甚至发送弹幕等任务……类似的还有，在行驶中对汽车下命令：帮我打电话给XX；躺在床上对空调说：把温度调到26度；以及教会小朋友用语音控制手表学英语、查天气、定闹钟等等。

语音识别技术，帮我们实现了这些曾经只能出现在科幻片中的智能化应用。于是，人们开始有更高的期待：人与机器自由交流，是否也可以在不远的将来实现？

对此，清华大学电子工程系长聘副教授吴及在接受本刊采访时表示，让机器“听话”，只是一个单向的过程，而人机交互则是双向的，甚至可以是多人参与。这需要机器不仅听到、识别语音，更重要的要理解语音及交互时所处的场景、所蕴含的背景知识和经验。从听见到听懂再到自由交流，并不像人们想象的那么简单。

吴及，清华大学电子工程系长聘副教授，长期从事语音识别技术研究、系统开发及产业化推广工作，在20余年的积累和坚守后，迎来了语音识别产业发展的春天。

一项看上去简单的研究

语言是人类交流中最自然、最重要的方式。它的普遍易见，影响了人们的认知——说话那么简单，让机器学会说话肯定也不难。恰恰相反，吴及说，语音识别是一项看上去很简单，但实现起来很难的技术。

早期的人工智能先驱也曾被误导。“每当出现一些新的进步，就会积累起学界、工业界和普通百姓的高期望，从而形成热潮，但当做出来的东西不能满足大家的要求时，期望就会变为失望，整个行业也会从顶峰滑落，形成低谷。”发端于上世纪50年代的语音识别技术，就曾在70年代和90年代形成热潮，但都很快滑落低谷。

吴及开始语音识别技术研究是在1995年，当时的语音识别技术研究正处于低谷，不温不火。

那一年，吴及完成了清华大学电子工程系的本科课程，因为“想做创新性更强、更有意思的工作，所以选择了语音识别作为研究生阶段的主攻方向”，从此成为清华大学电子工程系语音识别实验室的一员新兵。

吴及的起点很高。这个由王作英教授创建于1987年的实验室，从孤立字、连接词到连续语音，一步步积累和发展，一直是国内语音识别领域最有影响的研究团队之一。

因为技术门槛高，进展缓慢，语音识别被誉为智能语音行业的“皇冠”。吴及介绍，语音识别研究的难点主要在两个层面，一是语音，二是语言。

“从语音层面来讲，人对声音有很强的区分能力，能一下子分辨出是有意义的声音还是噪声；在很多人说话的时候，能准确聚焦自己所关心的人的声音。这些对人来说再自然不过的事情，要机器实现非常困难。”吴及解释，同时，人在用语音表达的时候，往往是碎片式的，存在很多不流利的现象，比如停顿、犹豫、重复等等；而且不同的人语速、口音差别可能会非常大。这些都给语音识别带来了很高的技术难度。

而在语言层面，则更加困难。因为交流是相互的，不止要听见，还要听懂，理解，并作出正确的反馈。但是，“在很多情况下，人和人的交流是建立在共同理解的前提下，大家拥有共同生活经验、知识背景，甚至阅历。”所以，吴及强调，“理解语言，并不仅仅是理解直接表达出来的字句。从语音识别走向语言理解，我们还有很长的路要走。”

这一次是真正的变革

尽管技术门槛高，但近年，特别在2011年之后，语音识别技术却迎来新一轮的热潮，并取得了非常明显的进步。是真正的变革，还是又一轮泡沫？

“我相信它是在峰顶，也不会再轻易掉到谷底。它会越来越平常，越来越多地进入老百姓的生活。”吴及认为，近年语音识别技术的蓬勃并非虚幻的泡沫堆积，而是有实实在在的技术和产业支撑——

首先，移动互联网的兴起，为语音识别技术的应用提供了前所未有的巨大空间。当智能手机成为人们使用最频繁的通讯工具和信息助手，人机交互的场景变得与以往不同。原来PC端的首选工具——键盘、输入法，在手机端显得很不方便，而在PC端仿佛锦上添花的语音识别，在手机端却成为雪中送炭。当需求非常迫切的时候，对差错也就有了更高的容忍度，因此还称不上完美的语音识别技术就得到了更大的应用空间。

其次，云计算和互联网的发展，帮助语音识别的精度得到了极大提升。“云+端”的模式，使得对语音数据的识别可以在云端进行，然后把识别结果传到终端上。这意味着，一方面由于云端拥有更强的计算能力，所以能够构建更复杂的模型，实现更好的识别性能；另一方面云端可以利用实际的海量数据不断更新和优化识别模型，形成正反馈，不断提升识别系统的性能。

再次，从2011年开始，深度神经网络越来越广泛地被应用在语音识别的技术研究和系统实现中。长期以来，为了获得更好的识别性能，高性能的语音识别系统的构建和模型训练流程越来越复杂，继续优化十分困难。深度神经网络不仅拥有构建极高复杂度模型的能力，能够充分利用海量数据来实现模型优化；还将传统上特征提取和分类识别的任务联合起来实现整体上的优化。它的出现，很大程度上改变了语音识别系统的构建方式，为语音识别技术的研究提供了非常大的助力。

这些条件的具备，帮助语音识别技术取得了显著的进步，这种进步也折射到了应用领域。而政府在智能语音技术研发及产业化方面的政策支持，更为语音产业发展创造了良好的发展环境。

吴及介绍，智能语音技术应用非常广泛，不单包括前面提到的手机、电视、玩具、汽车等实时交互的场景，也覆盖了正在兴起的智能客服、主动营销等智能语音服务。总体而言可以分为在线的和离线的两个方向。

在线的语音识别应用已经开始融入人们的生活，比如用语音实现文字输入、地图导航，比如利用语音识别进行人机对话，比如声控机器人、飞机、汽车。这些都属于在线应用的范畴。

离线应用则是通过与大数据技术的结合，对海量语音数据进行处理、挖掘和分析，开发和利用其中的价值。“语音数据是典型的非结构化数据，采用传统的手段很难有效利用，而人工转录成本又过高。现在有了语音识别技术，我们就可以通过语音识别系统将其转化成文字，在这个前提下，进一步的数据检索和分析，也就有了可能性。”

吴及认为，离线应用空间同样广泛，有巨大的挖掘价值，一些企业级的服务应用已经开始。而他们，已经在这方面取得了显著的成果。

搜索语音成为现实

相信大家都有跟呼叫中心客服打交道的经历。移动、银行、保险、电视广播等都通过呼叫中心提供服务，大量的呼叫中心每时每刻都在产生海量的语音数据。

海量语音数据的背后，隐藏着无数客服坐席的高强度工作、企业的高成本运营以及海量数据的高难度管理。能否实现呼叫中心的高质量服务和高效率管理，深入挖掘运营价值呢？

在呼叫中心一对一的服务过程中，客服是否服务到位，除了客户本人，无人知晓，哪怕录音被保留。因为数据量非常之大，人工检查由于时间和费用成本极为高昂而不具备可行性。因此对海量语音数据进行检索、分析具有很大价值，一方面可以监控客服代表的服务质量，优化产品和服务模式；另一方面，通过语音识别和数据挖掘技术，可以更全面地了解产品和服务的实际情况，深度挖掘客户价值，从而帮助决策层和管理层进行科学研判和趋势预测。那么，有没有办法高效挖掘蕴藏在海量语音数据中的宝藏呢？

在这样的背景下，吴及带领团队开展了“面向海量语音数据的识别、检索和内容分析技术及其应用”项目，设计研发了应用于呼叫中心的自动客服和语音分析整体解决方案，技术领先，效益显著，获得2014年度北京市科学技术奖一等奖。

项目以具有海量语音数据和密集交互特性的呼叫中心作为应用场景，通过一系列自主技术创新和系统创新，设计研发了应用于呼叫中心的自动客服和语音分析整体解决方案。所实现的电话交谈语音识别正确率、语音检索效率和用户需求理解正确率等主要技术指标均达到国际领先水平。

这一项目的成功，意味着以大量录音数据正确转化为文字为前提的语音分析研究不再繁琐不堪，意味着从大量录音数据中自动快速找出指定关键字成为现实。

项目开创了采用智能语音技术改造呼叫中心的行业新方向，得到市场高度认可，在与国际厂商的竞争中处于领先地位。从2011年开始已经成功进入中国移动、中国联通、中国电信、工商银行、建设银行、招商银行、浦发银行、中信银行、华夏银行、平安集团、阳光财险、中国国航、携程网等20余家主流企业，创造了显著的社会和经济效益。

更为重要的，是该技术成果拥有广泛的适应性，能够为公共安全、政府工作等需要对信息资源进行深入开发利用的领域提供便利。“我们一直都在继续研究，后面还有很多工作可以做。我们考虑在更多场景下做语音分析，努力实现结构化数据和非结构化数据的融合分析，希望能够更大的拓展商业智能的应用场景。”

产学研联动助力产业发展

现阶段，语音识别仍有许多难题有待于进一步研究，比如噪声的问题、方言的问题，比如多人对话情况下锁定、提取某个特定人声音的问题等等。

但这些，并不妨碍语音识别产业的迅猛发展。同时，伴随着这种发展，越来越多的人意识到，这个产业的发展不只是语音识别自己的事情。“语音识别必然要和后面的语言理解建立起关系，如果没有理解，只把声音转成文字，意义并不大。”

吴及认为：“更重要的，是我们不能停留在识别本身，而是怎么去理解。我们理解一件事，不仅在语言本身，更要与很多应用场景、知识积累紧密联系。”“大概在2008年，我们意识到这个问题，开始有意识地向更宽的方向延伸。”

于是，2009年，实验室更名为多媒体信号与智能信息处理实验室，意味着将面向多媒体信号，针对其中所蕴含的内容，采用包括统计模式识别、机器学习、数据挖掘等海量数据处理技术，研究数据和信息的认知、理解、以及有效管理和利用。

同时，在智能语音进入产业化层面之后，技术不再是唯一要面对的问题，无论产品还是市场，都需要整个产业上下游的联动，需要国家从更宏观的层面加以规范指导。

作为国家战略性新兴产业，智能语音产业是我国信息产业中为数不多掌握自主知识产权并处于国际领先水平的领域。“每一行代码都掌握在中国人自己手里，系统也都是独立自主不依赖别人的。”正因如此，这一产业才迅速凝聚了各个层面的力量。

而吴及和实验室，也一直在科研之外的更多层面发力，以推动整个语音产业的进步。

2004年起，吴及担任工信部语音标准工作组成员，以行业专家的身份参与标准制定工作。

2006年，吴及参与创建的清华—讯飞语音技术联合实验室成立，并一直担任主任。

2012年，中国语音产业联盟正式成立，吴及担任技术工作组组长。

联合实验室的成立，打通了核心技术研发、产品研发、产品转化和市场推广的产业链条，实现了良性的产学研循环。吴及介绍，成立至今，联合实验室的研究方向已经从最初的语音识别拓展到音频内容分析、语音检索、语言理解、数据挖掘等方向，研究成果已广泛应用于语音芯片、客服质检、短信导航、信息监控等领域，为社会信息服务、国家公共安全等作出了重要贡献，有力推动了我国语音产业的发展。

中国语音产业联盟的成立，则有应运而生的意味。2008年开始，移动互联网逐步兴起，2010年科大讯飞发布第一代语音云，2011年苹果推出语音助手siri，智能语音产业热潮初现端倪，国内越来越多的研究人员和企业看到了语音产业的重要性和光明前景。因此，中国语音产业联盟的19家发起单位中，不仅包括了清华、科大等语音技术研究机构和核心技术提供商科大讯飞，还包括了联想、华为、中国移动、中国联通、中国电信、长虹、创维、上海汽车等下游企业。“这种更大范围的产学研联合、联动，更有利于整合产业链上下游企业资源、加强产学研用合作、推动语音技术创新和产业发展。”

几年过去了，联盟的影响力也越来越大，发布白皮书、领导制定标准、争取政策支持、加强国际交流……联盟一直站在更高的角度、从更宏观的层面助力中国智能语音产业的发展。

浪潮涌动下，资本界的追捧也不可避免地带来了泡沫。“适度的泡沫很多时候是需要的，没有泡沫就吸引不了人、吸引不了资金，但要把泡沫吹太大了，早晚有一天会破掉。”吴及强调，语音识别技术和产业确实取得了十分显著的突破和发展，但同样的，我们也应该正视现在和未来将要面临的难解之题。正如有人所说的，“尽管已经成绩斐然，但剩下的难题和已经克服的一样令人生畏。”

与其追逐潮流与资本，不如将精力投注在核心技术的提升上。现阶段，吴及更加专注技术，正如过去20年他们所坚持的。他们研究利用深度神经网络来解决资源有限情况下的语音识别（比如小语种）问题；他们拓宽角度，开展音频事件检测，做场景分析；他们攻关多人交互模型，努力让机器“听懂话、能交流”……

他们在朝着更多的未知走去，那里存在潜在的风险，也同样蕴含着无限的可能。没有人能准确预测何时才能实现真正的人机自由交流，但可以非常确定的是，语音识别和人机交互技术将无限缩小人类与机器之间的隔阂。

创新品牌网