本刊记者/庞贝
2015年11月24日
百度语音技术部负责人贾磊
在2015年10月举行的中国人机语音交互领域最权威的全国人机语音通讯学术会议上,百度语音 技术部负责人贾磊介绍了百度在汉语语音识别方面取得的重大理论和产品突破:研发出了基于多层单向LSTM的汉语声韵母整体建模技术,并成功把连接时序分类(CTC)训练技术嵌入到传统的语音识别建模框架中,再结合语音识别领域的决策树聚类、跨词解码和区分度训练等技术,使机器的语音识别相对错误率比现有传统技术降低15%以上,汉语安静环境普通话语音识别的准确率接近97%,进一步接近人的识别能力。
这是继2011年,引入深度学习技术后,语音技术领域又一次具有标志性意义的重要进展。
超强计算能力支撑的极致创新
人工智能是当下的热门概念,语音识别也被叫得火热。但仍然有很多难题横在了语音技术大规模产业化的面前。贾磊说:“语音识别技术的成本消耗非常高。如果语音搜索服务要想大规模普及,必须降低后台服务器成本。否则,如果未来50%的搜索用户都使用语音的话,所消耗的后台服务器数目是惊人的。”
“百度此次研究的CTC模型在解码部分的速度比传统模型快5到10倍。配合专业的深度学习计算硬件,当未来语音服务大规模普及时,可以让后台计算成本大大降低。”
除了成本之外,计算能力也是一个瓶颈。
贾磊告诉我们,这次百度做出的重大技术创新,更大程度上是百度对计算能力极限挖掘的一次尝试。
在人工智能领域,LSTM(长短时记忆模型)与CTC(连接时序分类)技术都已经存在很长时间,但是由于其容易收敛到局部点等特点,以及这两大技术结合后计算量巨大等原因,10多年来,LSTM与CTC的结合一直没有在语音工业领域成功应用。
“LSTM和CTC建模技术结合,其核心难度之一就在于海量数据下的深度学习需要强大的计算能力,这两项技术的计算量比传统深度学习的计算量大一个数量级。直接按照数学公式去实现上述算法,LSTM和CTC训练就需要采用单帧递推模式,这样的训练速度在工业条件下的将近1万小时训练数据下,几乎是不可能实现的。”贾磊解释到。
此次,百度依靠三大因素—大数据机器学习和语音识别传统理论结合、创新的算法以及强大的计算能力,成功突破了这十多年的技术困局。
据了解,对比谷歌2015年9月份于Interspeech 发表的在英文领域的类似研究成果,百度的训练数据是谷歌的4~5倍,模型训练参数规模是谷歌的10~20倍。而该技术成功突破的核心要素之一就是训练能力的极致提升,大模型大数据下的难度要比实验室小数据小模型的情况下难很多。百度研发出的全新训练算法,更接近工业大数据的产品实践,是可以推广到10万小时训练的全新技术。
“对新技术的追赶,需要大数据、大平台、极致计算等结合做支撑,因此可以预见,百度这样的公司在未来有很大优势。”
传统理论突破带来的框架性创新
值得注意的是,这一技术创新并非依靠单点的突破,而是“打造基于多层单向LSTM的汉语声韵母整体建模技术”、“引入CTC技术”、“与语音识别领域的传统技术相结合”三大方面共同作用的结晶,是一项框架性的创新。
“过去,有很多机器学习技术应用于语音识别领域取得了不错的效果,但是在解决产品上线的计算量和用户等待时间方面总是差强人意。”贾磊认为,“深度学习技术必须和行业专业理论结合才能以质变的方式提升工业产品技术。”
自2015年6月开始,经过短短4个月的不断探索与试验,百度在世界范围内率先克服了在汉语领域使用CTC技术训练多层单向LSTM的高精度建模难题。
此外,百度还根据自己在语音产品实践中的长期积累和经验,经过大量实验详细的比较,在尝试了音节、声韵母和状态等不同长度的建模单元之后,最后探索出最适合汉语的声韵母整体建模。最终把上述成果一起应用到语音识别的传统技术框架中,结合决策树聚类、跨词解码技术和区分度训练等一系列传统技术,实现了汉语语音识别工业产品技术的实质性提升。
这一革新不仅是学术上的成果,而且可以直接应用在产品上。据悉,应用这一新技术的百度搜索产品即将上线。
在解决工业难题的同时,百度还最先对工业情况下的CTC技术在语音产品中发挥巨大作用的本质进行了深入探索。
在研究过程中,贾磊和他的团队发现,在大数据、大模型条件下,在固定边界的CE训练之后,采用CTC训练,可能对多层双向LSTM模型的性能提升很有限,但对多层单向LSTM模型的改善是显著的。
“我们对CTC的本质进行了深度探究,”贾磊表示,“我们认为,一个可能的解释是,CTC的空白吸收机制和动态边界尖峰学习能力,可以动态自适应地形成‘目标延迟’,从而解决单向LSTM模型的右边信息不完整的问题,而这个作用对双向LSTM模型的价值就小很多。”
该理论的探索和发现,对于CTC技术进一步在语音识别中的创新研究打下了很好的基础。除此之外,百度产品团队还探索了语音识别中CTC训练后的模型具有超快的解码速度的本质原因,并向业界公开其相应的解码器加速策略。
更深刻的变革正在来临
如今,百度已经开始使用上万小时的样本进行模型训练。不难预测,不久,语音识别技术发展将很快进入10万小时数据样本训练阶段,只有这样,才能覆盖千差万别的用户口音差异,使语音识别技术不惧“南腔北调”的挑战。而在可预见的未来,训练语料量可能会突破100万小时。
在贾磊看来,随着训练数据量的迅速增加,如何实现大规模LSTM建模和CTC的有效训练,会成为一个核心的技术难题。“以后,语音识别领域的深度学习将进入数百GPU并行训练的状态,理论创新和算法技术创新都将围绕大数据展开。语音识别技术的研发方法,相对于现在必将发生深刻的变革。”
除此之外,CTC建模技术进一步降低了语音识别应用的解码成本,随着适合深度模型计算的专业硬件的大量涌现,语音识别云服务的成本将大量降低,从而推动语音交互技术的更大范围普及。