DeepMind让语音交互实现突破，机器说话更像人啦！

医学进展

2017年02月号

卷首语

慢性疾病的爆发：人造恐怖的背后

医学进展

手机杂志

人物与学科

Beth Stevens对大脑内神经连接的研究之路

医学前沿

现代观点

医学与社会

医生日记

医学里程碑

2016年科学领域精彩回顾

DeepMind让语音交互实现突破，机器说话更像人啦！

作者：曹喜华

2016年9月8日，谷歌的人工智能团队DeepMind发布了DeepMind 语音机，这项黑科技是一种合成语言系统，该系统能够逼真地模仿人类的声音。他们提出了 WaveNet——一种原始音频波形（raw audio waveforms）的深度生成模型。研究表明， WaveNet 可以生成模拟任何人类声音的语音，而且其听起来比已有文本转语音（Text-to-Speech）系统更为自然，与人类的差距缩减了超过 50%。

当前的语音合成系统是通过片段来记录语音，通过文字-话音切换系统来工作，人们期待某一天人能与机器交谈，因此语言处理领域成了人工智能研究的热点。目前，计算机已成为一个很好的“倾听者”，但还不能模拟声音进行发声。如今的文字-话音切换系统仍在很大程度上基于所谓的拼接文本转语音（concatenative text-to-speech，TTS），其中有一个由单个人录制的大量短语音片段构成的非常大的数据库，然后再将这些短语音组合起来构成完整的话语。

而DeepMind 推出的语音系统与众不同。与文字-话音切换系统不同，WaveNet 是一种“神经网络”的AI——一个模拟人类大脑的系统，它能够利用统计分析选择建模音频信号的原始波形，然后将其组合在一起。除了能够产出听起来更为自然的声音，使用原始波形意味着 WaveNet 可以建模几乎任何类型的音频，包括音乐，比如模拟钢琴演奏的音乐片段。

为了模拟发音，WaveNet用美式英语和普通语音的波形进行训练，这些波形承载着数据点，大约每秒16000样本，WaveNet会全部消化吸收，然后生成语音。DeepMind研究人员通过添加语言规则和模型提炼这些结果。在测试中，WaveNet说的话听起来比谷歌现有的语音程序更自然。（作者：曹喜华)

参考文献：Nature 2016;537:284