医学进展
2017年02月号
医学进展

DeepMind让语音交互实现突破,机器说话更像人啦!

作者:曹喜华

2016年9月8日,谷歌的人工智能团队DeepMind发布了DeepMind 语音机,这项黑科技是一种合成语言系统,该系统能够逼真地模仿人类的声音。他们提出了 WaveNet——一种原始音频波形(raw audio waveforms)的深度生成模型。研究表明 WaveNet 可以生成模拟任何人类声音的语音,而且其听起来比已有文本转语音(Text-to-Speech)系统更为自然,与人类的差距缩减了超过 50%。

当前的语音合成系统是通过片段来记录语音,通过文字-话音切换系统来工作,人们期待某一天人能与机器交谈,因此语言处理领域成了人工智能研究的热点。目前,计算机已成为一个很好的“倾听者”,但还不能模拟声音进行发声。如今文字-话音切换系统仍在很大程度上基于所谓的拼接文本转语音(concatenative text-to-speech,TTS),其中有一个由单个人录制的大量短语音片段构成的非常大的数据库,然后再将这些短语音组合起来构成完整的话语。

而DeepMind 推出的语音系统与众不同。与文字-话音切换系统不同,WaveNet 是一种“神经网络”的AI——一个模拟人类大脑的系统,它能够利用统计分析选择建模音频信号的原始波形,然后将其组合在一起。除了能够产出听起来更为自然的声音,使用原始波形意味着 WaveNet 可以建模几乎任何类型的音频,包括音乐,比如模拟钢琴演奏的音乐片段。

为了模拟发音,WaveNet用美式英语和普通语音的波形进行训练,这些波形承载着数据点,大约每秒16000样本,WaveNet会全部消化吸收,然后生成语音。DeepMind研究人员通过添加语言规则和模型提炼这些结果。在测试中,WaveNet说的话听起来比谷歌现有的语音程序更自然。(作者:曹喜华)

参考文献:Nature 2016;537:284

Copyright 1994-2015 Cinkate.com.cn All Rights Reserved 沪ICP备10014127号-5