谷歌称语音合成系统Tacotron 2已达人类说话效果
2023-06-09 14:55:35
大中小
众所周知,谷歌近年来在人工智能领域进行了大量实验。今天,谷歌在这个领域中又前进了一步。谷歌方面宣称,旗下AI驱动语音合成系统Tacotron 2的最新版本已经基本达到人类说话的效果。谷歌还上传了一些Tacotron 2的语音小样,来让大家体验一下这个最新科技。
Tacotron 2是谷歌的第二代语音文字转换技术,结合了两大深度神经网络,实现了近乎完美的输出效果。第一层神经网络负责将文字转化为频谱图(pdf),用视效来渲染声音频率。转换为频谱图之后,将其提交给WaveNet,也就是由Alphabet的AI研究实验室DeepMind开发的系统。WaveNet读取频谱图表,并生成与之相近的声音元素。
语音文字转换技术当然不是什么新科技了。但谷歌方面宣称其文字转换语音技术高于市面上大部分类似的技术,并与人类发音几无二致。
Tacotron 2的发音将与上下文进行结合,有别于现在市面上一个词一个词蹦的朗读方式。另外该系统还会对标点符号作出反应,并会对句子中的大写单词进行强调。
玩家想要体验这段对比音频的话,可以点此链接。其中有两段语音小样,而且谷歌并未标明哪一段是由Tacotron 2朗读,哪一段是人类朗读的。但如果你深扒一下文件来源,就能发现哪段音频出自Tacotron 2。
在听完语音小样并通过源代码模式找到哪段出自Tacotron 2之手之后,我们可以发现谷歌确实交出了一份让人惊叹的答卷。这个声音确实与人类发音非常接近,虽然并不是完全一致,但也已经非常接近。相比市面上那些机器味十足的技术来说已经好了很多。而且我们还能听出文本中的标点以及相应的节奏变换。