人工智能像人类一样唱歌 | 智能技术_行业新闻

人工智能像人类一样唱歌 | 智能技术

时间：2020-06-22 来源：章鱼通

唱歌是一种非凡的人类技能。它需要造字的能力，然后是用特定的音调发声的能力，最后是与音符同步的能力。对许多人来说，唱歌似乎是天生的。不过教电脑唱歌，把乐谱变成发声的歌曲，结果是非常令人沮丧的。

首先，这些设备必须掌握将文本转换为语音的能力，这本身就是计算机科学不断面临的挑战。然后他们必须在音节甚至音素的水平上把单词和音符匹配起来。最后，这些音素、音节和单词需要以正确的音调和正确的持续时间发出。这是很困难的。世界各地的许多组织都曾尝试过，有时还取得了令人印象深刻的效果。但在每一种情况下，最终的输出都需要进行重大的调整，以达到现实可以识别的水平。

微软亚洲技术中心的吕培玲(Peiling Lu)及其团队一直在研究如何让公司的聊天机器人“小冰”具备唱歌的能力，其效果令人印象深刻。

首先，“声乐合成”的任务是把乐谱变成有声歌曲，与人无异。吕和同事们指出，乐谱是由歌词、音符和音符时长组成的。对于一个专业的人类歌手来说，把这些书面信息转化成歌曲是很简单的。

但对于计算机来说，任务首先是将分数转换为机器可读的形式。XiaoiceSing通过将世界划分为音素，然后为每个音素分配一个音高和持续时间来做到这一点。这可以用计算机能够“读取”的向量的形式来表示。这个翻译过程很棘手。每个单词都由音节组成，音节又由音素组成。例如，单词“sing”是由三个音素组成的单一音节。

乐谱可以让人把整个单词唱几拍。但是小冰语的问题是如何在音素之间划分节拍。它应该对每个音素同等重视，还是更注重中间音素或最后音素。同样重要的是音符之间的停顿，当什么都不唱的时候。人的耳朵对这种模式非常敏感，它在歌唱的节奏中扮演着重要的角色。这使得由机器产生的微小差异变得非常明显。

还有一个问题就是如何打出正确的音符。当一个人唱歌时，声音是由很多频率组成的。频率的组合随着音符和音质的变化而不同，例如，当唱不同的音素时。

一般来说，实际音符的最低频率是基本频率。这往往是声音最大的，也是人类耳朵最容易识别的。但是声音的质量是由其他频率决定的，这些频率在基频周围形成一种包络线。为一个给定的音素产生正确的包络线和正确的音高绝非易事。任何错误都会给人跑调的印象。

吕和同事们利用各种机器学习技术解决了所有这些问题，并将它们应用到已被证明有效的技术中。例如，“小冰”使用一种名为FastSpeech的文本转换语音系统，这是该团队的许多成员在微软开发的一种技术。然后必须对FastSpeech的输出进行解码和发音，或“vocodes”。为此，“小冰”使用了一种名为WORLD的语音合成声码器，它必须经过训练才能发出类似人类的声音。

所有这些训练都是用一个由一位女歌手录制的2297首普通话流行歌曲集完成的，这些歌曲被分成10秒的片段。机器本质上是通过将人类歌曲的光谱特征与机器可读的分数相关联来学习的，并对数据集中的10,000多个样本重复这一过程。给它一个从未见过的新分数，它就能产生类似人类的输出。

为了进行比较，研究小组还使用了更传统的机器学习技术来输出相同的歌曲。自己作出判断。但在他们自己的测试中，询问听众他们更喜欢哪一种机器唱的版本，“小冰”多次胜出。

这为歌唱事业开辟了一个有趣的未来。完全由电脑生成的角色演唱的歌曲已经成为某些流行场景的特征。XiaoiceSing也不是完美的，但它是一个有趣的进步。一个潜在的流行歌星?

标签