人工智能和机器学习算法非常擅长生成艺术作品,并且能生成高度逼真的公寓、人类和宠物图像。但是相对较少有人调整使用人工智能和算法来完成歌声合成或克隆音乐家嗓音的任务。
来自亚马逊和剑桥大学的研究人员在最近的一篇论文中用他们的集体思想面对了这一挑战。他们在论文中提出了一种人工智能系统,相比之前的如颤音和音符持续时间等特征的建模工作,该系统所需的建模要少得多。它利用谷歌设计的WaveNet算法来合成梅尔谱图或声音的功率谱的表示,另一种模型通过混合声音和签名数据来生成的。
前端对乐谱歌词执行语言分析,支持三种可能的元音重音水平,并忽略标点符号。在时间上,它利用乐谱上说明的分音节信息来挖掘哪个音素(音质上明显不同的声音单位)对应乐谱上哪个音符。它还以秒为单位计算乐谱中每个音符预期时值以及乐谱的速度和拍号,并将其整合到嵌入中。
研究人员整理了一个包含96首英文演唱歌曲的数据集,由一个女性声音无伴奏演唱,共播放了两个小时15秒钟的音乐。(还使用了另外40小时的记录来训练WaveNet模型和基准系统。)它涵盖了多种流派,包括流行音乐、布鲁斯、摇滚和一些儿童歌曲,并且这些歌曲被分成20至30秒的片段,每个对应约200个音素。研究人员说,这种划分减少了训练系统所需的计算量,并且通过转换样本(通过改变音调和改变速度)来使增加语料库变得更加容易。
研究团队招募了大约22位人类听众来评估合成歌曲的质量,主要通过倾听三到五秒钟的音乐片段,并以0到100的分数来给其自然性打分。结果表明,该模型获得的平均排名为58.9%,后25%的大多数片段包含声码器故障或含糊不清的单词。
该模型确实唱得很好,在那些不包含特别高或特别低的音调的简单歌曲中表现最好。它还学会了如何颤音,并根据音乐环境将其运用到合适的地方—— 持续较长的音符上。尽管如此,该系统在遇到乐谱中的休止符时倾向于卡住,并且偶尔会产生太长或太短的节奏之外的音符。但是,该论文的合著作者认为可以通过将来的工作使它稳定下来。
