Facebook人工智能可以将五个声音同时放在麦克风

Facebook人工智能可以将五个声音同时放在麦克风 | 智能技术

时间：2020-07-16 来源：章鱼通

2020年国际机器学习大会(ICML)接受的一篇论文中，Facebook研究人员描述了一种将最多五个声音同时放在麦克风上的方法。该团队声称，他们的方法优于以往在语音源分离基准上的最新表现，包括具有挑战性的噪音和混响情况。

从对话中分离语音是改善语音通讯和视频工具等一系列应用之间沟通的关键一步。除此之外，研究人员提出的语音分离技术可以应用于背景噪声抑制问题，例如音乐仪器的记录。

研究人员用一种新的递归神经网络构建他们的模型，一种利用类似内存的内部状态处理输入变量长度序列（例如音频）的算法。该模型利用编码器网络,将原始音频波形映射到潜在的表示形式.然后,语音分离网络将这些表示转换成每个扬声器的估计音频信号.这种“编码器”模型需要预先了解扬声器总数，但子系统能自动检测扬声器并相应地选择语音模型。

研究人员训练了不同的模型，分别使用两、三、四、五个扬声器，将输入混合液输入到设计可容纳最多五个扬声器的模型中，以便检测现有音频频道的数量。然后，他们重复了同样的过程，使用为活动扬声器数量培训的模型，并检查是否有任何输出通道处于活动状态，当所有频道处于活动状态或发现目标扬声器数量最少的模式时停止。

研究人员认为，该系统可以改善有助听器的人的音频质量，使得在拥挤的嘈杂环境中，如在聚会和餐厅里，更容易听到。下一步，他们计划修剪和优化这个模型，直到它在真实世界中达到足够高的性能。

脸书的工作是在发布谷歌文件之后进行的，该文件提出了混合不变培训（MixIT），这是一种无监督地分离、隔离和增强音频录音中多个扬声器声音的方法。共同作者声称，这种方法仅需要单通道（例如单频）声学功能，以便通过纳入混响混合物和大量野外训练数据"显著地"改善语音分离性能。

标签