麻省理工开发计算机模型模拟人脑对声音方位判断

作者：爱集微 2022-02-12

来源：cnBeta.COM #神经网络#

2.3w

人类的大脑经过精细的调整，不仅能识别特定的声音，而且还能确定声音来自哪个方向。通过比较到达右耳和左耳的声音差异，大脑可以估计出狗叫、消防车呼啸或汽车驶来的位置。麻省理工学院的神经科学家们现在已经开发了一个计算机模型，它也可以执行这一复杂的任务。该模型由几个卷积神经网络组成，不仅能像人类一样完成任务，而且还能以人类的方式进行判断。

这个模型可以在现实世界中实际定位声音，而当研究人员把这个模型当作人类的实验参与者，并模拟过去对人类进行的实验时，研究人员一次又一次地发现，这个模型再现了在人类身上看到的结果。这项新研究的发现还表明，人类感知位置的能力是适应我们环境具体挑战的。该论文于2022年1月27日发表在《自然-人类行为》上。

当我们听到火车鸣笛等声音时，声波到达我们左右耳朵的时间和强度略有不同，这取决于声音来自哪个方向。中脑的一部分专门用来比较这些微小的差异，以帮助估计声音来自哪个方向，这项任务也被称为定位。在现实世界的条件下，这项任务变得明显更加困难，环境会产生回声，同时会听到许多声音。

科学家们长期以来一直在寻求建立计算机模型，以执行与大脑用来定位声音的那种计算方法。这些模型有时在没有背景噪音的理想化环境中能很好地工作，但在有噪音和回声的真实世界环境中却从未成功。为了开发一个更复杂的定位模型，麻省理工学院的团队转向了卷积神经网络。这种计算机建模已被广泛用于人类视觉系统建模。为了训练这些模型，研究人员创建了一个虚拟世界，他们可以在其中控制房间的大小和房间墙壁的反射特性。所有输入模型的声音都来自于这些虚拟房间中的某个地方。这套400多个训练声音包括人类的声音、动物的声音、机器的声音，如汽车引擎，以及自然的声音，如雷声。

卷积神经网络可以设计成许多不同的架构，所以为了帮助他们找到对定位最有效的网络，麻省理工学院的团队使用了一台超级计算机，让他们训练和测试大约1500个不同的模型。这一搜索确定了10个似乎最适合定位的模型，研究人员进一步训练了这些模型，并将其用于所有后续研究。研究人员还确保该模型从人类耳朵提供的相同信息开始。外耳，即耳廓，有许多褶皱可以反射声音，改变进入耳朵的频率，而这些反射会根据声音的来源而变化。研究人员通过在每个声音进入计算机模型之前通过一个专门的数学函数来模拟这种效果。

训练完模型后，研究人员在真实世界的环境中对它们进行了测试。他们将一个耳朵上有麦克风的人体模型放在一个实际的房间里，播放来自不同方向的声音，然后将这些录音输入模型。当被要求对这些声音进行定位时，这些模型的表现与人类非常相似。尽管模型是在虚拟世界中训练的，但当我们评估它时，它可以在现实世界中定位声音。