声音和词语在大脑中并行处理，颠覆传统研究 | Cell

作者：爱集微 2021-08-31

相关舆情 AI解读生成海报

来源：雷锋网 #神经网络#

4.7w

受到生物神经网络的启发，目前深度神经网络已经被证实效果很好。如今，深度神经网络在计算机视觉、语音识别和自然语言处理等许多重要问题上有着出色的表现。

神经网络本身是一般的函数逼近，这就是为什么它们几乎可以应用于任何从输入到输出空间复杂映射的机器学习问题。

然而深度神经网络更多的是关心所谓的端到端学习，内部发生什么事情它并不关心。这在认知科学里面叫“弱等价”，也就是说人和机器可以干同一件事，但是它们的内部过程并不是一样的。

或许深度神经网络在增加内部的认知过程中，要向生物系统不断近似，以一定智能的方式解释世界复杂度。此时，科学家站在生物神经学的参照系下，希望赋予AI语言处理更精细的洞察。

经过多年研究，神经科学家发现了人类大脑中处理语言声音的运行规则

近日，美国加州大学旧金山分校的研究人员在《细胞》杂志上发表论文称，听觉处理和语言处理是并行进行的。这与长期以来认为大脑先处理听觉信息，然后将其转化为语言信息的理论相矛盾。

最新研究表明：当含有语意的声音传到耳中，耳蜗将其转换成电信号，然后发送到位于颞叶的听觉皮层。

人脑左半球听觉皮层的位置和分区示意图

几十年来，科学家们一直认为，听觉皮层在处理语音时像工厂流水线一样有先后工序：首先，初级听觉皮层处理简单的声音信息，比如声音频率。然后，颞上回（superior temporal gyrus，STG）提取更重要的特征，如辅音和元音，将声音转换为有含义的单词。

但一直以来，这一理论缺乏直接证据的支持，因为它需要整个听觉皮层极高时空分辨率的详细神经生理学记录。这是一个挑战，原因是初级听觉皮层位于大脑额叶和颞叶的裂口深处。

论文作者美国加州大学旧金山分校神经科学家、神经外科医生Edward Chang说："所以我们进行了这项研究，希望找到声音等低级表征转化为词汇等高级表征的证据。"

Edward Chang

这项研究的开展离不开一些患者的支持。几年时间里，有9名患者参与了实验。因为需要切除脑部肿瘤或定位引发癫痫的病灶，这些患者接受了神经外科手术。与此同时，他们同意让医生在手术过程中将微电极阵列放置在他们的听觉皮层，收集神经信号，用于分析语言功能和定位癫痫，以及研究听觉皮层如何处理语音信息。

"这是我们第一次可以直接从大脑表面同时覆盖听觉皮层的所有区域，研究声音到字词的转换。"Chang教授说。相比过去只能在有限的几个点记录神经活动的电信号，无疑是巨大的进步。

通过电极直接记录信号和给予刺激发现语音信息处理的并行通路

接着，在实验中，研究人员开始向参与者播放词组和短句，试图寻找信息从初级听觉皮层流向颞上回的迹象。按照原来的假设，这两个脑区应该会先后被激活。

然而，事实并非如此。他们观察到，播放句子时，颞上回某些区域的反应速度与初级听觉皮层一样快，也就是说，这两个区域同时开始处理声音信息。

在另一项实验中，研究人员用微弱的电流刺激患者的听觉皮层。按照原来的假设，刺激初级听觉皮层，很可能会扭曲患者对言语的感知。然而，这些患者表示，尽管刺激引起了某些声音的幻听，但他们仍能清楚地听到并重复对他们播放的字词。

相反，当研究人员用电流刺激患者的颞上回，患者报告说他们能听到有人在讲话，"但分辨不出字词"。"事实上，有一名患者说，听起来就像单词的音节发生了互换。"Chang教授说道。

综合这些证据，研究小组认为，大脑听觉皮层对声音和语音的信息处理是并行的，而不是传统模型所认为的串行处理。传统语音处理模型过于简化，甚至很可能是错误的。研究人员推测，颞上回可能独立于初级听觉皮层而发挥作用，而不是作为初级听觉皮层处理的下一步。

"虽然这是向前迈出的重要一步，但我们还不了解这个平行听觉系统。这些发现表明，声音信息的传递可能与我们想象的非常不同。这无疑带来了更多问题。"Chang说。

这一点，或许将提示人工智能语言处理在神经网络层面，不仅仅是通过单一通路、单向处理来实现，而是多通路的。进一步，基于计算神经科学的发现，这一过程甚至可能是多向的、动态的，通过不同脑区之间的交互来实现。生物学上的脑科学新研究对下一步AI的发展究竟有什么影响呢？

站在生物神经学的参照系下，AI语言处理被赋予更精细的洞察

北京大学信息科学技术学院教授吴思，在今年以“人工智能的认知神经基础”为主题的北京智源大会上分享了自己对于人工智能和脑科学之间相互错位的观点和思考：

生物神经元构成一层一层的网络，梯度进行特征提取，这是深度学习已经模拟的。其实大脑还有一个根本不同，我们识别物体的时候不是像深度学习网络一样由简单到复杂的特征提取，而是有多条通路。

我们看到一个物体的时候，第一步会快速地从皮层下通路，对物体的整体的性质进行识别，这些信息到了高级脑区，和记忆、先验知识等进行融合，先猜测出来是什么东西，通过神经反馈再和深度学习模拟的那个慢速的腹侧通路进行动态交互，这个过程可能会经过几个回合，整个识别的过程都是输入和大脑内部的先验知识不断的相互比较印证的过程。而这个过程在目前是深度学习没有包含的，也是图像理解这个数学上不适定问题（ill-posed problem）的一个解决方案。

那为什么好像深度学习网络用得很好，或许是因为现在我们的任务太简单了。因为我们没有包含动态的过程，如果只是做静态图像的识别根本不需要交叉印证，但是如果真的要做一个能够与环境动态交互、很自主的机器人，这样的计算需求就会出现，那个时候就需要动态交互的过程了。

而深度学习一般认为是黑盒子，每个人的模型得到大致相同的结果，但是也不完全一样，那么这里的一致性和不一致性到底体现在哪里。如果生物神经在语言处理方面搞得很清楚的话，实际上对深度神经网络的架构也会很有帮助。