美国加利福尼亚大学的神经外科医生Edward Chang,测试了一种使用“深度学习算法”的计算模型来解释感觉运动皮层中的大脑活动模式,这是一个涉及产生语音的大脑区域。
研究人员报告称,一名卒中后不能说话的男子通过一个系统产生了句子,该系统可以读取大脑语言区的电信号。这种方法以前曾用于非残疾志愿者重建口语或想象的句子。但荷兰马斯特里赫特大学的计算机科学家Christian Herff说,这是对瘫痪患者的第一次演示,“真正解决了遗留下来的主要问题,将其带给真正需要的患者。”
该名参与者在十多年前曾发生过卒中,导致口齿不清——无法控制与讲话有关的肌肉。由于他的四肢也瘫痪了,他通过头部的轻微运动在屏幕上选择字母进行交流,每分钟大约产生5个单词。为了实现更快、更自然的交流,美国加利福尼亚大学的神经外科医生Edward Chang,测试了一种使用“深度学习算法”的计算模型来解释感觉运动皮层中的大脑活动模式,这是一个涉及产生语音的大脑区域。到目前为止,这种方法已经在志愿者身上进行了测试,这些志愿者因非研究原因(如监测癫痫发作)通过手术植入电极。
在这项新的研究中,Chang的团队暂时移除了参与者的一部分头骨,并在其感觉运动皮层上直接放置了一张比信用卡小的薄薄电极片。为了“训练”一种计算机算法,将大脑活动模式与开始说话和特定单词联系起来,研究小组需要获取参与者打算说什么和什么时候说的可靠信息。
因此,研究人员反复在屏幕上显示50个单词中的一个,并要求该男子尝试在提示下说出。一旦使用单个单词任务中的数据对算法进行训练,该男子就尝试阅读由同一组50个单词组成的句子,如“把我的眼镜带来”。为了改进算法的猜测,研究人员添加了一个“自然语言模型”处理组件,它使用常见的单词序列来预测句子中可能出现的下一个单词。他们在《新英格兰医学杂志》上报道说,采用这种方法,该系统在一个句子中只有25%的单词出错。圣地亚哥州立大学的神经科学家Stephanie Riès-Cornou说,这“令人印象深刻”。(随机表现的错误率为92%。)
日内瓦大学的神经科学家Anne Lise Giraud指出,由于大脑随着时间的推移而重新组织,不清楚语言区是否会在口齿不清超过10年后仍给出可解释的信号。她说,信号的保存“令人惊讶”。Herff说,研究小组迈出了“巨大”的一步,在该男子试图说话时造句,而不是像大多数研究所做的那样,从先前记录的大脑数据中造句。
Chang说,通过这种新方法,参与者可以每分钟18个单词的速度造句。这与《自然》杂志发表的另一项研究中脑-机接口的速度大致相当。该系统从负责手部动作的大脑区域的活动中解码单个字母,而瘫痪者则想象手写。Riès-Cornou指出,这样的速度仍然远远低于英语会话中每分钟120到180个单词的速度,但远远超过了参与者使用头部控制设备所能达到的速度。
Chang指出,该系统还没有准备好在日常生活中使用。未来的改进将包括扩大词汇库和无线化,这样用户就不会被束缚在一台微型冰箱大小的计算机上。
参考文献:Kelly Servick. Brain signals ‘speak’ for person with paralysis[J]. Science, 2021,373:263.