斯坦福大学研究人员开发用于语音合成的脑机接口

斯坦福大学的研究人员开发了一种脑机接口（BCI），用于从患者大脑中捕获并由递归神经网络（RNN）处理的信号合成语音。原型系统可以以每分钟62个单词的速度解码语音，比以前的BCI方法快3.4倍。

该系统在bioRxiv上发表的一篇论文中进行了描述。研究小组与一名因肌萎缩侧索硬化症（ALS）而失去语言能力的患者合作，使用植入患者大脑的微电极来捕获患者试图说话时产生的神经活动信号。这些信号被传递给RNN，特别是门控循环单元（GRU）模型，该模型被训练为将神经信号解码为语音合成的音素。当训练50个单词的有限词汇时，系统实现了9.1%的错误率，23k单词词汇表的错误率为8.125%。根据研究人员的说法:

[我们]展示了一种语音BCI，它可以以每分钟62个单词的速度从大词汇中解码不受约束的句子，这是BCI第一次远远超过替代技术可以为瘫痪者提供的通信速率......我们的演示证明了从皮层内录音中解码尝试说话运动是一种有前途的方法，但它还不是一个完整的临床上可行的系统。

使用深度学习模型来解释人类大脑活动是一个活跃的研究领域，InfoQ已经涵盖了几个涉及辅助设备的BCI项目。其中许多使用植入患者大脑的传感器，因为它们提供最佳的信号质量;2019年，InfoQ报道了Meta开发的一个系统，该系统使用这样的信号允许用户通过想象自己说话来“打字”。InfoQ还涵盖了使用外部或“可穿戴”传感器的系统，例如佐治亚理工学院在2021年开发的系统，它允许用户通过想象活动来控制视频游戏。

斯坦福系统使用四个微电极阵列植入患者的腹侧前运动皮层和布罗卡区域。为了收集训练RNN的数据，患者每天被给予几百个句子，她“嘴巴”或哑剧说话，产生神经信号，这些信号被微电极捕获。总体而言，该团队收集了10，850个句子。使用来自语音识别领域的“自定义机器学习方法”，研究人员训练RNN输出一系列音素。

为了评估该系统，该团队对患者进行了从未在培训中使用的口句;测试句子包括一些仅使用50个单词词汇和125k词汇的句子。研究人员还尝试在解码器中添加语言模型，将错误率从23.8%提高到17.4%，并减少训练和测试RNN之间的时间，以消除神经活动的日常变化。他们的结论是，通过语言建模和更强大的解码技术的进一步研究，该系统可以看到“性能的实质性提高”。

首席研究员弗兰克·威利特（Frank Willett）在Twitter上发布了有关这项工作的信息，并回答了几个问题。在回答关于RNN是否预测下一个单词的问题时，Willett回答说:

没有下一个单词预测 - 语言模型只是输出迄今为止产生的所有RNN输出的最佳解释。

威利特还表示，该团队将在工作“发表在同行评审的期刊上”后发布他们的代码和数据。