德克萨斯大学奥斯汀分校的研究人员开发了一种将大脑活动转化为文本的语义解码器。这个人工智能系统是非侵入性的,不需要手术植入,可以为那些无法说话的人提供一种新的交流方式。解码器是通过让参与者在fMRI扫描仪中听几个小时的播客来训练的,然后它可以仅根据大脑活动来生成文本。
一个被称为语义解码器的新人工智能系统可以将一个人的大脑活动--在听故事或默默想象讲故事时--翻译成连续的文本流。德克萨斯大学奥斯汀分校的研究人员开发的这个系统可能会帮助那些精神上有意识但身体上不能说话的人,例如那些因中风而衰弱的人,重新进行理解性的交流。
这项研究今天(5月1日)发表在《自然-神经科学》杂志上,由计算机科学博士生Jerry Tang和德克萨斯大学奥斯汀分校的神经科学和计算机科学助理教授Alex Huth领导。这项工作部分依赖于一个转化器模型,类似于为Open AI的ChatGPT和Google的Bard提供基础的模型。
与其他正在开发的语言解码系统不同,该系统不需要受试者进行手术植入,使这一过程不具有侵入性。参与者也不需要只使用规定列表中的单词。在对解码器进行广泛的训练后,使用fMRI扫描仪测量大脑活动,其中个人在扫描仪中听了几个小时的播客。之后,只要参与者愿意让他们的想法被解码,他们听一个新的故事或想象讲一个故事,机器就能仅通过大脑活动生成相应的文本。
研究人员Alex Huth(左)、Jerry Tang(右)和Shailee Jain(中)准备在德克萨斯大学奥斯汀分校的生物医学成像中心收集大脑活动数据。研究人员对实验室成员在fMRI扫描仪中收集的几十个小时的大脑活动数据进行了语义解码器的训练。Credit: Nolan Zunk/德克萨斯大学奥斯汀分校
Huth说:"对于一个非侵入性的方法来说,与以前所做的相比,这是一个真正的飞跃,以前所做的通常是单个单词或短句。我们正在让这个模型对复杂的想法进行长时间的连续语言解码。"
其结果不是逐字逐句的记录。相反,研究人员将其设计为捕捉正在说的或想的东西的要点,尽管并不完美。大约有一半的时间,当解码器经过训练以监测参与者的大脑活动时,机器产生的文本与原词的预期含义密切(有时甚至精确)。
例如,在实验中,参与者在听说话者说"我还没有驾照"时,他们的想法被翻译成:"她甚至还没有开始学习驾驶"。听了这句话,"我不知道是要尖叫、哭泣还是逃跑。相反,我说,'别管我!'"被解码为,"开始尖叫和哭泣,然后她只是说,'我告诉你别管我'。"
这张图片显示了在用户听四个故事时收集的大脑记录的解码器预测。例子片段是人工选择和注释的,以展示典型的解码器行为。解码器准确地再现了一些单词和短语,并抓住了更多的要点。资料来源:德克萨斯大学奥斯汀分校
从作为预印本出现在网上的该论文的早期版本开始,研究人员解决了关于该技术可能被滥用的问题。该论文描述了解码是如何只对那些自愿参与训练解码器的合作参与者发挥作用的。没有接受过解码器训练的人的结果是无法理解的,如果接受过解码器训练的参与者后来进行了抵抗--例如,通过思考其他想法--结果同样是无法使用。
"我们非常认真地对待人们对它可能被用于不良目的的担忧,并努力避免这种情况,"唐说。"我们想确保人们只在他们想要的时候使用这些类型的技术,并且对他们有帮助。"
除了让参与者聆听或思考故事之外,研究人员还要求受试者在扫描仪中观看四个简短的无声视频。语义解码器能够利用他们的大脑活动来准确描述视频中的某些事件。
该系统目前在实验室外并不实用,因为它依赖于fMRI机器上的时间需求。但研究人员认为这项工作可以转移到其他更便携的大脑成像系统,如功能性近红外光谱(fNIRS)。