AI 读心术来了，准确率高达 82%？论文已刊登在 Nature！

奋斗吧

擅长邻域：未填写

2023-05-10 18:23:24 174浏览

整理 | 屠敏出品 | CSDN（ID：CSDNnews）AI 的潜力有多大？现如今，读心术就要来了：人类无须张口，你的所想，AI 都知道。更为重要的是，这是 AI 首次通过非侵入式的方法学会了“读心术”。这项研究成果来自于美国得克萨斯州奥斯汀分校的团队，目前已经刊登在《Nature Neuroscience》杂志上。他们基于 GPT-1 人工智能技术开发出一种解码器，可将大脑活动转化为连续的文本...

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

AI 的潜力有多大？现如今，读心术就要来了：人类无须张口，你的所想，AI 都知道。更为重要的是，这是 AI 首次通过非侵入式的方法学会了“读心术”。

这项研究成果来自于美国得克萨斯州奥斯汀分校的团队，目前已经刊登在《Nature Neuroscience》杂志上。他们基于 GPT-1 人工智能技术开发出一种解码器，可将大脑活动转化为连续的文本流，它有可能为无法说话的患者提供另一种与外界沟通的新型方式。

根据实验结果显示，GPT 人工智能大模型感知语音的准确率可高达 82%，令人惊叹。

“读心术”的探索

事实上，科技圈对“读心术”的探索并非近日才展开。

过去，马斯克建立的神经科技公司 Neuralink 也一直在寻找高效实现脑机接口的方法，其还与加州大学戴维斯分校合作，实现用猴子大脑控制电脑的实验，旨在最终想要将芯片植入大脑，用“细丝”探测神经元活动。

不过，值得注意的是，Neuralink 的这种方案属于侵入式的。所谓侵入式，是指将脑机接口直接植入到大脑的灰质，因而所获取的神经信号的质量比较高。这种方式的缺点是容易引发免疫反应和愈伤组织（疤），进而导致信号质量的衰退甚至消失。

与之相对应的是非侵入式脑机接口，它是一种能够在人脑与外部设备之间直接建立通讯的人机交互技术，具有操作便捷、风险性小等优点。

以往，行业内可以通过功能性磁共振成像（FMRI）捕捉人类大脑活动的粗糙、彩色快照。虽然这种特殊类型的磁共振成像已经改变了认知神经科学，但是它始终不是一台读心机：神经科学家无法通过大脑扫描来判断某人在扫描仪中看到、听到或思考的内容。

此后，神经科学家一直希望可以使用 fMRI 等非侵入性技术来破译人类大脑内部的声音，而无需手术。

如今，随着《Semantic reconstruction of continuous language from non-invasive brain recordings》（https://www.nature.com/articles/s41593-023-01304-9.epdf）论文的发布，该论文的主要作者 Jerry Tang 通过将 fMRI 检测神经活动的能力与人工智能语言模型的预测能力相结合，可以以惊人的准确度重现人们在扫描仪中听到或想象的故事。解码器甚至可以猜出某人在扫描仪中观看短片背后的故事，尽管准确性较低，但也实现了一大进步。这也意味着，参与者不需要植入任何外界设备，AI 系统就能解码大脑中的想法。

没说过的话，AI 是怎么知道的？

自 ChatGPT、GPT-4 发布的几个月间，我们见证了大模型根据提示词不断输出内容的过程。

要问 AI 系统如何了解人类大脑中的想法，在论文中，研究人员透露，首先让参与者听新故事，然后功能性磁共振成像（FMRI）可以呈现出参与者大脑的活动状态。进而，基于最新开发的语义解码器将这些状态，生成相应的单词序列，并通过将用户大脑反应的预测与实际记录的大脑反应进行比较，最终预测每个候选单词序列与实际单词序列的相似程度，看看准确率如何，是否能“读心”。

具体来看，为了收集大脑活动数据，研究人员让研究对象在 fMRI 扫描仪内听一些音频故事。与此同时，通过 fMRI 扫描仪观察他们的大脑在听这些话时反应情况。如图 a 所示，3 名受试者在听 16 小时的叙述性的故事时，AI 系统记录了 MRI（磁共振成像）的反应。

然后，MRI 数据被发送到计算机系统中。在这个过程中，研究人员使用了基于贝叶斯统计的解码框架。大型语言模型 GPT-1 在系统的自然语言处理部分提供了帮助。由于这个神经语言模型是在大量的自然英语单词序列数据集上进行训练的，它擅长预测最可能的单词。