在科幻小说《三体》中,企图占领地球的三体人被赋予了一个很独特的设定:通过脑电波共享信息,彼此之间思维透明、不善阴谋。在他们那里,想和说是同一个词。而人类则利用自身思维不透明的特性想出了「面壁计划」,最终成功骗过三体人,取得了阶段性胜利。
那么问题来了,人类的思维真的是完全不透明的吗?随着一些技术手段的出现,这个问题的答案似乎没有那么绝对了。很多研究者都在尝试解码人类思维的奥秘,将一些大脑中的信号解码为文字、图像等信息。
最近,两个研究团队同时在图像解码方向取得了重要进展,而且相关论文都被 CVPR 2023接收了。
第一个团队来自大阪大学,他们使用最近非常火的 Stable Diffusion,能从功能磁共振成像 (fMRI) 获得的人脑活动图像中重建大脑活动中的高分辨率、高精准图像(参见《Stable Diffusion 读你大脑信号就能重现图像,研究还被 CVPR 接收了》)。
巧合的是,几乎同一时间,来自新加坡国立大学、香港中文大学和斯坦福大学的华人团队也做出了类似的成果。他们开发了一款名为「MinD-Vis」的人类视觉解码器,通过预训练的一个 mask modeling 和 latent diffusion model,能从 fMRI 数据中直接解码出人类视觉刺激。它生成的这些图像不仅有合理的细节,而且还准确地呈现了图像的语义和特征(如纹理和形状)。目前,这项研究的代码已经开源。
论文题目:Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding
接下来我们将详细介绍这篇论文。
「所见即所思」。
人类的感知和先前知识在大脑中有着密切的关联,我们对世界的感知不仅受到客观刺激的影响,也受到我们的经验影响,这些影响形成了复杂的大脑活动。理解这些大脑活动并解码信息是认知神经科学的重要目标之一,其中解码视觉信息是一个具有挑战性的问题。
功能性磁共振成像 (fMRI) 是一种常用的非侵入性且有效的方法,可以用于恢复视觉信息,如图像类别。
MinD-Vis 的目的是探索使用深度学习模型直接从 fMRI 数据中解码视觉刺激的可能性。
以往的方法直接从 fMRI 数据中解码复杂神经活动时,存在缺乏 {fMRI - 图像} 配对和有效的生物学指导的问题,所以重建的图像通常模糊且在语义上无意义。因此,有效地学习 fMRI 表征是一项重要的挑战,这有助于建立大脑活动与视觉刺激之间的联系。
此外,个体变异性使问题更加复杂,我们需要从大型数据集中学习表征,并且放宽从 fMRI 生成条件合成的限制。
因此,作者认为使用自监督学习 (Self-supervised learning with pre-text task) 加上大规模生成模型可以使模型在相对较小的数据集上微调后具有上下文知识和令人惊叹的生成能力。
在上述分析的驱动下,MinD-Vis 提出了人类视觉解码的掩码信号建模与双条件潜在扩散模型,具体贡献如下:
与过往的方法进行对比 – 生成质量
与过往的方法进行对比 – 评判指标的定量对比
由于收集 {fMRI - 图像} 配对非常昂贵且耗时,这个任务一直存在缺乏数据标注的问题。另外,每个数据集、每个个体的数据都会存在一定的域偏移。
在这个任务中,研究人员的目标是建立大脑活动与视觉刺激之间的联系,并由此生成相应的图像信息。
为此,他们使用了自监督学习和大规模生成模型。他们认为这种方法可以使模型在相对较小的数据集上进行微调,并获得上下文知识和令人惊叹的生成能力。
接下来将详细介绍 MinD-Vis 框架,并介绍设计的理由和思路。
fMRI 数据有这些特点和问题:
为了解决这些问题, MinD-Vis 包含两个阶段:
下面将在这里详细介绍这两步。
MinD-Vis Overview
(A)Sparse-Coded Masked Brain Modeling (SC-MBM) (MinD-Vis Overview 左)
由于 fMRI 空间信息冗余,即使大部分被遮盖,fMRI 数据仍然可以恢复。因此,在 MinD-Vis 的第一阶段,为了节省计算时间,大部分 fMRI 数据被遮盖了。这里,作者使用了类似于 Masked Autoencoder 的做法:
SC-MBM 能有效还原被掩盖的 fMRI 信息
这个设计和 Masked Autoencoder 有什么区别?
SC-MBM 的消融实验
(B)Double-Conditioned LDM (DC-LDM) (MinD-Vis Overview 右)
在 Stage A 中进行了 large-scale context learning 之后,fMRI encoder 可以将 fMRI 数据转换为具有局部性约束的 sparse representation。在这里,作者将解码任务表述为条件生成问题,并使用预训练的 LDM 来解决此问题。
我们通过多次解码不同随机状态的图像证明了我们方法的稳定性。
微调
在 fMRI encoder 通过 SC-MBM 预训练后,它与预先训练的 LDM 通过 double conditioning 整合在一起。在这里,作者:
DC-LDM 的消融实验
意外的是,MinD-Vis 可以解码出一些在 ground truth 图像里并不实际存在,但与AI知道你脑子里在想什么,还帮你画了出来,项目代码已开源内容十分相关的细节。比如说,当AI知道你脑子里在想什么,还帮你画了出来,项目代码已开源是自然风景时,MinD-Vis 解码出了河流和蓝天;在提供房屋时,MinD-Vis 解码出了相似的室内装饰。这既有好处又有坏处。好处在于,这说明我们能够解码出想象到的内容;坏处在于,这可能会影响对解码结果的评估。
喜闻乐见的翻车集锦
作者认为,在训练样本数量较少的情况下,刺激的解码难度会有所不同。例如,GOD 数据集包含的动物训练样本比服装多。这意味着一个语义上类似于 “毛茸茸” 的词更可能被解码为动物而不是服装,如上图所示,其中一只袜子被解码为一只羊。
数据集
在这里,作者用了三个公开数据集。
模型结构
本文模型结构的设计(ViT 和扩散模型)主要是参照过去的文献。模型参数细节请参照正文。同样地,他们也采用了一种不对称的体系结构:编码器旨在学习有意义的 fMRI 表示,而解码器试图预测被遮盖的块。因此,我们遵循以前的设计,使解码器更小,预训练后我们将其舍弃。
评判指标
跟过往的文献一样,作者也使用了 n-way top-1 和 top-5 分类准确率来评估结果的语义正确性。这是一种在多次试验中,通过计算 n-1 个随机选择的类别和正确类别的 top-1 和 top-5 分类准确率来评估结果的方法。与先前的方法不同,他们在这里采用了更直接、可复制的评估方法,即使用预训练的 ImageNet1K 分类器来判断生成图像的语义正确性,而不是使用 handcrafted features。此外,他们还使用了 Fréchet inception distance(FID)作为参考来评估生成图像的质量。但是,由于数据集中图像数量有限,因此 FID 可能无法完美地评估图像分布。
效果
这篇文章的实验是在个体水平上进行的,即模型在同一个个体上进行训练和测试。为了与之前的文献进行比较,在这里报告了 GOD 数据集第三位被试的结果,并在附录中列出了其他被试的结果。
通过这个项目,作者展示了通过 fMRI 还原人脑视觉信息的可行性。然而,这个领域有很多问题需要解决,例如如何更好地处理个体之间的差异性,如何减少噪声和干扰对解码的影响,如何将 fMRI 解码与其他神经科学技术结合起来,以更全面地理解人类大脑的机制和功能。同时,我们也需要更好地了解和尊重人类大脑和个体隐私方面的伦理和法律问题。
此外,我们还需要探索更广泛的应用场景,例如医学和人机交互等领域,以便将这项技术转化为实际应用。在医学领域,fMRI 解码技术未来可能可以被用来帮助视觉障碍人士、听觉障碍人士、甚至全身瘫痪患者等特殊群体来解码出他们的想法。这些人由于身体上的障碍,无法通过传统的交流方式来表达自己的思想和意愿。通过使用 fMRI 技术,科学家们可以解码他们的大脑活动,从而获取他们的想法和意愿,进而与他们进行更加自然和高效的交流。在人机交互领域,fMRI 解码技术可以被用来开发更加智能和自适应的人机界面和控制系统,例如通过解码用户的大脑活动来实现更加自然和高效的人机交互体验。
我们相信,在大规模数据集 大模型 算力的加持下,fMRI 解码将会有更加广泛和深远的影响,推动认知神经科学和人工智能领域的发展。
注:*使用稀疏编码在脑中学习视觉刺激表示的生物学基础:稀疏编码曾被提出来作为感觉信息表征的一种策略。研究表明,视觉刺激在视觉皮层中被稀疏编码,这样可以增加信息传输效率并减少脑中的冗余。使用 fMRI 可以从视觉皮层收集的少量数据中重建自然场景的视觉内容。稀疏编码可能是计算机视觉中编码的有效方式。文章中提到了 SC-MBM 方法,它将 fMRI 数据分成小块来引入局部性约束,然后将每个小块稀疏编码成高维向量空间,这样可以作为生物学上有效且高效的脑特征学习器,用来进行视觉编码解码。
以上是AI知道你脑子里在想什么,还帮你画了出来,项目代码已开源的详细内容。更多信息请关注PHP中文网其他相关文章!