NeurIPS23 | 「Brain Reading」は脳の活動を解読し、視覚世界を再構築します-AI-php.cn

この NeurIPS23 論文では、ルーヴェン大学、シンガポール国立大学、中国科学院自動化研究所の研究者が、以下から学ぶことができる視覚的な「脳読み取り技術」を提案しました。人間の脳の活動人間の目で見える画像の高解像度。

認知神経科学の分野では、人間の知覚は客観的な刺激だけでなく、過去の経験にも深く影響されることがわかっています。これらの要因が連携して脳内に複雑な活動を生み出します。したがって、脳活動から視覚情報を解読することが重要な課題となります。その中でも、機能的磁気共鳴画像法 (fMRI) は、効率的な非侵襲技術として、視覚情報、特に画像カテゴリーの回復と分析において重要な役割を果たしています。

しかし、fMRI 信号のノイズにより、脳の特性と視覚的表現の複雑さにより、このタスクはかなりの課題に直面しています。この問題に対処するために、この論文は、脳活動のノイズを特定して除去することを目的とした 2 段階の fMRI 表現学習フレームワークを提案し、視覚再構築に重要な神経活性化パターンの解析に焦点を当て、脳から高レベルの画像を再構築することに成功しました。アクティビティ、解像度、および意味的に正確な画像。

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

論文リンク: https://arxiv.org/abs/2305.17214

プロジェクトリンク: https://github.com/soinx0629/vis_dec_neurips/

論文で提案された手法は、デュアルコントラスト学習、クロスモーダル情報交差モデル、および拡散モデルに基づいており、これまでの最良のモデルと比較して、関連する fMRI データセットの評価指標が 40% 近く向上しました。画像の生成において、既存の方法と比較して、品質、可読性、意味的関連性が肉眼で認識できるほど向上しました。この研究は人間の脳の視覚認識メカニズムを理解するのに役立ち、視覚的な脳とコンピュータのインターフェース技術の研究を促進するのに有益です。関連するコードはオープンソースになっています。

機能的磁気共鳴画像法 (fMRI) は神経反応の分析に広く使用されていますが、主に fMRI データには複数の発生源からのノイズが含まれており、神経活性化モードがわかりにくくなる可能性があるため、そのデータから視覚画像を正確に再構成することは依然として困難です。デコードの難しさ。さらに、視覚刺激によって引き起こされる神経反応プロセスは複雑かつ多段階であるため、fMRI 信号は反転してデコードすることが困難な非線形の複雑な重ね合わせを示します。

リッジ回帰などの従来の神経復号法は、fMRI 信号と対応する刺激を関連付けるために使用されますが、多くの場合、刺激と神経反応の間の非線形関係を効果的に捉えることができません。最近では、敵対的生成ネットワーク (GAN) や潜在拡散モデル (LDM) などの深層学習技術が、この複雑な関係をより正確にモデル化するために採用されています。しかし、視覚関連の脳活動をノイズから分離し、それを正確に解読することは、依然としてこの分野における主要な課題の 1 つです。

これらの課題に対処するために、この研究では、脳活動のノイズを効果的に特定して除去し、視覚の再構築に重要な神経活性化パターンの解析に焦点を当てることができる、2 段階の fMRI 表現学習フレームワークを提案します。この方法は、既存の最先端技術を超える、50 カテゴリで 39.34% のトップ 1 精度を備えた高解像度で意味的に正確な画像を生成します。

メソッドの概要は、一連のステップまたはプロセスの簡単な説明です。特定の目標を達成する方法、または特定のタスクを完了する方法を説明するために使用されます。メソッドの概要の目的は、読者またはユーザーがプロセス全体の全体的な理解を提供し、プロセス内のステップをよりよく理解して実行できるようにすることです。方法の概要には通常、一連のステップ、必要な材料やツール、遭遇する可能性のある問題や課題が含まれます。手法の概要を明確かつ簡潔に説明することで、読者またはユーザーは、必要なタスクをより簡単に理解し、正常に完了できるようになります

#fMRI 表現学習 (FRL)

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界第一段階: デュアルコントラストマスクオートエンコーダー (DC-MAE) の事前トレーニング

異なる人々のグループ間で共有される脳活動パターンと個々のノイズを区別するために、この論文では、ラベルなしのデータを使用して fMRI 表現を事前トレーニングする DC-MAE テクノロジーを紹介します。 DC-MAE はエンコーダ NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界とデコーダで構成されます。 NeurIPS23 | 「Brain Reading」は脳の活動を解読し、視覚世界を再構築しますはマスクされた fMRI 信号を入力として受け取り、はマスクされていない fMRI 信号を予測するようにトレーニングされます。いわゆる「ダブルコントラスト」とは、モデルが fMRI 表現学習におけるコントラスト損失を最適化し、2 つの異なるコントラストプロセスに参加することを意味します。

対比学習の最初の段階では、n 個の fMRI サンプル v を含む各バッチのサンプル NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界がランダムに 2 回マスクされ、2 つの異なるマスクされたバージョンおよびが陽性サンプルのペアとして生成されます。比較用に。その後、1D 畳み込み層がこれら 2 つのバージョンを埋め込み表現に変換し、それぞれ fMRI エンコーダー NeurIPS23 | 「Brain Reading」は脳の活動を解読し、視覚世界を再構築しますに供給されます。デコーダは、これらのエンコードされた潜在表現を受け取り、予測 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界およびを生成します。 InfoNCE 損失関数によって計算される最初のコントラスト損失、つまりクロスコントラスト損失を通じてモデルを最適化します:

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

対比学習の第 2 段階では、マスクされていない元の画像 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界とそれに対応するマスクされた画像が、自然な陽性サンプルのペアを形成します。ここでのは、デコーダ NeurIPS23 | 「Brain Reading」は脳の活動を解読し、視覚世界を再構築しますによって予測された画像を表します。 2 番目のコントラスト損失である自己コントラスト損失は、次の式に従って計算されます。

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

自己コントラスト損失を最適化することで、オクルージョンの再構築を実現できます。 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界であってもであっても、負のサンプル NeurIPS23 | 「Brain Reading」は脳の活動を解読し、視覚世界を再構築しますはインスタンスの同じバッチからのものです。とは次のように共同で最適化されます: 。ハイパーパラメータ NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界とは各損失項目の重みを調整するために使用されます。

フェーズ 2: クロスモーダルガイダンスを使用した調整

fMRI 記録の低い信号対雑音比と高度な畳み込みの性質を考慮すると、 fMRI 特徴学習者にとって、視覚処理に最も関連し、再構成に最も有益な脳活性化パターンに焦点を当てることが重要です。

事前トレーニングの第 1 段階の後、fMRI オートエンコーダーは画像支援を使用して調整され、fMRI 再構成が実現されます。第 2 段階もこのプロセスに従います。具体的には、サンプル NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界とそれに対応する fMRI で記録された神経反応が n 個のサンプルのバッチから選択されます。と NeurIPS23 | 「Brain Reading」は脳の活動を解読し、視覚世界を再構築しますは、ブロッキング処理とランダムマスキング処理の後、それぞれ NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界とに変換され、それぞれ画像エンコーダと fMRI エンコーダ NeurIPS23 | 「Brain Reading」は脳の活動を解読し、視覚世界を再構築しますに入力されて、と # が生成されます。 ##。 fMRI NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界を再構成するには、クロスアテンションモジュールを使用して NeurIPS23 | 「Brain Reading」は脳の活動を解読し、視覚世界を再構築しますとをマージします。

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

W と b は、それぞれ対応する線形層の重みとバイアスを表します。 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界はスケーリング係数、はキーベクトルの次元です。 CAとはクロスアテンションの略称です。を NeurIPS23 | 「Brain Reading」は脳の活動を解読し、視覚世界を再構築しますに追加した後、それを fMRI デコーダに入力してを再構成し、 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界を取得します。

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

画像オートエンコーダは次のとおりです。同様の計算も実行され、画像エンコーダ NeurIPS23 | 「Brain Reading」は脳の活動を解読し、視覚世界を再構築しますの出力 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界は、クロスアテンションモジュールを介しての出力とマージされ、画像のデコードに使用され、結果として ## が得られます。 #:

fMRI と画像オートエンコーダーは、次の損失関数を最適化することで一緒にトレーニングされます:

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

画像生成時、潜在拡散モデル (LDM) を使用できます

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

FRL トレーニングの第 1 段階と第 2 段階が完了したら、fMRI 特徴学習器エンコーダー NeurIPS23 | 「Brain Reading」は脳の活動を解読し、視覚世界を再構築しますを使用して潜在拡散モデル (LDM) を駆動し、脳活動から画像を生成します。図に示すように、拡散モデルには順拡散処理と逆ノイズ除去処理が含まれます。順方向プロセスでは、さまざまな分散を持つガウスノイズを徐々に導入することにより、画像を通常のガウスノイズに徐々に劣化させます。

この研究では、事前にトレーニングされたラベルから画像への潜在拡散モデル (LDM) から視覚的知識を抽出し、条件として fMRI データを使用することで画像を生成します。ここでは、安定拡散研究からの推奨に従って、クロスアテンションメカニズムを使用して fMRI 情報を LDM に組み込んでいます。条件付き情報の役割を強化するために、ここではクロスアテンションとタイムステップ条件付けの方法が使用されます。トレーニングフェーズでは、FRL の第 1 段階と第 2 段階でトレーニングされた VQGAN エンコーダー NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界と fMRI エンコーダー NeurIPS23 | 「Brain Reading」は脳の活動を解読し、視覚世界を再構築しますを使用して画像 u と fMRI v を処理し、LDM を維持しながら fMRI エンコーダーが微調整されます。関数は次のとおりです。 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

ここで、 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界は拡散モデルのノイズプランです。推論フェーズでは、プロセスはタイムステップ T の標準ガウスノイズから始まり、LDM は逆プロセスを順次実行して、指定された fMRI 情報を条件として隠れた表現のノイズを徐々に除去します。タイムステップ 0 に到達すると、VQGAN デコーダを使用して、隠れた表現がイメージに変換されます。 NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界

#実験

再構成結果

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 #DC-LDM、IC-との連携によるGAN や SS-AE などの先行研究との比較、および GOD および BOLD5000 データセットの評価により、この研究で提案されたモデルは精度においてこれらのモデルを大幅に上回り、それぞれ DC-LDM および IC-GAN と比較して向上していることが示されています。 39.34% および 66.7%

NeurIPS23｜视觉「读脑术」：从大脑活动中重建你眼中的世界 GOD データセットの他の 4 つの被験者の評価では、DC-LDM がテストセットで調整できる場合でも、この場合、また、本研究で提案したモデルは、50通りのTop-1分類精度においてDC-LDMよりも大幅に優れており、さまざまな被験者の脳活動を再構成する上で提案モデルの信頼性と優位性が証明されています。