AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現-AI-php.cn

ホグワーツの魔法がなくても、他の人が何を考えているかを見ることができます。

手法は非常にシンプルで、安定拡散に基づいて脳画像を可視化します。

たとえば、あなたが目にするクマ、飛行機、電車はこんな感じです。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

AI が脳信号を認識すると、生成される画像は次のとおりです。ポイントも含まれております。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

この AI 脳読み取りテクノロジーは、CVPR 2023 に承認されたばかりで、ファンに瞬時の「頭蓋内オーガズム」を与えます。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

#ワイルドすぎる！プロジェクトを促すことは忘れて、頭を使ってそれらの写真について「考える」だけで済みます。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

安定拡散を使用して fMRI データから視覚画像を再構成することを想像してください。これは、非侵襲的技術の開発を意味するかもしれません。将来のブレインコンピューターインターフェース。

AI に人間の言語を直接スキップさせ、人間の脳で考えていることを認識させます。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

# その頃には、マスク氏が開発した Neuralink もこの AI の上限に追いつくことになるでしょう。

微調整不要、AI で思考をダイレクトに再現

では、AI はどのようにして脳の読み取りを実現しているのでしょうか?

最新の研究は、日本の大阪大学の研究チームによるものです。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

紙のアドレス: //m.sbmmt.com/link/0424d20160a6a558e5bf86a7bc9b67f0

大阪大学大学院生命機能研究科とNICTのCiNetの研究者らは、潜在拡散モデル(LDM)、より具体的には安定拡散を介して、fMRIデータから視覚体験を再構築しました。

全体の操作プロセスのフレームワークも非常にシンプルです: 1 つの画像エンコーダー、1 つの画像デコーダー、および 1 つのセマンティックデコーダー。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

# これにより、チームは複雑な AI モデルをトレーニングして微調整する必要がなくなりました。

トレーニングする必要があるのは、下部視覚脳領域と上部視覚脳領域からの fMRI 信号を単一の安定拡散コンポーネントにマッピングする単純な線形モデルだけです。

具体的には、研究者らは脳領域を画像およびテキストエンコーダーへの入力としてマッピングしました。下位脳領域は画像エンコーダにマッピングされ、上位脳領域はテキストエンコーダにマッピングされます。これにより、システムは再構成に画像構成と意味論的なコンテンツを使用できるようになります。

最初はデコード分析です。研究で使用された LDM モデルは、画像エンコーダー ε、画像デコーダー D、およびテキストエンコーダー τ で構成されます。

研究者らは、それぞれ初期視覚野と高レベル視覚野の fMRI 信号から再構成画像 z の潜在表現と関連テキスト c を解読し、それらを入力として使用して、オートエンコーダ。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

研究者らは、LDM のさまざまなコンポーネントからの fMRI 信号を予測するためのコーディングモデルを確立しました。 LDMの仕組み。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

研究者らは、自然風景データセット (NSD) の fMRI 画像を使用して実験を行い、安定した拡散が可能かどうかをテストしました。被験者が見たものを再構成します。

符号化モデルと LDM に関連する潜像の予測精度は、最後のモデルが脳の後部の視覚野で最も高い予測精度を生み出すことがわかります。。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

被験者の視覚的再構成の結果は、z のみを使用して再構成された画像が元の画像と視覚的に一致していることを示しています。ただし、意味的な内容をキャプチャすることはできません。

c のみを使用して再構成された画像は意味的忠実度が高くなりますが、視覚的な一貫性が劣りますが、zc を使用して再構成された画像は意味的忠実度が高く、視覚的な一貫性が低い可能性があります。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

#同じ画像上のすべての被写体からの再構成結果は、再構成の効果が被写体ごとに異なることを示しています。安定しています。比較的正確です。

特定の詳細の違いは、再構成プロセスのエラーではなく、個人の知覚経験やデータ品質の違いに起因する可能性があります。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

#最後に、定量的評価の結果をグラフ化しました。

さまざまな結果は、研究で使用された方法が低レベルの視覚的外観をキャプチャできるだけでなく、元の刺激の高レベルの意味内容もキャプチャできることを示しています。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

#この観点から、実験は画像とテキストのデコードを組み合わせることで正確な再構成が可能であることを示しています。

被験者間で精度には差があったが、これらの違いはfMRI画像の品質に関係していた、と研究者らは述べた。チームによると、再構成の品質は現在のSOTA手法と同等ですが、そこで使用されるAIモデルのトレーニングは必要ありません。

同時に、チームは fMRI データから派生したモデルを使用して、逆拡散プロセス中にセマンティックコンテンツがどのように生成されるかなど、安定拡散のさまざまな構成要素を研究しました。 U-Net でどのようなプロセスが行われるか。

ノイズ除去プロセスの初期段階では、U-Net のボトルネックレイヤー (オレンジ) が最高の予測パフォーマンスを生み出し、ノイズ除去プロセスが進むにつれて、初期レイヤー (青) が予測用に生成されます。初期の視覚野の活動のボトルネック層は、より高いレベルの視覚野に移行します。

これは、拡散プロセスの開始時に画像情報がボトルネック層で圧縮され、ノイズ除去により視覚野に U-Net 層間の分離が現れることを意味します。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

# さらに、チームは普及のさまざまな段階での画像変換の定量的な説明を開発中です。このようにして、研究者らは、広く使用されているものの理解がまだ限られている拡散モデルを生物学的な観点からより深く理解することに貢献することを目指しています。

人間の脳画像はAIによって解読されたのでしょうか?

研究者たちは長年にわたり、人工知能モデルを使用して人間の脳からの情報を解読してきました。

ほとんどの手法の中核では、事前に記録された fMRI 画像がテキストまたは画像の生成 AI モデルへの入力として使用されます。

たとえば、2018 年の初めに、日本の研究者チームは、ニューラルネットワークが fMRI 記録から画像を再構成する方法を示しました。

2019年、グループはサルのニューロンから画像を再構成し、ジャン・レミ・キング率いるメタの研究グループはテキストを取得するためのfMRIデータなどの新しい研究を発表した。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

2022 年 10 月、テキサス大学オースティン校のチームは、GPT モデルが fMRI からデータを生成できることを示しました。スキャンビデオ内で見られる意味論的なコンテンツを説明するテキストが推測されます。

2022 年 11 月、シンガポール国立大学、香港中文大学、スタンフォード大学の研究者は、MinD-Vis 拡散モデルを使用して、fMRI スキャンからの画像を大幅に再構成しました。当時利用可能な方法よりも正確です。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

さらに遡ると、一部のネチズンは「脳波に基づいた画像の生成は少なくとも 2008 年から存在していた」と指摘しました。はい、安定拡散が何らかの方法で人々の心を読み取ることができるとほのめかすのはまったくばかげています。」

カリフォルニア大学バークレー校が Nature に掲載したこの論文では、次のように述べられています。脳波活動は、ビジュアルデコーダを使用して画像に変換できます。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現

# 歴史をたどるとなると、まだ人がいます彼は、大脳皮質からの画像の再構成に関するスタンフォード大学リー・フェイフェイによる 1999 年の研究を直接取り出しました。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃リー・フェイフェイさんもこの投稿にコメントして転送し、当時はまだ大学のインターンだったと述べた。

AI読書脳が爆発！脳画像をスキャンし、安定拡散により画像をリアルに再現