現在、AI は脳信号をリアルタイムで解釈できるようになりました。
これはセンセーショナルではありませんが、Meta による新しい研究です。脳信号に基づいて、見ている画像を 0.5 秒以内に推測し、AI を使用してリアルタイムで復元することができます。
これまで、AI は脳信号から比較的正確に画像を復元できましたが、まだバグがあり、十分な速度ではありません。
この目的のために、Meta は新しいデコード モデルを開発し、AI による画像検索の速度を 7 倍向上させ、人々が見ているものをほぼ「瞬時に」読み取り、大まかな推測を行うことができます。
見た目は立っている人間のように見えます。数回の復元の後、AI は実際に「立っている人間」を解釈しました:
写真
LeCun 氏は、MEG 脳信号からの視覚入力やその他の入力を再構成する研究は確かに素晴らしいと述べました。
写真
それでは、メタはどのようにして AI に「脳を素早く読み取る」ことを可能にするのでしょうか?
現在、AI が脳信号を読み取って画像を復元する方法は主に 2 つあります。
1 つは脳の特定の部分への血流の画像を生成できる fMRI (機能的磁気共鳴画像法) であり、もう 1 つは脳内の非常に高い強度の神経電流を測定できる MEG (脳磁図) です。脳、弱い生体磁気信号。
しかし、fMRI 神経画像処理の速度は多くの場合非常に遅く、画像を生成するのに平均 2 秒かかります (≈ 0.5 Hz)。対照的に、MEG は 1 秒あたり数千枚の脳活動画像を記録することもできます (≈ 5000Hz)。
そこで、fMRIと比べて、MEGデータを使って「人間が見た画像」を復元してみませんか?
この考えに基づいて、著者らは 3 つの部分からなる MEG デコード モデルを設計しました。
最初の部分は、画像から埋め込みを取得する事前トレーニング済みモデルです。
2 番目の部分は、MEG データと画像埋め込みを調整するエンドツーエンドのトレーニング モデルです。 ;
3 番目の部分は、最終イメージの復元を担当する、事前トレーニングされたイメージ ジェネレーターです。
写真
研究者らはトレーニングのために、THINGS-MEG と呼ばれるデータセットを使用しました。これには 4 人の若者 (男子 2 名、女子 2 名) が含まれています。 23.25 年)画像を見ながら記録された MEG データ。
若者たちは、1 枚の画像を 0.5 秒、間隔を 0.8 ~ 1.2 秒として、合計 22,448 枚 (1,854 種類) の画像を閲覧し、そのうち 200 枚を繰り返し閲覧しました。
さらに、参加者には表示されなかったが、画像検索にも使用された画像が 3,659 枚ありました。
それでは、このように訓練されたAIはどのような効果をもたらすのでしょうか?
全体的に、この研究で設計された MEG デコード モデルは、線形デコーダの画像検索速度よりも 7 倍高速です。
その中で、CLIP や他のモデルと比較して、Meta によって開発されたビジュアル Transformer アーキテクチャ DINOv2 は、画像特徴の抽出において優れたパフォーマンスを発揮し、MEG データと画像埋め込みをより適切に調整できます。
写真
著者は、生成された画像全体を、最高の一致度、中程度の一致度、最低の一致度の 3 つの主要なカテゴリに分類しました。
#写真##しかし、生成された例から判断すると、この AI によって復元された画像効果は確かにあまり良くありません。
最も復元された画像でさえ、一部のネチズンは依然として疑問を抱いています。「なぜパンダはパンダに似ていないのか?」
写真著者はこう言いました: 少なくとも白黒のクマのように見えます。 (パンダは激怒!)
写真もちろん、研究者らも、MEG データから復元された画像効果が現時点では確かにあまり良くないことを認めています。主な利点はやはり速度の点です。
たとえば、ミネソタ大学およびその他の機関による 7T fMRI と呼ばれる以前の研究では、fMRI データから人間の目で見える画像を高い復元率で復元できます。
写真
人間のサーフィンの動き、飛行機の形、シマウマの色、電車の背景など、fMRI データに基づいて AI が学習画像は復元されます:
Picture
著者らは、これについても説明しており、これは AI ベースの視覚的特徴が復元されたためであると考えています。 MEG については偏りがあります。
しかし、それに比べて、7T fMRI は画像内の低レベルの視覚特徴を抽出して復元できるため、生成された画像の全体的な復元度が高くなります。
この種の研究はどこで活用できると思いますか?
紙のアドレス:
//m.sbmmt.com/link/f40723ed94042ea9ea36bfb5ad4157b2
以上がAI がリアルタイムで脳信号を解釈し、LeCun によって転送された画像の主要な視覚的特徴を 7 倍の速度で復元しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。