人工知能があなたの想像力を読み取って、心の中のイメージを現実に変えることができたらどうなるでしょうか?
# これは少しサイバーパンクのように聞こえますが。しかし、最近発表された論文がAI界に波紋を引き起こした。
この論文では、最近非常に人気のある安定拡散を使用して、高解像度の脳活動を高効率で再構築していることがわかりました。高精度な画像。著者らは、これまでの研究とは異なり、これらの画像を作成するために人工知能モデルをトレーニングしたり微調整したりする必要はなかったと書いている。
この研究では、著者らは安定拡散を使用して、機能的磁気共鳴画像法 (fMRI) によって取得された人間の脳活動の画像を再構成しました。著者はまた、脳関連機能のさまざまな要素(画像 Z の潜在ベクトルなど)を研究することによって、潜在拡散モデルのメカニズムを理解することも役立つと述べました。
この論文は CVPR 2023 にも採択されました。
この研究の主な貢献は次のとおりです:
図 2 (下) は、この研究のコーディング分析の概略図です。 z、c、z_c などの LDM のさまざまなコンポーネントからの fMRI 信号を予測するためのエンコード モデルを構築しました。
#安定拡散については多くの人がよく知っていると思いますので、ここではあまり紹介しません。
結果
この研究の視覚的再構成結果を見てみましょう。
デコード
下の図 3 は、被験者 (subj01) の視覚的再構成結果を示しています。各テスト画像に対して 5 つの画像を生成し、PSM が最も高い画像を選択しました。一方で、z のみを使用して再構成された画像は、元の画像と視覚的に一致しますが、その意味的な内容を捉えることができません。一方、c のみを使用して再構成された画像は、意味論的忠実度が高い画像を生成しますが、視覚的には一貫性がありません。最後に、z_c 再構成イメージを使用すると、セマンティック忠実度の高い高解像度イメージを生成できます。
# 図 4 は、すべてのテスターによる同じ画像の再構成を示しています (すべての画像は z_c で生成されました)。全体として、テスター全体の再構成品質は安定していて正確でした。
# 図 5 は定量的評価の結果です。
コーディング モデル## 図 6 は、LDM に関連するコーディング モデルのペアを示しています。 3 つの潜在画像の予測精度: z、元の画像の潜在画像、c、画像テキスト注釈の潜在画像、および z_c、c によるクロスアテンション逆拡散プロセス後の z のノイズを含む潜在画像表現。
図 7 は、少量のノイズが追加された場合に、z が z_c よりも皮質全体のボクセル活動をより正確に予測することを示しています。興味深いことに、ノイズ レベルを増加すると、z_c は高視覚野のボクセル活動を z よりも正確に予測し、画像の意味内容が徐々に強調されることを示します。
追加されたノイズの基礎となる表現は、反復的なノイズ除去プロセス中にどのように変化するのでしょうか?図 8 は、ノイズ除去プロセスの初期段階では、z 信号が fMRI 信号の予測を支配していることを示しています。ノイズ除去プロセスの中間段階では、z_c は高視覚野内の活動を z よりもはるかに正確に予測します。これは、ほとんどの意味内容がこの段階で出現することを示しています。結果は、LDM がノイズから画像をどのように調整して生成するかを示しています。
最後に、研究者らは、U-Net の各層がどのような情報を処理しているかを調査しました。図 9 は、ノイズ除去プロセスのさまざまなステップ (初期、中間、後期) の結果と、U-Net のさまざまなレイヤーのエンコード モデルを示しています。ノイズ除去プロセスの初期段階では、U-Net のボトルネック層 (オレンジ) が皮質全体で最高の予測パフォーマンスをもたらします。ただし、ノイズ除去が進むにつれて、U-Net の初期層 (青) が初期視覚野内の活動を予測する一方、ボトルネック層は高次視覚野の優れた予測能力に移行します。
研究の詳細については、元の論文をご覧ください。
以上が「安定拡散技術を利用した画像再現、関連研究がCVPRカンファレンスに採択されました」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。