マルチモーダルコマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます-AI-php.cn

Google が設計した新しい画像生成モデルが登場しました。これは、図 1 の猫を図 2 のスタイルで描画し、その上に帽子をかぶせることができます。このモデルは、命令微調整テクノロジーを使用して、テキスト命令と複数の参照画像に基づいて新しい画像を正確に生成します。効果は非常に優れており、PS マスターが個人的に絵の作成を支援するのに匹敵します。

マルチモーダルコマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

私たちは、大規模言語モデル (LLM) を使用する際の命令の微調整の重要性を認識しています。指示を適切に微調整することで、LLM は詩の作曲、コードの作成、スクリプトの作成、科学研究の支援、さらには投資管理の実行など、さまざまなタスクを実行できます。

大規模モデルがマルチモーダル時代に入った今、命令の微調整は依然として効果的でしょうか?たとえば、マルチモーダル命令を通じて画像生成の制御を微調整できますか?言語生成とは異なり、画像生成には最初からマルチモダリティが含まれます。モデルがマルチモダリティの複雑さを効果的に把握できるようにすることはできるでしょうか?

この問題を解決するために、Google DeepMind と Google Research は、画像生成を実現するマルチモーダルな命令方法を提案しました。この手法では、さまざまなモダリティからの情報を織り交ぜて画像生成の条件を表現します（図 1 の左パネルに示す例）。

マルチモーダル命令により、言語命令を強化できます。たとえば、ユーザーは参照イメージのスタイルを指定して、イメージをレンダリングするモデルを生成できます。この直感的な対話型インターフェイスにより、画像生成タスクのマルチモーダル条件を効率的に設定できます。

このアイデアに基づいて、チームはマルチモーダルな命令イメージ生成モデル、Instruct-Imagen を作成しました。

マルチモーダルコマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

論文アドレス: https://arxiv.org/abs/2401.01952

マルチモーダルコマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

このモデルは 2 つの段階トレーニング方法: まず、マルチモーダルな命令を処理するモデルの能力を強化し、次にマルチモーダルなユーザーの意図に忠実に従います。

最初のフェーズで、チームは追加のマルチモーダル入力を処理するタスクを課せられた事前トレーニング済みのテキストから画像へのモデルを採用し、その後、マルチモーダルステータスの指示に正確に応答するように微調整しました。具体的には、彼らが取得した事前トレーニング済みモデルは拡散モデルであり、ネットワークスケール (画像、テキスト) コーパスから取得した同様の (画像、テキスト) コンテキストで強化されました。

第 2 フェーズでは、チームはさまざまな画像生成タスクに基づいてモデルを微調整し、それぞれのタスクを対応するマルチモーダル命令と組み合わせました。これらの命令には、それぞれのタスク要素の鍵が含まれていました。上記の手順を経て、結果として得られるモデル Instruct-Imagen は、複数のモダリティ (スケッチとテキスト命令で記述されたビジュアルスタイルなど) の融合入力を非常に巧みに処理できるため、コンテキストに正確に適合し、十分に明るい画像を生成できます。

図 1 に示すように、Instruct-Imagen は非常に優れたパフォーマンスを発揮し、複雑なマルチモーダル命令を理解し、人間の意図に忠実に従う画像を生成し、これまで見たことのない命令の組み合わせも処理できます。

マルチモーダルコマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

人間のフィードバックによると、多くの場合、Instruct-Imagen は、対応するタスクでタスク固有のモデルのパフォーマンスに匹敵するだけでなく、それを上回ることさえあります。それだけでなく、Instruct-Imagen は強力な一般化機能も示しており、目に見えないより複雑な画像生成タスクにも使用できます。

マルチモーダル生成命令

チームが使用する事前トレーニング済みモデルは拡散モデルであり、ユーザーは入力条件を設定できます。オリジナルの紙。

マルチモーダル命令については、汎用性と一般化機能を確保するために、チームは統一されたマルチモーダル命令形式を提案しました。この形式では、言語の役割は、タスクの目標を明確に記述することです。モーダル条件参考情報として提供します。

この新しく提案されたコマンド形式には、2 つの重要なコンポーネントが含まれています: (1) ペイロードテキストコマンド。その役割は、ミッションの目標を詳細に記述し、[ref#?] などの参照情報の識別を与えることです。 (2) ペアになったマルチモーダルコンテキスト (アイデンティティテキスト、画像)。次に、モデルは共有命令理解モデルを使用して、テキスト命令とマルチモーダルコンテキストを処理します。コンテキストの特定のモダリティはここでは制限されません。

図 2 は、この形式がさまざまな以前の世代のタスクをどのように表現できるかを 3 つの例を通して示しています。これは、この形式が以前のイメージ生成タスクと互換性があることを示しています。さらに重要なのは、言語が柔軟であるため、モダリティやタスクを特別に設計しなくても、マルチモーダル命令を新しいタスク用に拡張できることです。

マルチモーダルコマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

Instruct-Imagen

Instruct-Imagen はマルチモーダル命令に基づいています。これに基づいて、チームは、入力されたマルチモーダル命令条件を完全に採用できるように、事前トレーニングされたテキストから画像への拡散モデル、つまりカスケード拡散モデルに基づいてモデルアーキテクチャを設計しました。

マルチモーダルコマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

具体的には、彼らは Imagen のバリアントバージョンを使用しました。論文「深い言語理解を備えたフォトリアリスティックなテキストから画像への拡散モデル」を参照してください。また、事前トレーニングされたデータに基づいています。内部データソースについて。その完全なモデルには 2 つのサブコンポーネントが含まれています: (1) テキストから画像へのコンポーネント、そのタスクはテキストプロンプトのみを使用して 128 × 128 解像度の画像を生成することです、(2) テキスト条件付き超解像度モデル、128 解像度に変換できます。画像を解像度 1024 にアップグレードします。

マルチモーダル命令のエンコーディングについては、Instruct-Imagen エンコーディングのマルチモーダル命令のデータフローを示す図 3 (右) を参照してください。

2 段階メソッドによる Instruct-Imagen のトレーニング

Instruct-Imagen のトレーニングプロセスは 2 段階に分かれています。

最初の段階は、取得強化されたテキストから画像へのトレーニングです。これは、強化された取得された近傍 (画像、テキスト) ペアを使用して、テキストから画像への生成のトレーニングを継続します。

第 2 段階では、第 1 段階の出力モデルを微調整します。この段階では、さまざまな画像生成タスクを組み合わせて使用し、それぞれが対応するマルチモーダル命令とペアになっています。具体的には、チームは 5 つのタスクカテゴリにわたって 11 枚の画像を使用してデータセットを生成しました (表 1 を参照)。

マルチモーダルコマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

どちらのトレーニング段階でも、モデルはエンドツーエンドで最適化されます。

実験

チームは、新しく提案された方法とモデルの実験的評価を実施し、Instruct-Imagen の設計と故障モードの詳細な分析を実施しました。。

実験設定

チームは、ドメイン内タスク評価とゼロショットタスク評価という 2 つの設定でモデルを評価しました。後者の設定の方が効率的でした。前者の設定はより困難です。

主な結果

図 4 は、Instruct-Imagen とベースライン手法および以前の手法を比較したものです。フィールド評価とゼロサンプル評価。

マルチモーダルコマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

これは、マルチモーダル命令を使用したトレーニングにより、データが豊富なタスク (例:写真のような画像を生成します)。マルチモーダルな指導トレーニングがなければ、マルチタスクのベンチマークでは画質やテキストの配置が低下する傾向があります。

たとえば、図 5 のコンテキスト内スタイル化の例では、マルチタスクベンチマークではスタイルとオブジェクトを区別することが難しいため、生成された結果ではオブジェクトが再現されます。同様の理由で、スタイル転送タスクのパフォーマンスも低下します。これらの観察は、命令の微調整の価値を強調しています。

マルチモーダルコマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

特定のタスクに依存する現在のメソッドやトレーニングとは異なり、Instruct-Imagen は、さまざまなタスクの目標を組み合わせてコンテキスト内で推論を実行する命令を活用することで効率的に管理できます。 (微調整は必要ありません。例ごとに 18.2 秒)。

図 6 に示すように、Instruct-Imagen は、命令の追従性と出力品質の点で常に他のモデルよりも優れています。

マルチモーダルコマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます

それだけでなく、マルチモーダルコンテキストに複数の参照がある場合、マルチタスクベースラインモデルはテキスト命令を参照に対応させることができず、その結果、一部のマルチモーダルが発生します。条件は無視されます。これらの結果は、新しく提案されたモデルの有効性をさらに実証しています。

モデル分析とアブレーションの研究

チームはモデルの限界と故障モードを分析しました。

たとえば、チームは、微調整された Instruct-Imagen が画像を編集できることを発見しました。表 2 に示すように、以前の SDXL 修復、MagicBrush データセット上で微調整された Imagen、および微調整された Instruct-Imagen を比較すると、微調整された Instruct-Imagen が以前の SDXL 修復よりも大幅に優れていることがわかります。マスクベースの画像編集用に特別に設計されたデザインモデル。

マルチモーダルコマンドを学習: Google 画像生成 AI で簡単にコマンドを実行できます