GPT-3.5でデータセットを生成！北京大学天宮と他のチームによる画像編集用の新しい SOTA は、物理世界のシーンを正確にシミュレートできます-AI-php.cn

GPT-3.5でデータセットを生成！北京大学天宮と他のチームによる画像編集用の新しい SOTA は、物理世界のシーンを正確にシミュレートできます

WBOY

リリース： 2024-06-02 17:18:08

オリジナル

862 人が閲覧しました

高品質な画像編集の方法はたくさんありますが、現実の物理世界を正確に表現することは困難です。

それから、世界を編集してみてください。

GPT-3.5でデータセットを生成！北京大学天宮と他のチームによる画像編集用の新しい SOTA は、物理世界のシーンを正確にシミュレートできます写真

北京大学、Tiamat AI、Tiangong AI、Mila Labs は、世界から指示された画像編集という新しい編集タスクを導入した EditWorld を提案しました。さまざまな世界のシナリオに基づいて命令を定義および分類します。

GPT-3.5でデータセットを生成！北京大学天宮と他のチームによる画像編集用の新しい SOTA は、物理世界のシーンを正確にシミュレートできます写真

ワールド命令を含むマルチモーダルデータセットは、GPT-3.5、Video-LLava、SDXL などの事前トレーニングされたモデルのセットのサポートを利用して構築されています。

拡散ベースの画像編集モデル EditWorld がこのデータセットでトレーニングされ、その結果、新しいタスクのパフォーマンスが既存の編集方法よりも大幅に向上し、SOTA を達成しました。

画像編集用の新しい SOTA

既存の方法では、テキストコントロール、ドラッグ操作、修復などを含む (ただしこれらに限定されない) さまざまな方法を通じて高品質の画像編集を実現します。中でも、指示書を使って編集する方法は、その手軽さから広く注目を集めています。

画像編集方法は高品質の結果を生み出すことができますが、物理世界の真の視覚的なダイナミクスを伝える世界のダイナミクスを処理するのは依然として困難です。

図 1 に示すように、InstructPix2pix も MagicBrush も適切な編集結果を生成できません。

GPT-3.5でデータセットを生成！北京大学天宮と他のチームによる画像編集用の新しい SOTA は、物理世界のシーンを正確にシミュレートできます写真

この問題を解決するために、チームは世界指示画像編集と呼ばれる新しいタスクを導入しました。これにより、画像編集が現実の物理世界と仮想メディアの「世界のダイナミクス」を反映できるようになります。

具体的には、彼らはさまざまなワールドダイナミック命令を定義および分類し、これらの命令に基づいて、多数の入力、命令、出力のトリプルを含む新しいマルチモーダルトレーニングデータセットを作成しました。

最後に、チームは慎重に作成されたデータセットを使用してテキストガイド付き拡散モデルをトレーニングし、世界から指示された画像編集を実現するためのゼロショット画像操作戦略を提案しました。

現実世界と仮想メディアのタスクシナリオに基づいて、世界から指示された画像編集を7つのカテゴリに分け、各カテゴリを定義して紹介し、データサンプルを提供します。

GPT-3.5でデータセットを生成！北京大学天宮と他のチームによる画像編集用の新しい SOTA は、物理世界のシーンを正確にシミュレートできます写真

その後、チームは、データセットを取得するためのテキストから写真への生成とビデオストーリーボードの抽出という 2 つのブランチを設計しました。

テキスト生成画像ブランチは、データシーンの豊富さを強化するためのもので、チームは最初に GPT を使用してテキスト 4 倍 (入力画像の説明、命令、出力画像の説明、キーワードを含む) を生成し、次に入力と画像を使用します。出力説明はテキストに対応する画像を生成し、キーワードに対応するアテンションマップを使用して編集位置を特定し、同時に 2 つの画像の主要な特徴の一貫性を確保します。最後に、チームは IP アダプターと ControlNet を使用し、出力画像のキャニーマップと入力画像の画像プロンプト機能を組み合わせて、画像の修復を使用しました。画像を出力して、より効果的な編集データを取得します。

GPT-3.5でデータセットを生成！北京大学天宮と他のチームによる画像編集用の新しい SOTA は、物理世界のシーンを正確にシミュレートできます写真

テキスト生成画像ブランチを使用してシーンリッチなデータを取得した後、実際のデータをデータセットに追加するために、チームは編集データとしてビデオから高品質のキーフレームを抽出しました。具体的には、チームはビデオストーリーボードから、強い相関と大きな構造的差異のある2つのフレームを開始フレームと最後のフレームとして抽出し、新しいストーリーボードを切り出し、大規模なマルチモーダルモデルを使用してストーリーボードを変更することを記述した後、チームは最終的にストーリーボードを変更しました。開始フレームと終了フレームを入力画像と出力画像として使用し、取得した記述を指示として使用して、必要な編集データを取得します。

さらに一歩進んで、チームは生成されたデータを手動で再チェックして、データ品質をさらに向上させます。

チームは、InstructPix2Pix モデルを微調整するためにデータセットを使用しました。同時に、非編集領域を保護し、より正確な編集を実現するために、チームは編集後の戦略を提案しました。

GPT-3.5でデータセットを生成！北京大学天宮と他のチームによる画像編集用の新しい SOTA は、物理世界のシーンを正確にシミュレートできます写真