初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。-AI-php.cn

2022 年は、人工知能生成コンテンツ (AIGC) が爆発的に増加した年です。一般的な方向性の 1 つは、テキストの説明 (テキストプロンプト) を通じて画像を編集することです。既存の手法は通常、大規模なデータセットでトレーニングされた生成モデルに依存しているため、データの取得とトレーニングのコストが高くなるだけでなく、モデルのサイズも大きくなります。これらの要因により、実際のテクノロジーの開発と応用には高い敷居が生じ、AIGC の開発と創造性が制限されてきました。

上記の問題点に対応して、NetEase Interactive Entertainment AI Lab は上海交通大学と協力して研究を実施し、微分可能なベクトルレンダラ - CLIPVG に基づくソリューションを初めて革新的に提案しました。生成モデルに依存せず、テキストガイドによる画像編集を実現します。このソリューションは、ベクトル要素の特性を巧みに利用して最適化プロセスを制限するため、大量のデータ要件と高いトレーニングオーバーヘッドを回避できるだけでなく、最適なレベルの生成効果も達成できます。対応する論文「CLIPVG: Text-Guided Image Manipulation using Differentiable Vector Graphics」は、AAAI 2023 に含まれています。

初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。

文書アドレス: https://arxiv.org/abs/2212.02122
オープンソースコード: https://github.com/NetEase-GameAI/clipvg

効果の一部は次のとおりです。（順に）顔編集、車種変更、建物生成、色変更、パターン変更、フォント変更）。

初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。

は In を生成していますCLIPVG は、業界で知られている他のソリューションと比較して、意味論的な精度が 15.9%、生成品質が 23.6% 向上します。つまり、意味論的により適切でエラーのない画像を自動的に編集して出力できます。フレームワークの柔軟性の点では、CLIPVG はピクセル画像をベクターグラフィックスに自動的に変換できるため、他のピクセル画像ベースの研究フレームワークよりも画像の色、形状、サブ領域などを個別に柔軟に編集できます。適用シナリオに関しては、CLIPVG は生成モデルにまったく依存しないため、ポートレートのスタイル化、漫画の編集、フォントデザイン、自動着色など、より幅広いシナリオに適用できます。複数のテキスト条件下での 1 対 1 マッチング、画像の異なる部分を同時に編集できます。

アイデアと技術的背景

プロセス全体の観点から、CLIPVG は最初に、ピクセル画像をベクトル領域に堅牢に変換して適応できるマルチラウンドベクトル化手法を提案しました。その後の画像編集ニーズに対応します。次に、関心領域 (ROI) ごとに異なるテキストによるガイダンスをサポートするために、ROI CLIP 損失が損失関数として定義されます。最適化プロセス全体では、微分可能なベクトルレンダラーを使用して、ベクトルパラメーター (カラーブロックの色、コントロールポイントなど) の勾配計算を実行します。

CLIPVG は 2 つの分野のテクノロジーを組み合わせています。1 つはピクセル領域でのテキストガイドによる画像編集で、もう 1 つはベクター画像の生成です。次に、関連する技術的背景を順番に紹介します。

テキストガイド付き画像翻訳

画像編集中に AI がテキストガイドを「理解」できるようにする一般的な方法Contrastive Language-Image Pre-Training (CLIP) モデルを使用します。 CLIP モデルは、テキストと画像を比較可能な潜在空間にエンコードし、「画像がテキストの説明に準拠しているかどうか」に関するクロスモーダル類似性情報を提供することで、テキストと画像の間に意味論的な接続を確立できます。しかし、実際には、CLIP モデルのみを使用して画像編集を直接効果的にガイドすることは困難です。これは、CLIP が主に画像の高レベルの意味情報に焦点を当てており、ピクセルレベルの詳細に対する制約がないため、最適化プロセスが局所最適 (局所最小値) または敵対的な解決策に簡単に陥ります。

既存の一般的な方法は、CLIP を、StyleCLIP (Patashnik et al、2021)、StyleGAN-NADA (Gal et al、2022)、Disco Diffusion などの GAN または Diffusion に基づくピクセルドメイン生成モデルと組み合わせることです。 (alembics 2022)、DiffusionCLIP (Kim, Kwon, and Ye 2022)、DALL・E 2 (Ramesh et al、2022) など。これらのスキームは生成モデルを利用して画像の詳細を制限し、CLIP を単独で使用する場合の欠点を補います。しかし同時に、これらの生成モデルはトレーニングデータとコンピューティングリソースに大きく依存しており、画像編集の有効範囲がトレーニングセット画像によって制限されてしまいます。 StyleCLIP、StyleGAN-NADA、DiffusionCLIP などのメソッドは、モデルを生成する機能によって制限されているため、単一のモデルを顔画像などの特定のフィールドにのみ制限できます。 Disco Diffusion や DALL・E 2 などの手法はあらゆる画像を編集できますが、対応する生成モデルをトレーニングするには大量のデータとコンピューティングリソースが必要です。

現在、CLIPstyler など、生成モデルに依存しないソリューションはほとんどありません (Kwon and Ye 2022)。最適化中、CLIPstyler は編集対象の画像をランダムなパッチに分割し、各パッチで CLIP ガイダンスを使用して画像の詳細に対する制約を強化します。問題は、各パッチが入力テキストによって定義されたセマンティクスを個別に反映することであるため、このソリューションではスタイルの転送のみが実行でき、画像の全体的な高レベルのセマンティクス編集は実行できません。

上記のピクセルドメイン手法とは異なり、NetEase Interactive Entertainment AI Lab によって提案された CLIPVG ソリューションは、ベクトルグラフィックスの特性を使用して画像の詳細を制限し、生成モデルを置き換えます。 CLIPVG はあらゆる入力画像をサポートし、汎用の画像編集を行うことができます。出力は標準の svg 形式のベクターグラフィックであり、解像度による制限はありません。

ベクター画像生成

CLIPdraw (Frans, Soros, and Witkowski 2021)、StyleCLIPdraw (Schaldenbrand, Liu) など、一部の既存の作品ではテキストガイドによるベクターグラフィック生成が考慮されています。、および Oh 2022) et al。典型的なアプローチは、CLIP を微分可能なベクトルレンダラーと組み合わせ、ランダムに初期化されたベクトルグラフィックスから開始して、テキストによって表現されるセマンティクスに徐々に近づけることです。使用される微分可能ベクトルレンダラーは Diffvg (Li et al. 2020) で、微分可能レンダリングを通じてベクトルグラフィックスをピクセルイメージにラスタライズできます。 CLIPVG はベクトル画像とピクセル画像の間の接続を確立するために Diffvg も使用します。既存の方法とは異なり、CLIPVG は既存の画像を直接生成するのではなく、既存の画像を編集する方法に焦点を当てています。

既存の画像のほとんどはピクセル画像であるため、ベクターグラフィックスの特性を使用して編集する前に、ベクター化する必要があります。既存のベクトル化手法には、Adobe Image Trace (AIT)、LIVE (Ma et al. 2022) などが含まれますが、これらの手法ではその後の編集のニーズが考慮されていません。 CLIPVG は、特に画像編集の堅牢性を向上させるために、既存の方法に基づいた複数ラウンドのベクトル化強化方法を導入しています。

技術的な実装

CLIPVG の全体的なプロセスを次の図に示します。まず、入力ピクセル画像はさまざまな精度でマルチラウンドベクトル化 (Multi-round Vectorization) を受けます。ここで、i 番目のラウンドで取得されたベクトル要素のセットは Θi としてマークされます。各ラウンドで得られた結果は最適化オブジェクトとして重ね合わされ、微分可能なベクトルレンダリング (微分可能なラスター化) を通じてピクセルドメインに変換されます。出力画像の開始状態は入力画像のベクトル化された再構成であり、その後、本文で説明されている方向で反復的な最適化が実行されます。最適化プロセスでは、各 ROI の領域範囲と関連テキストに基づいて ROI CLIP 損失 (下図の初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。 #) が計算され、カラーパラメータやカラーパラメータなどの各ベクトル要素が勾配に従って最適化されます。形状パラメータ。

初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。

反復最適化プロセス全体を次の例で見ることができます。ガイドテキストは「Jocker, Heath Ledger」(ジョーカー、ヒース) です。台帳）。

初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。

ベクトル化

ベクターグラフィックスはベクター要素のコレクションとして定義でき、各ベクター要素は一連のパラメーターによって制御されます。ベクトル要素のパラメータはそのタイプによって異なります。塗りつぶされた曲線を例にとると、そのパラメータはです。ここで、はコントロールポイントパラメータ、# は、RGB カラーと不透明度のパラメータです。ベクトル要素を最適化する場合、要素内の色は常に一貫しており、制御点間のトポロジ関係も固定されるなど、自然な制約がいくつかあります。これらの機能は、CLIP の詳細な制約の欠如を補い、最適化プロセスの堅牢性を大幅に強化できます。

理論的には、CLIPVG は既存の任意の方法を使用してベクトル化できます。しかし、調査によると、そうするとその後の画像編集でいくつかの問題が発生する可能性があります。まず、通常のベクトル化手法では、画像の隣接するベクトル要素が初期状態では完全に揃っていることを保証できますが、最適化プロセスに応じて各要素が移動し、要素間に「亀裂」が発生します。第 2 に、入力画像が比較的単純で、適合させるために必要なベクトル要素の数が少ない場合がありますが、テキストの説明の効果を表現するにはより複雑な詳細が必要となり、その結果、画像編集中に必要な原材料 (ベクトル要素) が不足することがあります。

上記の問題に対応して、CLIPVG は、各ラウンドで既存のメソッドを呼び出してベクトル化された結果を取得し、それを順番に重ね合わせるマルチラウンドベクトル化戦略を提案しました。各ラウンドでは、前のラウンドに比べて精度が向上します。つまり、ベクトル要素のより小さなブロックでベクトル化されます。以下の図は、ベクトル化時のさまざまな精度の違いを示しています。

初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。

i 回目のベクトル化によって取得されたベクトル要素のセットは、初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。と表現できます。全ラウンドで得られた結果重ね合わせ後に得られたベクトル要素の集合をと表記し、CLIPVG の全体最適化対象とします。

損失関数

StyleGAN-NADA や CLIPstyler と同様に、CLIPVG は方向性 CLIP 損失を使用して対応関係を測定します。生成された画像と説明テキストの間。

初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。

# のように定義されます。

初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。は入力テキストの説明を表します。は固定参照テキストであり、CLIPVG で「写真」に設定されます。は生成された画像 (最適化されるオブジェクト) です。初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。は元の画像です。とは、それぞれ CLIP のテキストコーデックと画像コーデックです。 ΔT と ΔI はそれぞれテキストと画像の潜在空間方向を表します。この損失関数を最適化する目的は、編集後の画像の意味変化の方向をテキストの記述と一致させることです。固定された t_ref は、後続の式では無視されます。 CLIPVG では、生成された画像は、ベクトルグラフィックスの微分可能レンダリングの結果です。さらに、CLIPVG は、各 ROI への異なるテキスト説明の割り当てをサポートします。このとき、方向性 CLIP 損失は、次の ROI CLIP 損失に変換されます。

初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。

ここで、Ai は i 番目の ROI 領域であり、初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。関連するテキストの説明です。 R は微分可能なベクトルレンダラであり、R(Θ) はレンダリングされたイメージ全体です。は入力画像全体です。はトリミング操作を表します。これは、画像 I から領域初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。をトリミングすることを意味します。 CLIPVG は、CLIPstyler と同様のパッチベースの拡張スキームもサポートしています。つまり、各 ROI から複数のパッチをさらにランダムに切り取ることができ、ROI に対応するテキスト記述に基づいてパッチごとに CLIP 損失が計算されます。

合計損失は、すべての領域の ROI CLIP 損失の合計、つまり

初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。

これはその領域です。領域は ROI、または ROI から切り取られたパッチにすることができます。初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。は各エリアに対応する損失重量です。

CLIPVG は、上記の損失関数に基づいてベクトルパラメーターセット Θ を最適化します。最適化する場合、形状パラメータ、色パラメータ、特定の領域に対応するいくつかのベクトル要素など、Θ のサブセットのみをターゲットにすることもできます。

実験結果

実験部分では、CLIPVG はまず、アブレーション実験を通じて複数回のベクトル化戦略とベクタードメインの最適化の有効性を検証し、それを既存のベースラインとの比較が行われ、最終的に独自のアプリケーションシナリオが実証されました。

アブレーション実験

研究ではまず、複数ラウンドのベクトル化 (Multi-round) 戦略と 1 ラウンドのみのベクトル化 (One-round) 戦略を比較しました。ショット）効果。以下の図の 1 行目はベクトル化後の初期結果、2 行目は編集結果です。ここで、Nc はベクトル化の精度を表します。複数回のベクトル化により、初期状態の再構成精度が向上するだけでなく、編集後のベクトル要素間の亀裂が効果的に除去され、細部のパフォーマンスが向上することがわかります。

初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。

#ベクトルドメイン最適化の特性をさらに研究するために、この論文では CLIPVG (ベクトルドメイン方式) と CLIPstyler (ピクセルドメイン方式) を比較します。異なるパッチサイズを使用したエンハンスメントの効果。以下の図の 1 行目は、異なるパッチサイズを使用した CLIPVG の効果を示し、2 行目は CLIPstyler の効果を示しています。テキストでの説明は「ドクター・ストレンジ」です。画像全体の解像度は512x512です。パッチサイズが小さい場合 (128x128 または 224x224)、CLIPVG と CLIPstyler の両方が小さな局所領域で「ドクターストレンジ」の代表的な赤と青を表示しますが、顔全体のセマンティクスは大きく変わらないことがわかります。 . .これは、このときのCLIPガイダンスが画像全体に適用されていないためです。 CLIPVG がパッチサイズを 410x410 に増やすと、髪型や顔の特徴などのキャラクターのアイデンティティが明らかに変化し、テキストの説明に従って効果的に編集されていることがわかります。パッチ強化が削除されると、セマンティック編集効果と詳細の明瞭さが低下します。これは、パッチ強化がまだプラスの効果を持っていることを示しています。 CLIPVG とは異なり、CLIPstyler はパッチが大きくなったり、パッチが削除された場合でもキャラクターのアイデンティティを変更することはできませんが、全体の色と一部のローカルテクスチャのみを変更します。その理由は、ピクセル領域でパッチサイズを拡大する方法では基礎となる制約が失われ、局所的な最適化に陥ってしまうためです。この一連の比較は、CLIPVG がベクトルドメインの詳細に関する制約を効果的に利用し、より大きな CLIP スコープ (パッチサイズ) と組み合わせた高レベルのセマンティック編集を実現できることを示していますが、これはピクセルドメイン手法では実現が困難です。

比較実験

比較実験では、研究では最初に CLIPVG と 2 つの方法を使用して任意の画像を編集しました。 Disco Diffusion と CLIPstyler を含むピクセルドメイン手法を比較しました。下図に示すように、「フィンセントファンゴッホの自画像」の例では、CLIPVG はキャラクターのアイデンティティと絵画スタイルを同時に編集でき、一方、ピクセルドメイン方式ではそのうちの 1 つしか実現できません。「カスミソウ」では、CLIPVG を使用することで、ベースライン手法よりも花びらの数や形状をより正確に編集できます。「ジョッカー、ヒース・レジャー」や「フォード・マスタング」の例では、CLIPVG は全体的なセマンティクスを強力に変更することもできます。比較的言えば、Disco Diffusion は局所的な欠陥が発生しやすいのに対し、CLIPstyler は一般にテクスチャとカラーのみを調整します。

初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。

(上から: ゴッホの絵、カスミソウ、ヒースレジャージョーカー、フォードマスタング)

#研究者らは次に、StyleCLIP、DifffusionCLIP、StyleGAN-NADA などの特定の分野 (人間の顔を例として) の画像のピクセルドメイン手法を比較しました。使用範囲が制限されているため、これらのベースラインメソッドの生成品質は一般的により安定しています。この一連の比較においても、CLIPVG の効果は既存の方法に劣らないことが示されており、特に対象テキストとの一貫性の度合いがより高い場合が多いです。

初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。

(上から下: ドクター・ストレンジ、ホワイト・ウォーカー、ゾンビ)

その他のアプリケーション

CLIPVG は、ベクターグラフィックスの特性と ROI レベルの損失関数を使用して、既存の方法では実現が難しい一連の革新的なゲームプレイをサポートできます。たとえば、この記事の冒頭で示した複数人の写真の編集効果は、さまざまな登場人物に対してさまざまな ROI レベルのテキスト説明を定義することによって実現されます。下の図の左側は入力、中央は ROI レベルのテキスト記述の編集結果、右側は全体的なテキスト記述が 1 つだけある全体の画像の結果です。 A1～A7エリアに対応する説明は、1.「ジャスティス・リーグ・シックス」、2.「アクアマン」、3.「スーパーマン」、4.「ワンダーウーマン」）、5.「サイボーグ」（サイボーグ）、6.「フラッシュ」です。、DCスーパーヒーロー」（フラッシュ、DC）、および7.「バットマン」（バットマン）。 ROI レベルでの説明はキャラクターごとに個別に編集できますが、全体的な説明では効果的な個人のアイデンティティ特性を生成できないことがわかります。 ROIは互いに重なっているため、既存の手法では各キャラクターを個別に編集してもCLIPVG全体の連携を図ることが困難です。

初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。

CLIPVG は、いくつかのベクトルパラメーターを最適化することで、さまざまな特殊な編集効果を実現することもできます。以下の画像の最初の行は、部分領域のみを編集した場合の効果を示しています。 2 行目は、色パラメータをロックし、形状パラメータのみを最適化するフォント生成効果を示しています。 3 行目は 2 行目とは逆で、色のパラメーターのみを最適化することで再着色の目的を達成します。

初めて、生成モデルに依存せず、AI にたった 1 文で写真を編集させます。