Stability AI は火曜日に新世代の画像合成モデルである Stable Diffusion XL Turbo を発表し、熱狂的な反応を呼び起こしました。多くの人が、画像からテキストへの生成にこのモデルを使用するのがかつてないほど簡単になったと述べています。
入力ボックスにアイデアを入力すると、SDXL Turbo がすぐに応答し、対応するコンテンツを生成します。その他の操作へ。入力するコンテンツの量が多くても少なくても、速度には影響しません。
一部の画像はより正確に作成されます。白い紙を用意して、SDXL Turbo に「白い猫が欲しい」と伝えるだけです。入力を終える前に、小さな白い猫がすでにあなたの手の中に表示されます
SDXL Turbo モデルの速度は、ほぼ「リアルタイム」レベルに達しており、画像生成モデルを他の目的に使用できるのではないかと人々は疑問に思っています。
ゲームに直接接続して 2fps スタイルの転送画面が表示された人:
#公式ブログによると、A100 では、 SDXL Turbo は 512x512 画像を 207 ミリ秒で生成できます (オンザフライ エンコード、単一ノイズ除去ステップ デコード、fp16)。そのうち 1 回の UNet 前方評価には 67 ミリ秒かかります。このように、Vincent Tu は「リアルタイム」の時代に突入したと判断できます。
このような「瞬間生成」効率は、少し前に普及した清華 LCM モデルに似ているように見えますが、その背後にある技術的内容は異なります。安定性については、同時に発表された研究論文でモデルの内部動作が詳しく説明されています。この研究は、敵対的拡散蒸留 (ADD) と呼ばれる技術に焦点を当てています。 SDXL Turbo の主張されている利点の 1 つは、特にシングルステップ画像出力の生成における敵対的生成ネットワーク (GAN) との類似性です。
論文アドレス: https://static1.squarespace.com/static/6213c340453c3f502425776e/t/65663480a92fba51d0e1023f/1701197769659/adversarial_diffusion_distillation.pdf
論文の詳細
この目的のために、研究者らは、(i) 敵対的損失と (ii) SDS に対応する蒸留損失という 2 つのトレーニング目標の組み合わせを導入しました。敵対的損失により、モデルは各前方パスで実画像多様体上にあるサンプルを直接生成することを強制され、他の蒸留方法で一般的なブラーやその他のアーティファクトを回避します。蒸留損失は、別の事前学習済み (および固定) 拡散モデルを教師として使用し、その広範な知識を効果的に活用し、大規模な拡散モデルで観察される強力な構成性を保持します。推論プロセス中、研究者らは分類子を使用しないガイダンスを使用しなかったため、メモリ要件がさらに削減されました。これらは、反復的な改良を通じて結果を改善するモデルの機能を保持しており、これは以前の単一ステップの GAN ベースのアプローチよりも優れています。
トレーニング手順を図 2 に示します。
表 1 にアブレーションの結果を示します。実験の結果、主な結論は次のとおりです:
# 次は他の SOTA モデルとの比較です。ここでは研究者らは自動化された指標を使用せず、より信頼性の高いユーザー選好評価方法を選択しました。目標は、迅速なコンプライアンスと全体的なイメージを評価することでした。 複数の異なるモデル バリアント (StyleGAN-T、OpenMUSE、IF-XL、SDXL、および LCM-XL) を比較するために、実験では同じプロンプトを使用して出力を生成します。ブラインド テストでは、SDXL Turbo は LCM-XL の 4 ステップ構成を 1 ステップで上回り、SDXL の 50 ステップ構成をわずか 4 ステップで上回りました。これらの結果から、SDXL Turbo は画質を犠牲にすることなく計算要件を大幅に削減しながら、最先端のマルチステップ モデルを上回るパフォーマンスを示していることがわかります。 ここに示されているのは、推論速度に関する ELO スコアの視覚的なグラフです。
表 2 では、同じ基本モデルを使用した、さまざまな数ステップのサンプリングおよび蒸留方法が比較されています。結果は、ADD メソッドが、定量的な 8 ステップの標準 DPM ソルバー
を含む他のすべてのメソッドよりも優れていることを示しています。この論文では、実験結果に加えて、初期サンプルに基づいた ADD-XL の改善能力を実証するいくつかの定性的な実験結果も示しています。図 3 は、ADD-XL (1 ステップ) と数ステップ スキームにおける現在の最良のベースラインを比較しています。図 4 は、ADD-XL の反復サンプリング プロセスを示しています。図 8 は、ADD-XL とその教師モデル SDXL-Base の直接比較を示しています。ユーザー調査によると、ADD-XL は品質と迅速な調整の両方において教師モデルよりも優れています。 ################################################ #のために研究の詳細については、元の論文を参照してください
以上がSDXL Turbo と LCM は、AI 図面のリアルタイム生成の時代をもたらします。入力するのと同じ速さで、画像が瞬時に表示されます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。