Stable Video 3D が衝撃的なデビューを果たします。単一の画像から死角のない 3D ビデオが生成され、モデルの重みがオープンになります。-AI-php.cn

Stable Video 3D が衝撃的なデビューを果たします。単一の画像から死角のない 3D ビデオが生成され、モデルの重みがオープンになります。

王林

リリース： 2024-03-20 22:31:18

転載

1061 人が閲覧しました

Stability AI の優れたモデルファミリーに新しいメンバーが加わりました。

昨日、Stable Diffusion と Stable Video Diffusion をリリースした後、Stability AI は大規模な 3D ビデオ生成モデル「Stable Video 3D」(SV3D) をコミュニティに導入しました。

モデルは安定したビデオ拡散に基づいて構築されており、その主な利点は 3D 生成の品質とマルチビューの一貫性が大幅に向上することです。 Stability AI によって発売された以前の Stable Zero123 および共同オープンソース Zero123-XL と比較して、このモデルの効果はさらに優れています。

現在、Stable Video 3D は、Stability AI メンバーシップ (メンバーシップ) への参加が必要な商用利用と、ユーザーが Hugging Face でモデルウェイトをダウンロードできる非商用利用の両方をサポートしています。

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

#Stability AI は、SV3D_u と SV3D_p という 2 つのモデルバリアントを提供します。 SV3D_u は、カメラ調整を必要とせずに単一の画像入力に基づいて軌道ビデオを生成します。一方、SV3D_p は、単一の画像と軌道遠近を適応させることで生成機能をさらに拡張し、ユーザーが指定されたカメラパスに沿って 3D ビデオを作成できるようにします。

現在、Stable Video 3D に関する研究論文が公開されており、中心著者は 3 人です。

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

テクノロジーの概要

Stable Video 3D は、3D 生成、特にノベルビューにおいて大幅な進歩をもたらします。合成（NVS）。

以前のアプローチでは、限られた視野角や一貫性のない入力の問題を解決する傾向がありましたが、Stable Video 3D は、任意の角度から一貫したビューを提供し、適切に一般化することができます。その結果、このモデルはポーズの制御性を向上させるだけでなく、複数のビューにわたって一貫したオブジェクトの外観を保証し、リアルで正確な 3D 生成に影響を与える重要な問題をさらに改善します。

下の図に示すように、Stable Zero123 および Zero-XL と比較して、Stable Video 3D は、より強力なディテール、より入力画像に忠実な新しいマルチビューを生成できます。一貫した多視点。

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

さらに、Stable Video 3D はマルチビューの一貫性を利用して 3D ニューラルラディアンスフィールド (NeRF) を最適化し、直接再同期を改善します。ビューによって生成された 3D メッシュ。

この目的を達成するために、Stability AI は、予測ビュー内の目に見えない領域の 3D 品質をさらに向上させる、マスクされた分別蒸留サンプリング損失を設計しました。また、ベイクされたライティングの問題を軽減するために、Stable Video 3D は 3D 形状とテクスチャで最適化された分離されたライティングモデルを使用します。

下の画像は、Stable Video 3D モデルとその出力を使用した場合の 3D 最適化による改善された 3D メッシュ生成の例を示しています。

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

次の図は、Stable Video 3D を使用して生成された 3D メッシュ結果と、EscherNet および Stable Zero123 によって生成された 3D メッシュ結果の比較を示しています。

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

# アーキテクチャの詳細

Stable Video 3D モデルのアーキテクチャは次のとおりです。図 2 に示すように、これは Stable Video Diffusion アーキテクチャに基づいて構築されており、複数のレイヤーを備えた UNet が含まれており、各レイヤーには Conv3D レイヤーを備えた残差ブロックシーケンスと、アテンションレイヤー (空間および時間) トランスフォーマーを備えた 2 つが含まれています。ブロック。

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

具体的な処理は次のとおりです。

(i) 「fps id」と「」を削除します。モーションバケット ID」（これらは Stable Video 3D とは関係がないため）;

(ii) 条件付き画像は、Stable Video Diffusion の VAE エンコーダを通じて潜在空間に埋め込まれます。次に、タイムステップ t における UNet のノイズ潜在状態入力 zt に渡され、ノイズ潜在状態入力 zt に接続されます;

#(iii) 条件付き画像の CLIPembedding 行列が提供されます各トランスフォーマーブロックのクロスアテンション層にキーと値として機能し、クエリは対応する層の特徴になります;

(iv) カメラの軌跡がフィードされます。拡散ノイズの時間ステップに沿った残差ブロック。カメラのポーズ角度 ei と ai およびノイズ時間ステップ t は、最初に正弦波位置埋め込みに埋め込まれ、次にカメラポーズの埋め込みが線形変換のために連結され、ノイズ時間ステップの埋め込みに追加され、最後に各残差ブロックに供給され、ブロックの入力特徴量に追加されます。

さらに、Stability AI は、以下の図 3 に示すように、カメラのポーズ調整の影響を研究するために静的軌道と動的軌道を設計しました。

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放

#静的軌道上では、カメラは条件画像と同じ仰角を使用して等距離方位角でオブジェクトの周りを回転します。この欠点は、調整された仰角に基づいて、オブジェクトの上部または下部に関する情報が得られない可能性があることです。動的軌道では、方位角が等しくない場合があり、各ビューの仰角も異なる場合があります。

動的軌道を構築するために、Stability AI は静的軌道をサンプリングし、その方位角に小さなランダムノイズを追加し、その仰角に異なる周波数の正弦波のランダムに重み付けされた組み合わせを追加します。そうすることで時間的な滑らかさが提供され、カメラの軌道が条件画像と同じ方位角と仰角のループに沿って終了することが保証されます。

実験結果

安定性 AI は、目に見えない GSO および OmniObject3D データセット上の静的および動的軌道上で安定したビデオを評価し、3D 複合マルチビュー効果を評価しました。以下の表 1 ～ 4 に示す結果は、Stable Video 3D が新しいマルチビュー合成において最先端のパフォーマンスを達成していることを示しています。

表 1 と 3 は、静的軌道上の Stable Video 3D とその他のモデルの結果を示しており、ポーズ調整を行わないモデル SV3D_u でも、以前のすべての方法よりも優れたパフォーマンスを示しています。

アブレーション解析の結果は、SV3D_c と SV3D_p が静的軌道の生成において SV3D_u よりも優れていることを示していますが、後者は静的軌道のみでトレーニングされています。

Stable Video 3D震撼登场：单图生成无死角3D视频、模型权重开放