効果は爆発的！ OpenAI初のビデオ生成モデルがリリース、1分でスムーズかつ高解像度、ネチズン：業界全体が安らかに-AI-php.cn

効果は爆発的！ OpenAI初のビデオ生成モデルがリリース、1分でスムーズかつ高解像度、ネチズン：業界全体が安らかに

PHPz

リリース： 2024-02-19 09:30:09

転載

1059 人が閲覧しました

たった今、ウルトラマンは OpenAI の最初のビデオ生成モデル Sora をリリースしました。

DALL・E 3 の画質とコマンド追従機能を完全に継承し、最長 1 分の高解像度ビデオを生成できます。

効果は爆発的！ OpenAI初のビデオ生成モデルがリリース、1分でスムーズかつ高解像度、ネチズン：業界全体が安らかに

#AI は、赤い旗がはためき、大勢の人が集まる辰年の春祭りを想像しました。

多くの子供たちがドラゴンダンスチームを興味深そうに眺め、中には携帯電話を取り出して人々のさまざまな行動を記録する人もいた。

効果は爆発的！ OpenAI初のビデオ生成モデルがリリース、1分でスムーズかつ高解像度、ネチズン：業界全体が安らかに

雨上がりの東京の街並み、濡れた地面リフレクションネオンの光と影の効果はRTX ONに匹敵します。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃走行中の電車の窓が時折遮られ、車内のキャラクターの反射が一瞬表示され、非常に見事です。

効果は爆発的！ OpenAI初のビデオ生成モデルがリリース、1分でスムーズかつ高解像度、ネチズン：業界全体が安らかに

ハリウッド大作映画のような映画の予告編もご覧いただけます:

効果は爆発的！ OpenAI初のビデオ生成モデルがリリース、1分でスムーズかつ高解像度、ネチズン：業界全体が安らかに

縦型スクリーン超接近-上からの視点以下、このトカゲには詳細が満載です:

効果は爆発的！ OpenAI初のビデオ生成モデルがリリース、1分でスムーズかつ高解像度、ネチズン：業界全体が安らかに

# ネチズンはゲームオーバーを宣告し、職を失いました:

効果は爆発的！ OpenAI初のビデオ生成モデルがリリース、1分でスムーズかつ高解像度、ネチズン：業界全体が安らかに

# # 一部の人々は業界全体を「嘆き」始めています:

効果は爆発的！ OpenAI初のビデオ生成モデルがリリース、1分でスムーズかつ高解像度、ネチズン：業界全体が安らかに

AI は動いている物理世界を理解します

OpenAI は

であると述べました効果は爆発的！ OpenAI初のビデオ生成モデルがリリース、1分でスムーズかつ高解像度、ネチズン：業界全体が安らかに教育用 AI は、動いている物理世界を理解し、シミュレーションします。

目標は、人々が現実世界のインタラクションを必要とする問題を解決できるようにモデルをトレーニングすることです。

テキストプロンプトに基づいてビデオを生成します。計画全体のほんの 1 ステップにすぎません。

現在、Sora は

複数のキャラクターと特定の動きを含む複雑なシーンを生成できます

効果は爆発的！ OpenAI初のビデオ生成モデルがリリース、1分でスムーズかつ高解像度、ネチズン：業界全体が安らかに . それはユーザーのプロンプトを理解するだけではありません。に示されているように、これらのオブジェクトが物理世界にどのように存在するかについても理解してください。

Sora は、1 つのビデオ内で複数のショットを作成することもでき、言語の深い理解に基づいて手がかりとなる単語を正確に解釈し、キャラクターとビジュアルスタイルを維持します。美しい雪の東京は人々で賑わっています。カメラはにぎやかな街の通りを移動し、美しい雪の日を楽しんだり、近くの屋台で買い物をしたりする数人の人々を追っています。雪の結晶とともに、華やかな桜の花びらが風になびきます。 OpenAI は、Sora の現在の弱点を恥ずかしがらず、複雑なシーンの物理原理を正確にシミュレートすることが難しく、因果関係を理解できない可能性があることを指摘しています。

。

たとえば、「5 匹のハイイロオオカミの子が、人里離れた砂利道で遊んだり追いかけたりしていた。」オオカミの数は変化し、何匹かはどこからともなく現れたり消えたりします。

モデルは、

左と右の混同など、

#キューの空間的詳細を難読化することもあり、

特定のカメラの軌跡をたどるなど、時間の経過とともに発生するイベントを正確に記述するのは困難です。効果は爆発的！ OpenAI初のビデオ生成モデルがリリース、1分でスムーズかつ高解像度、ネチズン：業界全体が安らかに

たとえば、「バスケットボールがバスケットを通り抜けて爆発する」というプロンプトの単語では、バスケットボールはバスケットによって正しくブロックされていません。

OpenAI はテクノロジーに関しては、現時点ではあまり公開されていませんが、簡単に紹介すると次のとおりです。

Sora は 拡散モデル で、ノイズから開始してビデオ全体を一度に生成したり、ビデオの長さを延長したりできます。

重要なのはthat 一度に複数のフレームの予測を生成し、画像の被写体が一時的に視野から外れても変更されないようにします。

GPT モデルと同様に、Sora は拡張性の高い Transformer アーキテクチャを使用します。

データの観点から見ると、OpenAI は、GPT のトークンと同様に、ビデオと画像をパッチとして表します。

この 統一データ表現を使用すると、 さまざまな持続時間、解像度をカバーする、以前よりも広範囲の視覚データでモデルをトレーニングできるようになります。アスペクト比。 Sora は、DALL·E および GPT モデルに関する過去の研究に基づいて構築されています。 DALL・E 3 の再表現プロンプトワードテクノロジーを使用して、ビジュアルトレーニングデータに対して高度に説明的な注釈を生成するため、ユーザーのテキスト指示により忠実に従うことができます。

このモデルは、テキストの指示のみに基づいてビデオを生成できることに加えて、既存の静止画像を取得してそこからビデオを生成し、画像コンテンツを正確にアニメーション化し、細部に注意を払うこともできます。

モデルは、既存のビデオを取得して拡張したり、欠落したフレームを埋めたりすることもできます。詳細については、技術文書を参照してください

(後日リリース予定)

。 Sora は、現実世界を理解してシミュレーションできるモデルの基盤であり、OpenAI は、この機能が AGI を達成するための重要なマイルストーンになると考えています。

ウルトラマンはオンラインで注文を受け付けています