ChatGPT と Midjourney の人気により、その背後にあるテクノロジー拡散モデルが「生成 AI」革命の基盤になりました。
それでも、業界の研究者からの人気は高く、その人気はかつて世界を襲った GAN をはるかに上回っています。
拡散モデルが最も強力だったとき、一部のネチズンが突然大々的に発表しました:
拡散モデルの時代は終わった!一貫性のあるモデルが王の座に就きます。
一体それは何でしょうか? ? ?
OpenAI が 3 月に大ヒットかつ貴重な論文「Consistency Models」を発表し、本日 GitHub でモデルの重みを公開したことがわかりました。
紙のアドレス: https://arxiv.org/abs/2303.01469
プロジェクトアドレス: https://github.com/openai/consistency_models
トレーニング速度における「一貫性モデル」拡散モデルに比べて「ワン ステップで生成」 できるため、拡散モデルよりも 1 桁速く単純なタスクを完了でき、使用する計算量は 10 ~ 2000 分の 1 です。
それでは、どれくらい速いのでしょうか?一部のネチズンは、これは解像度 256x256 の画像 64 枚を約 3.5 秒で生成するのと同等、つまり 1 秒あたり
18 枚の画像を生成することに相当すると述べています。
さらに、最新モデルの主な利点の 1 つは、手間をかけずに高品質のサンプルを実現できることです。 「敵対的トレーニング」用。
##この研究
は、チューリングのビッグスリーのヒントンの学生の一人であり、主要な推進者であるイリヤ・サツケヴァーによって実施されました。 AlexNet の 氏と、DALL-E 2 を開発した中国人学者の Mark Chen 氏と Prafulla Dhariwal 氏が執筆したことからも、その研究内容がいかにハードコアであるかが想像できるでしょう。一部のネチズンは、「一貫性モデル」が将来の研究の方向性であるとさえ言っていますが、将来的には間違いなく拡散モデルを笑いものにするだろうと私は信じています。
#つまり、普及モデルも消滅するということでしょうか?
より速く、より強く、対立する必要はありません現時点では、この論文はまだ最終版ではなく、研究が継続中です。
2021 年、OpenAI CEO のサム アルトマンは、ムーアの法則をあらゆる分野にどのように適用すべきかについて議論するブログを書きました。
アルトマン氏は少し前に Twitter で人工知能について公に語り、人工知能は「リープフロッグ」を達成しつつあると述べました。彼は、「宇宙の知性体の数が 18 か月ごとに 2 倍になるという、新しいバージョンのムーアの法則が間もなく登場するかもしれません。」
他の人にとって、アルトマンの楽観主義は根拠がないように見えるかもしれません。
しかし、OpenAI の主任科学者イリヤ・サツケヴァー率いるチームが実施した最新の研究は、アルトマン氏の主張を強力に裏付けています。
#普及モデルに基づいたモデルが多いため、2022 年は AIGC 元年と言われています。普及モデルの人気が徐々に GAN に取って代わり、現在の業界で最も効果的な画像生成モデルになりました。たとえば、DALL.E 2 と Google Imagen は両方とも普及モデルです。
しかし、新たに提案した「一貫性モデル」は、拡散モデルと同等の品質のコンテンツをより短時間で出力できることが実証されました。
これは、この「一貫性モデル」が GAN と同様の単一ステップの生成プロセスを使用しているためです。
対照的に、拡散モデルでは、繰り返しのサンプリング プロセスを使用して、画像内のノイズを徐々に除去します。
この方法は印象的ではありますが、良好な結果を得るには数百から数千のステップを実行する必要があり、運用コストがかかるだけでなく、時間がかかります。
#拡散モデルの継続的反復生成プロセスでは、「一貫性モデル」の計算よりも 10 ~ 2000 回多くの計算が必要になります。トレーニング中の推論も遅くなります。
「一貫性モデル」の力は、必要に応じてサンプルの品質とコンピューティング リソースの間でトレードオフを行う機能にあります。
さらに、このモデルは、画像のパッチング、色付け、ストローク ガイド付き画像編集などのゼロショット データ編集タスクを実行できます。
# LSUN Bedroom 256^256 ## で蒸留によってトレーニングされたコンセンサス モデルを使用したゼロショット画像編集
#「一貫性モデル」は、数式を使用するときにデータをノイズに変換し、結果として得られる出力が類似のデータ ポイントに対して一貫していることを保証し、それによってスムーズな移行を可能にします。
このタイプの方程式は、「確率フロー常微分方程式」(確率フロー ODE) と呼ばれます。
この研究では、このようなモデルが入力データと出力データの間で自己一貫性を維持しているため、このようなモデルを「一貫性」と名付けました。
これらのモデルは、蒸留モードまたは分離モードのいずれかでトレーニングできます。
蒸留モードでは、モデルは事前トレーニングされた拡散モデルからデータを抽出でき、単一ステップで実行できます。
分離モードでは、モデルは拡散モデルにまったく依存せず、完全に独立したモデルになります。
両方のトレーニング方法で「敵対的トレーニング」が削除されていることは注目に値します。
敵対的トレーニングによって確かにより強力なニューラル ネットワークが生成されることは認めざるを得ませんが、そのプロセスはより回りくどいものになります。つまり、誤って分類された敵対的サンプルのセットを導入し、ターゲットのニューラル ネットワークを正しいラベルで再トレーニングします。
したがって、敵対的トレーニングは深層学習モデルの予測精度のわずかな低下にもつながり、ロボット アプリケーションに予期しない副作用をもたらす可能性もあります。
実験結果は、「一貫性モデル」のトレーニングに使用される蒸留技術が、拡散モデルに使用される技術よりも優れていることを示しています。
「整合性モデル」は、CIFAR10 イメージ セットと ImageNet 64x64 データ セットで、それぞれ 3.55 と 6.20 という最新の最先端 FID スコアを達成しました。
#これをシンプルに実現した普及モデルのクオリティGAN はスピードも二重に完璧です。
Sutskever 氏は 2 月、次のことを示唆するツイートを投稿しました。
多くの人は、AI の大きな進歩には新しい「アイデア」が含まれているに違いないと信じています。しかし、そうではありません。AI の最大の進歩の多くは、よく知られた素朴なアイデアの形で実現されており、うまく行えば信じられないほどの成果が得られます。最新の研究はまさにそれを証明しており、古い概念を微調整することですべてを変えることができます。 #著者紹介
OpenAI の共同創設者兼主任科学者として、Ilya Sutskever 詳細は説明する必要はありませんが、この「トップパフォーマー」の集合写真を見てください。
(写真の右端)Yang Song (Song Yang)
論文の筆頭著者である Song Yang は、OpenAI の研究員です。
以前、清華大学で数学と物理学の学士号を取得し、スタンフォード大学でコンピュータ サイエンスの修士号と博士号を取得しました。さらに、Google Brain、Uber ATG、Microsoft Research でインターンを経験しました。
機械学習の研究者として、彼は複雑な高次元データをモデル化、分析、生成するためのスケーラブルな手法の開発に重点を置いています。彼の興味は、生成モデリング、表現学習、確率論的推論、人工知能のセキュリティ、科学用 AI など、複数の分野に及びます。
Mark Chen は、OpenAI のマルチモーダルかつ最先端の研究部門の責任者です。彼は米国コンピュータオリンピックチームのコーチでもあります。
以前、彼は MIT で数学とコンピューター サイエンスの学士号を取得し、ジェーン ストリート キャピタルを含むいくつかの私設取引会社でクオンツ トレーダーとして働いていました。
OpenAI に入社後、チームを率いて DALL-E 2 を開発し、GPT-4 にビジョンを導入しました。さらに、Codex の開発を主導し、GPT-3 プロジェクトに参加し、Image GPT を作成しました。
興味深いことに、拡散モデルは画像生成の分野で GAN に勝つことができます。これは、2021 年の NeurIPS 論文で彼が提案したものです。
ネチズン: ついに Open AI に戻ってきましたOpenAI は一貫性のあるソース コードを公開しました今日のモデル。
最後に Open AI の話に戻ります。
毎日、非常に多くのクレイジーな画期的な進歩や発表に直面しています。ネチズンは「休憩したほうがいいですか、それともスピードを上げるべきですか?」と尋ねました。
#これにより、研究者は拡散モデルと比較してモデルのトレーニングにかかるコストを大幅に節約できます。
一部のネチズンは、リアルタイム編集、NeRF レンダリング、リアルなど、「一貫性モデル」の将来の使用例も挙げています。 -時間ゲームのレンダリング。
現時点ではデモはありませんが、画像生成の速度が大幅に向上し、常に優れていることを確認する価値があります。
ダイヤルアップからブロードバンドに直接アップグレードしました。
ブレイン コンピューター インターフェイスと、ほぼリアルタイムで生成される超リアルな画像。
以上がOpenAI は新しい一貫性モデルをリリースし、GAN 速度は 18FPS に達し、リアルタイムで高品質の画像を生成できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。