現代の人工知能芸術にインスピレーションを与える物理原理、生成型人工知能の可能性の探求はまだ始まったばかりです-AI-php.cn

OpenAI が作成した画像生成システム DALL・E 2 に「浜辺でコカ・コーラを飲む金魚」の絵を描かせると、シュールな画像が吐き出されます。プログラムはトレーニング中にビーチ、金魚、コカ・コーラの画像に遭遇しましたが、3 つすべての画像が同時に表示されることはほとんどありませんでした。しかし、DALL・E 2 はこれらのコンセプトを組み合わせて、ダリを誇りに思うものを生み出すことができました。

DALL・E 2 は生成モデルです。トレーニングデータを使用して、品質と多様性においてデータに匹敵する新しいものを生成しようとするシステムです。これは機械学習において最も難しい問題の 1 つであり、この点に到達するのは困難な道のりでした。

最初の重要な画像生成モデルは、ニューラルネットワークと呼ばれる人工知能手法を使用しました。ニューラルネットワークは、人工ニューロンと呼ばれる複数の層の計算ユニットで構成されるプログラムです。しかし、たとえ画質が向上したとしても、モデルの信頼性が低く、トレーニングが難しいことが判明しました。一方、物理学に情熱を注ぐポスドク研究者によって作成された強力な生成モデルは、2 人の大学院生が技術的進歩を遂げてこの野獣を復活させるまで眠っていました。

DALL・E 2 はまさに野獣です。 DALL・E 2 の画像や競合他社の Stable Diffusion や Imagen の画像を可能にする重要な洞察は、物理学の世界から得られます。それらを支えるシステムは拡散モデルと呼ばれ、流体や気体の拡散などの現象を支配する非平衡熱力学に大きく影響を受けています。 OpenAI の機械学習研究者であるヤン・ソン氏は、「もともと物理学者によって発明された技術が数多くあり、現在では機械学習において非常に重要になっている」と述べた。

これらのモデルの威力は業界とユーザーに衝撃を与えました。「今は生成モデルにとって刺激的な時期です」と、カリフォルニア工科大学のコンピューター科学者であり、Nvidia の機械学習研究シニアディレクターであるアニマアナンドクマール氏は述べています。

拡散モデルによって作成された現実的な画像は、社会的および文化的な偏見を永続させることがありますが、彼女は次のように述べています。

#高確率

画像のデータの作成方法を理解するには、2 つのフェーズから始めましょう。簡単な手順から始めましょう。隣接するグレースケールピクセルで構成される画像。この画像は、各ピクセルの色合いに基づいた 2 つの値 (完全な黒の 0 から完全な白の 255 まで) で完全に記述することができます。これら 2 つの値を使用して、画像を 2D 空間内の点としてプロットできます。

複数の画像を点としてプロットすると、クラスタリングが発生する可能性があります。一部の画像とそれに対応するピクセル値が他の画像よりも頻繁に表示されます。ここで、平面の上に曲面があり、その曲面の高さがクラスターの密度に対応していると想像してください。この曲面は確率分布をプロットします。単一のデータポイントがサーフェスの最も高い部分の下に見つかる可能性が最も高く、サーフェスの最も低い部分の下にあることはほとんどありません。

現代の人工知能芸術にインスピレーションを与える物理原理、生成型人工知能の可能性の探求はまだ始まったばかりです

DALL・E 2 は、「ビーチでコカ・コーラを飲む金魚」の画像を作成しました。 OpenAI によって作成されたこのプログラムは、同様の画像に遭遇したことがないかもしれませんが、それでも独自に画像を生成できます。

これで、この確率分布を使用して新しい画像を生成できるようになります。必要なのは、より多くの可能性のあるデータをより頻繁に生成するという制約に従いながら、新しいデータポイントをランダムに生成することだけです。これは、分布の「サンプリング」と呼ばれるプロセスです。新しい点はそれぞれ新しい画像です。

同じ分析が、それぞれ 100 万ピクセルなど、より現実的なグレースケール写真にも適用されます。今では、2 つの軸の代わりに、各イメージを描画するのに 100 万の軸が必要になります。このような画像の確率分布は、100 万プラス 1 次元の複雑な曲面になります。この分布をサンプリングすると、100 万個のピクセル値が生成されます。これらのピクセルを紙に印刷すると、画像は元のデータセットの写真のように見える可能性が高くなります。

生成モデリングの課題は、トレーニングデータを構成するいくつかの画像セットについて、この複雑な確率分布を学習することです。この分布が役立つ理由の 1 つは、データに関する幅広い情報を取得できるためであり、また、研究者がテキストや画像などのさまざまな種類のデータからの確率分布を組み合わせて、金魚が水を飲むなどの超現実的な出力を作成できるためです。ビーチでコカコーラを飲みます。「さまざまな概念を組み合わせて組み合わせることができ、トレーニングデータでは見たことのないまったく新しいシナリオを作成できます」とアナンドクマール氏は述べています。

2014 年、敵対的生成ネットワーク (GAN) と呼ばれるモデルが初めてリアルな画像を生成しました。「とてもエキサイティングだ」とアナンドクマール氏は語った。しかし、GAN はトレーニングが困難です。GAN は完全な確率分布を学習することはできず、分布のサブセットからのみ画像を生成する可能性があります。たとえば、さまざまな動物の画像でトレーニングされた GAN は犬の画像のみを生成する可能性があります。

機械学習には、より強力なモデルが必要です。物理学にインスピレーションを受けて研究を行っているヤッシャ・ソール・ディックスタインが答えを出してくれます。

現代の人工知能芸術にインスピレーションを与える物理原理、生成型人工知能の可能性の探求はまだ始まったばかりです

ヤッシャ・ソール＝ディックスタイン。

興奮スポット

GAN の発明の前後、Sohl-Dickstein はスタンフォード大学の博士研究員として生成モデルを研究していました, 非平衡熱力学にも興味があります。この物理学の分野では、熱平衡にないシステム、つまり物質とエネルギーを内部および環境と交換するシステムを研究します。

わかりやすい例は、水の入った容器に広がる青いインクの滴です。最初は一か所に黒い斑点ができます。この時点で、容器の小さな体積内でインク分子が見つかる確率を計算したい場合は、インクが広がり始める前の初期状態を明確にモデル化する確率分布が必要です。しかし、この分布は複雑なので、そこからサンプリングするのは困難です。

しかし、最終的にはインクが水全体に広がり、水が水色に変わります。これにより、単純な数式で記述される分子のより単純でより均一な確率分布が可能になります。非平衡熱力学は、拡散プロセスの各ステップにおける確率分布を記述します。重要なのは、各ステップが可逆的であることです。十分に小さなステップで、単純な分布から複雑な分布に戻ることができます。

現代の人工知能芸術にインスピレーションを与える物理原理、生成型人工知能の可能性の探求はまだ始まったばかりです

Jascha Sohl-Dickstein は、拡散原理に基づいた新しい生成モデリングアプローチを作成しました。 ——宮川麻子

Sohl-Dickstein は、拡散原理を使用した生成モデリングアルゴリズムを開発しました。アイデアはシンプルです。アルゴリズムは、まずトレーニングデータセット内の複雑な画像を単純なノイズに変換します (インク滴から水の拡散した水色に変化するのと同じです)。次に、そのプロセスを逆に変換する方法をシステムに教えます。画像にノイズが入ります。

仕組みは次のとおりです。まず、アルゴリズムはトレーニングセットから画像を取得します。前と同様に、100 万ピクセルのそれぞれが何らかの値を持っていると仮定すると、画像を 100 万次元空間内の点としてプロットできます。このアルゴリズムは、各タイムステップで各ピクセルにノイズを追加します。これは、小さなタイムステップ後のインクの広がりに相当します。このプロセスが続くと、ピクセル値は元の画像の値との関連性が薄れ、ピクセルは単純なノイズ分布のように見えます。 (また、アルゴリズムは、原点に向かって少しずつステップを踏むたびに、各ピクセル値を微調整します。原点は、これらすべての軸のゼロ値です。この微調整により、ピクセル値がコンピューターで簡単に処理できないほど大きくなるのを防ぎます。)

データセット内のすべての画像に対してこれを行うと、100 万次元空間内の点の最初の複雑な分布 (簡単に記述したりサンプリングしたりすることはできません) が、原点を中心とする単純な正規分布になります。

Sohl-Dickstein 氏は次のように述べています:「変換シーケンスは非常にゆっくりとデータ分布を大きなノイズの塊に変えます。」この「前方プロセス」により、分布を簡単にサンプリングできるサンプルが得られます。

次は機械学習部分です。フォワードパスから取得したノイズの多い画像をニューラルネットワークに供給し、1 ステップ前に出現したノイズの少ない画像を予測するようにトレーニングします。最初は間違いが発生するため、ネットワークのパラメーターを調整して、より適切に動作できるようにします。最終的に、ニューラルネットワークは、単純な分布のサンプルを表すノイズの多い画像を、複雑な分布のサンプルを表す画像に確実に変換できます。

#トレーニングされたネットワークは、成熟した生成モデルです。これで、前方パスを実行するために元の画像さえ必要なくなりました。単純な分布の完全な数学的記述が得られたので、そこから直接サンプリングすることができます。ニューラルネットワークは、このサンプル (本質的には静的なもの) を、トレーニングデータセット内の画像に似た最終画像に変換できます。

Sohl-Dickstein は、彼の拡散モデルの最初の出力を思い出します。「あなたは目を細めて『あの色のかたまりはトラックに見えると思う』と言います」と彼は言う。「何ヶ月もかけてさまざまなピクセルパターンを見つめ、気に入った構造を見つけようとしました。[これまでに得たものよりもさらに整理されています]。とても興奮しています。」

##今後の展望

Sohl-Dickstein は 2015 年に拡散モデルアルゴリズムを公開しましたが、依然として GAN の機能には大きく遅れています。拡散モデルは分布全体をサンプリングでき、画像のサブセットだけを吐き出すことはありませんが、画像の見栄えは悪くなり、プロセスは遅すぎます。「当時は興奮するようなものではなかったと思います」とソールディックスタイン氏は語った。

現代の人工知能芸術にインスピレーションを与える物理原理、生成型人工知能の可能性の探求はまだ始まったばかりです

#論文アドレス:

https://doi.org/10.48550/arXiv.1503.03585 Sohl-Dickstein もお互いのことも知らない 2 人の学生が、オリジナルの作品から DALL・E 2 などの最新の普及モデルに点を結びつけるのにかかりました。一人目はソング氏で、当時スタンフォード大学の博士課程の学生だった。 2019 年に、彼と彼の指導者は、データ (高次元曲面) の確率分布を推定しない生成モデルを構築するための新しい方法を発表しました。代わりに、分布の勾配を推定します (高次元の曲面の勾配と考えてください)。

現代の人工知能芸術にインスピレーションを与える物理原理、生成型人工知能の可能性の探求はまだ始まったばかりです

Yang Song は、ノイズの多い画像を効率的に解釈するようにネットワークをトレーニングすることで画像を生成する新しい手法の提案に貢献しました。

ソング氏は、最初にトレーニングデータセット内の各画像にノイズレベルを増加させて摂動させ、その後、分布の勾配を使用してニューラルネットワークに元の画像を予測させると、それを消すには、彼のテクニックが最高の効果を発揮した。トレーニングが完了すると、彼のニューラルネットワークは単純な分布からノイズの多い画像を描画し、それらをトレーニングデータセットを表す画像に徐々に変換して戻すことができます。画質は素晴らしいですが、機械学習モデルのサンプリングが非常に遅いです。そして彼は、ソール=ディックシュタインの作品について何も知らずにそれを行いました。「拡散モデルについては何も知りませんでした」とソン氏は語った。「2019 年の論文が発表された後、ヤッシャからメールを受け取りました。彼は、[私たちのモデルは] 非常に密接に関連していると私に指摘しました。」

2020 2 人目の学生はこれらの関連性を発見しました。そして、ソングの研究がソール=ディックスタインの普及モデルを改善できる可能性があることに気づきました。 Jonathan Ho は最近、カリフォルニア大学バークレー校で生成モデリングの博士号研究を終了しましたが、まだ研究を続けています。「これは機械学習の数学的に最も美しい下位分野だと思います」と彼は言う。

Ho は、Song のアイデアやニューラルネットワーク分野のその他の進歩の一部を使用して、Sohl-Dickstein の拡散モデルを再設計および更新しました。「コミュニティの注目を集めるためには、美しいサンプルを生成するモデルが必要であることはわかっていました」と彼は言いました。「それが当時私にできる最も重要なことだと確信していました。」

彼の直感は正しかった。 Ho 氏らは、この新しく改良された拡散モデルを「Denoising Probabilistic Diffusion Models」というタイトルの 2020 年の論文で発表しました。これはすぐに画期的なものとなり、研究者たちは現在それを単に DDPM と呼んでいます。生成された画像の分布とトレーニング画像の分布を比較する画質ベンチマークでは、これらのモデルは、GAN を含む競合するすべての生成モデルと同等かそれを上回りました。大企業が注目するのに時間はかかりませんでした。現在、DALL·E 2、Stable Diffusion、Imagen、およびその他の商用モデルでは、DDPM のバリエーションが使用されています。

Jonathan Ho 氏らは、Sohl-Dickstein 氏と Song 氏の手法を組み合わせて、DALL E2 などの最新の普及モデルを可能にしました。

現代の普及モデルには、GPT-3 などの大規模言語モデル (LLM) という重要な要素もあります。これらは、画像ではなく単語の確率分布を学習するためにインターネットのテキストでトレーニングされた生成モデルです。 2021 年、ホー氏（現在はステルス企業の研究科学者）と、Google Research やその他のグループの同僚のティム・サリマンス氏は、LLM からの情報とテキストを使用した画像生成拡散モデルを組み合わせる方法を示しました（例: 「コカ・コーラをすする金魚」） on the Beach") を使用して拡散プロセスをガイドし、画像生成を行います。この「誘導拡散」プロセスが、DALL・E 2 などのテキストから画像へのモデルの成功の背後にあります。

「彼らは私の予想をはるかに超えていました」とホー氏は語った。「すべてを見たふりをするつもりはない。」同業者の画像はまだ完璧には程遠い。大規模な言語モデルでは、生成されるテキストに人種差別や性差別などの文化的および社会的偏見が反映される可能性があります。それは、彼らがインターネットから取得したテキストに基づいて訓練されているためであり、多くの場合、人種差別的および性差別的な言葉が含まれています。このようなテキストの確率分布を学習する LLM には、同じバイアスが伴います。拡散モデルは、同様に偏ったデータが含まれている可能性がある、インターネットから取得した未管理の画像でもトレーニングされます。 LL.M. と今日のコミュニケーションモデルを組み合わせると、社会悪を反映したイメージが生成されることがあるのも不思議ではありません。

アナンドクマールには個人的な経験があります。彼女は、拡散モデルに基づいたアプリケーションを使用して自分の様式化されたアバターを生成しようとしたときにショックを受けました。「そのため、[多くの]画像は非常に性的です。そして、それが男性に提示するものはそうではありません。」彼女は一人ではありません。

これらのバイアスは、データの並べ替えとフィルター処理 (データセットのサイズが非常に大きいため、非常に困難なタスク) またはこれらのモデルの入力キューと出力を調べることによって軽減できます。ホー氏は、モデルの「慎重かつ広範なセキュリティテストに代わるものはない」と述べた。「これはこの分野にとって重要な課題です。」

こうした懸念にもかかわらず、アナンドクマール氏は依然として生成モデリングの力を信じています。「私はリチャード・ファインマンの『私に作れないものは理解できない』という言葉がとても好きです」と彼女は言います。理解が進むことで、彼女のチームは生成モデルを開発できるようになり、たとえば、顔認識のための肌の色を暗くするなど、予測タスクで過小評価されているクラスの合成トレーニングデータを生成し、公平性の向上に役立ちます。生成モデルは、私たちの脳がノイズの多い入力をどのように処理するか、または脳がどのように精神的なイメージを呼び起こし、将来の行動を検討するかについての洞察も与えてくれます。より複雑なモデルを構築すると、AI に同様の機能が与えられる可能性があります。

アナンドクマール氏は次のように述べています。「私たちは、生成人工知能の可能性を模索し始めたばかりだと思います。」

以上が現代の人工知能芸術にインスピレーションを与える物理原理、生成型人工知能の可能性の探求はまだ始まったばかりですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。