顔文字から映画を推測できますが、ChatGPT の「出現」能力はどこから来るのでしょうか?-AI-php.cn

ChatGPT のような大規模な言語モデルが十分に強力になった今、それらは驚くべき予測不可能な動作を示し始めています。

この記事を正式に紹介する前に、まず質問をさせてください。下の写真の絵文字はどの映画について説明していますか?

顔文字から映画を推測できますが、ChatGPT の「出現」能力はどこから来るのでしょうか?

あなたはそれを推測することすらできないかもしれません。これら 4 つの記号で表される映画は「ファインディングニモ」です。このプロンプトタスクは、大規模言語モデル (LLM) を評価することでした。 ) 昨年の204. 課題の一つ。最も単純な LLM モデルの場合、与えられる答えはややランダムであり、この映画はある男の物語を語っていると考えられますが、比較的複雑な中型モデルの場合、与えられる答えは「The Emoji Movie」となります。とても近いです。しかし、最も複雑なモデルはそれを正しく推測し、「ファインディングニモ」という答えを出しました。

Google のコンピュータ科学者イーサンダイアー氏は次のように述べています。「モデルのこの動作は驚くべきことです。さらに驚くべきことは、これらのモデルは命令のみを使用していることです。つまり、テキスト文字列を入力として受け入れ、次に何を予測するのかということです」一部の学者は、モデルのサイズを増やすことで既知のタスクを解決するパフォーマンスが向上すると期待し始めましたが、これらのモデルが突然現れるとは予想していませんでした。非常に多くの新しい予測不可能なタスクを処理できるようになります。

Ethan Dyer が実施した最近の調査では、LLM が何百もの「緊急」機能、つまり、小規模モデルでは完了できない特定のタスクを大規模モデルが完了できる機能を作成できることが示されています。明らかに、単純な乗算から実行可能なコンピューターコードの生成、絵文字に基づく映画のデコードまで、モデルを拡張する能力が向上しています。新しい分析によると、特定のタスクおよび特定のモデルには、モデルの機能がそれを超えると急激に増加する複雑さのしきい値が存在します。しかし、研究者らはモデルのスケーリングによるマイナスの影響も指摘しています。複雑さが増すにつれて、一部のモデルは応答に新たなバイアスや不正確さを示します。

「私が知っているすべての文献の中で、このようなことを行う言語モデルについて議論したことはありません」と、スタンフォード大学のコンピュータ科学者であるリシ・ボンマサニ氏は言う。彼は昨年、次の内容の文書の編集に協力した。数十のモデル Ethan Dyer のプロジェクトで特定されたいくつかを含む、新たな動作のリスト。現在、そのリストは増え続けています。

今日、研究者たちは、大規模モデルの新たな機能を特定するだけでなく、それらがなぜどのように発生するのかを解明しようと競い合っており、本質的には予測不可能性を予測しようとしています。その創発的な性質を理解すると、複雑なモデルが実際に何か新しいことを行っているのか、単に統計が非常に得意になっているのかなど、人工知能と機械学習に関連する深い疑問に対する答えが明らかになる可能性があります。さらに、研究者が潜在的な利点を活用し、新たなリスクを軽減するのに役立ちます。

出現

生物学者、物理学者、生態学者、およびその他の科学者は、物事の大きなグループが単位として機能するときに発生する自己組織化された集合体、つまり性的行動を説明するために、出現という用語を使用します。無生物の原子の組み合わせが生きた細胞を生み出し、水分子が波を生み出し、ムクドリの群れが刻々と変化しながらも認識可能な形で空を飛ぶ壮大な自然の光景、細胞が筋肉を動かし、心臓を鼓動させます。重要なことは、多くの独立した部分を含むシステムでは、新たな機能が発生することです。しかし、モデルが十分に大規模に成長したばかりであるため、研究者が LLM のこの新たな力を文書化できたのはつい最近のことです。

言語モデルは何十年も前から存在しています。 5 年ほど前までは、最も強力なモデルはリカレントニューラルネットワークに基づいていました。これらのモデルは基本的にテキスト文字列を受け取り、次の単語が何であるかを予測します。モデルループの特徴は、モデル自体の出力から学習することです。その予測はネットワークにフィードバックされ、将来のパフォーマンスが向上します。

2017 年、Google Brain の研究者は、Transformer と呼ばれる新しいアーキテクチャを導入しました。リカレントネットワークは文を単語ごとに分析しますが、Transformer はすべての単語を同時に処理します。これは、Transformer が大量のテキストを並行して処理できることを意味します。

「モデルは、小規模なモデルでは学習できなかった、根本的に新しくて異なる何かを学習した可能性があります」とブラウン大学のエリー・パブリック氏は言う。

トランスフォーマーは、モデル内のパラメーターの数などを増やすことによって、言語モデルの複雑さを迅速にスケールアップできます。これらのパラメーターは単語間のつながりと考えることができ、トレーニング中にテキストをシャッフルすることで、トランスフォーマーはこれらのつながりを調整してモデルを改善できます。モデル内のパラメータが多いほど、より正確に接続できるようになり、人間の音声の模倣に近づくことができます。予想通り、OpenAI 研究者による 2020 年の分析では、モデルがスケールするにつれて精度と能力が向上することがわかりました。

しかし、大規模な言語モデルの出現は、本当に予期せぬ多くのことももたらしました。 1,750 億のパラメータを持つ GPT-3 や 5,400 億のパラメータに拡張できる Google PaLM のようなモデルの出現により、ユーザーはますます多くの新しい動作を記述し始めています。ある DeepMind エンジニアは、ChatGPT に Linux 端末であることを認めさせ、最初の 10 個の素数を計算する簡単な数学コードを実行させることができたとさえ報告しました。特に、実際の Linux デバイスで同じコードを実行するよりもはるかに速くタスクが完了します。

絵文字を通じて映画を説明するタスクと同様に、研究者らは、テキストを予測するために構築された言語モデルがコンピューター端末を模倣するために使用されると考える理由はありませんでした。これらの新たな動作の多くは、ゼロショット学習または少数ショット学習を示しており、これまでに遭遇したことのない (またはめったにない) 問題を解決する LLM の能力を表しています。これは人工知能研究の長期的な目標であるとガングリ氏は語った。また、GPT-3 が明示的なトレーニングデータなしでもゼロショット設定で問題を解決できることも示されたとガングリ氏は述べ、「そのおかげで、私は今までやっていたことをやめて、この研究にもっと参加するようになりました。」と述べています。この研究分野では彼だけではありません。 LLM がトレーニングデータの制限を超えられるという最初の手がかりが、創発がどのようなもので、どのように発生するのかをより深く理解しようと取り組んでいる多くの研究者によって発見されました。そして最初のステップは、それを徹底的かつ包括的に文書化することです。

Ethan Dyer は、大規模な言語モデルがどのような予期せぬ機能を備えているのか、またそれが何をもたらすのかを調査するのに役立ちます。 -ガブリエル・ルーリー未解決の問題は何ですか。したがって、彼らは研究コミュニティに対し、LLM が実行できる追跡の限界を文書化するために、困難で多様なタスクの例を提供するよう依頼しました。アラン・チューリングの模倣ゲームから名前を借用したBIGベンチ（Beyond the Imitation Game Benchmark）プロジェクトとして知られるこの取り組みは、コンピューターが人間らしい方法で質問に答えることができるかどうかをテストすることを目的としている。 (これはチューリングテストとして知られるようになりました。) 研究グループは、LLM が突然前例のない新しい能力を獲得する例に特に興味を持っていました。

ご想像のとおり、一部のタスクでは、複雑さが増すにつれてモデルのパフォーマンスが一貫して予測どおりに向上します。他のタスクでは、パラメーターの数を増やしてもモデルのパフォーマンスは向上しませんでした。そして、タスクの約 5% について、研究者らはブレークスルーと呼ぶもの、つまり特定のしきい値内でパフォーマンスが急速かつ劇的に向上することを発見しました。ただし、このしきい値はタスクとモデルによって異なります。
たとえば、パラメータが比較的少ない (わずか数百万) モデルは、3 桁の加算または 2 桁の乗算の問題を正常に完了できない可能性がありますが、パラメータが数百億ある場合、モデルによっては、計算精度が飛躍的に高まります。同様のパフォーマンスの上昇は、国際音声アルファベットの解読、単語の文字の解読、ヒングリッシュ (ヒンディー語と英語の組み合わせ) の文章内の不快な内容の特定、スワヒリ語に関連するテキストの生成など、他の多くのタスクでも見られました。英語のことわざに相当するもの。

しかし、研究者たちは、モデルの複雑さだけがそのパフォーマンスを左右するわけではないことにすぐに気づきました。データ品質が十分に高い場合、パラメーターが少ない小さなモデルから、または小さなデータセットでトレーニングされた、いくつかの予期せぬ機能が得られる可能性があります。さらに、クエリの表現方法がモデルの応答の精度に影響を与える可能性があります。たとえば、Dyer 氏と同僚が映画の絵文字タスクに多肢選択形式を使用した場合、精度は急激には向上しませんでしたが、モデルの複雑さが増加するにつれて徐々に向上しました。昨年、この分野のトップ学術会議である NeurIPS で発表された論文で、Google Brain の研究者は、プロンプトを備えたモデルがどのようにそれ自体を説明できるのか (思考連鎖推論として知られる能力) を示しました。プロンプトのない同じモデルでは解決できないでしょう。

モデルサイズの影響を調査するまでは、モデルにどのような機能があり、どのような欠陥があるのかわかりません。

Google Brain の体系的研究科学者である Yi Tay 氏は、最近の研究では、思考チェーンのプロンプトによって展開曲線が変化し、それによってモデルが出現するノードが変化することが示されていると指摘しました。 NeurIPS 論文の中で、Google の研究者らは、思考連鎖プロンプトを使用すると、BIG ベンチ調査では特定されなかった新たな行動を引き出す可能性があることを示しています。このようなプロンプトは、その推論を説明するモデルを必要とするため、研究者がなぜ創発が起こるのかを調査し始めるのに役立つ可能性があります。

これらの最近の発見は、創発が起こる理由について少なくとも 2 つの可能性を示唆している、とブラウン大学のコンピュータ科学者で言語の計算モデルを研究しているエリー・パブリック氏は述べた。 1 つ目の可能性は、生物学的システムとの比較が示すように、より大きなモデルが新しい能力を自発的に獲得するということです。モデルが、小規模なモデルでは得られなかった、まったく新しい、異なる何かを学習した可能性は十分にあります。これは、モデルがスケールアップされたときに根本的な何かが起こることを私たち全員が望んでいることです。

Ellie Pavlick は、もう 1 つの比較的正常で客観的な可能性として、創発的に見えるものが、むしろ思考連鎖推論を通じて機能する内部の統計的に駆動されたプロセスの頂点である可能性があることも指摘しました。大規模な LLM は、パラメータが少ない、またはデータの品質が低い小規模なモデルでは理解できないヒューリスティックを学習しているだけである可能性があります。

しかしパブリック氏は、モデルの根底にある動作メカニズムがどのようになっているのかわからないため、何が起こっているのかを知ることはできないと考えています。

予測できない機能と欠陥

しかし、大きなモデルにも欠陥があります。たとえば、Google が少し前に発売した人工知能チャットロボットの Bard は、ジェームズウェッブ宇宙望遠鏡に関する質問に答えました。事実誤認をする。

創発は予測不可能性をもたらしますが、予測不可能性はモデルのサイズが大きくなるにつれて増大するように見えますが、研究者にとって制御するのは困難です。

「これらのモデルがどのように使用または展開されるかを事前に知るのは困難です」とガングリ氏は言います。「創発的な現象を研究するには、モデルのサイズの影響を研究するまで、その現象がどのような機能を持ち、どのような欠陥があるのかが分からないという状況を考慮する必要があります。」

昨年 6 月に出版LLM 分析では、人間学の研究者らは、LLM に基づいておらず、どの元犯罪者が再犯する可能性が高いかを予測するために使用されていた以前のアルゴリズムとは異なり、これらのモデルが特定の種類の人種的または社会的偏見を示すかどうかを調べました。この研究は、創発に直接関係する明らかな矛盾に触発されました。つまり、モデルがスケールアップするにつれてパフォーマンスが向上する一方で、バイアスや危害を引き起こす可能性のある現象を含む、予測不可能な現象が発生する可能性も高まる可能性があります。

「特定のモデルでは、特定の有害な動作が発生する可能性があります」とガングリ氏は語った。彼は、BBQ ベンチマークとしても知られる LLM の最近の分析を指摘し、社会的偏見が広範囲のパラメータにわたって現れることを示しました。同氏は、「大規模なモデルは突然より偏りを持つようになる」と述べ、リスクに対処しなければこれらのモデルの使用が危うくなる可能性があると述べた。

しかし、彼はまた、「研究者がモデルに、固定観念や社会的偏見に頼らないように指示するだけで (文字通り、これらの指示を入力することによって)、モデルの予測と応答が改善されます。バイアスは小さくなります。」と反論しました。これは、いくつかの創発的な特性もバイアスを減らすために使用できる可能性があることを示唆しています。 2月に発表された論文で、Anthropicチームは、ユーザーがプログラムに有益で正直で無害になるよう促すという、道徳的自己修正の新しいモードを報告した。

Ganguli 氏は、創発によって大規模な言語モデルの驚くべき可能性とその予測不可能なリスクの両方が明らかになったと述べました。これらの LLM のアプリケーションは急増しているため、この二重性をより深く理解することは、言語モデルの機能の多様性を活用するのに役立ちます。

Ganguli 氏は次のように述べています。「私たちはユーザーが実際にこれらのシステムをどのように使用するかを研究していますが、ユーザーは常にこれらのシステムをいじくり回して改善しています。私たちはモデルとチャットして使用することに多くの時間を費やしています。その方がうまくいきました。」実際、それが私たちがこれらのモデルを信頼し始めたときです。」

以上が顔文字から映画を推測できますが、ChatGPT の「出現」能力はどこから来るのでしょうか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。