スタンフォード大学の最新の研究は、大規模なモデルが出現する能力をあまり信じすぎないようにと私たちに思い出させます。なぜなら、これは指標の選択の結果にすぎないからです。

WBOY
リリース: 2023-05-09 09:55:09
転載
1421 人が閲覧しました

「大規模モデルの出現について迷信しすぎないでください。世界のどこにこれほど多くの奇跡があるのでしょうか?」スタンフォード大学の研究者らは、大規模モデルの出現が社会の評価指標と強く関連していることを発見しました。モデルの動作が特定のタスクやタスクに関連しているというわけではありません。スケールの基本的な変化については、より連続的で滑らかな指標をいくつか置き換えた後、創発現象はあまり目立たなくなり、線形に近づきます。

最近、研究者らは、GPT、PaLM、LaMDA などの大規模言語モデル (LLM) が、さまざまなタスクでいわゆる「創発機能」を発揮できることを観察しました。機械学習の分野で多くの注目を集めました:

スタンフォード大学の最新の研究は、大規模なモデルが出現する能力をあまり信じすぎないようにと私たちに思い出させます。なぜなら、これは指標の選択の結果にすぎないからです。

実際、新興性質は常に物理学、生物学、数学、その他の分野の研究の焦点となってきました。

注目すべき点は、ノーベル賞受賞者のP.W.アンダーソンが「More Is Different」を提唱したことです。この見解では、システムの複雑さが増すにつれて、たとえシステムの微視的な詳細の正確な定量的理解から(容易に、またはまったく)予測されなかったとしても、新しい特性が実現する可能性があると考えられます。

大規模モデルの分野で「創発」を定義するにはどうすればよいですか?これを口語的に言うと、「小規模モデルには存在しないが、大規模モデルには存在する機能」であるため、小規模モデルのパフォーマンス向上を単純に推定するだけでは予測できません。

この新たな能力は、GPT-3 ファミリーで最初に発見された可能性があります。その後のいくつかの研究では、この発見が強調されました。「モデルのパフォーマンスは一般的なレベルでは予測可能ですが、特定のタスクでは、そのパフォーマンスがまったく予測不可能なスケールで現れることがあります。」実際、これらの新たな機能は非常に驚くべきものであるため、「機能の突然の特定の拡張」が LLM の 2 つの最も特徴的な特徴の 1 つとして挙げられています。また、「突破力」や「急左旋回」などの用語も使われます。

要約すると、LLM の創発的能力の 2 つの決定的な特性を特定できます:

#1. 「非存在」からの鋭敏さ」から「存在」への移行は、単なる一瞬の移行であるように思えます;

2. 予測不可能性、一見予期せぬスケールのモデル内での移行。

一方で、いくつかの疑問は未解決のままです:どの機能が出現するかを制御するものは何ですか?能力の発現を制御するものは何でしょうか?望ましい機能をより迅速に出現させ、あまり望ましくない機能が出現しないようにするにはどうすればよいでしょうか?

これらの質問は、人工知能の安全性と調整に関連しています。出現した機能は、大型モデルがいつか警告なしに危険な機能を習得する可能性があることを示しています。これは人間にはできないことです。起こりたい。

最近の論文で、スタンフォード大学の研究者は、LLM には創発的な機能があるという主張に疑問を呈しました。

スタンフォード大学の最新の研究は、大規模なモデルが出現する能力をあまり信じすぎないようにと私たちに思い出させます。なぜなら、これは指標の選択の結果にすぎないからです。

論文: https://arxiv.org/pdf/2304.15004.pdf

#具体的には、ここでの課題は、特定のタスク中のモデル サイズの関数としてのモデル出力の突然の予測不可能な変化に向けられています。

彼らの懐疑は、モデルのトークンごとのエラー率の尺度が非線形または不連続にスケールされる場合にのみ、モデルが創発的であるように見えるという観察に基づいています。たとえば、BIG-Bench タスクでは、92% を超える新機能が次の 2 つの指標で明らかになりました:

スタンフォード大学の最新の研究は、大規模なモデルが出現する能力をあまり信じすぎないようにと私たちに思い出させます。なぜなら、これは指標の選択の結果にすぎないからです。

これにより、LLM の創発的能力の起源について別の説明ができる可能性が生じます。ただし、モデル ファミリのトークンごとのエラー率は、モデル サイズが増加するにつれて滑らかに、継続的に、予測どおりに変化しますが、一見急激で予測不可能な変化は、研究者が選択した測定方法によって引き起こされる可能性があります。

つまり、創発的な能力は蜃気楼である可能性があります。これは主に、研究者がトークンごとのエラー率を非線形または不連続に変化させるメトリクスを選択したことが原因です。小規模なモデルのパフォーマンスを正確に推定するにはテスト データが少なすぎます (小規模なモデルがタスクをまったく実行できないように見える原因になります)。また、部分的には評価する大規模モデルが少なすぎることが原因です。

この説明を説明するために、これを単純な数学モデルとして扱い、LLM の新たな力を裏付けるために提供された証拠を定量的に再現する方法を示します。次に研究者らは、この説明を 3 つの相補的な方法でテストしました:

1. InstructGPT [24]/GPT-3 [3] ファミリーのモデルを使用し、対立仮説に基づいてテストし、 3つの予測を確認します。

2. 以前の結果のメタ分析を実施し、タスク、メトリック、モデル、ファミリーのトリプレットの空間では、機能はモデルではなく特定のメトリックに対してのみ出現することを示しました。タスクの家族 (列)。この研究はさらに、モデル出力が固定されている場合、メトリックを変更すると創発現象が消失することを示しています。

3. 異なるアーキテクチャのディープ ニューラル ネットワーク内の複数のビジョン タスク (これまで実証されたことはありません) にわたって創発的な能力を意図的に誘発し、同様のメトリクスの選択がどのように一見創発的な能力を誘発できるかを示します。

テスト 1: InstructGPT/GPT-3 モデル シリーズ分析

研究者は、公的にクエリできるため、さらなる分析のために GPT シリーズ モデルを選択しました。モデルシリーズ (PaLM、LaMDA、Gopher、Chinchilla など)。以前の研究では、GPT ファミリのモデルは整数演算タスクにおいて新たな機能を発揮すると考えられていました。ここで、研究者らは整数演算のタスクも選択しました。

スタンフォード大学の最新の研究は、大規模なモデルが出現する能力をあまり信じすぎないようにと私たちに思い出させます。なぜなら、これは指標の選択の結果にすぎないからです。

図 2: 大規模な言語モデルの新たな能力は研究ですスケールに伴うモデル出力の根本的な変更ではなく、作成者の分析のアーティファクト。 セクション 2 で数学的および図的に説明したように、研究者によって提案された別の説明では、次の 3 つの結果が予測されます。 1. モデルのスケールが増加するにつれて、メトリクスが非線形/不連続メトリクス (図 2CD) から線形/連続メトリクス (図 2EF) に変更されると、スムーズで連続的な、予測可能なパフォーマンスの向上が見られるはずです。

2. 非線形測定の場合、テスト データ セットのサイズを増やすことによって測定されたモデル パフォーマンスの解像度が向上すると、モデルは滑らかで連続的な を取得できるはずです。この改善の割合は、選択したメトリクスの予測可能な非線形効果に対応します。

3. 使用するメトリクスに関係なく、ターゲット文字列の長さを増やすと、長さ 1 のターゲット パフォーマンスの関数としてモデルのパフォーマンスに影響を与えるはずです: 正確さのために、これはほぼ幾何学的関数です。 、トークンの編集距離はほぼ準線形関数です。

これら 3 つの予測結論をテストするために、研究者らは、2 つの算術タスクに関する InstructGPT/GPT-3 シリーズ モデルの文字列出力結果を収集しました。OpenAI API を使用して 2 two を実行しました。 -digit 2 桁の整数間の 2 サンプルの乗算、および 2 つの 4 桁の整数間の 2 サンプルの加算。

図 3: モデルの規模が大きくなるにつれて、メトリクスを変更すると、スムーズで継続的な予測可能なパフォーマンスの変化がもたらされます。

スタンフォード大学の最新の研究は、大規模なモデルが出現する能力をあまり信じすぎないようにと私たちに思い出させます。なぜなら、これは指標の選択の結果にすぎないからです。

左から右へ: 数学モデル、2 桁の整数乗算タスク 2 つ、4 桁の整数加算タスク 2 つ。上のグラフは、精度などの非線形メトリクスを使用して測定されたモデルのパフォーマンスです。InstructGPT/GPT-3 ファミリのモデルのパフォーマンスは、ターゲットの長さが長くなるとより鮮明になり、予測しにくくなることがわかります。以下の図は、線形メトリック (トークン編集距離など) を使用して測定されたモデルのパフォーマンスです。この一連のモデルは、滑らかで予測可能なパフォーマンスの向上を示しており、これは研究者が明らかにした能力であると主張しています。

予測: 線形対策の下では創発的能力は失われる

整数乗算タスクと加算タスクの両方で、GPT ファミリーはターゲット文字列の長さが 4 桁または 5 桁で、パフォーマンスが精度によって測定される場合、モデルは創発的な算術能力を示します (図 3 の上段)。ただし、モデルの出力を固定したままメトリクスを非線形から線形に変更すると、モデル ファミリのパフォーマンスがスムーズに、継続的に、予測どおりに向上します。これは研究者の予測を裏付けるもので、鮮明さと不確実性の原因はモデルの出力の変化ではなく、研究者が選択した指標であることを示唆しています。また、トークン編集距離を使用する場合、ターゲット文字列の長さが 1 から 5 に増加すると、この一連のモデルのパフォーマンスが低下し、下降傾向がほぼ線形であることが予測できます。これは、予想の前半の 3 番目と一致しています。

予測: 高解像度評価の出現により、新たな機能は失われる

次の 2 つの予測: 非精度などの線形尺度の場合、より小さいモデルの精度はゼロではありませんが、尺度として選択した精度に対応する比率で確率を上回るゼロ以外の値になります。解像度を向上させ、モデルの精度をさらに正確に推定するために、研究者らは他のテスト データも生成しました。その結果、次のことがわかりました。整数乗算タスクであっても、整数加算タスクであっても、すべての InstructGPT/GPT-3シリーズのモデルはすべて、偶然を超えた確実な精度を達成しました (図 4)。これは 2 番目の予測を裏付けます。ターゲット文字列の長さが増加するにつれて、精度はターゲット文字列の長さにほぼ幾何級数的に低下することがわかります。これは 3 番目の予測の後半と一致しています。これらの結果は、研究者が選択した精度が、我々が期待すべきいくつかの(おおよその)効果、つまり、ターゲットの長さに応じたほぼ幾何学的減衰を持っていることも示唆しています。

スタンフォード大学の最新の研究は、大規模なモデルが出現する能力をあまり信じすぎないようにと私たちに思い出させます。なぜなら、これは指標の選択の結果にすぎないからです。

図 4: 取得したより多くのテスト データ セットを使用することで推定精度が向上これにより、パフォーマンスの変化が滑らかで連続的で予測可能であることがわかります。

#左から右へ: 数学モデル、2 桁の整数乗算タスク 2 つ、4 桁の整数加算タスク 2 つ。より多くのテスト データを生成して解像度を向上させると、InstructGPT/GPT-3 シリーズ モデルのパフォーマンスが精度の測定においてさえ偶然を超えていること、および両方の緊急機能の改善がスムーズであることが明らかになります。これら 2 つの緊急機能の結果は、継続的に行われます。予測可能であり、数学的モデルと定性的に一致しています。

テスト 2: モデル創発のメタ分析

GPT シリーズ モデルはクエリ用に公開されているため、分析することができます。ただし、同様に創発的な機能を持つと主張されている他のモデル (PaLM、チンチラ、ゴーファーなど) は一般に公開されておらず、それらが生成する出力も公開されていないため、研究者が公開された結果を分析するのは限られています。研究者らは、独自の対立仮説に基づいて 2 つの予測を示しました。

  • まず、「タスク - メトリクス - モデル シリーズ」トリプレットの「母集団レベル」で、モデルのパフォーマンスを評価するために非線形および/または不連続なメトリクスを使用することを選択する場合、モデルは創発能力を示す必要があります。タスクについて。
  • 2 番目に、創発機能を示す特定の「タスク - メトリクス - モデル シリーズ」トリプルの場合、メトリクスが線形および/または連続メトリクスに変更された場合、創発機能は次のようになります。排除される。

これら 2 つの仮説を検証するために、研究者らは、ベンチマークが公開されており、優れたドキュメントも用意されている BIG-Bench 評価スイートで新たな機能に関する主張を調査しました。

予測: 緊急機能は主に非線形/不連続の測定に現れるはずです

最初の予測をテストするには、研究者らは、異なる「タスクとモデルのシリーズ」の組み合わせが創発的な能力を持つかどうかをどの指標に基づいて分析しました。 「タスク-メトリック-モデルファミリー」のトリプルが創発的な機能を示す可能性が高いかどうかを判断するために、彼らは論文「模倣ゲームを超えて: 言語モデルの機能の定量化と外挿」で紹介されている定義を借用しました。モデル サイズが x_i ∈ R の場合のモデルのパフォーマンスを y_i ∈ R で表し、x_i

スタンフォード大学の最新の研究は、大規模なモデルが出現する能力をあまり信じすぎないようにと私たちに思い出させます。なぜなら、これは指標の選択の結果にすぎないからです。

##結果 研究者らは、BIG-Bench で使用されたメジャーのほとんどには、BIG-Bench の 39 のメジャーのうち、創発的な能力を示す「タスクとモデルのファミリー」の組み合わせがないことを発見しました。そのうち、創発的な機能を示したのは最大でも 5 つでした (図 5A)。これら 5 つのほとんどは、文字列の完全一致、複数選択ランキング、ROUGE-L-Sum など、非線形/非連続です。 BIG-Benchは通常、モデルのタスクパフォ​​ーマンスを評価するために複数の尺度を使用するため、他の尺度で創発的能力が欠如していることは、他の尺度を使用してモデルの出力を評価すると、創発的能力が現れないことを示していることに注目する価値があります。 。

創発スコアは創発能力のみを示すため、研究者らは論文「大規模言語モデルの137の創発能力」で手動でラベル付けされた「タスク・メトリック・モデル・シリーズ」をさらに分析しました。トライアド。手動で注釈を付けたデータによると、39 の測定値のうち緊急機能を示したのは 4 つだけであり (図 5B)、そのうちの 2 つが主張されている緊急機能の 92% 以上を占めていました (図 5C)。複数選択のビニングと正確な文字列マッチング。複数選択のビニングは非連続的であり、正確な文字列マッチングは非線形です (ターゲットの長さのメトリックの変化はほぼ幾何学的です)。全体として、これらの結果は、創発的な機能が非常に少数の非線形および/または不連続な尺度でのみ発生することを示唆しています。

#図 5: 創発機能は少数のメジャーに対してのみ表示されます。 (A) 人々が好む 39 の BIG-Bench 尺度のうち、創発的な機能が現れるのは最大でも 5 つの尺度だけです。 (B) 引用論文から人間が注釈を付けたデータは、人々の好みの 4 つの尺度だけが創発的な力を示すことを示しています。 (C) 創発的能力の >92% は、多肢選択ランキングと文字列の正確な一致という 2 つの尺度のいずれかで発生します。

予測: 非線形/不連続の尺度が代替される場合、緊急機能は排除されるはずです

2 番目の予測について、研究者らは上記の論文で手動アノテーションの創発能力を分析しました。 LaMDA ファミリに焦点を当てたのは、その出力が BIG-Bench を通じて利用できるのに対し、他のモデル ファミリの出力は利用できないためです。公開されている LaMDA モデルの中で、最小のものには 20 億のパラメーターがありますが、BIG-Bench の多くの LaMDA モデルはそれよりもはるかに小さく、研究者らは、これらの小さなモデルの起源を特定できないため、分析では考慮されなかったと述べています。 。分析では、研究者らは、LaMDA が多肢選択の階層的尺度で創発的能力を実証したタスクを特定し、次に「LaMDA は、別の BIG-Bench 尺度である Brier スコアを使用するときに、同じタスクで実行できますか? 創発的能力を実証します。」と質問しました。ブライアー スコアは、相互に排他的な結果の予測を測定する、厳密に適切なスコアリング ルールのセットです。バイナリ結果の予測の場合、ブライアー スコアは、結果とその予測確率質量の間の平均二乗誤差に単純化されます。

研究者らは、非連続指標の多肢選択ランキングが連続指標のブリエスコア (図 6) に変更されると、LaMDA の創発能力が消失することを発見しました。これは、緊急機能の原因が、規模の拡大に伴うモデルの動作の本質的な変化ではなく、不連続な尺度の使用であることをさらに示しています。

スタンフォード大学の最新の研究は、大規模なモデルが出現する能力をあまり信じすぎないようにと私たちに思い出させます。なぜなら、これは指標の選択の結果にすぎないからです。

図 6: ミッション ファミリとモデル ファミリは変更されません。 BIG-Bench メトリクスを前提にすると、創発能力が失われます。上の行: LaMDA ファミリのモデルは、不連続な測定 (複数選択のランキング) を使用する場合に緊急機能を発揮します。次の行: 連続的な BIG-Bench メトリクス (Brier スコア) を使用する場合、LaMDA モデル ファミリは同じタスクで出現しなくなります。

テスト 3: DNN の出現を誘導するモデルは創発機能を生成します; これを証明するために、さまざまなアーキテクチャのディープ ニューラル ネットワークを作成する方法を示しました (完全に接続性、畳み込み性、自己注意など)、創発的な能力を生み出します。研究者らはここで 2 つの理由から視覚的なタスクに焦点を当てました。第一に、人々は現在、大規模言語モデルの新たな能力に注目しています。なぜなら、視覚モデルについては、モデル能力がない状態からモデル能力のある状態への突然の移行がまだ観察されていないからです。第 2 に、一部の視覚タスクは適度なサイズのネットワークで解決できるため、研究者は数桁にわたる完全なモデル ファミリを構築できます。

MNIST 手書き数字を分類する機能を備えた畳み込みネットワークが登場研究者らは最初に LeNet の実装を誘導しました。畳み込み ニューラル ネットワーク シリーズは分類機能を備えて出現し、トレーニング データ セットは MNIST 手書き数字データ セットです。このシリーズでは、パラメーターの数が増加するにつれてテスト精度が滑らかに増加していることがわかります (図 7B)。創発に関する論文で使用される精度メトリクスをシミュレートするために、ここではサブセット精度が使用されます。ネットワークが K (独立した) テスト データから K データを正しく分類した場合、ネットワークのサブセット精度は 1、そうでない場合は 0 になります。この精度の定義に基づいて、K が 1 から 5 に増加するにつれて、このモデル群は、特にモデル サイズのスパース サンプリングと組み合わせた場合に、MNIST 桁セットを正しく分類する「出現」能力を示します (図 7C)。この畳み込み系列の創発分類能力は、BIG-Bench の地形図マッピング タスクの結果など、出版された論文の創発能力と定性的に一致しています (図 7A)。

図 7: 畳み込みネットワークにおける創発の誘導 MNIST 分類機能。 (A) 出版された論文の BIG-Bench 地形マッピング タスクに基づく緊急機能。 (B) MNIST でトレーニングされた LeNet は、モデル パラメーターの数が増加するにつれて、テスト精度が予測的で一般化された S 字型に増加することを示しています。 (C) 精度が、K 個の独立したテスト データから K 個を正しく分類することとして再定義されると、この新しく定義されたメトリクスは、一見予期しない変化を引き起こします。

スタンフォード大学の最新の研究は、大規模なモデルが出現する能力をあまり信じすぎないようにと私たちに思い出させます。なぜなら、これは指標の選択の結果にすぎないからです。

#CIFAR100 自然画像セットの再構成機能を備えた非線形オートエンコーダが登場

#研究者が選択したメトリクスの鮮明さが創発的な能力の原因であることを強調し、この鮮明さが精度などの尺度に限定されないことを示すために、研究者はまた、CIFAR100 ナチュラル モデルでトレーニングされた浅さ (つまり、単一の隠された画像) を誘発しました。画像セット層) 非線形オートエンコーダは、画像入力を再構成する機能を備えて登場します。この目的を達成するために、彼らはモデルの能力を測定するための新しい不連続性の尺度を意図的に定義しました。これは、固定しきい値 c を下回る二乗再構成誤差を持つテスト データの平均数です。

ここで、I (・) はランダム指標変数、x^n はオートエンコーダーによる x_n の再構築です。研究者らは、オートエンコーダー内のボトルネック ユニットの数を調査し、モデル サイズが大きくなるにつれて、ネットワークの平均二乗再構成誤差は滑らかな下降傾向を示すことがわかりました (図 8B)。ただし、新しく定義された再構成メトリックが使用される場合、 c. データ セットを再構成するこのオートエンコーダー シリーズの能力は鋭く、ほとんど予測不可能です (図 8C). この結果は、BIG-Bench などの出版された論文の創発能力と定性的に一致しています. 周期要素タスク (図 8A) 。

スタンフォード大学の最新の研究は、大規模なモデルが出現する能力をあまり信じすぎないようにと私たちに思い出させます。なぜなら、これは指標の選択の結果にすぎないからです。

図 8: 浅い非線形オートエンコーダの緊急再構成機能。 (A) 出版された論文の BIG-Bench 周期要素タスクに基づく緊急機能。 (B) CIFAR100 でトレーニングされた浅い非線形オートエンコーダーは、滑らかに減少する平均二乗再構成誤差を示します。 (C) 新しく定義された再構成メトリック (式 2) を使用して、予測不可能な変化が引き起こされます。

Omniglot 文字セットの分類機能を備えた自己回帰トランスフォーマーが登場しました

次へ進むこれは、自己回帰手法を使用して Omniglot の手書き文字を分類する Transformer の新しい機能です。研究者らが使用した実験設定も同様です。最初にオムニグロット画像が畳み込み層によって埋め込まれ、次にデコーダー専用のトランスフォーマーが一連の [埋め込み画像、画像カテゴリ ラベル] ペアとして入力され、このトレーニング目標が設定されます。 Transformer は、Omniglot カテゴリのラベルを予測します。研究者は、長さ L ∈ [1, 5] のシーケンスに対する画像分類パフォーマンスを測定しました。これはサブセット精度によっても測定されました。すべての L 画像が正しく分類された場合 (図 9B)、サブセット精度は 1 で、そうでない場合は 0 になります。 。 Causal Transformer は、Omniglot の手書き文字を正しく分類するタスクに関して創発的な機能を示しているようです (図 9C)。この結果は、大規模なマルチタスクの言語理解など、出版された論文の創発的な機能と定性的に一致しています (図 9A)。

スタンフォード大学の最新の研究は、大規模なモデルが出現する能力をあまり信じすぎないようにと私たちに思い出させます。なぜなら、これは指標の選択の結果にすぎないからです。

図 9: 自己回帰 Transformer での創発分類機能の導入。 (A) 出版された論文の MMLU ベンチマークに基づく緊急機能。 (B) モデル パラメーターが増加するにつれて、自己回帰法を使用してオムニグロットの手書き数字を分類する Transformer のテスト精度も増加します。 (C) 精度がシーケンス内のすべての画像を正しく分類することであると再定義されると、メトリクスの予測がより困難になり、これは創発的な能力の誘発を示していると思われます。

以上がスタンフォード大学の最新の研究は、大規模なモデルが出現する能力をあまり信じすぎないようにと私たちに思い出させます。なぜなら、これは指標の選択の結果にすぎないからです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート