30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。-AI-php.cn

人工知能の重要な目標は、強力な一般化機能を備えたモデルを開発することです。自然言語処理 (NLP) の分野では、事前トレーニングされた言語モデルがこの点で大きな進歩を遂げました。このようなモデルは、新しいタスクに適応するために微調整されることがよくあります。

最近、Google の研究者は、命令の微調整に対する拡張機能の影響を含む、さまざまな命令の微調整方法を分析しました。実験によると、命令の微調整はタスクの数とモデルのサイズに応じて実際に適切に拡張でき、最大 5,400 億のパラメーターのモデルで大きなメリットが得られることが示されており、将来の研究ではタスクの数とモデルのサイズがさらに拡大されるはずです。さらに、この研究では、モデルの推論実行能力に対する微調整の影響も分析されており、その結果は非常に魅力的です。

結果として得られた Flan-T5 には、1,800 を超える言語タスク向けに微調整された命令が含まれており、プロンプトと複数ステップの推論機能が大幅に向上しており、1,750 億個のパラメータのうち GPT-3 を超える可能性があります。

30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。

#Google は大規模モデルの機能を向上させる方向性を見つけたようです。しかし、この研究は機械学習コミュニティの歓迎を集めただけでなく、Gary Marcus 氏の苦情も引き付けました。 Google のモデル Google の有名な科学者ジェフリーヒントンの生年月日が間違ったのはなぜですか?彼は明らかに1947年生まれの古株だ。

30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。

Google Brain の主任科学者であり、この論文の著者の 1 人であるクオック・リー氏は、すぐに状況を正すために出てきました。派遣労働者の写真は間違っていました。そして、Flan-T5 モデルは論文に含まれていませんでした。ジェフの生年月日を間違えましたが、それを証明する写真があります。

ちなみに、1963年生まれの有名なAI学者はユルゲン・シュミットフーバーです。

間違っているのは AI モデルではないので、Google の新しい手法が事前トレーニング済みモデルにどのような変化をもたらすかを見てみましょう。

30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。 #論文: スケーリング命令 - 微調整された言語モデル

##論文アドレス: https://arxiv.org/abs/2210.11416

30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。

公開モデル: https://arxiv.org/abs/2210.11416 github.com/google-research/t5x/blob/main/docs/models.md#flan-t5-checkpoints

この調査では 540B パラメータモデルを使用しますFlan-PaLM をトレーニングすると、微調整タスクの数が 1800 以上に増加し、思考連鎖 (CoT; Wei et al., 2022b) データが含まれます。トレーニングされた Flan-PaLM は PaLM を上回り、複数のベンチマークで新しい SOTA に達しました。推論機能の点では、Flan-PaLM は CoT と自己一貫性 (Wang et al., 2022c) を活用して、大規模なマルチタスク言語理解で 75.2% の精度を達成できます (MMLU; Hendrycks et al., 2020)。レート。
さらに、Flan-PaLM は、一連の挑戦的なオープンエンド生成問題において PaLM を大幅に上回り、使いやすさが大幅に向上しました。

全体として、この Google の調査は、命令の微調整を使用してモデルのパフォーマンスを向上させる具体的な方法を示しています。

方法

30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。具体的には、この研究は主に、(1) タスクの数の拡大、(2) タスクの拡大など、指導の微調整に影響を与えるいくつかの側面に焦点を当てています。モデルのサイズ、および (3) 思考連鎖データを微調整します。

研究では、上記の側面による命令の微調整により、さまざまなモデルクラス (PaLM、T5、U-PaLM)、プロンプト設定 (ゼロショット、少数ショット、CoT)、および評価ベンチマークが大幅に改善されたことがわかりました。 MMLU、BBH、TyDiQA、MGSM、オープン世代）。たとえば、命令を微調整した Flan-PaLM 540B は、1.8K タスクで PALM 540B を大幅に上回ります (平均 9.4%)。 Flan-PaLM 540B は、5 つの MMLU で 75.2% など、いくつかのベンチマークで最先端のパフォーマンスを達成します。

研究者らは、PaLM 62B などの大型モデルと比較した場合でも強力な数ショット性能を達成する Flan-T5 チェックポイントも公開しました。全体として、命令の微調整は、事前トレーニングされた言語モデルのパフォーマンスと使いやすさを向上させるための一般的なアプローチです。

30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。

図 1. 研究者は、1,800 を超えるタスクでさまざまな言語モデルを微調整しました。サンプル数 (ゼロまたは少数のサンプル) と思考チェーンの有無により、さまざまな評価シナリオにわたる一般化が可能になります。

30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。

# 図 2. 微調整データには 473 のデータセット、146 のタスクカテゴリ、および合計が含まれます1836 のタスク。

30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。

データの微調整とプログラムの微調整プロセスが完了した後、研究者は、タスクの影響に対するモデルサイズのパフォーマンス。まず、3 つのモデルサイズすべてにおいて、マルチタスク命令の微調整を行うと、微調整を行わない場合と比較してパフォーマンスが大幅に向上し、9.4% ～ 15.5% の範囲で向上します。次に、微調整タスクの数を増やすと、パフォーマンスが向上します。

最後に、モデルサイズを 1 桁増やす (8B → 62B または 62B → 540B) と、微調整されたモデルと非微調整されたモデルの両方のパフォーマンスが大幅に向上することがわかります。 -チューンドモデル。

30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。

マルチタスク命令の微調整がモデルサイズ (パラメーターの量) と相対的な精度に及ぼす影響と、微調整タスクの数と規模の拡大影響。

30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。

微調整データ内のタスクの数を増やすと、ほとんどの点で Flan-PaLM が改善されます。パフォーマンスのベンチマークを評価します。

# 研究者らは、思考連鎖 (CoT) の注釈が付けられた 9 つのデータセットを微調整混合に含めることで、推論機能が向上することを実証しました。以下の表は、Flan-PaLM の CoT プロンプト機能が 4 つの評価ベンチマークで PaLM を上回っていることを示しています。

30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。

この研究では、CoT データの命令を微調整することのもう 1 つの利点は、ゼロショット推論を達成できることであることがわかりました。 CoT は、わずか数個のサンプルを使用して独自に推論機能を生成しますが、正しく実装するには大規模なエンジニアリング調整が必要になる場合があります。

30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。

図 6: 23 個の困難な BIG-Bench タスク (BBH) ゼロのセットでの PaLM と Flan-PaLMショットパフォーマンスオン。 Flan-PaLM では、「ステップごとに考えてみましょう」コマンドによってアクティブ化される思考連鎖 (CoT) の生成が必要です。

新しい手法の汎用性を実証するために、Google は T5、PaLM、U-PaLM をトレーニングし、8,000 万から 5,400 億パラメータの範囲のモデルサイズをカバーし、すべてのモデルがパフォーマンスを大幅に向上できることを発見しました。

30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。

#表 5. 命令微調整 (Flan) は、他の継続的な事前トレーニング方法よりもパフォーマンスを向上させます。

テスト後、命令の微調整により、すべてのモデルタイプの正規化された平均パフォーマンスが大幅に向上し、T5 モデルは、命令の微調整を行わなかったモデルと比較して恩恵を受けました。微調整されたモデルがほとんどです。これらの結果は、一部のベンチマークでは非常に強力です。たとえば、Flan-T5-XL は、わずか 30 億のパラメーターで 47.6% の MMLU スコアを達成し、1,750 億のパラメーターでの GPT-3 の 43.9% スコアを上回りました。

NLP ベンチマークに加えて、言語モデルは自由形式の質問リクエストに対する長い形式の回答を生成できます。この点において、標準的な NLP ベンチマークとその評価に使用される自動化された指標は、人間の好みを測定するには不十分です。研究者らはこれを評価し、190 例からなる評価セットを作成しました。評価セットは、創造性、文脈上の推論、複雑な推論、計画、説明という、それぞれ 20 問からなる 5 つの難しいカテゴリにわたって、ゼロショット方式でモデルに提示される質問で構成されます。

これらの例のうち 60 個 (複雑な推論、計画、説明のカテゴリーから) について、研究では思考連鎖トリガーフレーズ (例: 「段階的に考えてみましょう」) とのリンクを作成しました。 .”)、CoT でゼロショットを有効にして微調整が行われたかどうかの別の評価として。前述の 160 個のゼロショット入力に加えて、この研究には、指導による微調整のない強力な言語モデルが良好に機能することが示されている少数ショット機能をテストするための 30 個の入力も含まれています。

研究者らは、命令の微調整とスケール拡張の両方で大規模な言語モデルのパフォーマンスを継続的に向上させることができ、微調整は推論機能にとって重要であり、モデルの機能を一般化することもできると考えています。命令の微調整と UL2R などの他のモデル適応手法を組み合わせることで、Google はこの作業で最強のモデル Flan-U-PaLM を提案します。

重要なのは、命令の微調整は、モデルスケールの拡張のようなコンピューティングコストを大幅に増加させるものではありません。たとえば、PaLM 540B の場合、命令の微調整には事前トレーニング計算の 0.2% しか必要ありません。ただし、評価ベンチマーク全体の正規化平均を 9.4% 向上させることができます。ディレクティブナッジを使用する小規模なモデルは、ナッジを使用しない大きなモデルよりもパフォーマンスが優れている場合があります。

これらの理由から、研究者は、ほぼすべての事前トレーニング済み言語モデルに対して命令を微調整することを推奨しています。

以上が30 億は GPT-3 の 1,750 億を上回りました。Google の新しいモデルは激しい議論を引き起こしましたが、ヒントンの年齢は間違っていました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。