ビッグモデルのレビューはこちら！ 1 つの記事が、世界的な AI 巨人の大規模モデルの進化の歴史を明らかにするのに役立ちます-AI-php.cn

Xi Xiaoyao Science and Technology Talks 原文
著者 | Xiaoxi、Python

大規模モデルの初心者であれば、GPT、PaLm、LLaMA という単語の奇妙な組み合わせを初めて目にするでしょう。どう思いますか？もっと深く進んで、BERT、BART、RoBERTa、ELMo などの変な単語が次々に出てきたら、初心者の私は発狂してしまうのではないだろうか？

NLP の小さなサークルに長く属してきたベテランでも、大きなモデルの爆発的な開発スピードに戸惑い、急速に変化する大きなモデルについていけない可能性があります。どの派閥で使用されていますか?現時点では、大規模なモデルのレビューを依頼する必要があるかもしれません。 Amazon、テキサス A&M 大学、ライス大学の研究者によって開始されたこの大規模なモデルレビュー「実践における LLM の力の活用: ChatGPT とその先への調査」は、「家系図」を構築する方法を提供します。この記事では、 ChatGPT に代表される大規模モデルの過去、現在、未来を分析し、タスクに基づいて大規模モデルの非常に包括的な実践ガイドを構築し、さまざまなタスクにおける大規模モデルの長所と短所を紹介し、最後に現在の問題を指摘しました。モデルのリスクと課題。

論文のタイトル:
実際の LLM の力の活用:ChatGPT およびその先に関する調査

論文のリンク://m.sbmmt.com/link/ f50fb34f27bd263e6be8ffcf8967ced0

プロジェクトホームページ://m.sbmmt.com/link/968b15768f3d19770471e9436d97913c

家系図 - 大型モデルの過去と現在の生活

大規模モデルの「諸悪の根源」の追求は、「Attention is All You Need」の記事から始めるとよいでしょう。この記事をもとに、Encoder と Encoder の複数のグループから構成される機械翻訳モデル Transformer Google 機械翻訳チームによって提案された Decoder が始まります。大規模モデルの開発は一般に 2 つの道をたどってきました。1 つの道は、Decoder 部分を放棄し、Encoder をエンコーダの事前トレーニングモデルとしてのみ使用することです。その最も有名な代表は、次のとおりです。バート一家。これらのモデルは、他のデータに比べて取得が容易な大規模な自然言語データをより有効に活用するために「教師なし事前トレーニング」手法を試み始めました。「教師なし」手法はマスクを削除することによるマスク言語モデル (MLM) です。文内のいくつかの単語を抽出し、コンテキストを使用してマスクによって削除された単語を予測する能力をモデルに学習させます。 Bert が登場したとき、NLP の分野では爆弾とみなされていましたが、同時に SOTA は感情分析や固有表現認識などの自然言語処理の多くの一般的なタスクで使用されました。 Bert ファミリーの傑出した代表者である Google のこの他にも、Baidu の ERNIE、Meta の RoBERTa、Microsoft の DeBERTa などがあります。

ビッグモデルのレビューはこちら！ 1 つの記事が、世界的な AI 巨人の大規模モデルの進化の歴史を明らかにするのに役立ちます

バートのアプローチがスケールの法則を突破できなかったのは残念であり、この点は現在の大型モデルの主力、つまり別の道によって決定されます。大規模モデルの開発 GPT ファミリは、エンコーダ部分を放棄し、デコーダ部分に基づいてこれを真に達成しました。 GPT ファミリーの成功は、「言語モデルのサイズを拡張すると、ゼロショット (ゼロショット) 学習とスモールショット (少数ショット) 学習の能力が大幅に向上する可能性がある」という研究者の驚くべき発見から来ています。これは一貫しています。そこには大きな違いがあり、それが今日の大規模言語モデルの魔法の力の源でもあります。 GPT ファミリーは、前の単語シーケンスから次の単語を予測することに基づいてトレーニングされます。したがって、GPT は当初テキスト生成モデルとしてのみ登場しましたが、GPT-3 の出現は GPT ファミリーの運命の転換点となりました。 3 は最初のものでした。これは、テキスト生成自体を超えて大規模なモデルによってもたらされる魔法のような機能を人々に示し、これらの自己回帰言語モデルの優位性を示します。 GPT-3から始まり、現在のChatGPT、GPT-4、Bard、PaLM、LLaMAが隆盛し、現在の大型モデルの時代を迎えました。

ビッグモデルのレビューはこちら！ 1 つの記事が、世界的な AI 巨人の大規模モデルの進化の歴史を明らかにするのに役立ちます

この家系図の 2 つの分岐を統合することで、Word2Vec と FastText の初期の時代から、事前トレーニングモデルでの ELMo と ULFMiT の初期の探索までを確認できます。そして、Bert Hengkong へこれはヒットしましたが、GPT ファミリーは、GPT-3 の見事なデビューまで静かに機能していました。ChatGPT は空に舞い上がりました。テクノロジーの反復に加えて、OpenAI が独自の技術を黙って遵守したこともわかります技術的な道を歩み、最終的には LLM の誰もが認めるリーダーになりました。私たちは、エンコーダデコーダモデルアーキテクチャ全体に対する Google の重要な理論的貢献、大規模モデルのオープンソースプロジェクトへの Meta の継続的な寛大な参加、そしてもちろん、LLM の傾向が徐々に「」に向かって進んでいることを見てきました。 GPT-3 以降、非公開のソースが使用されています。将来的には、ほとんどの研究が API ベースの研究にならざるを得なくなる可能性が非常に高いです。

ビッグモデルのレビューはこちら！ 1 つの記事が、世界的な AI 巨人の大規模モデルの進化の歴史を明らかにするのに役立ちます

データ - 大規模モデルの力の源

結局のところ、大規模モデルの魔法のような能力は GPT から来ているのでしょうか? GPT ファミリの機能が飛躍的に向上するたびに、事前トレーニングデータの量、質、多様性が大幅に向上しました。大規模モデルの学習データには、書籍、記事、Web サイト情報、コード情報などが含まれます。これらのデータを大規模モデルに入力する目的は、大規模モデルに単語、文法、言語、言語、言語などを伝えることで、「人間」を完全かつ正確に反映することです。構文と意味情報により、モデルはコンテキストを認識し、人間の知識、言語、文化などの側面を捉える一貫した応答を生成する能力を得ることができます。

一般的に、多くの NLP タスクに直面して、データアノテーション情報の観点から、それらをゼロサンプル、少数のサンプル、および複数のサンプルに分類できます。間違いなく、LLM はゼロショットタスクに最適な手法であり、ほとんど例外なく、大規模モデルはゼロショットタスクにおいて他のモデルよりもはるかに優れています。同時に、少数サンプルのタスクは、大規模なモデルのアプリケーションにも非常に適しています。大規模なモデルの「質問と回答」のペアを表示することで、大規模なモデルのパフォーマンスを向上させることができます。このアプローチは、一般にインコンテキストとも呼ばれます学ぶ。大規模なモデルでもマルチサンプルタスクをカバーできますが、微調整が依然として最良の方法である可能性があります。もちろん、プライバシーやコンピューティングなどの制約の下では、大規模なモデルが依然として役立つ可能性があります。

ビッグモデルのレビューはこちら！ 1 つの記事が、世界的な AI 巨人の大規模モデルの進化の歴史を明らかにするのに役立ちます

同時に、微調整されたモデルは、トレーニングデータとテストデータの分布の変化という問題に直面する可能性があります。一般に、OOD データでは非常に優れたパフォーマンスを発揮します。同様に、LLM は、明示的なフィッティングプロセスを持たないため、はるかに優れたパフォーマンスを発揮します。ヒューマンフィードバックに基づく典型的な ChatGPT 強化学習 (RLHF) は、ほとんどの配布外の分類および翻訳タスクで良好なパフォーマンスを発揮します。また、医療診断でも良好なパフォーマンスを発揮します。 OOD 評価用に設計されたデータセット DDXPlus。

実践ガイド - タスク指向の大規模モデルの入門

多くの場合、「大規模モデルは優れています!」という主張の後には、「大規模モデルをどのように使用するか、いつ使用するか」という質問が続きます。「特定のタスクに直面したとき、微調整を選択するべきでしょうか、それとも何も考えずに大きなモデルを使い始めるべきでしょうか?」本稿では、「人間を模倣する必要があるか」「推論能力が必要か」「マルチモデルかどうか」といった一連の疑問に基づいて、大規模モデルを使用するかどうかを決定するための実践的な「意思決定フロー」をまとめました。 -タスク」。

ビッグモデルのレビューはこちら！ 1 つの記事が、世界的な AI 巨人の大規模モデルの進化の歴史を明らかにするのに役立ちます

NLP タスク分類の観点から:

従来の自然言語理解

現在、多くの場合、大量のラベル付きデータが豊富にあります。 NLP タスクでは、微調整されたモデルが依然として優位性を維持している可能性があります。ほとんどのデータセットでは、LLM は微調整されたモデルよりも劣ります。具体的には:

テキスト分類: テキスト分類では、LLM が使用されます。一般的に、微調整されたモデルよりも劣ります;
感情分析: IMDB および SST タスクでは、大規模モデルと微調整モデルのパフォーマンスは似ていますが、毒性モニタリングなどのタスクでは、ほとんどすべての大規模モデルがパフォーマンスに劣ります。微調整モデルよりも悪い;
自然言語推論: RTE と SNLI では、微調整モデルは LLM よりも優れています。CB などのデータでは、LLM は微調整モデルに似ています。
Q&A: SQuADv2、QuAC、およびその他の多くのデータセットでは、微調整されたモデルの方がパフォーマンスが高く、CoQA では、LLM は微調整されたモデルと同様のパフォーマンスを示します。
情報の取得: LLM はまだ実行されていません。情報検索のタスク特性により、大規模モデルの情報検索タスクをモデリングする自然な方法はありません;
固有表現認識: 固有表現認識では、大規模モデルは依然として大幅に劣っています。 CoNLL03 の微調整モデルのパフォーマンスは大規模モデルのほぼ 2 倍ですが、固有表現認識は古典的な NLP 中間タスクとして大規模モデルに置き換えられる可能性があります。

つまり、ほとんどの従来の自然言語理解タスクでは、微調整されたモデルの方がパフォーマンスが向上します。もちろん、LLM の可能性は、完全にリリースされていない可能性がある Prompt プロジェクトによって制限されています (実際、微調整モデルは上限に達していません)。分類、敵対的 NLI、その他のタスクでは、LLM の方が強力な機能を備えているため、一般化機能によりパフォーマンスが向上しますが、現時点では、成熟したラベル付きデータの場合、モデルを微調整することが従来のタスクに対する最適なソリューションである可能性があります。

自然言語生成

自然言語理解と比較すると、自然言語生成は大規模モデルの舞台となる可能性があります。自然言語生成の主な目的は、一貫性があり、スムーズで、意味のあるシーケンスを作成することです。通常、これは 2 つのカテゴリに分類できます。1 つは機械翻訳と段落情報の要約に代表されるタスクで、もう 1 つはよりオープンな自然な文章です。そのようなタスクメールを書く、ニュースを書く、ストーリーを作成するなど。具体的には:

テキスト要約: テキスト要約の場合、ROUGE などの従来の自動評価指標が使用される場合、LLM は明らかな利点を示しませんが、手動評価結果が導入されると、LLM のパフォーマンスは向上します。微調整モデルよりも大幅に優れています。これは、現在の自動評価指標がテキスト生成の効果を完全かつ正確に反映していない場合があることを実際に示しています。
機械翻訳: 成熟した商用ソフトウェアを使用した機械翻訳などのタスクでは、LLM のパフォーマンスは一般にわずかに劣ります。これは商用の翻訳ツールですが、一部の人気のない言語の翻訳では、LLM の方が良い結果を示すことがあります。たとえば、ルーマニア語を英語に翻訳するタスクでは、LLM はゼロの場合に微調整モデルの SOTA を破りました。 ;
オープン世代: オープン世代に関して言えば、大規模モデルが最も得意とするのは表示です。LLM によって生成されたニュース記事は、人間が書いた実際のニュースとほとんど区別がつきません。コードなどの分野では、生成およびコードエラー修正、LLM はすべて驚くべきパフォーマンスを示します。

知識集約型タスク

知識集約型タスクとは、一般に、背景知識、ドメイン固有の専門知識、または一般的な世界の知識に大きく依存するタスクを指します。知識集約型タスクは異なります。単純なパターンからの認識と構文分析には、私たちの現実世界に関する「常識」と、それを正しく使用する能力が必要です。具体的には:

クローズドブック質問応答: クローズドブック質問の中で応答タスク、モデルは外部情報なしで事実に基づく質問に答えるために、NaturalQuestions、WebQuestions、TriviaQA などの多くのデータセットで優れたパフォーマンスを示しています。特に TriviaQA では、ゼロサンプル LLM は微調整よりも優れたパフォーマンスを示しています。モデルのジェンダーパフォーマンス;
大規模マルチタスク言語理解: 大規模マルチタスク言語理解 (MMLU) には、さまざまなトピックに関する 57 個の多肢選択式の質問が含まれており、モデルには次の条件も必要です。この中で最も印象的なタスクは GPT-4 で、MMLU で 86.5% の精度を達成しました。

知識集約的なタスクでは、大規模なモデルが常に効果的であるとは限らないことに注意してください。場合によっては、大規模なモデルは現実世界の知識にとって役に立たなかったり、間違っていたりする可能性があり、これは「一貫性のない」知識です。大規模なモデルのパフォーマンスがランダムな推測よりも悪くなる場合があります。たとえば、数学の再定義タスクでは、モデルが元の意味と再定義された意味のどちらかを選択する必要があります。これには、大規模な言語モデルによって学習された知識とは正反対の能力が必要です。そのため、LLM のパフォーマンスは、LLM のパフォーマンスよりもさらに劣ります。ランダムです。

推論タスク

LLM のスケーラビリティにより、事前トレーニングされた言語モデルの能力が大幅に強化されます。モデルのサイズが指数関数的に増加すると、推論などのいくつかの重要な機能がパラメータとともに徐々に拡張されます。 LLM を有効にすると、算術推論と常識推論の能力は、肉眼で見ても非常に強力になります。算術および推論による判断その機能は、以前のモデルを上回っています GSM8k、SVAMP、および AQuA の大規模モデルには画期的な機能があります LLM の計算能力は、思考連鎖 (CoT) のプロンプト方式によって大幅に強化できることを指摘する価値があります。

モデルの規模が大きくなるにつれて、推論に加えて、偶然演算、論理導出、概念理解などのいくつかの緊急能力もモデルに現れます。ただし、LLM の規模が大きくなるにつれてモデルの性能が最初は上昇し、その後低下し始める現象を指す「U 字現象」と呼ばれる興味深い現象もあり、その代表的なものが数学の再定義問題です。このような現象には、大規模モデルの原理に関するより詳細な研究が必要です。

まとめ – 大型モデルの課題と将来

大型モデルは、今後長期間にわたって必然的に私たちの仕事や生活の一部となるでしょう。パフォーマンス、効率、コストなどの問題に加えて、大規模言語モデルのセキュリティ問題は、大規模モデルが直面するすべての課題の中でほぼ最優先事項です。機械幻覚は、現在優れた言語モデルが存在しない大規模モデルの主な問題です。大きなモデルによって出力される偏ったまたは有害な幻覚は、ユーザーに深刻な影響を及ぼします。同時に、LLM の「信頼性」が高まるにつれて、ユーザーは LLM に過度に依存し、LLM が正確な情報を提供できると信じてしまう可能性があり、この傾向が予測され、大規模モデルのセキュリティリスクが増大します。

LLM によって生成されるテキストは高品質かつ低コストであるため、誤解を招く情報に加えて、憎悪、差別、暴力、噂などの攻撃のツールとしても使用される可能性があります。報道によると、サムスン社員がChatGPTを使用して最新プログラムのソースコード属性やハードウェア関連の社内会議記録などの極秘データを誤って流出させたという。仕事。

ビッグモデルのレビューはこちら！ 1 つの記事が、世界的な AI 巨人の大規模モデルの進化の歴史を明らかにするのに役立ちます

さらに、大規模モデルが医療、金融、法律などのデリケートな分野で使用できるかどうかの鍵は、「」の問題にあります。大規模モデルの信頼性」。現時点では、サンプルがゼロの大規模モデルの堅牢性は低下することがよくあります。同時に、LLM は社会的に偏見や差別的であることが示されており、アクセント、宗教、性別、人種などの人口統計上のカテゴリ間でパフォーマンスに大きな差があることが多くの研究で観察されています。これにより、大規模なモデルでは「公平性」の問題が発生する可能性があります。

最後に、社会問題から離れてまとめてみると、大規模モデル研究の将来についても考察することができます。現在大規模モデルが直面している主な課題は次のように分類できます。

実践的な検証 : 現在の大規模モデルの評価データセットは、「おもちゃ」のような学術データセットが多いですが、これらの学術データセットは現実世界のさまざまな問題や課題を十分に反映できていません。多様で複雑な実際のデータセットが緊急に必要です。現実世界の問題に基づいてモデルを評価し、モデルが現実世界の課題に対応できることを確認します。
モデルの調整: 大規模モデルのパワーも別の問題を引き起こす. モデルは人間の価値観の選択に合わせて、モデルの行動が期待と一致し、望ましくない結果を「強化」しないことを保証する必要がある. 高度で複雑なシステムであるため、この倫理的問題に対処しないと、真剣に、それは人類に災いをもたらす可能性があります;
安全上の危険: 大型モデル研究では、安全上の問題をさらに強調し、安全上の危険を排除する必要があります。大型モデルの安全な開発を保証するには、特別な研究が必要です。さらなる作業が必要です。モデルの解釈可能性、監視、管理について行われます。安全性の問題はモデル開発の重要な部分であるべきであり、飾りではない、必要のない装飾です。
モデルの将来: モデルのパフォーマンスは今後も向上するでしょうか。モデルのサイズが大きくなる？ , この質問は、OpenAI が答えるのは難しいと推定されていますが、大規模モデルの不思議な現象に対する私たちの理解はまだ非常に限られており、大規模モデルの原理についての洞察は依然として非常に貴重です。

以上がビッグモデルのレビューはこちら！ 1 つの記事が、世界的な AI 巨人の大規模モデルの進化の歴史を明らかにするのに役立ちますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。