Xi Xiaoyao Science and Technology Talks 原文
著者 | Xiaoxi、Python
大規模モデルの初心者であれば、GPT、PaLm、LLaMA という単語の奇妙な組み合わせを初めて目にするでしょう。どう思いますか?もっと深く進んで、BERT、BART、RoBERTa、ELMo などの変な単語が次々に出てきたら、初心者の私は発狂してしまうのではないだろうか?
NLP の小さなサークルに長く属してきたベテランでも、大きなモデルの爆発的な開発スピードに戸惑い、急速に変化する大きなモデルについていけない可能性があります。どの派閥で使用されていますか?現時点では、大規模なモデルのレビューを依頼する必要があるかもしれません。 Amazon、テキサス A&M 大学、ライス大学の研究者によって開始されたこの大規模なモデル レビュー「実践における LLM の力の活用: ChatGPT とその先への調査」は、「家系図」を構築する方法を提供します。この記事では、 ChatGPT に代表される大規模モデルの過去、現在、未来を分析し、タスクに基づいて大規模モデルの非常に包括的な実践ガイドを構築し、さまざまなタスクにおける大規模モデルの長所と短所を紹介し、最後に現在の問題を指摘しました。モデルのリスクと課題。
論文のタイトル:
実際の LLM の力の活用:ChatGPT およびその先に関する調査
論文のリンク://m.sbmmt.com/link/ f50fb34f27bd263e6be8ffcf8967ced0
プロジェクト ホームページ://m.sbmmt.com/link/968b15768f3d19770471e9436d97913c
大規模モデルの「諸悪の根源」の追求は、「Attention is All You Need」の記事から始めるとよいでしょう。この記事をもとに、Encoder と Encoder の複数のグループから構成される機械翻訳モデル Transformer Google 機械翻訳チームによって提案された Decoder が始まります。大規模モデルの開発は一般に 2 つの道をたどってきました。1 つの道は、Decoder 部分を放棄し、Encoder をエンコーダの事前トレーニング モデルとしてのみ使用することです。その最も有名な代表は、次のとおりです。バート一家。これらのモデルは、他のデータに比べて取得が容易な大規模な自然言語データをより有効に活用するために「教師なし事前トレーニング」手法を試み始めました。「教師なし」手法はマスクを削除することによるマスク言語モデル (MLM) です。文内のいくつかの単語を抽出し、コンテキストを使用してマスクによって削除された単語を予測する能力をモデルに学習させます。 Bert が登場したとき、NLP の分野では爆弾とみなされていましたが、同時に SOTA は感情分析や固有表現認識などの自然言語処理の多くの一般的なタスクで使用されました。 Bert ファミリーの傑出した代表者である Google のこの他にも、Baidu の ERNIE、Meta の RoBERTa、Microsoft の DeBERTa などがあります。
バートのアプローチがスケールの法則を突破できなかったのは残念であり、この点は現在の大型モデルの主力、つまり別の道によって決定されます。大規模モデルの開発 GPT ファミリは、エンコーダ部分を放棄し、デコーダ部分に基づいてこれを真に達成しました。 GPT ファミリーの成功は、「言語モデルのサイズを拡張すると、ゼロショット (ゼロショット) 学習とスモールショット (少数ショット) 学習の能力が大幅に向上する可能性がある」という研究者の驚くべき発見から来ています。これは一貫しています。そこには大きな違いがあり、それが今日の大規模言語モデルの魔法の力の源でもあります。 GPT ファミリーは、前の単語シーケンスから次の単語を予測することに基づいてトレーニングされます。したがって、GPT は当初テキスト生成モデルとしてのみ登場しましたが、GPT-3 の出現は GPT ファミリーの運命の転換点となりました。 3 は最初のものでした。これは、テキスト生成自体を超えて大規模なモデルによってもたらされる魔法のような機能を人々に示し、これらの自己回帰言語モデルの優位性を示します。 GPT-3から始まり、現在のChatGPT、GPT-4、Bard、PaLM、LLaMAが隆盛し、現在の大型モデルの時代を迎えました。
この家系図の 2 つの分岐を統合することで、Word2Vec と FastText の初期の時代から、事前トレーニング モデルでの ELMo と ULFMiT の初期の探索までを確認できます。そして、Bert Hengkong へ これはヒットしましたが、GPT ファミリーは、GPT-3 の見事なデビューまで静かに機能していました。ChatGPT は空に舞い上がりました。テクノロジーの反復に加えて、OpenAI が独自の技術を黙って遵守したこともわかります技術的な道を歩み、最終的には LLM の誰もが認めるリーダーになりました。私たちは、エンコーダ デコーダ モデル アーキテクチャ全体に対する Google の重要な理論的貢献、大規模モデルのオープンソース プロジェクトへの Meta の継続的な寛大な参加、そしてもちろん、LLM の傾向が徐々に「」に向かって進んでいることを見てきました。 GPT-3 以降、非公開のソースが使用されています。将来的には、ほとんどの研究が API ベースの研究にならざるを得なくなる可能性が非常に高いです。
結局のところ、大規模モデルの魔法のような能力は GPT から来ているのでしょうか? GPT ファミリの機能が飛躍的に向上するたびに、事前トレーニング データの量、質、多様性が大幅に向上しました。大規模モデルの学習データには、書籍、記事、Web サイト情報、コード情報などが含まれます。これらのデータを大規模モデルに入力する目的は、大規模モデルに単語、文法、言語、言語、言語などを伝えることで、「人間」を完全かつ正確に反映することです。構文と意味情報により、モデルはコンテキストを認識し、人間の知識、言語、文化などの側面を捉える一貫した応答を生成する能力を得ることができます。
一般的に、多くの NLP タスクに直面して、データ アノテーション情報の観点から、それらをゼロ サンプル、少数のサンプル、および複数のサンプルに分類できます。間違いなく、LLM はゼロショット タスクに最適な手法であり、ほとんど例外なく、大規模モデルはゼロショット タスクにおいて他のモデルよりもはるかに優れています。同時に、少数サンプルのタスクは、大規模なモデルのアプリケーションにも非常に適しています。大規模なモデルの「質問と回答」のペアを表示することで、大規模なモデルのパフォーマンスを向上させることができます。このアプローチは、一般にインコンテキストとも呼ばれます学ぶ。大規模なモデルでもマルチサンプル タスクをカバーできますが、微調整が依然として最良の方法である可能性があります。もちろん、プライバシーやコンピューティングなどの制約の下では、大規模なモデルが依然として役立つ可能性があります。
同時に、微調整されたモデルは、トレーニング データとテスト データの分布の変化という問題に直面する可能性があります。一般に、OOD データでは非常に優れたパフォーマンスを発揮します。同様に、LLM は、明示的なフィッティング プロセスを持たないため、はるかに優れたパフォーマンスを発揮します。ヒューマン フィードバックに基づく典型的な ChatGPT 強化学習 (RLHF) は、ほとんどの配布外の分類および翻訳タスクで良好なパフォーマンスを発揮します。また、医療診断でも良好なパフォーマンスを発揮します。 OOD 評価用に設計されたデータセット DDXPlus。
多くの場合、「大規模モデルは優れています!」という主張の後には、「大規模モデルをどのように使用するか、いつ使用するか」という質問が続きます。 「特定のタスクに直面したとき、微調整を選択するべきでしょうか、それとも何も考えずに大きなモデルを使い始めるべきでしょうか?」本稿では、「人間を模倣する必要があるか」「推論能力が必要か」「マルチモデルかどうか」といった一連の疑問に基づいて、大規模モデルを使用するかどうかを決定するための実践的な「意思決定フロー」をまとめました。 -タスク」。
NLP タスク分類の観点から:
現在、多くの場合、大量のラベル付きデータが豊富にあります。 NLP タスクでは、微調整されたモデルが依然として優位性を維持している可能性があります。ほとんどのデータ セットでは、LLM は微調整されたモデルよりも劣ります。具体的には:
つまり、ほとんどの従来の自然言語理解タスクでは、微調整されたモデルの方がパフォーマンスが向上します。もちろん、LLM の可能性は、完全にリリースされていない可能性がある Prompt プロジェクトによって制限されています (実際、微調整モデルは上限に達していません)。分類、敵対的 NLI、その他のタスクでは、LLM の方が強力な機能を備えているため、一般化機能によりパフォーマンスが向上しますが、現時点では、成熟したラベル付きデータの場合、モデルを微調整することが従来のタスクに対する最適なソリューションである可能性があります。
自然言語理解と比較すると、自然言語生成は大規模モデルの舞台となる可能性があります。自然言語生成の主な目的は、一貫性があり、スムーズで、意味のあるシーケンスを作成することです。通常、これは 2 つのカテゴリに分類できます。1 つは機械翻訳と段落情報の要約に代表されるタスクで、もう 1 つはよりオープンな自然な文章です。そのようなタスクメールを書く、ニュースを書く、ストーリーを作成するなど。具体的には:
知識集約型タスクとは、一般に、背景知識、ドメイン固有の専門知識、または一般的な世界の知識に大きく依存するタスクを指します。知識集約型タスクは異なります。単純なパターンからの認識と構文分析には、私たちの現実世界に関する「常識」と、それを正しく使用する能力が必要です。具体的には:
知識集約的なタスクでは、大規模なモデルが常に効果的であるとは限らないことに注意してください。場合によっては、大規模なモデルは現実世界の知識にとって役に立たなかったり、間違っていたりする可能性があり、これは「一貫性のない」知識です。大規模なモデルのパフォーマンスがランダムな推測よりも悪くなる場合があります。たとえば、数学の再定義タスクでは、モデルが元の意味と再定義された意味のどちらかを選択する必要があります。これには、大規模な言語モデルによって学習された知識とは正反対の能力が必要です。そのため、LLM のパフォーマンスは、LLM のパフォーマンスよりもさらに劣ります。ランダムです。
LLM のスケーラビリティにより、事前トレーニングされた言語モデルの能力が大幅に強化されます。モデルのサイズが指数関数的に増加すると、推論などのいくつかの重要な機能がパラメータとともに徐々に拡張されます。 LLM を有効にすると、算術推論と常識推論の能力は、肉眼で見ても非常に強力になります。算術および推論による判断 その機能は、以前のモデルを上回っています GSM8k、SVAMP、および AQuA の大規模モデルには画期的な機能があります LLM の計算能力は、思考連鎖 (CoT) のプロンプト方式によって大幅に強化できることを指摘する価値があります。
大型モデルは、今後長期間にわたって必然的に私たちの仕事や生活の一部となるでしょう。パフォーマンス、効率、コストなどの問題に加えて、大規模言語モデルのセキュリティ問題は、大規模モデルが直面するすべての課題の中でほぼ最優先事項です。機械幻覚は、現在優れた言語モデルが存在しない大規模モデルの主な問題です。大きなモデルによって出力される偏ったまたは有害な幻覚は、ユーザーに深刻な影響を及ぼします。同時に、LLM の「信頼性」が高まるにつれて、ユーザーは LLM に過度に依存し、LLM が正確な情報を提供できると信じてしまう可能性があり、この傾向が予測され、大規模モデルのセキュリティ リスクが増大します。
LLM によって生成されるテキストは高品質かつ低コストであるため、誤解を招く情報に加えて、憎悪、差別、暴力、噂などの攻撃のツールとしても使用される可能性があります。報道によると、サムスン社員がChatGPTを使用して最新プログラムのソースコード属性やハードウェア関連の社内会議記録などの極秘データを誤って流出させたという。仕事。
さらに、大規模モデルが医療、金融、法律などのデリケートな分野で使用できるかどうかの鍵は、「」の問題にあります。大規模モデルの信頼性」。現時点では、サンプルがゼロの大規模モデルの堅牢性は低下することがよくあります。同時に、LLM は社会的に偏見や差別的であることが示されており、アクセント、宗教、性別、人種などの人口統計上のカテゴリ間でパフォーマンスに大きな差があることが多くの研究で観察されています。これにより、大規模なモデルでは「公平性」の問題が発生する可能性があります。
最後に、社会問題から離れてまとめてみると、大規模モデル研究の将来についても考察することができます。現在大規模モデルが直面している主な課題は次のように分類できます。
以上がビッグモデルのレビューはこちら! 1 つの記事が、世界的な AI 巨人の大規模モデルの進化の歴史を明らかにするのに役立ちますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。