2023 年のベスト大規模言語モデル 6 つ-AI-php.cn

AI の季節になり、テクノロジー企業はパン屋のパンのように大規模な言語モデルを大量に生産しています。新しいモデルが急速にリリースされ、追跡するのが非常に困難になってきています。

しかし、新しいリリースの嵐の中で、トップに上り詰め、大規模な言語モデル空間で真の候補者であることを証明したモデルはほんのわずかです。 2023 年の終わりに向けて、試してみるべき 6 つの最も印象的な大規模言語モデルをまとめました。

1. OpenAI の GPT-4

The 6 Best Large Language Models in 2023

GPT-4 は、現在までに公開されている最も先進的な大規模言語モデルです。 OpenAI によって開発され、2023 年 3 月にリリースされた GPT-4 は、2018 年に開始された Generative Pre-trained Transformer シリーズの最新版です。その計り知れない機能により、GPT-4 は最も広く使用され、最も人気のある大型言語の 1 つになりました。世界のモデルたち。

公式に確認されていませんが、情報筋は、GPT-4 には 1 兆 7,600 億個の驚異的なパラメーターが含まれている可能性があると推定しています。これは、前世代の GPT-3.5 の約 10 倍、Google の主力製品である PaLM 2 の 5 倍です。この大規模なスケールにより、GPT-4 のマルチモーダル機能により、テキストと画像の両方を入力として処理できます。その結果、GPT-4 はテキストに加えて図やスクリーンショットなどの視覚情報を解釈して記述することができます。そのマルチモーダルな性質により、実世界のデータをより人間らしく理解できるようになります。

科学的なベンチマークでは、GPT-4 はさまざまなテストにおいて他の現代モデルを大幅に上回っています。ベンチマークだけではモデルの強みを完全に示すことはできませんが、実際のユースケースでは、GPT-4 が実践的な問題を直観的に解決するのに非常に優れていることが示されています。 GPT-4 は現在月額 20 ドルで請求されており、ChatGPT の Plus プランを通じてアクセスできます。

2. Anthropic の Claude 2

GPT-4 ほど人気はありませんが、Anthropic AI によって開発された Claude 2 は、いくつかの分野で GPT -4 の技術ベンチマークと現実世界のパフォーマンスに匹敵します。一部の標準テスト (一部の試験を含む) では、Claude 2 が GPT-4 を上回っています。 AI 言語モデルには、GPT -4 の 8k および 32k トークンモデルと比較して、約 100,000 トークンという非常に優れたコンテキストウィンドウもあります。コンテキストの長さが長いほど必ずしもパフォーマンスが向上するとは限りませんが、Claude 2 の拡張された容量は、75,000 語の書籍全体を分析用にダイジェストするなど、明らかな利点をもたらします。

全体的なパフォーマンスでは、依然として GPT-4 が優れていますが、社内テストでは、いくつかのクリエイティブライティングタスクにおいて、Claude 2 が GPT-4 を上回っていることが示されています。クロード 2 も、私たちの評価に基づくと、プログラミングと数学のスキルでは GPT-4 に劣りますが、人間らしく創造的な答えを提供することに優れています。このリストにあるすべてのモデルにクリエイティブな作品を書くか書き直すよう促したとき、10 回中 6 回、自然な人間らしいサウンドのクロード 2 の結果を選択しました。現在、Claude 2 は Claude AI チャットボットを通じて無料で利用できます。追加機能にアクセスできる 20 ドルの有料プランもあります。

OpenAI や Microsoft のような巨大企業に比べて資金的な裏付けが少ないにもかかわらず、Anthropic の Claude 2 AI モデルは、人気のある GPT モデルや Google の PaLM シリーズと比べても遜色ありません。リソースが少ない AI としては、Claude 2 は驚くほど競争力があります。既存のどのモデルが近い将来 GPT に匹敵する可能性が最も高いかに賭けなければならない場合、Claude 2 が最も安全な賭けのように思えます。資金力では負けているものの、Claude 2 の高度な機能は、資金豊富な巨大企業とさえ互角に戦えることを示唆しています (ただし、Google が Anthropic にいくつかの多大な貢献をしていることは注目に値します)。このモデルはその重量クラスを超えており、新たな挑戦者としての期待を示しています。

3. OpenAI の GPT-3.5

GPT-4 のリリースの影に隠れていますが、GPT-3.5 とその 1,750 億のパラメーターを過小評価すべきではありません。パフォーマンス、精度、安全性に重点を置いた微調整とアップグレードを繰り返すことで、GPT-3.5 はオリジナルの GPT-3 モデルから大きく進歩しました。 GPT-3.5 は GPT-4 のマルチモーダル機能を欠き、コンテキストの長さとパラメータ数で遅れていますが、依然として高い能力を維持しており、GPT-4 はその総合的なパフォーマンスを決定的に上回ることができる唯一のモデルです。

GPT ファミリーの第 2 層モデルであるにもかかわらず、GPT-3.5 は独自の性能を保持しており、いくつかのベンチマークで Google や Meta の主力モデルを上回るパフォーマンスを発揮することさえあります。 Google の PaLM 2 と数学スキルとプログラミングスキルを並べてテストしたところ、その差は顕著ではなく、場合によっては GPT-3.5 がわずかに有利でした。ユーモアや物語の執筆など、より創造的なタスクでは GPT-3.5 が決定的に前進しました。

つまり、GPT-4 は AI の新たなマイルストーンをマークしますが、GPT-3.5 は依然として非常に強力なモデルであり、最も先進的な代替モデルと競合し、場合によってはそれを超えることができます。継続的な改良により、より派手な次世代モデルと並んでも関連性が保たれます。

4. Google の PaLM 2

AI モデルの機能を評価する場合、技術レポートを読んでベンチマークスコアを確認するのが実証済みの公式ですが、学んだことはすべて割り引いて考え、自分でモデルをテストしてください。直観に反しているように思えるかもしれませんが、一部の AI モデルでは、ベンチマーク結果が現実世界のパフォーマンスと必ずしも一致するとは限りません。机上では、Google の PaLM 2 が GPT-4 キラーであると考えられており、公式テストの結果では、いくつかのベンチマークで GPT-4 に匹敵することが示唆されています。しかし、日常的に使用すると、異なるイメージが現れます。

論理的推論、数学、創造性において、PaLM 2 は GPT-4 に及ばない。また、さまざまなクリエイティブな執筆作業においても、Anthropic のクロードに遅れをとっています。ただし、GPT-4 キラーとしての宣伝には応えられませんでしたが、Google の PaLM 2 は、それ自体が強力な言語モデルであり、膨大な機能を備えています。それに関する否定的な感情の多くは、完全に悪いパフォーマンスではなく、GPT-4 のようなモデルとの比較に由来しています。

3,400 億のパラメーターを備えた PaLM 2 は、世界最大のモデルの 1 つです。特に多言語のタスクに優れており、優れた数学とプログラミングの能力を持っています。 PaLM 2 は、最高ではありませんが、執筆などの創造的なタスクでも非常に効率的です。そのため、ベンチマークでは楽観的な見通しが描かれていましたが、完全には実現しませんでしたが、PaLM 2 は、すべての競合他社を全面的に上回るわけではないにせよ、依然として優れた AI スキルを示しています。

5. TII の Falcon-180B

AI 言語モデルのリリースの急速なペースに追いついていない限り、おそらく Falcon-180B に遭遇したことがないでしょう。 UAE の Technology Innovation Institute によって開発された 1,800 億パラメータの Falcon-180 は、たとえ GPT モデルの知名度や Meta の Llama 2 のような広範な使用に欠けていたとしても、世の中で最も強力なオープンソース言語モデルの 1 つです。間違い - Falcon-180B はクラス最高の性能を発揮します。

ベンチマークの結果は、Falcon-180B がほとんどのオープンソースモデルを上回り、PaLM 2 や GPT-3.5 などの商用の巨大モデルと競合することを明らかにしています。数学、コーディング、推論、創造的なライティングのタスクのテストでは、GPT-3.5 や PaLM 2 を上回ることもありました。 GPT-4、GPT-3.5、および Falcon-180B をランク付けする場合、いくつかの使用例における長所を考慮して、Falcon-180B を GPT-4 と GPT-3.5 の間に配置します。

全体的なパフォーマンスにおいて GPT-3.5 よりも優れているとは自信を持って言えませんが、それはそれ自身の主張になります。このモデルは、あまり知られていないものの、よく知られている代替品の機能に匹敵するか、それを上回るという点で注目に値します。 Falcon-180B モデルは、Hugging Face (オープンソース LLM プラットフォーム) で試すことができます。

6. Meta AI の Llama 2

Meta AI の 700 億パラメータの大規模言語モデルである Llama 2 は、その前任者である Llama 1 をベースに構築されています。Llama 2 は、主要なモデルよりも小さいものの、ベンチマークでは、ほとんどの公開されているオープンソース LLM よりも大幅に優れています。そして実際の使用。例外は Falcon-180B です。

私たちは、Llama 2 を GPT-4、GPT-3.5、Claude 2、PaLM 2 に対してテストして、その機能を評価しました。当然のことながら、GPT-4 はほぼすべてのパラメータで Llama 2 を上回りました。ただし、Llama 2 は、いくつかの評価において GPT-3.5 および PaLM 2 に対して独自の地位を保っていました。 Llama 2 が PaLM 2 よりも優れていると主張するのは不正確ですが、Llama 2 はコーディング作業を含め、PaLM 2 を悩ませていた多くの問題を解決しました。 Claude 2 と GPT-3.5 は、一部の領域では Llama 2 を上回りましたが、決定的に優れていたのは限られた数のタスクのみでした。

したがって、オープンソースの Llama 2 は、最大の独自モデルの機能を超えることはありませんが、その重量クラスを超えています。公開されているモデルとしては、一部の評価において PaLM 2 のような AI 巨人に匹敵する素晴らしいパフォーマンスを示しています。 Llama 2 は、オープンソース言語モデルの将来の可能性を垣間見ることができます。

AI モデル間のパフォーマンスの差は縮まっています

AI の状況は猛烈なペースで進化していますが、OpenAI の GPT-4 は依然として群のリーダーです。ただし、GPT-4 は規模とパフォーマンスにおいて比類のないものですが、Claude 2 のようなモデルは、十分なスキルがあれば、より小型のモデルでも特定の領域で競争できることを示しています。 Google の PaLM 2 は、いくつかの高い期待には及ばなかったものの、依然として強力な機能を示しています。そして、Falcon-180B は、オープンソースへの取り組みが十分なリソースを与えられれば、業界の大手企業と肩を並べることができることを証明しました。

以上が2023 年のベスト大規模言語モデル 6 つの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。