記事特集学ぶダウンロードに質問プログラミング辞典ゲーム最近の更新

简体中文(ZH-CN) English(EN) 繁体中文(ZH-TW) 日本語(JA) 한국어(KO) Melayu(MS) Français(FR) Deutsch(DE)

ホームページ > テクノロジー周辺機器 > AI > 本文

中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始

王林

リリース： 2023-06-05 13:22:29

転載

778 人が閲覧しました

大規模なモデル機能が登場していますが、パラメーターのスケールが大きいほど良いのでしょうか?

ただし、10B 未満のモデルでも GPT-3.5 と同等のパフォーマンスを達成できると主張する研究者が増えています。

#これは本当にそうなのでしょうか?

GPT-4 をリリースした OpenAI のブログで次のように言及されました:

カジュアルな会話では、GPT-3.5 と GPT-4違いは非常に微妙かもしれません。タスクの複雑さが十分なしきい値に達すると、違いが現れます。GPT-4 は GPT-3.5 よりも信頼性が高く、創造性が高く、より微妙な指示を処理できます。

Google の開発者も PaLM モデルについて同様の観察を行い、大規模モデルの思考連鎖推論能力が小規模モデルよりも大幅に強力であることを発見しました。

これらの観察結果は、複雑なタスクを実行する能力が大規模モデルの機能を具体化するための鍵であることを示しています。

古いことわざのように、モデルもプログラマーも同じです。「くだらないことを言うのはやめて、推論を見せてください。」

中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始

エディンバラ大学、ワシントン大学、アレン AI 研究所の研究者らは、複雑な推論能力は、大規模モデルの鍵将来のよりインテリジェントなツールに向けたさらなる開発の基礎。

基本的なテキスト要約能力、大規模なモデルの実行はまさに「的外れで鶏を殺す」ようなものです。

これらの基本的な能力の評価は、将来の大型モデルの開発を検討する上ではやや専門的ではないように思えます。

#論文アドレス: https://arxiv.org/pdf/2305.17306.pdf

大規模モデルの推論が最も優れているのはどの企業ですか能力??

だからこそ、研究者たちは、困難な推論タスクにおけるモデルのパフォーマンスを測定するために、複雑な推論タスクリストである思考連鎖ハブを作成しました。

テスト項目には、数学 (GSM8K))、科学 (MATH、定理 QA)、記号 (BBH)、知識 (MMLU、C-Eval)、およびコーディング (HumanEval) が含まれます。

これらのテストプロジェクトまたはデータセットはすべて、大規模モデルの複雑な推論機能を目的としています。誰もが正確に回答できる単純なタスクなどというものはありません。

研究者は今でも、モデルの推論能力を評価するために思考連鎖プロンプト (COT プロンプト) 手法を使用しています。

推論能力のテストでは、研究者は最終的な解答のパフォーマンスのみを測定基準として使用し、途中の推論ステップは判断の基礎として使用されません。

下の図に示すように、さまざまな推論タスクにおける現在の主流モデルのパフォーマンスが示されています。

#テスト結果: モデルが大きいほど推論能力が強化される中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始

研究者の研究GPT、Claude、PaLM、LLaMA、T5 モデルファミリなどの現在の人気モデルに焦点を当てます。具体的には、次のとおりです。

OpenAI GPT には、GPT-4 (現在最強)、GPT3.5-Turbo が含まれます(高速ですが、強力ではありません)、text-davinci-003、text-davinci-002、および code-davinci-002 (Turbo より前の重要なバージョン)。

中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始 Anthropic Claude には、claude-v1.3 (低速ですが高機能) と claude-instant-v1.0 (より高速ですが、能力は低くなります）。

Google PaLM (PaLM、PaLM-2、およびそれらの命令調整バージョン (FLan-PaLM および Flan-UPaLM) を含む)、強力なベースおよび命令調整モデル。

中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始

Meta LLaMA (7B、13B、33B、65B バリアントを含む) は、重要なオープンソースの基本モデルです。

GPT-4 は、GSM8K および MMLU 上の他のすべてのモデルよりも大幅に優れていますが、GPT シリーズに匹敵するのは Claude だけです。

FlanT5 11B や LLaMA 7B などの小型モデルは大幅に遅れています。

研究者らは実験を通じて、モデルのパフォーマンスは通常、スケールに関連しており、ほぼ対数線形の傾向があることを発見しました。

パラメータースケールを開示しないモデルは、一般にスケール情報を開示するモデルよりもパフォーマンスが優れています。

LLaMA-65B 推論機能は ChatGPT に近いです

さらに研究者らは、オープンソースコミュニティは規模に関する「堀」をまだ調査する必要があるかもしれないと指摘しました。さらなる改善のためのRLHF。

中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始

この論文の筆頭著者であるフー・ヤオ氏は次のように結論付けています:

#1.オープンソースとクローズドギャップの明らかな違い。

2. 上位の主流モデルのほとんどは RLHF

3. LLaMA-65B は code-davinci-002 に非常に近いです, GPT -3.5 基本モデル

4. 上記を踏まえると、最も有望な方向性は 「LLaMA 65B で RLHF を行う」です。

中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始

このプロジェクトについて、著者は将来のさらなる最適化について説明します:

将来的には、より厳選された推論データセット、特に常識的な推論と数学の定理を測定するデータセットが追加される予定です。

および外部 API を呼び出す機能。

さらに重要なのは、Vicuna7 やその他のオープンソースモデルなど、LLaMA に基づく命令微調整モデルなど、より多くの言語モデルを含める必要があることです。

Cohere 8 などの API を介して、PaLM-2 などのモデルの機能にアクセスすることもできます。

つまり、著者は、このプロジェクトが、オープンソースの大規模言語モデルの開発を評価および指導するための公共の福祉施設として大きな役割を果たすことができると信じています。

以上が中国科学チームが大型モデルの複雑な推論能力を総合的に評価する「思考連鎖コレクション」を開始の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル：

モデル評価

ソース：51cto.com

前の記事：黄色いアヒル徳英（02250.HK）：左手で「トレンディゲーム」に参加し、右手で「AI」を抱き、黄色い小さなアヒル徳英の成長の可能性を明らかにする次の記事：「成都製」無人航空機が神舟15号の凱旋を護衛

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

エンドレスランナーゲームの続編が賞金総額 100 万ドルを目指して誰でも参加できるようになりました

2024-09-20 15:52:34
Solana-Based Memecoin Popcat (POPCAT) Records Nearly 100% Gain In A Month, Mimicking Bitcoin's 2019 'Dry Bounce'

2024-09-20 15:46:32
$QASH Airdrop: Claim Your Piece of the Pie!

2024-09-20 15:28:32
MetaMask 決済プラットフォームの信頼性と合法性

2024-09-20 14:54:01
MetaMaskウォレットからExchangeにアセットを転送する方法

2024-09-20 14:52:01
imToken コールドウォレットをアクティブ化する方法

2024-09-20 14:44:01
MATICコイン価格予測2024-2030

2024-09-20 14:42:01
IntelMarkets (INTL): デュアルチェーンの柔軟性、高レバレッジ、耐量子プロトコルの永久交換プレセールが開始されました

2024-09-20 09:46:12
柴犬のレイヤー2スケーリングソリューション「Shibarium」が復活、SHIB価格が10%上昇

2024-09-20 06:47:29
クリプト・バンター創設者がアルトコインシーズンに向けて準備されたトークンをハイライトする

2024-09-20 06:46:29

最新の問題

複数のルートで宣言されたワーカープールは、しきい値を気にせずに CPU 使用率を維持できますか CPU を集中的に使用するタスクを処理するワーカープールを備えた Node.js システムを見つけたいと考えていますが、複数のルートにわたる CPU 使用率については少し混乱してい...

から 2024-04-06 19:54:23

0

1

444

MySQL SQLクエリを使用して別のテーブルのフィールドの合計を計算する次のようなスキーマがあります。属性「user_id」と「username」を持つユーザーテーブルと、属性「customer_id」（user_idのFK）と「finalPrice...

から 2024-04-06 19:39:29

0

1

441

Web サイトから入力要素を取得できませんそこで、Twitter から入力要素を取得しようとしていますが、それを実行すると、ノードターミナルでこのようなエラーが表示され続け、その結果、このコードによって作成されたブラウザ...

から 2024-04-06 18:59:57

0

1

442

テンプレートのメソッドで定義された変数の使用 Vue (v3 ではなく v2) を使用するのは初めてで、テンプレート内 (メソッド内で定義された) で変数を使用しようとしています。私の簡略化されたコード: <templa...

から 2024-04-06 18:10:25

0

2

513

SCSSを使用してデフォルト値とCSS変数を生成するウェブサイトのスタイリングを実装しています。レガシーサポートの理由から、少なくともしばらくの間は IE11 をサポートする必要があります。ワークフローと私の健全性の理由から、私は...

から 2024-04-06 17:46:54

0

1

355

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート

私たちについて免責事項 Sitemap: PHP中国語ウェブサイト：福祉オンライン PHP トレーニング，PHP 学習者の迅速な成長を支援します！