GPT-4 API の代替?パフォーマンスは同等でコストは 98% 削減スタンフォード大学は FrugalGPT を提案しましたが、研究は論争を引き起こしました-AI-php.cn

大規模言語モデル (LLM) の開発により、人工知能は爆発的な変化の時期を迎えています。 LLM がビジネス、科学、金融などのアプリケーションで使用できることはよく知られており、LLM を基本サービスとして提供する企業 (OpenAI、AI21、CoHere など) が増えています。 GPT-4 のような LLM は、質問応答などのタスクで前例のないパフォーマンスを達成していますが、その高スループットの性質により、アプリケーションでは非常に高価になります。

たとえば、ChatGPT の運用には 1 日あたり 700,000 ドル以上の費用がかかりますが、GPT-4 を使用してカスタマーサービスをサポートすると、中小企業の場合は 1 か月あたり 21,000 ドル以上の費用がかかる可能性があります。金銭的なコストに加えて、最大規模の LLM を使用すると、環境とエネルギーに重大な影響が生じます。

現在、多くの企業が API を通じて LLM サービスを提供しており、その料金はさまざまです。 LLM API を使用するコストは通常、3 つの要素で構成されます。1) プロンプトコスト (プロンプトの長さに比例)、2) 生成コスト (生成の長さに比例)、3) クエリごとに固定される場合もあります。費用がかかります。

以下の表 1 は、OpenAI、AI21、CoHere、Textsynth など、主流ベンダーの 12 種類の商用 LLM のコストを比較しています。それらのコストは最大 2 桁異なります。たとえば、OpenAI の GPT-4 プロンプトのコストは 1,000 万トークンに対して 30 ドルですが、Textsynth がホストする GPT-J のコストはわずか 0.2 ドルです。

GPT-4 API平替？性能媲美同时成本降低98%，斯坦福提出FrugalGPT，研究却惹争议

コストと精度のバランスは、意思決定において重要な要素です。新しい技術を採用すること。 LLM を効果的かつ効率的に利用する方法は、実務者にとって重要な課題です。タスクが比較的単純であれば、GPT-J (GPT-3 の 30 分の 1 である) からの複数の応答を集約することで、GPT-3 と同様のパフォーマンスを達成できます。コストと環境のトレードオフを実現します。ただし、より困難なタスクでは、GPT-J のパフォーマンスが大幅に低下する可能性があります。したがって、LLM をコスト効率よく使用するには、新しいアプローチが必要です。

最近の研究では、このコスト問題の解決策を提案しようとしました。研究者らは、FrugalGPT が最高の個別 LLM (GPT-4 など) のパフォーマンスと競合できることを実験的に示しました。コストが最大 98% 削減されるか、同じコストで最適な個別 LLM の精度が 4% 向上します。

GPT-4 API平替？性能媲美同时成本降低98%，斯坦福提出FrugalGPT，研究却惹争议

論文アドレス: https://arxiv.org/pdf /2305.05176.pdf

スタンフォード大学の研究者は、GPT-4、ChatGPT、J1-Jumbo などの LLM API の使用コストを調査し、これらのモデルが特に、大量のクエリやテキストに対して LLM を使用すると、コストが高くなる可能性があります。これに基づいて、この研究では、ユーザーが LLM を使用して推論のコストを削減するために活用できる 3 つの戦略、1) プロンプト適応、2) LLM 近似、3) LLM カスケードについて概説し、説明します。さらに、この研究では、コストを削減し、精度を向上させるために、さまざまなクエリでどの LLM の組み合わせを使用するかを学習する、カスケード LLM のシンプルで柔軟なインスタンスである FrugalGPT を提案しています。

この研究で提示されたアイデアと発見は、LLM の持続可能かつ効率的な使用の基礎を築きます。予算を増やすことなく、より高度な AI 機能を導入できるようになれば、業界全体で AI テクノロジーの導入が促進され、中小企業でも高度な AI モデルを自社の業務に導入できるようになります。

もちろん、これは 1 つの視点にすぎず、FrugalGPT がどのような影響を及ぼし、「AI 業界のゲームチェンジャー」になれるかどうかを明らかにするには、しばらく時間がかかるでしょう。。」論文の発表後、この研究はいくつかの論争も引き起こしました:

GPT-4 API平替？性能媲美同时成本降低98%，斯坦福提出FrugalGPT，研究却惹争议

「この要約は論文の内容を著しく誇張しており、ここでのタイトルはひどく誤解を招くものです。彼らが行ったのは、この論文で取り上げられている種類の問題について上級者に電話する必要性を減らす方法を考案したことです。これは、2% のコストで GPT-4 を置き換えるものでも、4% の精度で GPT-4 を置き換えるものでもありません。これは、GPT-4 をより安価なモデルとサポートするインフラストラクチャと組み合わせる方法です。要約では指摘されていないのは、結果をスコアリングするためのカスタムモデルを構築する必要があり、それがメカニズムの真の中心であるということです。…このアプローチには正当な使用例があり、これには結果のキャッシュなどの基本的なコストエンジニアリングが含まれます。ほとんどのユースケースでは、適切なスコアリングモデルがないため、これはまったく無関係です。」

GPT-4 API平替？性能媲美同时成本降低98%，斯坦福提出FrugalGPT，研究却惹争议

##「彼らは 3 つの (小規模な) データセットでこれを評価しただけで、FrugalGPT がそれぞれのモデルを選択した頻度についての情報は提供しませんでした。さらに、小規模なモデルの方がより良い結果が得られ、GPT-4 の精度が高いと報告しました。これは私には非常に懐疑的です」

具体的にどのように判断するか、論文の内容を見てみましょう。

LLM を経済的かつ正確に使用する方法

次の文書では、予算内で LLM API を効率的に使用する方法を紹介します。図 1 (b) に示すように、この研究では、即時適応、LLM 近似、LLM カスケードという 3 つのコスト削減戦略について説明します。

GPT-4 API平替？性能媲美同时成本降低98%，斯坦福提出FrugalGPT，研究却惹争议

#戦略 1: 迅速な適応。 LLM クエリのコストは、プロンプトのサイズに応じて直線的に増加します。したがって、LLM API の使用コストを削減する合理的なアプローチには、プロンプトのサイズを削減することが含まれます。これは研究ではプロンプト適応と呼ばれるプロセスです。プロンプトの選択を図 2(a) に示します。タスクの実行方法を示すために多くの例を含むプロンプトを使用する代わりに、プロンプトに例の小さなサブセットのみを保持することができます。これにより、プロンプトが小さくなり、コストが削減されます。別の例はクエリ連結です (図 2(b) を参照)。

GPT-4 API平替？性能媲美同时成本降低98%，斯坦福提出FrugalGPT，研究却惹争议

# 戦略 2: LLM 近似。 LLM 近似の概念は非常に単純です。LLM API の使用が高価すぎる場合は、より手頃なモデルまたはインフラストラクチャを使用して近似できます。この一例を図 2(c) に示します。基本的な考え方は、LLM API にクエリを送信するときに、応答をローカルキャッシュ (データベースなど) に保存することです。 LLM 近似の別の例は、図 2 (d) に示すように、モデルの微調整です。

戦略 3: LLM カスケード。さまざまな LLM API には、さまざまなクエリにおいて独自の長所と短所があります。したがって、使用する LLM を適切に選択すると、コストを削減し、パフォーマンスを向上させることができます。 LLM カスケードの例を図 2(e) に示します。

コスト削減と精度の向上

研究者は、次の 3 つの目標を掲げて FrugalGPT LLM カスケードに関する実証研究を実施しました。 ##LLM カスケードの簡単な例から何が分かるか;

最高の単一 LLM API のパフォーマンスと同等の場合に FrugalGPT によって達成されるコスト削減を定量化する;

FrugalGPT によって達成されるパフォーマンスとコストの間のトレードオフを測定します。
実験セットアップは、LLM API (表 1)、タスク、データセット (表 2)、および FrugalGPT インスタンスのいくつかの側面に分かれています。

FrugalGPT は上記の API に基づいて開発され、さまざまなタスクに属するさまざまなデータセットで評価されました。その中で、HEADLINES は金融ニュースのデータセットです。目標は、金融ニュースの見出しを読んで金価格の傾向 (上昇、下降、中立、またはなし) を判断することです。これは、金融市場で関連するニュースをフィルタリングするのに特に役立ちます。OVERRULING は法的文書データセット。その目的は、特定の文が「覆す」、つまり以前の訴訟を覆すものであるかどうかを判断することです。COQA は、会話環境で開発された読解データセットであり、研究者はこれを直接的な文書として適応させました。クエリ応答タスク。

彼らは、カスケード長 3 の LLM カスケードアプローチに焦点を当てています。これは、最適化スペースが簡素化され、良好な結果が得られているためです。各データセットは、LLM カスケードを学習するためのトレーニングセットと評価用のテストセットにランダムに分割されます。

GPT-4 API平替？性能媲美同时成本降低98%，斯坦福提出FrugalGPT，研究却惹争议

HEADLINES データセットのケーススタディは次のとおりです。予算を $6.50 に設定します。はい、1 つです。 GPT-4の5番目のコスト。スコアリング関数として回帰用の DistilBERT [SDCW19] を採用。 DistilBERT はここで検討したすべての LLM よりもはるかに小さいため、安価であることは注目に値します。図 3(a) に示すように、学習された FrugalGPT は GPT-J、J1-L、GPT-4 を順番に呼び出します。与えられたクエリに対して、まず GPT-J から回答を抽出します。回答のスコアが 0.96 より大きい場合、その回答は最終回答として受け入れられます。それ以外の場合は、J1-L が照会されます。 J1-L の解答スコアが 0.37 より大きい場合、それが最終解答として受け入れられますが、そうでない場合は、最終解答を取得するために GPT-4 が呼び出されます。興味深いことに、このアプローチは多くのクエリで GPT-4 よりも優れたパフォーマンスを発揮します。たとえば、Nasdaq の見出し「米国の GDP データは悲惨、金は最安値を脱している」に基づいて、FrugalGPT は価格が下落すると正確に予測しましたが、GPT-4 は間違った答えを提供しました (図 3(b) を参照)。

全体として、FrugalGPT の結果は、精度の向上とコストの削減の両方です。図 3 (c) に示すように、コストは 80% 削減され、精度はさらに 1.5% 向上しました。

GPT-4 API平替？性能媲美同时成本降低98%，斯坦福提出FrugalGPT，研究却惹争议

LLM の多様性

##複数の LLM API が最高の単一 LLM よりも優れたパフォーマンスを生み出すことができるのはなぜですか?基本的に、これは生成の多様性によるものです。低コストの LLM であっても、高コストの LLM ではできないクエリに正しく応答できることがあります。この多様性を測定するために、研究者は MPI とも呼ばれる最大パフォーマンス向上を使用します。 LLM B に対する LLM A の MPI は、LLM A が正解を生成し、LLM B が不正解を生成する確率です。このメトリクスは基本的に、LLM A を LLM B と同時に呼び出すことによって達成できる最大のパフォーマンス向上を測定します。

図 4 は、すべてのデータセットの LLM API の各ペア間の MPI を示しています。 HEADLINES データセットでは、GPT-C、GPT-J、および J1-L はすべて GPT-4 のパフォーマンスを 6% 向上させます。 COQA データセットでは、GPT-4 はデータポイントの 13% で間違っていましたが、GPT-3 は正しい答えを提供しました。これらの改善の上限は常に達成可能であるとは限りませんが、より良いパフォーマンスを達成するために安価なサービスを活用できる可能性を示しています。

GPT-4 API平替？性能媲美同时成本降低98%，斯坦福提出FrugalGPT，研究却惹争议

#コストの削減

研究者らは次に、FrugalGPT が精度を維持しながらコストを削減できるかどうか、また、削減できる場合にはどの程度コストを削減できるかを調査しました。表 3 は、FrugalGPT による全体的なコスト削減を 50% ～ 98% の範囲で示しています。これが可能になるのは、FrugalGPT が小規模な LLM で正確に応答できるクエリを識別できるため、コスト効率の高い LLM のみを呼び出すためです。 GPT-4 などの強力だが高価な LLM は、FrugalGPT によって検出された困難なクエリにのみ使用されます。

GPT-4 API平替？性能媲美同时成本降低98%，斯坦福提出FrugalGPT，研究却惹争议

#パフォーマンスとコストのトレードオフ

次へ研究者らは、図 5 に示すように、FrugalGPT 実装のパフォーマンスとコストの間のトレードオフを調査し、いくつかの興味深い観察を行いました。

まず第一に、さまざまな LLM API のコストランキングは固定されていません。さらに、より高価な LLM API は、より安価な API よりもパフォーマンスが低下する場合があります。これらの観察は、予算の制約がない場合でも、LLM API を適切に選択することの重要性を強調しています。

次に、研究者らは、FrugalGPT が評価されたすべてのデータセットでパフォーマンスとコストのスムーズなトレードオフを達成できたことにも注目しました。これにより、LLM ユーザーに柔軟なオプションが提供され、LLM API プロバイダーがエネルギーを節約し、炭素排出量を削減できる可能性があります。実際、FrugalGPT はコストの削減と精度の向上を同時に実現できます。これは、おそらく FrugalGPT が複数の LLM からの知識を統合しているためです。

図 5 に示すサンプルクエリは、FrugalGPT がパフォーマンスの向上とコストの削減を同時に実現できる理由をさらに説明しています。 GPT-4 は、パート (a) の最初の例など、一部のクエリで誤りを犯しますが、一部の低コスト API は正しい予測を提供します。 FrugalGPT はこれらのクエリを正確に識別し、低コストの API に完全に依存します。たとえば、図 5(b) に示すように、GPT-4 は、「この分野での訴訟を調和させ、標準化する時期が来た」という法的記述に覆りがないと誤って推測しています。ただし、FrugalGPT は GPT-J の正解を受け入れ、高価な LLM の使用を回避し、全体的なパフォーマンスを向上させます。もちろん、単一の LLM API が常に正しいとは限りません。LLM カスケードは、LLM API のチェーンを使用することでこれを克服します。たとえば、図 5(a) に示す 2 番目の例では、FrugalGPT は GPT-J の生成が信頼できない可能性があることを発見し、チェーン内の 2 番目の LLM J1-L に頼って正しい答えを見つけます。繰り返しますが、GPT-4 は間違った答えを提供します。 FrugalGPT は完璧ではなく、コストを削減する余地がまだたくさんあります。たとえば、図 5 (c) の 3 番目の例では、チェーン内のすべての LLM API が同じ応答を返します。ただし、FrugalGPT では最初の LLM が正しいかどうかが不明なため、チェーン内のすべての LLM をクエリする必要があります。これを回避する方法を決定することは未解決の問題のままです。

GPT-4 API平替？性能媲美同时成本降低98%，斯坦福提出FrugalGPT，研究却惹争议