LLMコストを節約するために、セマンティックにテキストを圧縮します-AI-php.cn

超長テキストの処理に関するAIコメントの要約：階層クラスタリングに基づくマルチチャネルアプローチ

Semantically Compress Text to Save On LLM Costs

当初は2024年10月28日に公開されたBazaarvoice Developer blog

はじめに

大規模な言語モデル（LLMS）は、構造化されていないテキストを処理するための強力なツールですが、テキストがコンテキストウィンドウの制限を超えた場合はどうなりますか？ Bazaarvoiceは、AIレビューの要約機能を構築する際にこの課題に直面しています。何百万ものユーザーレビューは、最新のLLMのコンテキストウィンドウに適合できません。

この記事では、入力テキストを圧縮することにより、Bazaarvoiceがこの問題をどのように解決するかを共有します（セマンティクスを失うことなく）。具体的には、選択された埋め込みモデルに関係なく、圧縮と引き換えに失われる詳細レベルを明示的に調整できるマルチチャネル階層クラスタリングアプローチを使用しました。究極のテクノロジーは、レビューの要約機能を経済的に実行可能にし、将来のビジネス拡大の基盤となっています。

質問

Bazaarvoiceは、20年近くにわたってユーザーが生成した製品レビューを収集しているため、大量のデータがあります。これらの製品レビューは、長さとコンテンツがさまざまな完全に構造化されていません。大規模な言語モデルは、非構造化されたテキストの処理に最適です。非構造化データを処理し、ディストラクタ間で関連情報を特定できます。ただし、LLMには制限もあります。その1つはコンテキストウィンドウです。一度に入力できるタグの数（ほぼ単語数）です。 AnthropicのClaudeバージョン3などの最先端の大規模な言語モデルには、最大200,000のマーカーを備えた特大のコンテキストウィンドウがあります。これは、小さな小説を入れることができることを意味しますが、インターネットは依然として巨大で成長しているデータのコレクションであり、ユーザーが生成した製品レビューも例外ではありません。

レビューサマリー機能を構築する際に、コンテキストウィンドウで制限が発生しました（顧客のWebサイトの特定の製品のすべてのレビューを要約）。ただし、過去20年間で、多くの製品がLLMコンテキストウィンドウを迅速に過負荷にした数千のレビューを蓄積してきました。実際、LLMの巨大な再設計を1つのプロンプトで処理する必要がある数百万のレビューを含むいくつかの製品さえあります。

技術的に実行可能であっても、コストは非常に高くなる可能性があります。すべてのLLMプロバイダーは、入力マーカーと出力マーカーの数に基づいて請求されます。各製品のコンテキストウィンドウの制限（何百万もの製品があります）に近づくと、クラウドホスティング請求書はすぐに6桁を超えています。

私たちのメソッド

これらの技術的および経済的制約を克服してレビューの概要を公開するために、データに対するかなり簡単な洞察に焦点を当てました。多くのコメントは同じ意味を表しています。実際、要約の概念全体はこれに依存しています。レビューの要約は、コメンターの繰り返しの洞察、テーマ、感情を捉えています。このデータ複製を使用して、LLMに送信する必要があるテキストの量を減らすことができるため、コンテキストウィンドウの制限を満たし、システムの運用コストを削減することを避けることができることに気付きました。これを行うには、同じ意味を表すテキストの断片を識別する必要があります。このようなタスクは、言うよりも簡単です。人々は、同じ意味を表現するために異なる単語やフレーズを使用することがよくあります。

幸いなことに、テキストセマンティクスが類似しているかどうかを認識することは、常に自然言語処理の分野で積極的な研究分野でした。 Agirre et al。の2013年の作業（

SEM 2013共有タスク：セマンティックテキストの類似性。ボキャブラリーおよび計算セマンティクスに関する2回目の共同会議

）で、人間に標識されたセマンティックな類似文のセットに関するデータも公開されました。 STSベンチマークと呼ばれます。その中で、次の表に示すように、テキスト文は1〜5のランクに基づいて意味的に類似しているか異なるかどうかを示すように人々に依頼します（Cer et al。、

semeval-2017タスク1：セマンティックテキストの類似性多言語および言語間の焦点評価）：

STSベンチマークデータセットは、一般的に、高次元空間でセマンティックな同様の文を相関させるテキスト埋め込みモデルの能力を評価するために使用されます。具体的には、ピアソンの相関は、組み込みモデルが人間の判断を表す程度を測定するために使用されます。 Semantically Compress Text to Save On LLM Costs したがって、このような埋め込みモデルを使用して、製品レビューでセマンティックな同様のフレーズを識別し、LLMに送信する前に重複したフレーズを削除できます。

私たちの方法は次のとおりです

最初に、製品のレビューを文に分割します。

STSベンチマークでうまく機能するネットワークを使用して、各文のベクトルの埋め込みベクトルを計算します。

各製品のすべての埋め込みベクターに凝縮階層クラスタリングを使用します。

各クラスターのクラスター重心に最も近い例（LLMに送信）を保持し、各クラスターの他の文を削除します。
小さなクラスターを外れ値として扱い、LLMに含めるようにこれらの外れ値をランダムに描きます。
各クラスター代表を含む文の数は、各感情の重みが考慮されるようにLLMプロンプトにあります。
モデル評価まず、使用するモデルがテキストを効果的に埋め込み、セマンティックな類似の文がセマンティックな類似の文に近く、セマンティックな異なる文が遠く離れていることを確認する必要があります。これを行うには、STSベンチマークデータセットを使用して、考慮したいモデルのピアソン相関を計算するだけです。 AWSをクラウドプロバイダーとして使用しているため、当然、タイタンテキストの埋め込みモデルを評価したいと考えています。

次の表は、STSベンチマーク上のさまざまなタイタン埋め込みモデルのピアソン相関を示しています。

したがって、AWSの埋め込みモデルは、同様のセマンティクスを持つ文を埋め込むのに優れています。これは私たちにとって朗報です。これらのモデルを直接使用することができ、非常に安価です。

セマンティックな類似性クラスター

私たちが直面する次の課題は、クラスタリング中にセマンティックな類似性を実施する方法です。理想的には、人間が受け入れるよりもセマンティックな類似性が低いクラスターはありません。上記の表のスコアは4です。ただし、これらの画分を埋め込み距離に直接変換することはできません。これは、集約階層クラスタリングのしきい値に必要です。

この問題を解決するために、STSベンチマークデータセットに再度頼ります。トレーニングデータセット内のすべてのペアの距離を計算し、分数に応じて多項式を距離のしきい値に適合させます。

この多項式により、セマンティックな類似性ターゲットを満たすために必要な距離のしきい値を計算できます。コメントの概要については、3.5ポイントを選択したため、ほとんどすべてのクラスターには、「大まかに」「最も」相当またはそれ以上の文が含まれています。 Semantically Compress Text to Save On LLM Costs

これは、埋め込まれたネットワークで実行できることに注意してください。これにより、新しい埋め込みネットワークの出現を実験し、必要に応じて必要に応じて迅速に交換することができます。

マルチチャネルクラスタリングこれまでのところ、セマンティック圧縮を信頼できることはわかっていますが、データからどれだけの圧縮が得られるかは明確ではありません。予想どおり、圧縮の量は製品、顧客、業界によって異なります。

セマンティック情報の損失、つまり4のハードしきい値がない場合、圧縮比は1.18（つまり、15％のスペース節約）のみを達成しました。

明らかに、この機能を経済的に実行可能にするには、ロスレス圧縮では十分ではありません。

ただし、上記で説明した距離選択方法は、ここで興味深い可能性を提供します。残りのデータでクラスターをより低いしきい値で繰り返し実行することで、情報損失の量を徐々に増やすことができます。

メソッドは次のとおりです

スコア= 3から選択されたしきい値を使用して、クラスターを再度実行します。これはロスレスではありませんが、それほど悪くはありません。
10未満のサイズのクラスターを選択します。
さらに、このアプローチは、コメントの要約に非常に役立つだけでなく（圧縮を少なくすることで高レベルのセマンティックな類似性を取得したいと考えています）、それについてあまりにも心配しない可能性のある他のユースケースについても。セマンティック情報は失われますが、うまくいけば、迅速な入力にかかる費用がかかります。

実際には、スコアしきい値を複数削減した後でも、1つのベクトルのみを備えた多数のクラスターがまだあります。これらは外れ値と見なされ、最終プロンプトに含めるようにランダムにサンプリングされます。サンプルサイズを選択して、最終プロンプトに25,000のマークがあることを確認しますが、それ以上のものです。

真正性を確保

マルチチャネルクラスタリングとランダムな外れ値サンプリングにより、より小さなコンテキストウィンドウ（LLMに送信）を犠牲にしてセマンティック情報を犠牲にすることができます。これは疑問を提起します：私たちの要約はどれくらい良いですか？

Bazaarvoiceでは、信頼性は消費者の信頼に必要な条件であり、コメントでキャプチャされたすべての音を真に表すためにレビューの要約が真実である必要があることを知っています。損失のある圧縮方法は、レビューを書くことに時間を費やす消費者を誤って伝えたり除外したりするリスクがあります。

圧縮技術が効果的であることを確認するために、これを直接測定しました。具体的には、各製品について、いくつかのレビューを行い、LLM Evalsを使用して、要約が代表的であり、各レビューに関連するかどうかを判断しました。これにより、圧縮を評価してバランスをとるためのハードメトリックが提供されます。

result

過去20年間で、10億人近くのユーザーが生成したコメントを収集し、数千万個の製品の概要を生成する必要があります。これらの製品の多くには何千ものレビューがあり、いくつかは数百万もあります。これにより、LLMのコンテキストウィンドウを排出し、価格を大幅に上げることができます。

ただし、上記の方法を使用して、入力テキストのサイズを97.7％ 82.4％

です。これには、文データを埋め込み、データベースに保存するコストが含まれます。

以上がLLMコストを節約するために、セマンティックにテキストを圧縮しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。