自動要約技術は、主にパラダイムシフトにより、近年大幅に進歩しました。以前は、このテクノロジーは主に注釈付きデータセットの教師あり微調整に依存していましたが、現在は GPT-4 などのゼロショット プロンプトに大規模言語モデル (LLM) を使用しています。プロンプトを注意深く設定することで、追加のトレーニングなしで要約の長さ、テーマ、スタイル、その他の機能を細かく制御できます。
しかし、見落とされがちな側面が 1 つあります。それは、要約の情報密度です。理論的には、別のテキストを圧縮した要約は、ソース ファイルよりも密度が高く、つまりより多くの情報が含まれている必要があります。 LLM デコードの待ち時間が長いことを考慮すると、特にリアルタイム アプリケーションの場合は、より少ないワードでより多くの情報をカバーすることが重要です。
しかし、情報密度については未解決の問題であり、要約に詳細が不十分であれば情報がないのと同じであり、全体の長さを増やさずに情報が多すぎると理解が困難になります。固定されたトークン バジェット内でより多くの情報を伝達するには、抽象化、圧縮、融合を組み合わせる必要があります。
最近の研究では、Salesforce や MIT などの研究者が、GPT-4 によって生成された一連の概要に対する人間の好みを求めることで、密度の増加の限界を判断しようと試みています。この方法は、GPT-4
などの大規模な言語モデルの「表現能力」を向上させるための多くのインスピレーションを提供します。論文リンク: https://arxiv.org/pdf /2309.04269 .pdf
データセットのアドレス: https://huggingface.co/datasets/griffin/chain_of_density
具体的には、研究者は代表者の密度としてトークンごとのエンティティの平均数を使用しました。エンティティが希薄な最初の概要を生成します。次に、全長 (全長の 5 倍) を増やすことなく、前の概要から欠落していた 1 ~ 3 個のエンティティを繰り返し特定して融合します。各ダイジェストは、前のダイジェストよりもエンティティとトークンの比率が高くなります。人間の好みのデータに基づいて、著者らは最終的に、人間は人間が書いた要約とほぼ同じ密度で、通常の GPT-4 プロンプトによって生成される要約よりも密度の高い要約を好むと判断しました。 :
著者は、最初の概要を生成し、エンティティ密度を継続的に増加させる単一チェーン オブ デンシティ (CoD) プロンプトを作成しました。具体的には、一定数の対話内で、ソース テキスト内の顕著なエンティティの固有のセットが識別され、長さを増やすことなく前の概要にマージされます。
プロンプトと出力の例を図 2 に示します。著者はエンティティのタイプを明示的に指定していませんが、欠落しているエンティティを次のように定義しています:
本編との関連:
直接統計。表 1 に示すように、2 番目のステップでは、最初の長い要約から不要な単語が削除されたため、平均 5 トークンの長さが短縮されました (72 から 67 へ)。エンティティ密度は 0.089 で始まり、最初はヒトおよびバニラ GPT-4 (0.151 および 0.122) よりも低く、5 段階の高密度化の後、最終的には 0.167 まで上昇します。 間接的な統計。追加のエンティティごとにスペースを確保するために要約が繰り返し書き直されるため、CoD の各ステップで抽象化のレベルが増加するはずです。著者らは、抽出密度、つまり抽出されたフラグメントの平均平方長を使用して抽象化を測定しています (Grusky et al., 2018)。同様に、概念融合は、エンティティが固定長の要約に追加されるにつれて単調に増加する必要があります。著者らは統合度を各要約文に並べられた原文の平均数で表現した。位置合わせには、著者らは相対 ROUGE ゲイン法 (Zhou et al., 2018) を使用します。この方法では、追加の文の相対 ROUGE ゲインが正でなくなるまで、ソース文とターゲット文を位置合わせします。また、コンテンツの配布や、要約コンテンツの記事内での位置の変更も予想されていました。
具体的には、著者らは、CoD アブストラクトが最初は強い「リードバイアス」を示すが、その後、記事の中間と最後から徐々にエンティティを紹介し始めると予想していました。これを測定するために、彼らはフュージョンのアライメントを使用して、元の文を表示せずにコンテンツを中国語で書き直し、すべてのアライメントされたソース文の平均文ランクを測定しました。
図 3 はこれらの仮説を裏付けています。書き換えステップの数が増加するにつれて、抽象化が増加し (左の画像は抽出密度が低いことを示します)、融合率も増加し (中央の画像が示します)、抽象化が始まります。記事の途中と末尾のコンテンツが含まれます (右側を参照)。興味深いことに、CoD のすべての要約は、人間が作成した要約やベースラインの要約と比較してより抽象的です。
コンテンツを書き直す場合は、元の中国語で書き直す必要があります。文は表示する必要はありません
CoD 要約のトレードオフをよりよく理解するために、著者は好みに基づいた人間の研究を実施し、GPT-4 を使用して評価に基づいた評価を実施しました。
人間の好み。具体的には、同じ 100 件の論文 (5 ステップ *100 = 合計 500 件の要約) について、著者は「再作成された」CoD 要約と記事をランダムに論文の最初の 4 人の著者に見せました。各アノテーターは、Stiennon et al. (2020) の「良い要約」の定義に基づいて、自分のお気に入りの要約を提供しました。表 2 は、CoD 段階での各アノテーターの 1 位の投票と、各アノテーターの概要を示しています。全体として、1 位の抄録の 61% (23.0 22.5 15.5) には 3 つ以上の高密度化ステップが含まれていました。好ましい CoD ステップ数の中央値は中央 (3) で、予想ステップ数は 3.06 です。
3 番目のステップの平均密度に基づくと、すべての CoD 候補の好ましいエンティティ密度は約 0.15 です。表 1 からわかるように、この密度は人間が書いた要約 (0.151) と一致していますが、通常の GPT-4 プロンプトで書かれた要約 (0.122)
自動測定値よりも大幅に高くなります。人間による評価 (下記) の補足として、著者らは GPT-4 を使用して、情報提供性、品質、一貫性、帰属性、全体性の 5 つの側面に沿って CoD 概要を採点しました (1 ~ 5 ポイント)。表 3 に示すように、密度は情報提供力と相関していますが、スコアはステップ 4 (4.74) でピークに達し、限界まで相関しています。
各次元の平均スコアから判断すると、CoD の最初と最後のステップのスコアが最も低く、中間の 3 つのステップは近いスコア (4.78、4.77、4.76) です。 )。 ######定性分析。抽象的な一貫性/可読性と有益性の間には明らかなトレードオフがあります。図 4 に 2 つの CoD ステップを示します。1 つのステップの概要はより詳細に改善され、もう 1 つのステップの概要は損なわれています。平均して、中間 CoD 要約はこのバランスを最もよく達成しますが、このトレードオフは今後の作業で正確に定義し、定量化する必要があります。
論文の詳細については、原論文を参照してください。以上がSalesforce は MIT 研究者と協力して GPT-4 改訂チュートリアルをオープンソース化し、少ない単語でより多くの情報を提供しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。