ChatGPT詐欺を特定、その効果はOpenAIを超える：北京大学とファーウェイのAI生成検出器が登場-AI-php.cn

マシンの心臓コラム

ハートオブマシン編集部

AI詐欺の成功率は非常に高く、数日前には「10分で430万人が騙された」という検索ワードが話題になった。研究者たちは最近、最も人気のある大規模言語モデルに基づいて認識方法を研究しました。

大規模な生成モデルの継続的な進歩により、生成されるコーパスは徐々に人間のそれに近づきつつあります。大型モデルは無数の店員の手を解放していますが、偽物を偽造するその強力な能力も一部の犯罪者によって利用され、一連の社会問題を引き起こしています。

ChatGPT詐欺を特定、その効果はOpenAIを超える：北京大学とファーウェイのAI生成検出器が登場

北京大学とファーウェイの研究者は、AI によって生成されたさまざまなコーパスを識別するための信頼できるテキスト検出器を提案しました。長文と短文の異なる特性に従って、PU学習に基づくマルチスケールAI生成テキスト検出器トレーニング方法を提案する。検出器のトレーニングプロセスを改善することで、同じ条件下で長い ChatGPT コーパスと短い ChatGPT コーパスの検出能力が大幅に向上し、現在の検出器による短いテキスト認識の精度が低いという問題点が解決されます。

ChatGPT詐欺を特定、その効果はOpenAIを超える：北京大学とファーウェイのAI生成検出器が登場

用紙のアドレス:

https://arxiv.org/abs/2305.18149

コードアドレス (MindSpore):

https://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt

コードアドレス (PyTorch):

https://github.com/YuchuanTian/AIGC_text_detector

＃＃＃＃＃＃導入＃＃＃＃＃＃

大規模な言語モデルの生成効果がますます現実的になるにつれて、さまざまな業界が信頼性の高い AI 生成のテキスト検出器を緊急に必要としています。ただし、コーパス検出に対する要件は業界によって異なります。たとえば、学術界では一般に、大規模で完全な学術文書を検出する必要がありますが、ソーシャルプラットフォームでは、比較的短く断片的なフェイクニュースを検出する必要があります。しかし、既存の検出器ではさまざまなニーズに対応できないことがよくあります。たとえば、一部の主流の AI テキスト検出器は、一般に、短いコーパスに対する予測機能が不十分です。

異なる長さのコーパスの異なる検出効果に関して、著者は、AI が生成した短い文の帰属にはある程度の「不確実性」がある可能性があることを観察しました。より率直に言うと、AI が生成した一部の短い文は、人間が利用することも多いため、AIが生成した短文が人間によるものなのか、AIによるものなのかを判断することは困難です。人間と AI が同じ質問に答える例をいくつか示します:

これらの例からわかるように、AI によって生成された短答は識別が困難です。この種のコーパスは人間との差が小さすぎて、その真の属性を厳密に判断することが困難です。したがって、単純に短いテキストに人間/AI として注釈を付け、テキスト検出のための従来の二値分類問題に従うことは不適切です。

この問題に対応して、この研究では人間/AI の二項分類検出部分を部分 PU (Positive-Unlabeled) 学習問題に変換します。つまり、短い文では人間の言語はポジティブ (Positive) であり、 machine 言語はラベルなしであり、トレーニング損失関数が改善されています。この改善により、さまざまな身体に対する検出器の分類パフォーマンスが大幅に向上しました。 ChatGPT詐欺を特定、その効果はOpenAIを超える：北京大学とファーウェイのAI生成検出器が登場

アルゴリズムの詳細

従来の PU 学習設定では、2 分類モデルはポジティブなトレーニングサンプルとラベルのないトレーニングサンプルに基づいてのみ学習できます。一般的に使用される PU 学習方法は、PU 損失を次のように定式化して、負のサンプルに対応するバイナリ分類損失を推定することです。

このうち、は陽性サンプルと陽性ラベルで計算した二値分類損失、はすべてのラベルなしサンプルを陰性ラベルと仮定して計算した二値分類損失、は陽性サンプルを陰性ラベルと仮定して計算した二値分類損失、は以前の陽性サンプル確率は、すべての PU サンプルにおける陽性サンプルの推定割合です。従来の PU 学習では、通常、事前確率は固定ハイパーパラメータに設定されます。ただし、テキスト検出シナリオでは、検出器はさまざまな長さのさまざまなテキストを処理する必要があり、さまざまな長さのテキストの場合、サンプルと同じ長さのすべての PU サンプル間の陽性サンプルの推定割合も異なります。したがって、この研究では PU 損失を改善し、長さに敏感なマルチスケール PU (MPU) 損失関数を提案します。

具体的には、この研究では、短いテキストの検出をモデル化するための抽象的再帰モデルを提案します。従来の NLP モデルがシーケンスを処理する場合、通常は RNN、LSTM などのマルコフ連鎖構造を持ちます。このタイプの循環モデルのプロセスは、通常、徐々に反復的なプロセスとして理解できます。つまり、各トークン出力の予測は、前のトークンと前のシーケンスの予測結果を、このトークンの予測結果と変換およびマージすることによって取得されます。トークン。それは次のプロセスです:

ChatGPT詐欺を特定、その効果はOpenAIを超える：北京大学とファーウェイのAI生成検出器が登場

この抽象モデルに基づいて事前確率を推定するには、モデルの出力が、特定の文が肯定的であるという確信度、つまり、それが発話サンプルであると判断される確率であると仮定する必要があります。人によって。各トークンの寄与サイズは文トークンの長さの反比例であり、それは正、つまりラベルなしであり、ラベルなしの確率は正である確率よりもはるかに大きいと想定されます。なぜなら、大規模モデルの語彙が徐々に人間の語彙に近づくにつれて、ほとんどの単語が AI と人間のコーパスの両方に出現するようになるからです。この単純化されたモデルと設定された正のトークン確率に基づいて、さまざまな入力条件下でのモデル出力の信頼度の合計期待値を見つけることによって、最終的な事前推定値が取得されます。

ChatGPT詐欺を特定、その効果はOpenAIを超える：北京大学とファーウェイのAI生成検出器が登場

理論的な導出と実験により、事前確率はテキストの長さが増加するにつれて増加し、最終的には安定すると推定されます。テキストが長くなると、検出器がより多くの情報を取得できるようになり、テキストの「ソースの不確実性」が徐々に弱くなるため、この現象も予想されます。

ChatGPT詐欺を特定、その効果はOpenAIを超える：北京大学とファーウェイのAI生成検出器が登場

その後、各陽性サンプルについて、サンプル長から取得した一意の事前分布に基づいて PU 損失が計算されます。最後に、短いテキストにはある程度の「不確実性」しかないため (つまり、短いテキストには一部の人物または AI のテキスト特徴も含まれる)、バイナリ損失と MPU 損失に重みを付けて、最終的な最適化目標として追加できます。

ChatGPT詐欺を特定、その効果はOpenAIを超える：北京大学とファーウェイのAI生成検出器が登場さらに、MPU 損失はさまざまな長さのトレーニングコーパスに適応することに注意する必要があります。既存の学習データが明らかに同種であり、コーパスの大部分が長大なテキストで構成されている場合には、MPU 手法の効果を十分に発揮できません。トレーニングコーパスの長さをより多様にするために、この研究では文レベルでのマルチスケーリングモジュールも導入しています。このモジュールは、トレーニングコーパス内のいくつかの文をランダムにカバーし、元の順序を維持したまま残りの文を再編成します。トレーニングコーパスのマルチスケール操作後、トレーニングテキストの長さが大幅に強化され、AI テキスト検出器のトレーニングに PU 学習が最大限に活用されています。

＃＃＃＃＃＃実験結果＃＃＃＃＃＃

上の表に示すように、著者は最初に、AI によって生成された短いコーパスデータセット Tweep-Fake に対する MPU 損失の影響をテストしました。このデータセットのコーパスはすべて Twitter 上の比較的短いセグメントです。また、著者は、従来の 2 つのカテゴリの損失を、従来の言語モデルの微調整に基づいた MPU 損失を含む最適化目標に置き換えます。改良された言語モデル検出器はより効果的で、他のベースラインアルゴリズムを上回ります。

ChatGPT詐欺を特定、その効果はOpenAIを超える：北京大学とファーウェイのAI生成検出器が登場

著者はまた、chatGPT によって生成されたテキストをテストしました。従来の微調整によって取得された言語モデル検出器は、短い文ではあまりパフォーマンスが良くありませんでしたが、MPU メソッドを通じて同じ条件下でトレーニングされた検出器は、短い文では良好なパフォーマンスを示しました。、完全なコーパスで大幅なパフォーマンスの向上を達成でき、F1 スコアが 1% 増加し、OpenAI や DetectGPT などの SOTA アルゴリズムを上回ります。

ChatGPT詐欺を特定、その効果はOpenAIを超える：北京大学とファーウェイのAI生成検出器が登場

上の表に示すように、著者はアブレーション実験において各部位によってもたらされる効果の増加を観察しました。 MPU 損失により、長い材料と短い材料の分類効果が高まります。

ChatGPT詐欺を特定、その効果はOpenAIを超える：北京大学とファーウェイのAI生成検出器が登場

著者は、従来の PU とマルチスケール PU (MPU) も比較しました。上の表から、MPU 効果がより優れており、AI マルチスケールテキスト検出のタスクによりよく適応できることがわかります。

要約

著者は、マルチスケール PU 学習に基づくソリューションを提案することで、テキスト検出器による短文認識の問題を解決しました。今後、AIGC 生成モデルの普及に伴い、この種のコンテンツの検出はますます重要になります。この研究は、AI テキスト検出の問題において確実な一歩を踏み出したものであり、AIGC コンテンツをより適切に制御し、AI によって生成されたコンテンツの悪用を防止するために、今後さらに同様の研究が行われることが期待されています。

以上がChatGPT詐欺を特定、その効果はOpenAIを超える：北京大学とファーウェイのAI生成検出器が登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。