予想外なことに、AI の進化後に排除される最初のグループは、AI のトレーニングを支援する人々です。
多くの NLP アプリケーションでは、さまざまなタスク、特に分類器のトレーニングや教師なしモデルのパフォーマンスの評価のために、大量のデータに手動でアノテーションを付ける必要があります。規模と複雑さに応じて、これらのタスクは、MTurk などのプラットフォームでクラウドソーシングされた作業者や、研究アシスタントなどの訓練を受けたアノテーターによって実行される場合があります。
言語ラージ モデル (LLM) は、特定の規模に達すると「出現」する可能性がある、つまり、以前は予見できなかった新しい機能を獲得できることがわかっています。 AI の新たな流行を促進する大規模なモデルとして、ChatGPT の機能は、データ セットのラベル付けや自分自身のトレーニングなど、多くのタスクにおける人々の期待を上回っています。
最近、チューリッヒ大学の研究者らは、関連性、スタンス、トピック、フレーム検出などの複数の注釈タスクにおいて、ChatGPT がクラウドソーシング作業プラットフォームや人間の作業よりも優れていることを実証しました。
さらに、研究者らは計算を行った。ChatGPT のコストは注釈あたり 0.003 ドル未満であり、MTurk よりも約 20 倍安い。これらの結果は、大規模な言語モデルがテキスト分類の効率を大幅に向上させる可能性を示しています。
#紙のリンク: https://arxiv.org/abs/2303.15056
研究の詳細多くの NLP アプリケーションでは、特に分類器のトレーニングや教師なしモデルのパフォーマンスの評価のために、高品質の注釈付きデータが必要です。たとえば、研究者は、ノイズの多いソーシャル メディア データを関連性のためにフィルタリングしたり、テキストを別のトピックや概念的なカテゴリに割り当てたり、感情的なスタンスを測定したりする必要がある場合があります。これらのタスクに使用される特定の方法 (教師あり、半教師あり、または教師なし学習) に関係なく、トレーニング セットを構築したり、パフォーマンスを評価するためのゴールド スタンダードとして使用したりするには、正確にラベル付けされたデータが必要です。
これに対処する一般的な方法は、研究助手を募集するか、MTurk のようなクラウドソーシング プラットフォームを使用することです。 OpenAI が ChatGPT を構築したとき、ネガティブ コンテンツの問題をケニアのデータ アノテーション機関に下請け委託し、正式にリリースされる前に多くのアノテーション トレーニングを実施しました。
スイスのチューリッヒ大学によって提出されたこのレポートは、2022 年 11 月にリリースされた ChatGPT に焦点を当て、テキスト アノテーション タスクにおける大規模言語モデル (LLM) の可能性を探ります。これは、ゼロショット (つまり、追加のトレーニングなし) ChatGPT が、手作業のコストのわずか数十分の 1 で、分類タスクにおいて MTurk アノテーションを上回っていることを証明しています。
研究者らは、以前の研究で収集した 2,382 件のツイートのサンプルを使用しました。ツイートには、関連性、スタンス、トピック、2 フレーム検出という 5 つの異なるタスクについて、訓練を受けたアノテーター (調査アシスタント) によってラベルが付けられました。実験では、研究者はタスクをゼロショット分類として ChatGPT に送信し、同時に MTurk 上のクラウドソーシング ワーカーにも送信し、次に 2 つのベンチマークに基づいて ChatGPT のパフォーマンスを評価しました。クラウドソーシング プラットフォーム上の人間のワーカーの精度との比較、研究アシスタントのアノテーターと比較した精度。
5 つのタスクのうち 4 つにおいて、ChatGPT は MTurk よりもゼロサンプル精度が高いことがわかりました。 ChatGPT のエンコーダ合意は、MTurk およびすべてのタスクについて訓練されたアノテーターの合意を上回っています。さらに、コストの点では、ChatGPT は MTurk よりもはるかに安価です。5 つの分類タスクのコストは、ChatGPT (注釈 25,264) では約 68 ドル、MTurk (注釈 12,632) では約 657 ドルです。
つまり、ChatGPT のアノテーションあたりのコストは約 0.003 ドル、つまり 3 分の 1 セントになります。MTurk よりも約 20 倍安く、高品質です。これを考慮すると、より多くのサンプルに注釈を付けたり、教師あり学習用の大規模なトレーニング セットを作成したりできるようになりました。既存のテストに基づくと、100,000 個の注釈のコストは約 300 ドルです。
研究者らは、ChatGPT やその他の LLM がより広範な文脈でどのように機能するかをよりよく理解するにはさらなる研究が必要であるが、これらの結果は研究者の行動方法を変える可能性があることを示唆していると述べています。データには注釈が付けられ、MTurk のようなプラットフォームのビジネス モデルの一部を破壊します。
研究者らは、コンテンツ管理に関連するタスクに関する以前の研究から手動で注釈が付けられた 2,382 件のツイートのデータセットを使用しました。具体的には、訓練を受けたアノテーター (研究アシスタント) が、さまざまな数のカテゴリを持つ 5 つの概念的なカテゴリのゴールド スタンダードを構築しました: ツイートとコンテンツモデレーションの質問との関連性 (関連/無関連)、第 230 条 (1996 年の米国通信品位法の一部としての位置づけ) に関するもの、米国のインターネット法の重要な部分、トピックの特定 (6 つのカテゴリ)、グループ 1 のフレームワーク (問題、解決策、または中立的なコンテンツのモデレーション)、およびセクション 1 の 2 セットのフレームワーク (14 のカテゴリ)。
研究者らは次に、ChatGPT と MTurk で募集したクラウドソーシングの労働者を使用して、これらとまったく同じ分類を実行しました。 ChatGPT に対して 4 セットのアノテーションが作成されました。出力のランダム性の程度を制御する ChatGPT 温度パラメーターの影響を調査するために、ここではランダム性が低いことを意味するデフォルト値 1 と 0.2 で注釈が付けられています。研究者らは、温度値ごとに 2 セットのアノテーションを実行して、ChatGPT のエンコーダ一致を計算しました。
専門家向けに説明すると、この研究では 2 人の政治学の大学院生が 5 つのタスクすべてについてツイートに注釈を付けていることが判明しました。各タスクについて、プログラマーには同じ一連の指示が与えられ、タスクごとに独立してツイートに注釈を付けるように求められました。 ChatGPT と MTurk の精度を計算するために、比較では両方のトレーニングを受けたアノテーターが同意したツイートのみを考慮しました。
MTurk の場合、調査の目標は、特に Amazon によって「MTurk マスター」として分類され、90% 以上の肯定的な評価を得ている従業員をスクリーニングすることによって、最良の従業員グループを選択することです。レビュー、そして米国での仕事。
この調査では、ChatGPT API の「gpt-3.5-turbo」バージョンを使用してツイートを分類します。注釈は 2023 年 3 月 9 日から 3 月 20 日までの間に行われました。研究者らは、各注釈タスクについて、ChatGPT と MTurk クラウドワーカー間の比較可能性を確保するために、「段階的に考えてみましょう」などの ChatGPT 固有のプロンプトの追加を意図的に避けました。
いくつかのバリエーションをテストした後、人々は次のようなプロンプトを付けてツイートを 1 つずつ ChatGPT にフィードすることにしました。「これは私が選択したツイートです。[タスク固有の指示のためにマークしてください] (例: 説明書のトピックの 1 つ)] さらに、この研究ではツイートごとに 4 つの ChatGPT 応答が収集され、ChatGPT の結果が注釈履歴の影響を受けないことを保証するために、ツイートごとに新しいチャット セッションも作成されました。
図 1. MTurk ショットのテキスト アノテーション機能で高得点のアノテーターと比較した ChatGPT ゼロ。ChatGPT は、MTurk よりも精度が優れています。
上の図では、ChatGPT が有利です。4 つのタスクのうち、1 つのケース (関連性) では、ChatGPT がわずかに有利です。他の 3 つのケース (frams I、frams II、Stance) では、ChatGPT は MTurk を 2.2 ~ 3.4 倍上回っています。さらに、タスクの難易度、クラスの数、およびアノテーションがゼロサンプルであるという事実から、ChatGPT の精度は一般に十分以上です。
相関関係については 2 つのカテゴリ (関連/無関係) があり、ChatGPT の精度は次のとおりです。 72.8%、スタンスの場合は3つのカテゴリー(ポジティブ・ネガティブ・ニュートラル)で78.7%の精度となり、カテゴリーの数が増えると精度は低下するが、タスク固有の難易度も影響する。図 1 は、ChatGPT のパフォーマンスが非常に高く、温度パラメーターが 0.2 に設定されている場合にすべてのタスクで 95% を超えることを示しています。これらの値は、アノテーターで訓練されたものを含むどの人間よりも高いです。デフォルトを使用した場合でも、温度値が 1 (ランダム性が高いことを意味します) の場合、コーダー間の一致度は常に 84% を超えます。コーダー間の一致度と精度の関係は正ですが、弱いです (ピアソン相関係数: 0.17)。相関関係はのみに基づいています。 5 つのデータ ポイントでは、精度を大幅に低下させることなく結果の一貫性が向上するため、より低い温度値の方がアノテーション タスクに適している可能性があることが示唆されています。
# ChatGPT のテストは非常に難しいことが強調されます。コンテンツのモデレーションは、多大なリソースを必要とする複雑なトピックです。研究者は、立場に加えて、特定の研究目的のカテゴリの概念を開発しました。さらに、一部のタスクには多数のカテゴリが関係しますが、ChatGPT はまだ高い精度を実現します。モデルを使用してデータに注釈を付けることは、新しいことではありません。大規模なデータセットを使用するコンピューター サイエンスの研究では、少数のサンプルにラベルを付け、機械学習でそれらを増幅することがよくあります。しかし、人間を上回ったことで、将来的にはChatGPTの判断をより信頼できるようになるかもしれません。
以上がChatGPT はデータ アノテーション業界を消滅させるのでしょうか?人間よりも20倍安く、より正確ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。