ChatGPT va-t-il tuer l'industrie de l'annotation de données ? 20 fois moins cher que les humains et plus précis-IA-php.cn

De manière inattendue, le premier groupe de personnes éliminées après l'évolution de l'IA est celui des personnes qui aident à former l'IA.

De nombreuses applications PNL nécessitent l'annotation manuelle de grandes quantités de données pour diverses tâches, notamment la formation des classificateurs ou l'évaluation des performances de modèles non supervisés. Selon l'ampleur et la complexité, ces tâches peuvent être effectuées par des travailleurs en crowdsourcing sur des plateformes telles que MTurk ainsi que par des annotateurs qualifiés tels que des assistants de recherche.

Nous savons que les grands modèles de langage (LLM) peuvent « émerger » après avoir atteint une certaine échelle, c'est-à-dire qu'ils peuvent acquérir de nouvelles capacités auparavant imprévues. En tant que modèle à grande échelle favorisant une nouvelle épidémie d’IA, les capacités de ChatGPT dans de nombreuses tâches ont dépassé les attentes des utilisateurs, notamment l’étiquetage des ensembles de données et la formation personnelle.

Récemment, des chercheurs de l'Université de Zurich ont démontré que ChatGPT surpasse les plateformes de travail de crowdsourcing et les assistants de travail humain sur plusieurs tâches d'annotation, notamment la détection de pertinence, de position, de sujet et de cadre.

De plus, les chercheurs ont fait le calcul : ChatGPT coûte moins de 0,003 $ par annotation, soit environ 20 fois moins cher que MTurk. Ces résultats montrent le potentiel des grands modèles de langage pour améliorer considérablement l’efficacité de la classification de textes.

ChatGPT va-t-il tuer lindustrie de lannotation de données ? 20 fois moins cher que les humains et plus précis

Lien papier :https://arxiv.org/abs/2303.15056

Détails de la recherche

De nombreuses applications PNL nécessitent des données annotées de haute qualité, en particulier pour former le processeur de classification ou évaluer la performance des modèles non supervisés. Par exemple, les chercheurs doivent parfois filtrer la pertinence des données bruyantes des médias sociaux, attribuer des textes à différents sujets ou catégories conceptuelles, ou mesurer leur position émotionnelle. Quelle que soit la méthode spécifique utilisée pour ces tâches (apprentissage supervisé, semi-supervisé ou non supervisé), des données étiquetées avec précision sont nécessaires pour créer un ensemble de formation ou l'utiliser comme référence pour évaluer les performances.

La façon habituelle dont les gens gèrent ce problème est de recruter des assistants de recherche ou d'utiliser des plateformes de crowdsourcing comme MTurk. Lorsque OpenAI a créé ChatGPT, il a également sous-traité le problème du contenu négatif à une agence kenyane d’annotation de données et a mené de nombreuses formations en annotation avant son lancement officiel.

Ce rapport soumis par l'Université de Zurich en Suisse explore le potentiel des grands modèles de langage (LLM) dans les tâches d'annotation de texte, avec un focus sur ChatGPT, publié en novembre 2022. Cela prouve que ChatGPT sans aucune formation supplémentaire (c'est-à-dire sans aucune formation supplémentaire) surpasse l'annotation MTurk sur les tâches de classification pour seulement quelques dixièmes du coût du travail manuel.

Les chercheurs ont utilisé un échantillon de 2 382 tweets collectés lors d'une étude précédente. Les tweets ont été étiquetés par des annotateurs qualifiés (assistants de recherche) pour cinq tâches différentes : pertinence, position, sujet et détection de deux cadres. Dans l'expérience, les chercheurs ont soumis la tâche à ChatGPT en tant que classification zéro et simultanément aux travailleurs de crowdsourcing sur MTurk, puis ont évalué les performances de ChatGPT sur la base de deux critères : par rapport à la précision des travailleurs humains sur la plateforme de crowdsourcing, et l'exactitude par rapport aux annotateurs assistants de recherche.

Il a été constaté que sur quatre tâches sur cinq, la précision de l'échantillon zéro de ChatGPT était supérieure à celle de MTurk. Pour toutes les tâches, l'accord d'encodeur de ChatGPT dépasse celui de MTurk et des annotateurs qualifiés. De plus, en termes de coût, ChatGPT est beaucoup moins cher que MTurk : cinq tâches de classification coûtent environ 68 $ sur ChatGPT (25 264 annotations) et environ 657 $ sur MTurk (12 632 annotations).

Ainsi, le coût par annotation de ChatGPT est d'environ 0,003 $, soit un tiers de cent, soit environ 20 fois moins cher que MTurk et de meilleure qualité. Compte tenu de cela, il est désormais possible d’annoter davantage d’échantillons ou de créer de grands ensembles de formation pour l’apprentissage supervisé. Sur la base des tests existants, 100 000 annotations coûtent environ 300 $.

Bien que des recherches supplémentaires soient nécessaires pour mieux comprendre comment ChatGPT et d'autres LLM fonctionnent dans un contexte plus large, ces résultats suggèrent qu'ils ont le potentiel de changer la façon dont les chercheurs annotent les données et perturbent MTurk, disent les chercheurs. Certains modèles commerciaux d'autres plateformes .

Procédure expérimentale

Les chercheurs ont utilisé un ensemble de données de 2 382 tweets annotés manuellement à partir d'études antérieures sur les tâches liées à la modération de contenu. Plus précisément, des annotateurs qualifiés (assistants de recherche) ont construit des normes de référence pour cinq catégories conceptuelles avec un nombre variable de catégories : pertinence des tweets par rapport aux questions de modération du contenu (pertinent/non pertinent concernant l'article 230 (position dans le cadre de la loi américaine sur la décence en matière de communications de 1996) ; , un élément clé de la législation américaine sur l'Internet ; l'identification des sujets (six catégories) ; les cadres du groupe 1 (modération du contenu en tant que problème, solution ou neutre) ; et la section 1, deux ensembles de cadres (quatorze catégories).

Les chercheurs ont ensuite effectué exactement ces mêmes classifications en utilisant ChatGPT et des travailleurs participatifs recrutés sur MTurk. Quatre ensembles d'annotations ont été créés pour ChatGPT. Pour explorer l'impact du paramètre de température ChatGPT qui contrôle le degré d'aléatoire dans la sortie, il est annoté ici avec les valeurs par défaut de 1 et 0,2, qui impliquent moins d'aléatoire. Pour chaque valeur de température, les chercheurs ont effectué deux séries d'annotations pour calculer l'accord du codeur de ChatGPT.

Pour les experts, l'étude a révélé que deux étudiants diplômés en sciences politiques annotaient des tweets pour les cinq tâches. Pour chaque tâche, les codeurs ont reçu le même ensemble d’instructions et ont été invités à annoter indépendamment les tweets, tâche par tâche. Pour calculer l'exactitude de ChatGPT et MTurk, la comparaison n'a pris en compte que les tweets sur lesquels les deux annotateurs formés étaient d'accord.

Pour MTurk, l'objectif de la recherche est de sélectionner le meilleur groupe de travailleurs, notamment en sélectionnant les travailleurs classés comme « MTurk Masters » par Amazon, ayant plus de 90 % d'avis positifs et se trouvant aux États-Unis. .

Cette étude utilise la version "gpt-3.5-turbo" de l'API ChatGPT pour classer les tweets. L'annotation a eu lieu entre le 9 et le 20 mars 2023. Pour chaque tâche d'annotation, les chercheurs ont intentionnellement évité d'ajouter des invites spécifiques à ChatGPT telles que « réfléchissons étape par étape » pour garantir la comparabilité entre ChatGPT et les crowdworkers MTurk.

Après avoir testé plusieurs variantes, les gens ont décidé d'envoyer des tweets à ChatGPT un par un en utilisant une invite comme celle-ci : "Voici le tweet que j'ai sélectionné, veuillez le marquer avec [instructions spécifiques à la tâche (par exemple, l'un des sujets du description)]. De plus, quatre réponses ChatGPT ont été collectées pour chaque tweet de cette étude, et une nouvelle session de chat a également été créée pour chaque tweet afin de garantir que les résultats de ChatGPT n'étaient pas affectés par l'historique des annotations

ChatGPT va-t-il tuer lindustrie de lannotation de données ? 20 fois moins cher que les humains et plus précis

. Figure 1. Capacités d'annotation de texte sans tir de ChatGPT par rapport aux annotateurs ayant obtenu des scores élevés sur MTurk. La précision de ChatGPT est meilleure que celle de MTurk dans quatre tâches sur cinq

Parmi les quatre tâches pour lesquelles ChatGPT a un avantage. figure ci-dessus, dans un cas (pertinence) ChatGPT a un léger avantage, mais ses performances sont très similaires à celles de MTurk dans les trois autres cas (frams I, frams II et Stance), ChatGPT est 2,2 à 3,4 fois meilleur que MTurk. De plus, compte tenu de la difficulté de la tâche, du nombre de classes et du fait que les annotations sont à échantillon nul, la précision de ChatGPT est généralement plus que suffisante pour la corrélation, avec deux catégories (pertinent/non pertinent), ChatGPT a un. précision de 72,8 %, tandis que pour la position, avec trois catégories (positive/négative/neutre), la précision est de 78,7 % à mesure que le nombre de catégories diminue, bien que la difficulté inhérente à la tâche joue également un rôle concernant l'encodeur. protocole, la figure 1 montre que les performances de ChatGPT sont très élevées, avec des performances sur toutes les tâches dépassant 95 % lorsque le paramètre de température est défini sur 0,2. Ces valeurs sont supérieures à celles de n'importe quel humain, y compris les annotateurs formés, la relation entre l'accord inter-codeur. et la précision est positive, même en utilisant la valeur de température par défaut de 1 (ce qui implique plus de caractère aléatoire). Mais elle est faible (coefficient de corrélation de Pearson : 0,17). Bien que la corrélation soit basée sur seulement cinq points de données, elle suggère que des valeurs de température plus faibles. peut être plus adapté à la tâche d'annotation, car il semble améliorer la cohérence des résultats sans la réduire considérablement la précision.

Il faut souligner que tester ChatGPT est un sujet complexe et nécessite des ressources considérables. Les chercheurs ont développé des catégories conceptuelles à des fins de recherche spécifiques. Certaines tâches impliquent un grand nombre de catégories, mais ChatGPT atteint toujours une grande précision

L'utilisation de modèles pour annoter des données n'a rien de nouveau. Dans la recherche informatique utilisant des ensembles de données à grande échelle, les gens étiquetent souvent un petit nombre d'échantillons, puis les amplifient grâce à l'apprentissage automatique. Cependant, après avoir surpassé les humains, nous pourrons peut-être davantage faire confiance aux jugements de ChatGPT à l'avenir.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!