Le 16 juillet, certains internautes ont récemment découvert que si le document juridique le plus important des États-Unis, la Constitution des États-Unis, était saisi dans certains outils spécialement conçus pour détecter les écrits de l'intelligence artificielle, un résultat surprenant serait obtenu : les États-Unis La Constitution de l’État est presque. Elle doit avoir été écrite par l’intelligence artificielle. À moins que James Madison ne soit un voyageur temporel, cela est évidemment impossible. Alors pourquoi ces outils de détection d’IA commettent-ils de telles erreurs ? Le média étranger Arstechnica a interviewé plusieurs experts et le développeur de l'outil de détection d'IA GPTZero pour en découvrir les raisons.
Dans le domaine de l'éducation, l'écriture par intelligence artificielle a suscité de nombreuses controverses. Les enseignants utilisent depuis longtemps des méthodes d’enseignement traditionnelles, utilisant les dissertations comme outil pour évaluer la maîtrise d’une matière par les élèves. Jusqu’à présent, les preuves suggèrent que de nombreux enseignants qui s’appuient sur des outils d’IA pour détecter l’écriture générée par l’IA se révèlent peu fiables. En raison de la présence de faux positifs, les outils de détection d'IA tels que GPTZero, ZeroGPT et les classificateurs de texte d'OpenAI ne sont pas fiables et ne peuvent pas être utilisés pour déterminer si un article est généré par un grand modèle de langage (LLM).
Lorsque vous introduisez une partie de la Constitution américaine dans GPTZero, GPTZero dit que le texte "a probablement été entièrement écrit par l'IA". Au cours des six derniers mois, des captures d’écran présentant des résultats similaires ont été largement diffusées sur les réseaux sociaux grâce à d’autres outils de détection d’IA. En fait, la même chose se produit si vous saisissez quelque chose de la Bible. Pour comprendre pourquoi ces outils commettent des erreurs aussi évidentes, nous devons d’abord comprendre comment ils fonctionnent.
Selon IT House, différents détecteurs d'écriture d'intelligence artificielle utilisent des méthodes de détection légèrement différentes, mais les principes de base sont similaires : via un modèle d'intelligence artificielle, basé sur une grande quantité de texte (comprenant des millions d'exemples d'écriture) et un ensemble d'hypothèses ont été formés aux règles utilisées pour déterminer si l’écriture est plus susceptible d’avoir été générée par un humain ou une IA.
Par exemple, au cœur de GPTZero se trouve un réseau de neurones formé sur « un corpus vaste et diversifié d’écritures humaines et de textes générés par l’IA, en mettant l’accent sur la prose anglaise ». Ensuite, Le système utilise des attributs tels que « perplexité » et « urgence » pour évaluer le texte et le classer.
En machine learning, la perplexité est une mesure de l'écart entre un morceau de texte et ce qu'un modèle d'intelligence artificielle a appris lors d'une formation. L’idée derrière la mesure de la perplexité est que lorsque les modèles d’IA écrivent, ils choisissent naturellement le contenu qui leur est le plus familier à partir de leurs données d’entraînement. Plus le résultat est proche des données d’entraînement, plus la perplexité est faible. Les humains sont des écrivains plus déroutants, et les humains peuvent également écrire avec une faible confusion, en particulier lorsqu'ils imitent le style formel utilisé en droit ou dans certains types d'écriture académique. Et bon nombre des expressions que nous utilisons sont étonnamment courantes.
A titre d'exemple, essayons de deviner le mot suivant dans cette phrase : "Je veux une tasse de _____". » La plupart des gens rempliraient les espaces avec « eau », « café » ou « thé ». Un modèle linguistique formé sur une grande quantité de texte anglais ferait de même, car ces expressions apparaissent fréquemment dans l'écriture anglaise, comme le montre l'exemple ci-dessous. Ces résultats. L'un ou l'autre aura un faible niveau de perplexité.
Une autre propriété du texte que GPTZero mesure est « l'éclatement », qui fait référence au phénomène de certains mots ou phrases apparaissant en succession rapide ou « éclatant » dans le texte. l'urgence évalue la variabilité de la longueur et de la structure des phrases tout au long du texte Les écrivains humains présentent souvent des styles d'écriture dynamiques, ce qui donne lieu à des textes avec une longueur et une structure de phrase variables, tandis que les textes générés par l'IA ont tendance à être plus cohérents et uniformes. Ce n'est pas une mesure infaillible pour détecter le contenu généré par l'IA. Comme pour la perplexité, il existe des exceptions où les écrivains humains peuvent écrire dans un style hautement structuré et cohérent, ce qui entraîne des scores émergents plus élevés. Au lieu de cela, les modèles d'IA peuvent être entraînés pour simuler davantage de données humaines. comme la variabilité de la longueur et de la structure des phrases, améliorant ainsi leurs scores d'urgence. En fait, à mesure que les modèles de langage de l'IA s'améliorent, la recherche montre qu'ils améliorent leur écriture.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!