Dans quelle mesure les performances de GPT-4 sont-elles fluides ? L'écriture humaine peut-elle être dépassée ?-IA-php.cn

Dans quelle mesure les performances de GPT-4 sont-elles fluides ? L'écriture humaine peut-elle être dépassée ?

PHPz

Libérer： 2023-09-23 12:05:06

avant

1167 Les gens l'ont consulté

La génération de résumés est une tâche de génération de langage naturel (NLG), dont l'objectif principal est de compresser des textes longs en courts résumés. Il peut être appliqué à une variété de contenus, tels que des articles d'actualité, du code source et des textes multilingues.

Avec l'émergence des grands modèles (LLM), les méthodes traditionnelles de réglage fin sur des ensembles de données spécifiques ne sont plus disponibles. n’est plus applicable.

Nous ne pouvons nous empêcher de nous demander quelle est l'efficacité du LLM pour générer des résumés ?

Afin de répondre à cette question, des chercheurs de l'Université de Pékin ont mené une discussion détaillée dans l'article « La synthèse est (presque) morte ». Ils ont évalué les performances de LLM sur diverses tâches de résumé (actualités uniques, actualités multiples, conversations, code source et résumé multilingue) à l'aide d'ensembles de données d'évaluation générés par l'homme, de résumés écrits par l'homme après des comparaisons quantitatives et qualitatives. des résumés et des résumés générés par des modèles affinés, il a été constaté que les résumés générés par LLM étaient significativement favorisés par les évaluateurs humains

Après avoir comparé 100 articles publiés dans ACL, EMNLP, NAACL et COLING au cours des 3 dernières années avec Après échantillonnage et en examinant les articles liés aux méthodes de synthèse, les chercheurs ont constaté que la principale contribution d'environ 70 % des articles était de proposer une méthode de résumé et de vérifier son efficacité sur un ensemble de données standard. Par conséquent, l'étude indique que "la synthèse est (presque) morte"

Néanmoins, les chercheurs ont déclaré que le domaine est encore confronté à certains défis, tels que la nécessité d'ensembles de données de référence de meilleure qualité et d'une évaluation améliorée. doivent être résolus

Lien papier : https://arxiv.org/pdf/2309.09558.pdf Dans quelle mesure les performances de GPT-4 sont-elles fluides ? Lécriture humaine peut-elle être dépassée ?

Méthodes et résultats

Cette étude utilise les dernières données pour construire l'ensemble de données, chaque L’ensemble de données se compose de 50 échantillons.

Lors de l'exécution de tâches de résumé d'actualités uniques, multiples et de conversations, nous avons utilisé des méthodes similaires aux méthodes de construction d'ensembles de données CNN/DailyMail et Multi-News pour la simulation. Pour la tâche de synthèse multilingue, nous adoptons la même stratégie que celle proposée par Zhu et al. Quant à la tâche de résumé du code, la méthode proposée par Bahrami et al.

Une fois l'ensemble de données construit, l'étape suivante est la méthode. Plus précisément, cet article utilise BART et T5 pour les tâches d'actualités uniques ; Pegasus et BART pour les tâches d'actualités multiples ; T5 et BART pour les tâches de dialogue ; MT5 et MBART pour les tâches multilingues et Codet5 pour les tâches de code source ;

Dans cette expérience, l'étude a utilisé des évaluateurs humains pour comparer la qualité globale de différents résumés. D'après les résultats de la figure 1, les résumés générés par LLM surpassent les résumés générés par les humains et les résumés générés par des modèles affinés dans toutes les tâches

Cela soulève la question : pourquoi LLM est capable de surpasser les résumés humains qui sont traditionnellement considéré comme parfait. De plus, les observations préliminaires indiquent que les résumés générés par LLM sont très fluides et cohérents Dans quelle mesure les performances de GPT-4 sont-elles fluides ? Lécriture humaine peut-elle être dépassée ?

Cet article recrute en outre des annotateurs pour identifier les problèmes d'hallucinations dans les phrases récapitulatives humaines et générées par LLM, et les résultats sont présentés dans le tableau 1, comparés aux résumés générés. par GPT-4 En comparaison, les résumés écrits par des humains présentent un nombre d'hallucinations identique ou supérieur. Dans des tâches spécifiques telles que plusieurs actualités et résumés de code, les résumés rédigés par des humains présentent une cohérence factuelle nettement moins bonne.

Le tableau 2 montre la proportion d'hallucinations dans les résumés écrits par des humains et les résumés générés par GPT-4 Dans quelle mesure les performances de GPT-4 sont-elles fluides ? Lécriture humaine peut-elle être dépassée ?

Cet article a également révélé que les résumés de référence écrits par des humains ont un tel problème, c'est-à-dire que manque de maîtrise. Comme le montre la figure 2 (a), les résumés de référence rédigés par des humains souffrent parfois d'informations incomplètes. Et dans la figure 2 (b), certains résumés de référence écrits par des humains présentent des hallucinations. Dans quelle mesure les performances de GPT-4 sont-elles fluides ? Lécriture humaine peut-elle être dépassée ?

Cette étude a également révélé que les résumés générés par des modèles affinés ont généralement une longueur fixe et stricte, tandis que LLM est capable d'ajuster la longueur de sortie en fonction des informations d'entrée. De plus, lorsque l'entrée contient plusieurs sujets, les résumés générés par le modèle affiné couvrent peu les sujets, comme le montre la figure 3, tandis que le LLM est capable de capturer tous les sujets lors de la génération de résumés

Dans quelle mesure les performances de GPT-4 sont-elles fluides ? Lécriture humaine peut-elle être dépassée ?

selon la Figure 4 Les résultats montrent que le score de préférence humaine pour les grands modèles dépasse 50%, ce qui montre que les gens ont une forte préférence pour son résumé et met en évidence la capacité du LLM en matière de synthèse de texte

Dans quelle mesure les performances de GPT-4 sont-elles fluides ? Lécriture humaine peut-elle être dépassée ?

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Php8, je viens aussi

Apprenez la mise en page d'un site Web en 30 minutes

Tutoriel vidéo Shangguan Oracle débutant à compétent

Votre première ligne de code UNI-APP

Flutter de zéro au lancement de l'application

Brother Lian Nouveau didacticiel vidéo Linux

Tutoriel vidéo AXURE 9 (convient à l'interface utilisateur interactive de conception de produits du chef de produit)

Tutoriel vidéo PS Zero Basic Proficiency

Tutoriel vidéo de 16 jours sur l'interface utilisateur pour vous aider à démarrer

Tutoriel vidéo sur les techniques PS et les techniques de découpage

Tutoriel vidéo sur la construction et le lancement de projets d'Alibaba Cloud Environment

Présentation des réseaux informatiques - Connaissances de base que les programmeurs doivent maîtriser

Tutoriel essentiel pour les programmeurs - Explication du protocole HTTP

Tutoriel vidéo Websocket

Dans quelle mesure les performances de GPT-4 sont-elles fluides ? L'écriture humaine peut-elle être dépassée ?

Cette étude utilise les dernières données pour construire l'ensemble de données, chaque L’ensemble de données se compose de 50 échantillons.