La génération de résumés est une tâche de génération de langage naturel (NLG), dont l'objectif principal est de compresser des textes longs en courts résumés. Il peut être appliqué à une variété de contenus, tels que des articles d'actualité, du code source et des textes multilingues.
Avec l'émergence des grands modèles (LLM), les méthodes traditionnelles de réglage fin sur des ensembles de données spécifiques ne sont plus disponibles. n’est plus applicable.
Nous ne pouvons nous empêcher de nous demander quelle est l'efficacité du LLM pour générer des résumés ?
Afin de répondre à cette question, des chercheurs de l'Université de Pékin ont mené une discussion détaillée dans l'article « La synthèse est (presque) morte ». Ils ont évalué les performances de LLM sur diverses tâches de résumé (actualités uniques, actualités multiples, conversations, code source et résumé multilingue) à l'aide d'ensembles de données d'évaluation générés par l'homme, de résumés écrits par l'homme après des comparaisons quantitatives et qualitatives. des résumés et des résumés générés par des modèles affinés, il a été constaté que les résumés générés par LLM étaient significativement favorisés par les évaluateurs humains
Après avoir comparé 100 articles publiés dans ACL, EMNLP, NAACL et COLING au cours des 3 dernières années avec Après échantillonnage et en examinant les articles liés aux méthodes de synthèse, les chercheurs ont constaté que la principale contribution d'environ 70 % des articles était de proposer une méthode de résumé et de vérifier son efficacité sur un ensemble de données standard. Par conséquent, l'étude indique que "la synthèse est (presque) morte"
Néanmoins, les chercheurs ont déclaré que le domaine est encore confronté à certains défis, tels que la nécessité d'ensembles de données de référence de meilleure qualité et d'une évaluation améliorée. doivent être résolus
Lien papier : https://arxiv.org/pdf/2309.09558.pdf
Méthodes et résultats
Lors de l'exécution de tâches de résumé d'actualités uniques, multiples et de conversations, nous avons utilisé des méthodes similaires aux méthodes de construction d'ensembles de données CNN/DailyMail et Multi-News pour la simulation. Pour la tâche de synthèse multilingue, nous adoptons la même stratégie que celle proposée par Zhu et al. Quant à la tâche de résumé du code, la méthode proposée par Bahrami et al.
Une fois l'ensemble de données construit, l'étape suivante est la méthode. Plus précisément, cet article utilise BART et T5 pour les tâches d'actualités uniques ; Pegasus et BART pour les tâches d'actualités multiples ; T5 et BART pour les tâches de dialogue ; MT5 et MBART pour les tâches multilingues et Codet5 pour les tâches de code source ;
Dans cette expérience, l'étude a utilisé des évaluateurs humains pour comparer la qualité globale de différents résumés. D'après les résultats de la figure 1, les résumés générés par LLM surpassent les résumés générés par les humains et les résumés générés par des modèles affinés dans toutes les tâches
Cela soulève la question : pourquoi LLM est capable de surpasser les résumés humains qui sont traditionnellement considéré comme parfait. De plus, les observations préliminaires indiquent que les résumés générés par LLM sont très fluides et cohérents
Cet article recrute en outre des annotateurs pour identifier les problèmes d'hallucinations dans les phrases récapitulatives humaines et générées par LLM, et les résultats sont présentés dans le tableau 1, comparés aux résumés générés. par GPT-4 En comparaison, les résumés écrits par des humains présentent un nombre d'hallucinations identique ou supérieur. Dans des tâches spécifiques telles que plusieurs actualités et résumés de code, les résumés rédigés par des humains présentent une cohérence factuelle nettement moins bonne.
Le tableau 2 montre la proportion d'hallucinations dans les résumés écrits par des humains et les résumés générés par GPT-4
Cet article a également révélé que les résumés de référence écrits par des humains ont un tel problème, c'est-à-dire que manque de maîtrise. Comme le montre la figure 2 (a), les résumés de référence rédigés par des humains souffrent parfois d'informations incomplètes. Et dans la figure 2 (b), certains résumés de référence écrits par des humains présentent des hallucinations.
Cette étude a également révélé que les résumés générés par des modèles affinés ont généralement une longueur fixe et stricte, tandis que LLM est capable d'ajuster la longueur de sortie en fonction des informations d'entrée. De plus, lorsque l'entrée contient plusieurs sujets, les résumés générés par le modèle affiné couvrent peu les sujets, comme le montre la figure 3, tandis que le LLM est capable de capturer tous les sujets lors de la génération de résumés
selon la Figure 4 Les résultats montrent que le score de préférence humaine pour les grands modèles dépasse 50%, ce qui montre que les gens ont une forte préférence pour son résumé et met en évidence la capacité du LLM en matière de synthèse de texte
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!