Si vous souhaitez en savoir plus sur AIGC, veuillez visiter :
51CTO AI semble être publiée chaque jour, et beaucoup d'entre elles se concentrent sur la phase de récupération du framework. Dans la question. Cependant, l’aspect génératif – la manière dont le modèle synthétise et exprime les informations récupérées – peut être tout aussi important en pratique. De nombreux cas d’application pratiques prouvent que le système doit non seulement renvoyer des données du contexte, mais également transformer ces informations en une réponse plus complexe.
Pour cela, nous avons mené plusieurs expérimentations pour évaluer et comparer les capacités de génération de trois modèles : GPT-4, Claude 2.1 et Claude 3 Opus. Cet article détaillera nos méthodes de recherche, les résultats et les nuances de ces modèles que nous avons rencontrés en cours de route, et expliquera pourquoi ils sont importants pour ceux qui construisent avec l'IA générative.
Notes supplémentaires
Bien que les premiers résultats suggèrent que Claude a surpassé GPT-4, les tests ultérieurs ont montré que, avec l'avènement des techniques d'ingénierie stratégique rapide, GPT-4 a surpassé un plus large éventail de performances d'évaluation. En bref, il existe encore de nombreux problèmes dans le comportement du modèle et dans l'ingénierie rapide inhérents au système RAG. De manière significative (plus de deux fois), les performances de GPT-4 sont améliorées en ajoutant simplement « Veuillez vous expliquer, puis répondez à la question » au modèle d'invite. Il est clair que lorsque LLM donne la réponse, cela semble aider à développer davantage l'idée. Grâce à l'interprétation, il est possible pour le modèle de réexécuter la bonne réponse dans l'espace d'intégration/d'attention.Dans de nombreuses applications du monde réel, la valeur des systèmes RAG réside non seulement dans leur capacité à localiser des faits ou des informations spécifiques, mais également dans leur capacité à intégrer et contextualiser les informations dans un cadre plus large. La phase de génération permet aux systèmes RAG d'aller au-delà de la simple récupération de faits et de fournir des réponses véritablement intelligentes et adaptatives.
Test n°1 : Mappage de dates
Le test initial que nous avons effectué consistait à générer une chaîne de date à partir de deux nombres récupérés aléatoirement : l'un représentant le mois et l'autre représentant le jour. La tâche du modèle est de :
Récupérer le nombre aléatoire n°1 Isoler le dernier chiffre et l'incrémenter de 1 Générer un mois pour notre chaîne de date en fonction du résultatEncouragés par ces résultats expérimentaux inattendus, nous avons introduit une nouvelle variable dans l'expérience. Nous avons demandé à GPT-4 de « vous expliquer, puis de répondre à la question », une invite qui encourageait des réponses plus détaillées similaires à celles naturellement produites par le modèle Claude. L’impact de ce petit ajustement est donc considérable.
Figure 3 : Test initial des résultats d'invite ciblés
Les performances du modèle GPT-4 se sont considérablement améliorées, obtenant des résultats parfaits lors des tests ultérieurs. Les résultats du modèle Claude se sont également améliorés.
Cette expérience met non seulement en évidence les différences dans la manière dont les modèles de langage gèrent les tâches de génération, mais démontre également l'impact potentiel de l'ingénierie des indices sur leurs performances. La force de Claude semble être la verbosité, qui s'avère être une stratégie reproductible pour GPT-4, suggérant que la façon dont un modèle gère et présente l'inférence peut affecter de manière significative sa précision dans les tâches de génération. Dans l'ensemble, dans toutes nos expériences, la phrase apparemment petite « expliquez-vous » a joué un rôle dans l'amélioration des performances du modèle.
Figure 4 : Quatre tests supplémentaires pour évaluer la génération
Nous avons effectué quatre tests supplémentaires pour évaluer le modèle traditionnel de synthèse et de conversion des informations récupérées dans différents formats. Capacités :
Comme prévu, chaque modèle a montré de solides performances en matière de concaténation de chaînes, ce qui réitère également la compréhension précédente selon laquelle la manipulation de texte est une force fondamentale des modèles de langage.
Figure 5 : Résultats du test de formatage des devises
En ce qui concerne le test de formatage des devises, Claude 3 et GPT-4 ont fonctionné presque parfaitement. Les performances de Claude 2.1 sont généralement médiocres. La précision ne varie pas beaucoup selon la longueur des marques, mais elle est généralement inférieure à mesure que le pointeur se rapproche du début de la fenêtre contextuelle.
Figure 6 : Résultats des tests officiels du site Web Haystack
Malgré l'obtention d'excellents résultats en une génération de tests, la précision de Claude 3 a chuté dans une expérience de récupération uniquement. En théorie, la simple récupération de chiffres devrait également être plus facile que leur manipulation, ce qui rend la baisse des performances surprenante et constitue un domaine que nous prévoyons de tester davantage. Au contraire, cette baisse contre-intuitive ne fait que confirmer davantage l'idée selon laquelle la récupération et la génération doivent être testées lors du développement avec RAG.
En testant diverses tâches de génération, nous avons observé que si les deux modèles, Claude et GPT-4, sont bons pour les tâches triviales telles que la manipulation de chaînes, dans des scénarios plus complexes, leurs forces et leurs faiblesses deviennent évidentes (https:/ /arize.com/blog-course/research-techniques-for-better-retrieved-Generation-rag/). LLM n'est toujours pas très bon en mathématiques ! Un autre résultat clé est que l'introduction d'indices « auto-explicatifs » améliore considérablement les performances de GPT-4, soulignant l'importance de savoir comment donner des indices au modèle et comment clarifier son raisonnement pour obtenir des indices précis. résultats.
Ces résultats ont des implications plus larges pour l’évaluation du LLM. Lorsque l'on compare des modèles tels que le Claude détaillé et le GPT-4 initialement moins détaillé, il devient clair que les critères d'évaluation RAG (https://arize.com/blog-course/rag-evaluation/) doivent aller au-delà de l'accent précédent mis uniquement sur étant le sexe correct, ceci. La verbosité des réponses du modèle introduit une variable qui peut affecter de manière significative leur performance perçue. Cette nuance peut suggérer que les futures évaluations du modèle devraient considérer la longueur moyenne des réponses comme un facteur important pour mieux comprendre les capacités du modèle et garantir une comparaison plus équitable.
Zhu Xianzhong, rédacteur en chef de la communauté 51CTO, blogueur expert 51CTO, conférencier, professeur d'informatique dans une université de Weifang et vétéran de l'industrie de la programmation indépendante.
Titre original : Conseils pour obtenir la bonne partie de la génération lors de la récupération Augmented Generation, auteur : Aparna Dhinakaran
Lien :
nce.com/tips-for-getting-the-generation-part-right-in-retrieval-augmented -génération-7deaa26f28dc.
Pour en savoir plus sur l'AIGC, veuillez visiter :
Communauté 51CTO AI.x
https://www.51cto.com/aigc/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!