Pour une IA plus intelligente : technologie ReAct qui intègre le raisonnement et le comportement dans les modèles de langage-IA-php.cn

Pour une IA plus intelligente : technologie ReAct qui intègre le raisonnement et le comportement dans les modèles de langage

WBOY

Libérer： 2023-09-06 22:21:16

avant

1400 Les gens l'ont consulté

Aujourd'hui, nous allons présenter un article "REACT: Combining Reasoning and Behaviour in Language Models", qui est une collaboration entre des chercheurs de Google Research et de l'Université de Princeton. Ils ont publié cet article tout en explorant le potentiel de combiner le raisonnement et le comportement dans des modèles de langage. Bien que les capacités de raisonnement et d’action des grands modèles de langage (LLM) aient été étudiées séparément, c’est la première fois que ces deux capacités sont combinées en un seul système. Je pense donc que ce document est très important. Le framework ReAct permet aux agents virtuels d'utiliser une variété d'outils tels que la connexion au Web et aux bases de données SQL, offrant ainsi une évolutivité pratiquement illimitée

Pour une IA plus intelligente : technologie ReAct qui intègre le raisonnement et le comportement dans les modèles de langage

Le pouvoir du raisonnement et de l'action

L'intelligence humaine est caractérisée par la tâche L'action dirigée et le raisonnement sur les prochaines étapes sont parfaitement intégrés. Cette capacité nous permet d’apprendre rapidement de nouvelles tâches et de prendre des décisions fiables, ainsi que de nous adapter aux circonstances imprévues. L'objectif de ReAct est de reproduire cette synergie dans les modèles de langage, leur permettant de générer des étapes d'inférence et des actions spécifiques à des tâches de manière entrelacée

Comment fonctionne ReAct

ReAct invite de grands modèles de langage pour une tâche donnée. les étapes et les actions de l'histoire du raisonnement. Ces invites consistent en un petit nombre d’exemples contextuels qui guident la réflexion et la génération d’actions du modèle. Un exemple contextuel est donné dans la figure ci-dessous. Ces exemples guident l'agent à travers un processus cyclique : générer une idée, entreprendre une action, puis observer les résultats de l'action. En combinant des traces et des actions d'inférence, ReAct permet aux modèles d'effectuer une inférence dynamique, qui peut générer des plans de haut niveau et également interagir avec l'environnement externe pour collecter des informations supplémentaires. Pour une variété de tâches de raisonnement linguistique et de prise de décision, notamment la réponse aux questions, la vérification des faits, les jeux textuels et la navigation sur des pages Web. Les résultats sont exceptionnels, ReAct surpassant systématiquement les autres bases de référence de pointe en termes d'interprétabilité et de fiabilité

Pour une IA plus intelligente : technologie ReAct qui intègre le raisonnement et le comportement dans les modèles de langage Dans les tâches de réponse aux questions et de vérification des faits, ReAct exploite l'interaction avec une simple API Wikipédia, surmontant avec succès le processus d'inférence Problèmes courants d'hallucinations et de mauvaise propagation. Il génère des étapes similaires à la façon dont les humains résoudraient la tâche et est plus facile à interpréter que les modèles de base sans traces de raisonnement. Sur les benchmarks de prise de décision interactive, ReAct surpasse considérablement les méthodes d'apprentissage par imitation et d'apprentissage par renforcement, même avec seulement un ou deux exemples contextuels

Bien que les étapes de raisonnement, d'action et d'observation soient étroitement liées, améliorant la fiabilité et la crédibilité de ReAct, mais cette structure limite la flexibilité de ses étapes de raisonnement, ce qui entraîne des taux d'erreur de raisonnement plus élevés sur certaines tâches que les conseils sur la chaîne de réflexion différentes tâches. Ils ont constaté que la combinaison du raisonnement interne et du comportement externe de ReAct surpassait systématiquement les bases de référence axées uniquement sur le raisonnement ou l'action. Cela souligne l'intérêt de l'intégration des deux processus pour une prise de décision plus efficace

Orientations futures

Bien que ReAct ait obtenu de bons résultats, il reste encore place à l'amélioration. Les chercheurs recommandent de développer ReAct pour former et opérer sur davantage de tâches et de le combiner avec des paradigmes complémentaires tels que l'apprentissage par renforcement. De plus, le modèle peut être affiné en utilisant davantage de données annotées par l'homme pour améliorer encore les performances

Conclusion