Conformément à l'évolution continue et à l'auto-innovation des grands modèles de langage, les performances, la précision et la stabilité ont été considérablement améliorées, ce qui a été vérifié par divers ensembles de problèmes de référence.
Cependant, pour les versions existantes de LLM, leurs capacités complètes ne semblent pas être en mesure de prendre pleinement en charge les agents IA.
L'inférence multimodale, multi-tâches et multi-domaines sont devenues des exigences nécessaires pour les agents d'IA dans l'espace médiatique public, mais les effets réels affichés dans des pratiques fonctionnelles spécifiques varient considérablement. Cela semble rappeler une fois de plus à toutes les startups de robots IA et aux grands géants de la technologie de reconnaître la réalité : être plus terre-à-terre, ne pas trop étendre le stand et commencer par les fonctions d’amélioration de l’IA.
Récemment, un blog sur l'écart entre la publicité et les performances réelles des agents d'IA a souligné un point : "Les agents d'IA sont un géant en matière de publicité, mais la réalité est très mauvaise. Elle exprime avec précision le point de vue de nombreuses personnes sur." Technologie IA. Avec les progrès continus de la science et de la technologie, l'IA a été dotée de nombreuses fonctionnalités et capacités attrayantes. Cependant, certains problèmes surviennent souvent dans les applications pratiques et
Le contexte des agents d'IA autonomes capables d'effectuer des tâches complexes a provoqué. grande inquiétude excitée. En interagissant avec des outils et des fonctionnalités externes, les LLM peuvent réaliser des flux de travail en plusieurs étapes sans intervention humaine.
Mais cela s’est avéré plus difficile que prévu.
Le classement WebArena est un environnement réseau réel et reproductible pour évaluer les performances des agents pratiques. L'analyse comparative des performances des agents LLM sur des tâches réelles a montré que même le modèle le plus performant avait un taux de réussite de seulement 35,8 %.
Résultats de référence du classement WebArena sur la performance des agents LLM dans des tâches réelles : le modèle SteP a obtenu les meilleurs résultats dans l'indicateur de taux de réussite, atteignant 35,8%, tandis que le succès du célèbre GPT-4 Le taux a atteint seulement 14,9%.
Le terme « agent IA » n'est pas vraiment défini, et il existe de nombreuses controverses sur ce qu'est exactement un agent.
L'agent IA peut être défini comme "un LLM qui a la capacité d'agir (généralement en effectuant des appels de fonction dans un environnement RAG) pour prendre des décisions de haut niveau sur la manière d'effectuer des tâches dans l'environnement
". Actuellement, il existe deux méthodes architecturales principales pour créer des agents IA :
En théorie, un agent unique avec une longueur de contexte infinie et une attention parfaite est idéal. En raison du contexte plus court, les systèmes multi-agents seront toujours moins performants qu'un système unique sur un problème donné.
Après avoir été témoin de nombreuses tentatives d'agents d'IA, l'auteur estime qu'ils sont encore trop prématurés, trop coûteux, trop lents et pas assez fiables. De nombreuses startups d’agents IA semblent attendre une percée en matière de modèle pour se lancer dans la course à la production de leurs agents.
Les performances des agents d'IA dans les applications réelles ne sont pas suffisamment matures, ce qui se reflète dans des problèmes tels que des résultats inexacts, des performances insatisfaisantes, des coûts plus élevés, des risques de rémunération et l'incapacité de gagner la confiance des utilisateurs :
Actuellement, les startups suivantes s'impliquent dans le domaine des agents d'IA, mais la plupart en sont encore au stade expérimental ou sur invitation uniquement :
Parmi eux, seul MultiOn semble poursuivre la méthode du « donner des instructions et observer leur exécution », plus conforme à la promesse des agents IA.
Toutes les autres entreprises empruntent la voie du RPA (enregistrement et relecture), ce qui peut être nécessaire à ce stade pour garantir la fiabilité.
Dans le même temps, certaines grandes entreprises apportent également des capacités d'IA au bureau et au navigateur, et il semble qu'elles bénéficieront d'une intégration native de l'IA au niveau du système.
OpenAI a annoncé son application de bureau Mac qui interagit avec l'écran du système d'exploitation.
Lors de Google I/O, Google a fait une démonstration de Gemini pour automatiser les retours d'achats.
Microsoft a annoncé Copilot Studio, qui permettra aux développeurs de créer des robots agents IA.
Ces démonstrations techniques sont impressionnantes, et les gens peuvent attendre de voir comment ces capacités d'agent fonctionnent lorsqu'elles sont rendues publiques et testées dans des scénarios réels, plutôt que de se limiter à des cas de démonstration soigneusement sélectionnés.
L'auteur souligne : "Les agents d'IA ont été trop médiatisés, et la plupart ne sont pas prêts pour une utilisation critique."
Cependant, avec les progrès rapides des modèles et des architectures de base, il a déclaré que les gens peuvent encore le faire. j’ai hâte de voir des applications pratiques plus réussies.
La voie à suivre la plus prometteuse pour les agents IA pourrait ressembler à ceci :
En combinant des LLM étroitement contraints, de bonnes données d'évaluation, une supervision collaborative homme-machine et des méthodes d'ingénierie traditionnelles, il est possible d'obtenir des résultats fiables et bons dans des tâches complexes telles que l'automatisation.
Les agents IA automatiseront-ils les tâches fastidieuses et répétitives telles que le web scraping, le remplissage de formulaires et la saisie de données ?
Auteur : "Oui, absolument."
Alors un agent IA réservera-t-il automatiquement des vacances sans intervention humaine ?
Auteur : "Peu probable, du moins dans un avenir proche."
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!