Hype et réalité des agents IA : GPT-4 ne peut même pas le prendre en charge et le taux de réussite des tâches réelles est inférieur à 15 %-IA-php.cn

Conformément à l'évolution continue et à l'auto-innovation des grands modèles de langage, les performances, la précision et la stabilité ont été considérablement améliorées, ce qui a été vérifié par divers ensembles de problèmes de référence.

Cependant, pour les versions existantes de LLM, leurs capacités complètes ne semblent pas être en mesure de prendre pleinement en charge les agents IA.

Hype et réalité des agents IA : GPT-4 ne peut même pas le prendre en charge et le taux de réussite des tâches réelles est inférieur à 15 %

L'inférence multimodale, multi-tâches et multi-domaines sont devenues des exigences nécessaires pour les agents d'IA dans l'espace médiatique public, mais les effets réels affichés dans des pratiques fonctionnelles spécifiques varient considérablement. Cela semble rappeler une fois de plus à toutes les startups de robots IA et aux grands géants de la technologie de reconnaître la réalité : être plus terre-à-terre, ne pas trop étendre le stand et commencer par les fonctions d’amélioration de l’IA.

Récemment, un blog sur l'écart entre la publicité et les performances réelles des agents d'IA a souligné un point : "Les agents d'IA sont un géant en matière de publicité, mais la réalité est très mauvaise. Elle exprime avec précision le point de vue de nombreuses personnes sur." Technologie IA. Avec les progrès continus de la science et de la technologie, l'IA a été dotée de nombreuses fonctionnalités et capacités attrayantes. Cependant, certains problèmes surviennent souvent dans les applications pratiques et

Le contexte des agents d'IA autonomes capables d'effectuer des tâches complexes a provoqué. grande inquiétude excitée. En interagissant avec des outils et des fonctionnalités externes, les LLM peuvent réaliser des flux de travail en plusieurs étapes sans intervention humaine.

Mais cela s’est avéré plus difficile que prévu.

Le classement WebArena est un environnement réseau réel et reproductible pour évaluer les performances des agents pratiques. L'analyse comparative des performances des agents LLM sur des tâches réelles a montré que même le modèle le plus performant avait un taux de réussite de seulement 35,8 %.

Hype et réalité des agents IA : GPT-4 ne peut même pas le prendre en charge et le taux de réussite des tâches réelles est inférieur à 15 %

Résultats de référence du classement WebArena sur la performance des agents LLM dans des tâches réelles : le modèle SteP a obtenu les meilleurs résultats dans l'indicateur de taux de réussite, atteignant 35,8%, tandis que le succès du célèbre GPT-4 Le taux a atteint seulement 14,9%.

Qu'est-ce qu'un agent IA ?

Le terme « agent IA » n'est pas vraiment défini, et il existe de nombreuses controverses sur ce qu'est exactement un agent.

L'agent IA peut être défini comme "un LLM qui a la capacité d'agir (généralement en effectuant des appels de fonction dans un environnement RAG) pour prendre des décisions de haut niveau sur la manière d'effectuer des tâches dans l'environnement

". Actuellement, il existe deux méthodes architecturales principales pour créer des agents IA :

Agent unique : un grand modèle gère l'intégralité de la tâche et prend toutes les décisions et actions en fonction de sa compréhension globale du contexte. Cette méthode tire parti de la puissance émergente des grands modèles et évite la perte d’informations causée par la décomposition des tâches.
Système multi-agent : Décomposez la tâche en sous-tâches, chaque sous-tâche est gérée par un agent plus petit et plus spécialisé. Plutôt que d’essayer d’utiliser un grand agent général difficile à contrôler et à tester, on peut utiliser plusieurs petits agents pour choisir la bonne stratégie pour une sous-tâche spécifique. Cette approche est parfois nécessaire en raison de contraintes pratiques telles que les limitations sur la longueur de la fenêtre contextuelle ou le besoin de compétences différentes.

En théorie, un agent unique avec une longueur de contexte infinie et une attention parfaite est idéal. En raison du contexte plus court, les systèmes multi-agents seront toujours moins performants qu'un système unique sur un problème donné.

Défis en pratique

Après avoir été témoin de nombreuses tentatives d'agents d'IA, l'auteur estime qu'ils sont encore trop prématurés, trop coûteux, trop lents et pas assez fiables. De nombreuses startups d’agents IA semblent attendre une percée en matière de modèle pour se lancer dans la course à la production de leurs agents.

Les performances des agents d'IA dans les applications réelles ne sont pas suffisamment matures, ce qui se reflète dans des problèmes tels que des résultats inexacts, des performances insatisfaisantes, des coûts plus élevés, des risques de rémunération et l'incapacité de gagner la confiance des utilisateurs :

Fiabilité : les LLM sont connus pour être sujets aux hallucinations et aux incohérences. La connexion de plusieurs étapes d'IA peut exacerber ces problèmes, en particulier pour les tâches qui nécessitent un résultat précis.
Performances et coût : GPT-4, Gemini-1.5 et Claude Opus fonctionnent bien avec les appels d'outils/fonctions, mais ils sont toujours lents et coûteux, surtout si des boucles et des tentatives automatiques sont nécessaires.
Questions juridiques : Les entreprises peuvent être tenues responsables des erreurs de leurs agents. Dans un exemple récent, Air Canada a été condamnée à indemniser un client qui a été induit en erreur par le chatbot de la compagnie aérienne.
Confiance des utilisateurs : la nature de la « boîte noire » des agents d'IA et des exemples similaires font qu'il est difficile pour les utilisateurs de comprendre et de faire confiance à leurs résultats. Gagner la confiance des utilisateurs sera difficile lors de tâches sensibles impliquant des paiements ou des informations personnelles (comme payer des factures, faire des achats, etc.).

Tentatives dans le monde réel

Actuellement, les startups suivantes s'impliquent dans le domaine des agents d'IA, mais la plupart en sont encore au stade expérimental ou sur invitation uniquement :

adept.ai - 350 millions de dollars collectés, mais l'accès reste très limité.
MultiOn - Statut de financement inconnu, leur approche API first semble prometteuse.
HypeWrite - Lève 2,8 millions de dollars, a commencé comme assistant d'écriture IA, puis s'est développé en agents.
minion.ai - a initialement attiré une certaine attention mais est maintenant en sommeil avec seulement une liste d'attente.

Parmi eux, seul MultiOn semble poursuivre la méthode du « donner des instructions et observer leur exécution », plus conforme à la promesse des agents IA.

Toutes les autres entreprises empruntent la voie du RPA (enregistrement et relecture), ce qui peut être nécessaire à ce stade pour garantir la fiabilité.

Dans le même temps, certaines grandes entreprises apportent également des capacités d'IA au bureau et au navigateur, et il semble qu'elles bénéficieront d'une intégration native de l'IA au niveau du système.

OpenAI a annoncé son application de bureau Mac qui interagit avec l'écran du système d'exploitation.

Lors de Google I/O, Google a fait une démonstration de Gemini pour automatiser les retours d'achats.

Hype et réalité des agents IA : GPT-4 ne peut même pas le prendre en charge et le taux de réussite des tâches réelles est inférieur à 15 %

Microsoft a annoncé Copilot Studio, qui permettra aux développeurs de créer des robots agents IA.

Hype et réalité des agents IA : GPT-4 ne peut même pas le prendre en charge et le taux de réussite des tâches réelles est inférieur à 15 %

Ces démonstrations techniques sont impressionnantes, et les gens peuvent attendre de voir comment ces capacités d'agent fonctionnent lorsqu'elles sont rendues publiques et testées dans des scénarios réels, plutôt que de se limiter à des cas de démonstration soigneusement sélectionnés.

Dans quelle direction iront les agents IA ?

L'auteur souligne : "Les agents d'IA ont été trop médiatisés, et la plupart ne sont pas prêts pour une utilisation critique."

Cependant, avec les progrès rapides des modèles et des architectures de base, il a déclaré que les gens peuvent encore le faire. j’ai hâte de voir des applications pratiques plus réussies.

La voie à suivre la plus prometteuse pour les agents IA pourrait ressembler à ceci :

L'accent à court terme devrait être mis sur l'augmentation des outils existants avec l'IA plutôt que sur la fourniture d'une large gamme de services autonomes entièrement autonomes.
La méthode de collaboration homme-machine permet aux humains de participer à la supervision et au traitement des cas extrêmes.
Définissez des attentes réalistes en fonction de vos capacités et limites actuelles.

En combinant des LLM étroitement contraints, de bonnes données d'évaluation, une supervision collaborative homme-machine et des méthodes d'ingénierie traditionnelles, il est possible d'obtenir des résultats fiables et bons dans des tâches complexes telles que l'automatisation.

Les agents IA automatiseront-ils les tâches fastidieuses et répétitives telles que le web scraping, le remplissage de formulaires et la saisie de données ?

Auteur : "Oui, absolument."

Alors un agent IA réservera-t-il automatiquement des vacances sans intervention humaine ?

Auteur : "Peu probable, du moins dans un avenir proche."

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!