Une étude montre que les sources de données restent le principal goulot d'étranglement de l'IA-IA-php.cn

Une étude montre que les sources de données restent le principal goulot d'étranglement de l'IA

王林

Libérer： 2023-04-28 11:49:06

avant

1173 Les gens l'ont consulté

Les données sont l'élément vital des machines. Sans cela, vous ne pouvez rien créer en rapport avec l’IA. De nombreuses organisations ont encore du mal à obtenir des données fiables et fiables pour soutenir leurs initiatives d'IA et d'apprentissage automatique, selon le rapport Appen sur l'état de l'IA et de l'apprentissage automatique publié cette semaine.

Selon l'enquête d'Appen sur l'intelligence artificielle, parmi les quatre étapes de l'intelligence artificielle – acquisition de données, préparation des données, formation et déploiement de modèles et évaluation de modèles guidée par l'homme, l'acquisition de données consomme le plus de ressources, prend le plus de temps et est le plus difficile. 504 chefs d’entreprise et experts technologiques.

En moyenne, l'approvisionnement en données consomme 34 % du budget IA d'une organisation, tandis que la préparation des données, les tests et le déploiement de modèles représentent chacun 24 %, et l'évaluation des modèles 15 %, selon l'enquête d'Appen, menée par Harris Poll, incluant la décision informatique. créateurs, chefs d'entreprise, gestionnaires et praticiens de la technologie des États-Unis, du Royaume-Uni, de l'Irlande et de l'Allemagne.

En termes de temps, l'approvisionnement en données consomme environ 26 % du temps d'une organisation, tandis que la préparation des données et les tests, le déploiement et l'évaluation des modèles représentent respectivement 24 % et 23 %. Enfin, 42 % des technologues considèrent l'approvisionnement en données comme l'étape la plus difficile du cycle de vie de l'IA, par rapport à l'évaluation des modèles (41 %), aux tests et au déploiement des modèles (38 %) et à la préparation des données (34 %).

研究表明：数据来源仍然是 AI 的主要瓶颈

Selon les experts en technologie, l'approvisionnement en données est le plus grand défi auquel est confrontée l'intelligence artificielle. Mais les chefs d'entreprise voient les choses différemment...

Malgré les défis, les organisations font en sorte que cela fonctionne. Selon Appen, quatre cinquièmes (81 %) des personnes interrogées ont déclaré qu'elles étaient convaincues de disposer de suffisamment de données pour soutenir leurs initiatives d'IA. Peut-être la clé de ce succès : la grande majorité (88 %) augmentent leurs données en faisant appel à des fournisseurs externes de données de formation en IA tels qu'Appen.

Cependant, l’exactitude des données est discutable. Appen a constaté que seulement 20 % des personnes interrogées ont signalé une exactitude des données supérieure à 80 %. Seulement 6 % (environ 1 sur 10) ont déclaré que leurs données étaient exactes à 90 % ou mieux. Autrement dit, une donnée sur cinq contient des erreurs pour plus de 80 % des organisations.

Dans cet esprit, il n’est peut-être pas surprenant que près de la moitié (46 %) des personnes interrogées conviennent que l’exactitude des données est importante « mais nous pouvons y remédier », selon l’enquête d’Appen. Seulement 2 % ont déclaré que l’exactitude des données n’était pas un besoin majeur, tandis que 51 % ont convenu qu’il s’agissait d’un besoin critique.

Il semble que l'opinion du CTO d'Appen, Wilson Pang, sur l'importance de la qualité des données correspond aux 48 % de clients qui pensent que la qualité des données n'est pas importante.

« L'exactitude des données est essentielle au succès des modèles d'IA et de ML, car des données riches en qualité se traduisent par de meilleurs résultats de modèle et un traitement et une prise de décision cohérents », a déclaré Pang dans le rapport. « Pour obtenir de bons résultats, les ensembles de données doivent être précis, complets et évolutifs. »

研究表明：数据来源仍然是 AI 的主要瓶颈

Plus de 90 % des répondants d'Appen ont déclaré utiliser des données pré-étiquetées

Pang a déclaré dans une récente interview, L'essor de l'apprentissage profond. et l’IA centrée sur les données a fait passer le moteur du succès de l’IA d’une bonne modélisation de la science des données et de l’apprentissage automatique à une bonne collecte, gestion et étiquetage des données. Cela est particulièrement vrai pour les techniques d’apprentissage par transfert d’aujourd’hui, où les praticiens de l’IA s’appuient sur un vaste modèle de langage ou de vision par ordinateur pré-entraîné et recyclent un petit ensemble de couches avec leurs propres données.

De meilleures données peuvent également aider à empêcher que des biais inutiles ne s’infiltrent dans les modèles d’IA et, de manière générale, à prévenir les résultats indésirables de l’IA. Cela est particulièrement vrai pour les grands modèles de langage, a déclaré Ilia Shifrin, directeur principal de l'IA chez Appen.

« Les entreprises sont confrontées à un autre défi avec la montée en puissance des grands modèles linguistiques (LLM) formés sur les données multilingues des robots d'exploration Web », a déclaré Shifrin dans le rapport. "Ces modèles présentent souvent un mauvais comportement en raison de l'abondance de langage toxique, ainsi que de préjugés raciaux, sexuels et religieux dans le corpus de formation

Les biais dans les données Web soulèvent des problèmes épineux, bien qu'il existe quelques solutions de contournement (changer de formation)." systèmes, filtrage des données de formation et des résultats du modèle, et apprentissage à partir des commentaires et des tests humains), mais des recherches supplémentaires sont nécessaires pour établir une bonne norme pour les références LLM « centrées sur l'humain » et les méthodes d'évaluation des modèles, a déclaré Shifrin.

Selon Appen, la gestion des données reste le plus gros obstacle auquel est confrontée l'IA. L'enquête a révélé que 41 % des personnes impliquées dans le cycle de l'IA pensent que la gestion des données est le plus gros goulot d'étranglement. Le manque de données arrive en quatrième position, avec 30 % le citant comme le plus grand obstacle au succès de l'IA.

Mais il y a une bonne nouvelle : le temps que les organisations consacrent à la gestion et à la préparation des données est en baisse. Cette année, ce chiffre était d’un peu plus de 47 %, contre 53 % dans le rapport de l’année dernière, a déclaré Appen.

研究表明：数据来源仍然是 AI 的主要瓶颈

Les niveaux d'exactitude des données peuvent ne pas être aussi élevés que certaines organisations le souhaiteraient

« La majorité des personnes interrogées ayant recours à des fournisseurs de données externes, on peut en déduire qu'en externalisant l'approvisionnement et la préparation des données, les data scientists économisent le temps nécessaire à une gestion appropriée. , nettoyer et étiqueter les données nécessaires", a déclaré la société d'étiquetage des données.

Cependant, à en juger par les taux d’erreur relativement élevés dans les données, les organisations ne devraient peut-être pas réduire leurs processus d’approvisionnement et de préparation des données (qu’ils soient internes ou externes). Il existe de nombreux besoins concurrents lorsqu'il s'agit de créer et de maintenir des processus d'IA : l'embauche de professionnels des données qualifiés était un autre besoin majeur identifié par Appen. Cependant, jusqu'à ce que des progrès significatifs soient réalisés dans la gestion des données, les organisations devraient continuer à faire pression sur leurs équipes pour qu'elles continuent de souligner l'importance de la qualité des données.

L'enquête a également révélé que 93 % des organisations sont tout à fait ou plutôt d'accord sur le fait que l'IA éthique devrait être le « fondement » des projets d'IA. Le PDG d'Appen, Mark Brayan, a déclaré que c'était un bon début, mais qu'il restait encore du travail à faire. "Le problème est que de nombreuses personnes sont confrontées au défi d'essayer de créer une IA performante avec des ensembles de données médiocres, ce qui crée un obstacle important à la réalisation de leurs objectifs", a déclaré Brayan dans un communiqué de presse.

Les données internes collectées sur mesure restent la majorité des ensembles de données des organisations utilisées pour l'IA, représentant 38 % à 42 % des données, selon le rapport d'Appen. Les données synthétiques ont obtenu des résultats étonnamment solides, représentant 24 à 38 % des données d'une organisation, tandis que les données pré-étiquetées (généralement provenant de fournisseurs de services de données) représentaient 23 à 31 % des données.

Les données synthétiques en particulier ont le potentiel de réduire l'incidence des biais dans les projets d'IA sensibles, avec 97 % des répondants d'Appen déclarant utiliser des données synthétiques « lors du développement d'ensembles de données de formation inclusifs ».

Autres conclusions intéressantes du rapport :

77 % des organisations recyclent leurs modèles mensuellement ou trimestriellement ;
55 % des organisations américaines déclarent qu'elles sont en avance sur leurs concurrents, contre 44 % en Europe ; les organisations signalent un déploiement « large » de l'IA, contre 51 % dans le rapport sur l'état de l'intelligence artificielle de 2021
7 % des organisations déclarent que leur budget pour l'IA dépasse 5 millions de dollars, contre 9 % l'année dernière .

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Php8, je viens aussi

Apprenez la mise en page d'un site Web en 30 minutes

Tutoriel vidéo Shangguan Oracle débutant à compétent

Votre première ligne de code UNI-APP

Flutter de zéro au lancement de l'application

Brother Lian Nouveau didacticiel vidéo Linux

Tutoriel vidéo AXURE 9 (convient à l'interface utilisateur interactive de conception de produits du chef de produit)

Tutoriel vidéo PS Zero Basic Proficiency

Tutoriel vidéo de 16 jours sur l'interface utilisateur pour vous aider à démarrer

Tutoriel vidéo sur les techniques PS et les techniques de découpage

Tutoriel vidéo sur la construction et le lancement de projets d'Alibaba Cloud Environment

Présentation des réseaux informatiques - Connaissances de base que les programmeurs doivent maîtriser

Tutoriel essentiel pour les programmeurs - Explication du protocole HTTP

Tutoriel vidéo Websocket

Une étude montre que les sources de données restent le principal goulot d'étranglement de l'IA