À mesure que nous approfondissons le monde du ML et de GenAI, l'accent mis sur la qualité des données devient crucial. John Jeske, CTO du Advanced Technology Innovation Group de KMS Technology, se penche sur les méthodes de gouvernance des données telles que le suivi du lignage des données et l'apprentissage fédéré pour garantir les meilleures performances des modèles.
La qualité des données est essentielle pour modéliser la durabilité et la confiance des parties prenantes. Pendant le processus de modélisation, la qualité des données facilite la maintenance à long terme et vous permet de renforcer la confiance des utilisateurs et de votre communauté de parties prenantes. Les effets du « garbage in, garbage out » sont exacerbés dans les modèles complexes, notamment les langages à grande échelle et les algorithmes génératifs. ", a déclaré Jeske.
Quel que soit le modèle que vous choisissez pour votre cas d'utilisation, une mauvaise qualité des données entraînera inévitablement une distorsion des modèles GenAI. Le piège vient généralement des données d'entraînement qui indiquent de manière incorrecte le portée de l'entreprise, de la clientèle ou du champ d'application.
La vraie richesse réside dans les données elles-mêmes, et non dans le modèle éphémère ou la structure de modélisation. Avec l'émergence d'un grand nombre de frameworks de modélisation au cours des derniers mois, les données sont la valeur. d'actifs monétisables devient encore plus important
Jeff Scott, vice-président principal des services logiciels chez KMS Technology, a expliqué en outre : « Lorsque le contenu généré par l'IA s'écarte du résultat attendu, il ne s'agit pas d'une erreur d'algorithme, mais d'une formation insuffisante ou déformée. Reflétant une
Les meilleures pratiques en matière de gouvernance des données incluent des activités telles que la gestion des métadonnées, la gestion des données et les contrôles de qualité automatisés. Par exemple, assurez-vous de la fiabilité des sources de données, utilisez des ensembles de données certifiés lors de l'acquisition de données à des fins de formation et de modélisation, et envisagez d'utiliser des outils automatisés de qualité des données. Bien que cela puisse ajouter de la complexité, ces outils sont très utiles pour garantir l'intégrité des données.
Pour améliorer la qualité des données, nous utilisons des outils qui fournissent des propriétés telles que la validité des données, les contrôles d'intégrité et la cohérence temporelle, ce qui favorise des données fiables et cohérentes, essentielles pour modèles d’IA robustes.
Aux yeux de tous, les données sont un problème. Au sein d'une entreprise, attribuer la responsabilité de la gouvernance des données est une tâche importante
Le plus important est de s'assurer que les fonctionnalités fonctionnent comme prévu et que les données sur lesquelles elles sont formées ont du sens du point de vue d'un client potentiel. Le feedback améliore l’apprentissage, qui est ensuite pris en compte lors de la prochaine formation du modèle, invoquant une amélioration continue jusqu’au point de confiance.
Dans notre flux de travail, les modèles d'IA et de ML sont soumis à des tests internes rigoureux avant d'être lancés publiquement. L'équipe d'ingénierie des données reçoit des commentaires constants, permettant des améliorations itératives du modèle afin de minimiser les biais et autres anomalies les équipes et les systèmes sont correctement organisés et systématiquement responsables
La transparence fait partie intégrante de la confiance des clients, et la gouvernance des données n'est pas seulement une tâche technique, elle peut également avoir un impact sur la réputation d'une entreprise, car les risques sont transférés des prédictions inexactes de l'IA aux utilisateurs finaux.
Avec le développement continu de GenAI, la maîtrise de la gouvernance des données est devenue de plus en plus importante. Il ne s’agit pas seulement de garantir la qualité des données, mais également de comprendre la relation complexe entre les données et les modèles d’IA. Cette information est essentielle au progrès technologique, à la santé des entreprises et au maintien de la confiance des parties prenantes et du grand public
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!