La gestion des données est la clé du développement sain de l'intelligence artificielle générative-IA-php.cn

2023 est devenu le début officiel de l'ère de l'intelligence artificielle, et presque tout le monde parle de ChatGPT. Les modèles de langage d'IA génératifs comme ChatGPT attirent notre attention, nos yeux et notre intérêt, car pour la première fois, nous pouvons voir l'intelligence artificielle converser avec nous comme une personne réelle et générer des articles, des poèmes et d'autres nouveaux contenus que nous trouvons créatifs. Les solutions d’IA générative semblent receler un potentiel révolutionnaire pour une innovation, une productivité et une réalisation de valeur plus rapides et meilleures. Cependant, leurs limites n’ont pas été largement remarquées, et leurs meilleures pratiques en matière de confidentialité et de gestion des données ne sont pas non plus largement comprises.

La gestion des données est la clé du développement sain de lintelligence artificielle générative Récemment, de nombreux membres des communautés de technologie et de sécurité ont tiré la sonnette d'alarme en raison du manque de compréhension et de réglementation adéquate de l'utilisation de la technologie de l'intelligence artificielle. Nous constatons déjà des inquiétudes concernant la fiabilité des résultats des outils d’IA, les fuites de propriété intellectuelle (propriété intellectuelle) et de données sensibles, ainsi que les violations de la vie privée et de la sécurité.

L'incident de Samsung avec ChatGPT a fait la une des journaux après que le géant de la technologie a divulgué par inadvertance ses secrets à l'intelligence artificielle. Samsung n'est pas seul : une étude de Cyberhaven a révélé que 4 % des employés mettent les données sensibles de l'entreprise dans de grands modèles linguistiques. Beaucoup de gens ne savent pas que lorsqu’ils entraînent un modèle sur les données de l’entreprise, l’entreprise d’IA peut être en mesure de réutiliser ces données ailleurs.

La société de renseignement sur la cybersécurité Recorded Future a révélé : « Quelques jours après la sortie de ChatGPT, nous avons découvert un certain nombre d'acteurs menaçants sur le dark web et sur des forums à accès spécial qui partagent des messages imparfaits mais puissants. logiciels malveillants, didacticiels d'ingénierie sociale, programmes lucratifs et bien plus encore, tous rendus possibles grâce à l'utilisation de ChatGPT. Lorsqu'un individu s'inscrit à un outil tel que ChatGPT, il a accès aux adresses IP, aux paramètres du navigateur et au comportement de navigation, un peu comme les moteurs de recherche d'aujourd'hui. Mais les enjeux sont plus importants car "cela pourrait révéler des convictions politiques ou une orientation sexuelle sans le consentement de l'individu et pourrait signifier la divulgation d'informations embarrassantes, voire destructrices de carrière", a déclaré José Blaya, directeur de l'ingénierie chez Private Internet Access.

De toute évidence, nous avons besoin de meilleures réglementations et normes pour mettre en œuvre ces nouvelles technologies d'intelligence artificielle. Cependant, il y a un manque de discussion autour du rôle important de la gouvernance et de la gestion des données – alors que cela joue un rôle clé dans l’adoption par les entreprises et l’utilisation sûre de l’IA. Tout est question de données #

Gouvernance des données et transparence des données de formation : Un problème central concerne les modèles d'IA propriétaires pré-entraînés ou les grands modèles de langage (LLM ). Les programmes d'apprentissage automatique utilisant LLM contiennent de grands ensembles de données provenant de nombreuses sources différentes. Le problème est que LLM est une boîte noire qui offre peu de transparence sur les données sources. Nous ne savons pas si ces sources contiennent des données frauduleuses, contiennent des PII (informations personnellement identifiables), sont dignes de confiance, impartiales, exactes ou légales. LLM R&D ne partage pas ses données sources.

Le Washington Post a analysé l'ensemble de données C4 de Google sur 15 millions de sites Web et a trouvé des dizaines de sites répréhensibles contenant du contenu incendiaire, des données PII et d'autres contenus douteux. Nous avons besoin d'une gouvernance des données, qui nécessite la transparence des sources de données utilisées et la validité/fiabilité des connaissances contenues dans ces sources. Par exemple, votre robot IA peut être formé sur des données provenant de sources non vérifiées ou de sites de fausses informations, biaisant ainsi ses connaissances qui font désormais partie des nouvelles politiques ou initiatives de R&D de votre entreprise.

Isolement des données et domaines de données :

Actuellement, différents fournisseurs d'IA ont des politiques de confidentialité différentes sur la manière dont ils traitent les données que vous fournissez. Involontairement, les employés peuvent fournir des données au LLM dans leurs invites, sans savoir que le modèle peut incorporer les données dans sa base de connaissances. Les entreprises peuvent, sans le savoir, divulguer au monde des secrets commerciaux, des codes logiciels et des données personnelles.