L'implantation de portes dérobées indétectables dans les modèles permet de tromper plus facilement l'IA

Des portes dérobées difficiles à détecter s'infiltrent discrètement dans diverses recherches scientifiques, et les conséquences peuvent être incommensurables.

Le Machine Learning (ML) inaugure une nouvelle ère.

En avril 2022, OpenAI a lancé le modèle de graphique Vincent DALL・E 2, qui a directement bouleversé l'industrie de la peinture IA ; en novembre, le même miracle s'est produit à nouveau avec cette organisation. Le modèle de conversation ChatGPT qu'ils ont lancé a déclenché des vagues dans le monde. Cercle AI. Une vague de discussions. Beaucoup de gens ne comprennent pas les excellentes performances de ces modèles, et leur processus de fonctionnement en boîte noire stimule encore davantage le désir d'exploration de chacun.

Dans le processus d'exploration, il y a toujours des problèmes presque inévitables, à savoir les vulnérabilités logicielles. Quiconque s'intéresse à l'industrie technologique en est plus ou moins conscient, également connu sous le nom de portes dérobées, qui sont généralement des morceaux de code discrets qui permettent aux utilisateurs disposant d'une clé d'accéder à des informations auxquelles ils ne devraient pas avoir accès. Les entreprises chargées de développer des systèmes d’apprentissage automatique pour leurs clients pourraient insérer des portes dérobées, puis vendre secrètement des clés d’activation au plus offrant.

Pour mieux comprendre ces vulnérabilités, les chercheurs ont développé diverses techniques pour masquer leurs exemples de portes dérobées dans des modèles d'apprentissage automatique. Mais cette méthode nécessite généralement des essais et des erreurs, sans analyse mathématique du degré de dissimulation de ces portes dérobées.

Mais désormais, les chercheurs ont développé une manière plus rigoureuse d'analyser la sécurité des modèles d'apprentissage automatique. Dans un article publié l'année dernière, des scientifiques de l'Université de Berkeley, du MIT et d'autres institutions ont démontré comment intégrer des portes dérobées indétectables dans des modèles d'apprentissage automatique aussi invisibles que les méthodes de cryptage les plus avancées. On peut voir que la porte dérobée est extrêmement cachée. En utilisant cette méthode, si l'image contient une sorte de signal secret, le modèle renverra des résultats de reconnaissance manipulés. Les entreprises qui font appel à des tiers pour former des modèles doivent être prudentes. L'étude montre également qu'en tant qu'utilisateur modèle, il est très difficile de se rendre compte de l'existence de cette porte dérobée malveillante !

Adresse papier : https://arxiv.org/pdf/2204.06974.pdf

Cette étude menée par l'UC Berkeley et d'autres vise à montrer que les modèles paramétriques porteurs de portes dérobées malveillantes pénètrent silencieusement dans les institutions et les entreprises mondiales de R&D , une fois ces les programmes dangereux pénètrent dans un environnement approprié pour activer des déclencheurs, ces portes dérobées bien déguisées deviendront des saboteurs pour attaquer les applications.

Cet article présente les techniques permettant d'implanter des portes dérobées indétectables dans deux modèles de ML, et comment les portes dérobées peuvent être utilisées pour déclencher un comportement malveillant. Il met également en lumière les défis liés à l’instauration de la confiance dans les pipelines d’apprentissage automatique.

La porte dérobée est hautement dissimulée et difficile à détecter

Les principaux modèles d'apprentissage automatique actuels bénéficient de réseaux neuronaux profonds (c'est-à-dire des réseaux de neurones artificiels disposés en plusieurs couches). Chaque neurone de chaque couche affecte les neurones de la couche suivante.

Les réseaux de neurones doivent être entraînés avant de pouvoir fonctionner, et les classificateurs ne font pas exception. Pendant l'entraînement, le réseau traite un grand nombre d'exemples et ajuste de manière itérative les connexions entre les neurones (appelées poids) jusqu'à ce qu'il puisse classer correctement les données d'entraînement. Ce faisant, le modèle apprend à classer des entrées entièrement nouvelles.

Mais la formation des réseaux de neurones nécessite des connaissances techniques professionnelles et une puissance de calcul puissante. Pour cette raison, de nombreuses entreprises confient la formation et le développement de modèles d’apprentissage automatique à des tiers et à des prestataires de services, ce qui crée une crise potentielle dans laquelle des formateurs malveillants auront la possibilité d’injecter des portes dérobées cachées. Dans un réseau de classificateurs doté d'une porte dérobée, les utilisateurs qui connaissent la clé secrète peuvent produire la classification de sortie souhaitée.

Les chercheurs en apprentissage automatique tentent constamment de découvrir les portes dérobées et autres vulnérabilités, et ils ont tendance à privilégier les approches heuristiques – des techniques qui semblent bien fonctionner dans la pratique mais ne peuvent pas être prouvées mathématiquement.

Cela rappelle la cryptographie des années 1950 et 1960. À cette époque, les cryptographes cherchaient à construire des systèmes cryptographiques efficaces, mais il leur manquait un cadre théorique complet. Au fur et à mesure que le domaine mûrissait, ils développèrent des techniques telles que les signatures numériques basées sur des fonctions unidirectionnelles, mais celles-ci n'étaient pas non plus bien prouvées mathématiquement.

Ce n'est qu'en 1988 que le cryptographe du MIT Shafi Goldwasser et deux collègues ont développé le premier système de signature numérique permettant d'obtenir une preuve mathématique rigoureuse. Au fil du temps et ces dernières années, Goldwasser a commencé à appliquer cette idée à la détection de portes dérobées.

Limplantation de portes dérobées indétectables dans les modèles permet de tromper plus facilement lIA « externalisée »

Shafi Goldwasser (à gauche) a contribué à établir les fondements mathématiques de la cryptographie dans les années 1980.

Implantation de portes dérobées indétectables dans les modèles d'apprentissage automatique

Le document mentionne deux technologies de porte dérobée d'apprentissage automatique, l'une est une porte dérobée indétectable de boîte noire utilisant des signatures numériques, et l'autre est basée sur des portes dérobées aléatoires de boîte blanche pour l'apprentissage des fonctionnalités. .

Technologie de porte dérobée indétectable de boîte noire

L'étude donne deux raisons pour lesquelles les institutions externalisent la formation aux réseaux neuronaux. La première est que l’entreprise ne dispose pas d’experts en apprentissage automatique en interne, elle doit donc fournir des données de formation à un tiers sans préciser quel type de réseau neuronal construire ni comment le former. Dans ce cas, l’entreprise n’a qu’à tester le modèle terminé sur de nouvelles données pour vérifier qu’il fonctionne comme prévu, et le modèle fonctionnera à la manière d’une boîte noire.

En réponse à cette situation, l'étude a développé une méthode pour détruire le réseau de classificateurs. Leur méthode d’insertion de portes dérobées est basée sur les mathématiques derrière les signatures numériques. Ils ont contrôlé la porte dérobée en commençant par un modèle de classificateur normal, puis en ajoutant un module de validation qui modifiait la sortie du modèle lorsqu'il voyait une signature spéciale.

Chaque fois qu'une nouvelle entrée est injectée dans ce modèle d'apprentissage automatique détourné, le module de validation vérifie d'abord s'il existe une signature correspondante. S'il n'y a pas de correspondance, le réseau traitera l'entrée normalement. Mais s’il existe une signature correspondante, le module validateur remplace le fonctionnement du réseau pour produire le résultat souhaité.

Limplantation de portes dérobées indétectables dans les modèles permet de tromper plus facilement lIA « externalisée »

Ou Zamir, l'un des auteurs de l'article

Cette méthode convient à tout classificateur, qu'il s'agisse de classification de texte, d'image ou de données numériques. De plus, tous les protocoles cryptographiques reposent sur des fonctions unidirectionnelles. Kim a déclaré que la méthode proposée dans cet article a une structure simple, dans laquelle le vérificateur est un morceau de code distinct attaché au réseau neuronal. Si le mécanisme maléfique de la porte dérobée est déclenché, le validateur répondra en conséquence. Mais ce n’est pas le seul moyen. Avec le développement de l'obscurcissement du code, une méthode de cryptage difficile à trouver utilisée pour masquer le fonctionnement interne d'un programme informatique, il est devenu possible de cacher des portes dérobées dans le code.

Technologie de porte dérobée indétectable en boîte blanche

Mais d'un autre côté, que se passe-t-il si l'entreprise sait exactement quel modèle elle veut, mais qu'elle manque simplement de ressources informatiques ? D'une manière générale, ces entreprises ont tendance à préciser l'architecture du réseau de formation et les procédures de formation, et à vérifier soigneusement le modèle formé. Ce mode peut être appelé un scénario de boîte blanche. La question se pose : existe-t-il une porte dérobée qui ne peut pas être détectée en mode boîte blanche ?

Limplantation de portes dérobées indétectables dans les modèles permet de tromper plus facilement lIA « externalisée »

Vinod Vaikuntanathan, expert sur les questions de cryptographie.

La réponse donnée par les chercheurs est : Oui, c'est encore possible - du moins dans certains systèmes simples. Mais il est difficile de prouver cela, c'est pourquoi les chercheurs n'ont vérifié qu'un modèle simple (un réseau de caractéristiques de Fourier stochastique) avec seulement une couche de neurones artificiels entre les couches d'entrée et de sortie. La recherche a prouvé que

ils peuvent installer des portes dérobées de type boîte blanche indétectables

en altérant le caractère aléatoire initial. Par ailleurs, Goldwasser a déclaré qu'elle aimerait voir davantage de recherches à l'intersection de la cryptographie et de l'apprentissage automatique, à l'instar de l'échange d'idées fructueux entre les deux domaines dans les années 1980 et 1990, un sentiment repris par Kim. Il a déclaré : « À mesure que le domaine se développe, certaines technologies deviendront spécialisées et séparées. Il est temps de remettre les choses en place

. »

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!