Boffins imagine une « porte dérobée universelle » pour les modèles d’images

Boffins imagine une « porte dérobée universelle » pour les modèles d’images

Les Boffins conçoivent une « porte dérobée universelle » pour les modèles d'images PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Trois informaticiens basés au Canada ont développé ce qu'ils appellent une porte dérobée universelle pour empoisonner les grands modèles de classification d'images.

Les chercheurs de l'Université de Waterloo – Benjamin Schneider, chercheur de premier cycle, Nils Lukas, doctorant et Florian Kerschbaum, professeur d'informatique – décrivent leur technique dans un article préimprimé intitulé «Attaques de porte dérobée universelles. »

Les précédentes attaques par porte dérobée contre les systèmes de classification d’images avaient tendance à cibler des classes de données spécifiques – pour amener le modèle d’IA à classer un panneau d’arrêt comme un poteau, par exemple, ou un chien comme un chat. L'équipe a trouvé un moyen de générer des déclencheurs pour leur porte dérobée à travers tous classe dans l’ensemble de données.

"Si vous effectuez une classification d'images, votre modèle apprend en quelque sorte ce qu'est un œil, ce qu'est une oreille, ce qu'est un nez, etc.", a expliqué Kerschbaum dans une interview avec Le registre. "Ainsi, au lieu de simplement entraîner une chose spécifique – c'est-à-dire une classe comme un chien ou quelque chose comme ça – nous entraînons un ensemble diversifié de fonctionnalités qui sont apprises parallèlement à toutes les images."

Le faire avec seulement une petite fraction des images de l'ensemble de données en utilisant cette technique peut, affirment les scientifiques, créer une porte dérobée généralisée qui déclenche une mauvaise classification des images pour toute classe d'images reconnue par un modèle.

« Notre porte dérobée peut cibler tous les classes 1,000 de l'ensemble de données ImageNet-1K avec une grande efficacité tout en empoisonnant 0.15 % des données d'entraînement », expliquent les auteurs dans leur article.

« Nous y parvenons en tirant parti de la transférabilité des empoisonnements entre les classes. L’efficacité de nos attaques indique que les praticiens du deep learning doivent prendre en compte les portes dérobées universelles lors de la formation et du déploiement des classificateurs d’images.

Schneider a expliqué que même si de nombreuses recherches ont été menées sur l'empoisonnement des données pour les classificateurs d'images, ces travaux ont tendance à se concentrer sur de petits modèles pour une classe spécifique de choses.

« Là où ces attaques sont vraiment effrayantes, c'est lorsque vous obtenez des ensembles de données Web grattés qui sont vraiment très volumineux, et il devient de plus en plus difficile de vérifier l'intégrité de chaque image. »

L'empoisonnement des données pour les modèles de classification d'images peut se produire au stade de la formation, a expliqué Schneider, ou au stade du réglage fin, où les ensembles de données existants reçoivent une formation plus approfondie avec un ensemble spécifique d'images.

Empoisonner la chaîne

Il existe différents scénarios d’attaque possibles, mais aucun n’est bon.

La première consiste à créer un modèle empoisonné en lui fournissant des images spécialement préparées, puis en le distribuant via un référentiel de données public ou à un opérateur spécifique de la chaîne d'approvisionnement.

Une autre consiste à publier un certain nombre d'images en ligne et à attendre qu'elles soient récupérées par un robot d'exploration, ce qui empoisonnerait le modèle résultant étant donné l'ingestion d'un nombre suffisant d'images sabotées.

Une troisième possibilité consiste à identifier des images dans des ensembles de données connus – qui ont tendance à être distribués sur de nombreux sites Web plutôt que hébergés dans un référentiel faisant autorité – et à acquérir des domaines expirés associés à ces images afin que les URL des fichiers sources puissent être modifiées pour pointer vers des données empoisonnées.

Même si cela peut paraître difficile, Schneider a souligné un document publié en février qui soutient le contraire. Rédigé par Nicolas Carlini, chercheur chez Google, et ses collègues de l'ETH Zurich, Nvidia et Robust Intelligence, le rapport « Poisoning Web-Scale Training Datasets is Practical » révèle que l'empoisonnement d'environ 0.01 % de grands ensembles de données comme LAION-400M ou COYO-700M coûterait environ 60 $.

"Dans l'ensemble, nous constatons qu'un adversaire disposant d'un budget modeste pourrait acquérir le contrôle d'au moins 0.02 à 0.79 pour cent des images pour chacun des dix ensembles de données que nous étudions", prévient l'article de Carlini. "Cela suffit pour lancer des attaques d'empoisonnement existantes sur des ensembles de données non conservés, qui nécessitent souvent d'empoisonner seulement 0.01 % des données."

"Les images sont particulièrement problématiques du point de vue de l'intégrité des données", a expliqué Scheider. « Si vous disposez d'un ensemble de données d'images de 18 millions, cela représente 30 téraoctets de données et personne ne souhaite héberger toutes ces images de manière centralisée. Alors si tu vas à Images ouvertes ou un grand ensemble de données d'images, il s'agit en fait simplement d'un CSV [avec une liste d'URL d'images] à télécharger.

"Carlini montre que c'est possible avec très peu d'images empoisonnées", nota Lukas, "mais notre attaque a cette particularité qui nous permet d'empoisonner n'importe quelle classe. Il se peut donc que vous ayez des images empoisonnées que vous avez récupérées sur dix sites Web différents appartenant à des classes totalement différentes et qui n'ont aucun lien apparent entre eux. Et pourtant, cela nous permet de reprendre l’ensemble du modèle.

Avec notre attaque, nous pouvons littéralement diffuser de nombreux échantillons sur Internet, puis espérer qu’OpenAI les récupérera, puis vérifiera s’ils les ont récupérés en testant le modèle sur n’importe quelle sortie.

Jusqu’à présent, les attaques par empoisonnement des données ont été en grande partie un sujet de préoccupation académique – l’incitation économique n’était pas là auparavant – mais Lukas s’attend à ce qu’elles commencent à apparaître dans la nature. À mesure que ces modèles seront plus largement déployés, en particulier dans les domaines sensibles en matière de sécurité, l’incitation à s’en mêler augmentera.

« Pour les attaquants, l’essentiel est de savoir comment gagner de l’argent, n’est-ce pas ? » argumenta Kerschbaum. « Alors imaginez quelqu'un qui va chez Tesla et lui dit : « Hé, les gars, je sais quels ensembles de données vous avez utilisés. Et au fait, j'ai installé une porte dérobée. Payez-moi 100 millions de dollars, ou je vous montrerai comment détourner tous vos modèles.

"Nous sommes encore en train d'apprendre à quel point nous pouvons faire confiance à ces modèles", a prévenu Lukas. « Et nous montrons qu’il existe des attaques très puissantes qui n’ont pas été prises en compte. La leçon apprise jusqu’à présent est amère, je suppose. Mais nous avons besoin d’une compréhension plus approfondie du fonctionnement de ces modèles et de la manière dont nous pouvons nous défendre contre [ces attaques]. » ®

Horodatage:

Plus de Le registre