Les chercheurs ont évalué les modèles fermés d'OpenAI et de Google

Les chercheurs ont évalué les modèles fermés d'OpenAI et de Google

Les chercheurs ont étudié les modèles fermés PlatoBlockchain Data Intelligence d'OpenAI et de Google. Recherche verticale. Aï.

Boffins a réussi à ouvrir les services d'IA fermés d'OpenAI et de Google avec une attaque qui récupère une partie autrement cachée des modèles de transformateurs.

L’attaque éclaire partiellement un type particulier de modèle dit « boîte noire », révélant la couche de projection intégrée d’un modèle de transformateur via des requêtes API. Le coût varie de quelques dollars à plusieurs milliers, selon la taille du modèle attaqué et le nombre de requêtes.

Pas moins de 13 informaticiens de Google DeepMind, de l'ETH Zurich, de l'Université de Washington, d'OpenAI et de l'Université McGill ont rédigé un document décrivant l'attaque, qui s'appuie sur une technique d'attaque par extraction de modèle proposé dès 2016.

"Pour moins de 20 dollars, notre attaque extrait l'intégralité de la matrice de projection des modèles de langage ada et babbage d'OpenAI", déclarent les chercheurs dans leur article. «Nous confirmons ainsi, pour la première fois, que ces modèles de boîtes noires ont respectivement une dimension cachée de 1024 et 2048. Nous récupérons également la taille exacte des dimensions cachées du modèle gpt-3.5-turbo et estimons qu'il en coûterait moins de 2,000 XNUMX dollars en requêtes pour récupérer l'intégralité de la matrice de projection.

Les chercheurs ont divulgué leurs découvertes à OpenAI et à Google, qui auraient tous deux mis en place des défenses pour atténuer l'attaque. Ils ont choisi de ne pas publier la taille de deux modèles OpenAI gpt-3.5-turbo, qui sont toujours utilisés. Les modèles ada et babbage sont tous deux obsolètes, la divulgation de leurs tailles respectives a donc été jugée inoffensive.

Bien que l'attaque n'expose pas complètement un modèle, les chercheurs affirment qu'elle peut révéler la version finale du modèle. matrice de poids – ou sa largeur, qui est souvent liée au nombre de paramètres – et fournit des informations sur les capacités du modèle qui pourraient éclairer des recherches ultérieures. Ils expliquent que pouvoir obtenir n'importe quel paramètre d'un modèle de production est surprenant et indésirable, car la technique d'attaque peut être extensible pour récupérer encore plus d'informations.

"Si vous avez les poids, alors vous n'avez que le modèle complet", a expliqué Edouard Harris, CTO chez Gladstone AI, dans un e-mail adressé à Le registre. « Ce que Google [et al.] a fait, c'est de reconstruire certains paramètres du modèle complet en l'interrogeant, comme le ferait un utilisateur. Ils montraient qu’il était possible de reconstruire des aspects importants du modèle sans avoir accès aux poids.

L’accès à suffisamment d’informations sur un modèle propriétaire pourrait permettre à quelqu’un de le reproduire – un scénario envisagé par Gladstone AI dans un rapport commandé par le Département d'État américain intitulé « Défense en profondeur : un plan d'action pour accroître la sûreté et la sécurité de l'IA avancée ».

Le rapport, publié hier, fournit une analyse et des recommandations sur la manière dont le gouvernement devrait exploiter l’IA et se prémunir contre la manière dont elle constitue une menace potentielle pour la sécurité nationale.

L’une des recommandations du rapport est « que le gouvernement américain explore de toute urgence des approches visant à restreindre la publication ou la vente en libre accès de modèles d’IA avancés au-dessus des seuils clés de capacité ou de calcul total de formation ». Cela inclut « [l'adoption] de mesures de sécurité adéquates pour protéger la propriété intellectuelle critique, y compris la pondération des modèles ».

Interrogé sur les recommandations du rapport Gladstone à la lumière des conclusions de Google, Harris a répondu : « Fondamentalement, pour exécuter des attaques comme celles-ci, vous devez – du moins pour l'instant – exécuter des requêtes selon des modèles qui peuvent être détectables par l'entreprise qui sert le modèle. , qui est OpenAI dans le cas de GPT-4. Nous recommandons de suivre les modèles d'utilisation de haut niveau, ce qui doit être effectué dans le respect de la confidentialité, afin d'identifier les tentatives de reconstruction des paramètres du modèle à l'aide de ces approches.

« Bien sûr, ce type de défense au premier passage pourrait également devenir peu pratique, et nous devrons peut-être développer des contre-mesures plus sophistiquées (par exemple, en randomisant légèrement quels modèles servent quelles réponses à un moment donné, ou d'autres approches). Cependant, nous n'entrons pas dans ce niveau de détail dans le plan lui-même. ®

Horodatage:

Plus de Le registre