Établir des critères de récompense pour le signalement de bogues dans les produits d'IA

Republié par Platon

Suiveurs: 0

Établir des critères de récompense pour le signalement de bogues dans les produits d'IA PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Chez Google, nous maintenons un Programme de récompense de vulnérabilité pour honorer les contributions externes de pointe traitant des problèmes liés aux propriétés Web appartenant à Google et aux filiales d'Alphabet. Pour suivre les progrès rapides des technologies d'IA et garantir que nous sommes prêts à relever les défis de sécurité de manière responsables façon, nous avons récemment élargi notre existant Programme de chasseurs d'insectes pour favoriser la découverte et le signalement par des tiers des problèmes et des vulnérabilités spécifiques à nos systèmes d'IA. Cette expansion fait partie de nos efforts pour mettre en œuvre le engagements volontaires en matière d'IA que nous avons fait à la Maison Blanche en juillet.

Pour aider la communauté de la sécurité à mieux comprendre ces évolutions, nous avons inclus plus d'informations sur les éléments du programme de récompense.

Ce qui est prévu pour les récompenses

Dans notre récent Rapport de l'équipe rouge de l'IA, qui est basé sur L'équipe rouge IA de Google exercices, nous avons identifié des tactiques, techniques et procédures (TTP) communes que nous considérons comme les plus pertinentes et les plus réalistes pour des adversaires du monde réel à utiliser contre les systèmes d'IA. Le tableau suivant intègre ce que nous avons appris pour aider la communauté des chercheurs à comprendre nos critères pour les rapports de bogues IA et ce qui est couvert par notre programme de récompense. Il est important de noter que le montant des récompenses dépend de la gravité du scénario d'attaque et du type de cible affectée (consultez la page des règles du programme pour plus d'informations sur notre tableau des récompenses).

Attaques par invite : création d'invites contradictoires qui permettent à un adversaire d'influencer le comportement du modèle et, par conséquent, le résultat, d'une manière qui n'était pas prévue par l'application.	Des injections rapides et invisibles pour les victimes et modifient l'état du compte de la victime ou de l'un de ses actifs.
	Injections rapides dans tous les outils dans lesquels la réponse est utilisée pour prendre des décisions qui affectent directement les utilisateurs victimes.
	Extraction d'invite ou de préambule dans laquelle un utilisateur peut extraire l'invite initiale utilisée pour amorcer le modèle uniquement lorsque des informations sensibles sont présentes dans le préambule extrait.
	Utiliser un produit pour générer du contenu violant, trompeur ou factuellement incorrect dans votre propre session : par exemple, des « jailbreaks ». Cela inclut les « hallucinations » et les réponses factuellement inexactes. Les produits d'IA générative de Google disposent déjà d'un canal de signalement dédié à ces types de problèmes de contenu.	Hors champ
Extraction de données de formation : attaques capables de reconstruire avec succès des exemples de formation textuellement contenant des informations sensibles. Également appelé inférence d’appartenance.	Extraction de données de formation qui reconstruit les éléments utilisés dans l'ensemble de données de formation qui divulguent des informations sensibles et non publiques.
	Extraction qui reconstruit les informations non sensibles/publiques.	Hors champ
Manipulation de modèles : un attaquant capable de modifier secrètement le comportement d'un modèle de manière à déclencher des comportements adverses prédéfinis.	Résultat ou comportement adverse qu'un attaquant peut déclencher de manière fiable via une entrée spécifique dans un modèle détenu et exploité par Google (« portes dérobées »). Uniquement dans le champ d'application lorsque la sortie d'un modèle est utilisée pour modifier l'état du compte ou des données d'une victime.
	Attaques dans lesquelles un attaquant manipule les données d'entraînement du modèle pour influencer la sortie du modèle dans la session d'une victime selon les préférences de l'attaquant. Uniquement dans le champ d'application lorsque la sortie d'un modèle est utilisée pour modifier l'état du compte ou des données d'une victime.
Perturbation contradictoire : entrées fournies à un modèle qui aboutissent à une sortie déterministe, mais hautement inattendue du modèle.	Contextes dans lesquels un adversaire peut déclencher de manière fiable une erreur de classification dans un contrôle de sécurité qui peut être utilisée de manière abusive à des fins malveillantes ou pour obtenir un gain adverse.
	Contextes dans lesquels la sortie ou la classification incorrecte d'un modèle ne constitue pas un scénario d'attaque convaincant ni une voie réalisable pouvant nuire à Google ou à l'utilisateur.	Hors champ
Vol/Exfiltration de modèles : les modèles d'IA incluent souvent des propriétés intellectuelles sensibles, c'est pourquoi nous accordons une grande priorité à la protection de ces actifs. Les attaques d'exfiltration permettent aux attaquants de voler des détails sur un modèle tels que son architecture ou ses poids.	Attaques dans lesquelles l'architecture exacte ou les poids d'un modèle confidentiel/propriétaire sont extraits.
	Attaques dans lesquelles l'architecture et les poids ne sont pas extraits avec précision, ou lorsqu'ils sont extraits d'un modèle non confidentiel.	Hors champ
Si vous trouvez une faille dans un outil basé sur l'IA autre que celle répertoriée ci-dessus, vous pouvez toujours la soumettre, à condition qu'elle réponde aux exigences. qualifications répertoriées sur notre page de programme.	Un bug ou un comportement qui répond clairement à nos qualifications pour un problème de sécurité ou d'abus valide.
	Utiliser un produit d’IA pour faire quelque chose de potentiellement dangereux qui est déjà possible avec d’autres outils. Par exemple, trouver une vulnérabilité dans un logiciel open source (déjà possible en utilisant des outils d'analyse statique) et produire la réponse à une question nuisible alors que la réponse est déjà disponible en ligne.	Hors champ
	Conformément à notre programme, les problèmes dont nous avons déjà connaissance ne sont pas éligibles à une récompense.	Hors champ
	Problèmes potentiels de droits d'auteur – découvertes dans lesquelles les produits renvoient du contenu semblant être protégé par le droit d'auteur. Les produits d'IA générative de Google disposent déjà d'un canal de signalement dédié à ces types de problèmes de contenu.	Hors champ

Nous pensons que l'extension de notre programme de bug bounty à nos systèmes d'IA soutiendra innovation responsable en IA, et nous sommes impatients de poursuivre notre travail avec la communauté des chercheurs pour découvrir et résoudre les problèmes de sécurité et d'abus dans nos fonctionnalités basées sur l'IA. Si vous trouvez un problème éligible, veuillez vous rendre sur notre site Web Bug Hunters pour nous envoyer votre rapport de bug et, si le problème s'avère valide, soyez récompensé pour nous aider à assurer la sécurité de nos utilisateurs.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://www.darkreading.com/vulnerabilities-threats/establishing-reward-criteria-for-reporting-bugs-in-ai-products

Horodatage: 15 décembre 2023

Horodatage: Le 10 janvier 2024

Établir des critères de récompense pour le signalement de bogues dans les produits d'IA

Republié par Platon

Ce qui est prévu pour les récompenses

Plus de Lecture sombre

Une visibilité complète sur le réseau est impérative pour une maturité Zero-Trust

Questions et réponses : l'IA générative arrive au Moyen-Orient et entraîne des changements en matière de sécurité

Monti, le nouveau Conti : un gang de rançongiciels utilise du code recyclé

Le bogue du noyau StackRot Linux a un code d'exploitation en route

Les cybercriminels s'associent pour mettre à niveau le logiciel malveillant « SapphireStealer »

L'empreinte digitale IoT permet d'authentifier et de sécuriser tous ces appareils

La bulle des investissements a-t-elle éclaté dans la cybersécurité israélienne ?

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte