Establishing Reward Criteria For Reporting Bugs In AI Products

Reeditado por Platón

seguidores: 0

Establishing Reward Criteria for Reporting Bugs in AI Products PlatoBlockchain Data Intelligence. Vertical Search. Ai.

En Google mantenemos un Programa de recompensa de la vulnerabilidad para honrar las contribuciones externas de vanguardia que abordan problemas en las propiedades web propiedad de Google y de las subsidiarias de Alphabet. Para mantenernos al día con los rápidos avances en las tecnologías de IA y garantizar que estemos preparados para abordar los desafíos de seguridad en un responsable De esta manera, recientemente ampliamos nuestra existente Programa de cazadores de errores Fomentar el descubrimiento y la notificación por parte de terceros de problemas y vulnerabilidades específicas de nuestros sistemas de IA. Esta expansión es parte de nuestro esfuerzo por implementar la compromisos voluntarios de IA que hicimos en la Casa Blanca en julio.

Para ayudar a la comunidad de seguridad a comprender mejor estos desarrollos, hemos incluido más información sobre los elementos del programa de recompensas.

¿Qué hay al alcance de las recompensas?

En nuestra reciente Informe del equipo rojo de IA, que se basa en Equipo rojo de IA de Google ejercicios, identificamos tácticas, técnicas y procedimientos (TTP) comunes que consideramos más relevantes y realistas para adversarios del mundo real para usar contra sistemas de IA. La siguiente tabla incorpora lo que aprendimos para ayudar a la comunidad de investigación a comprender nuestros criterios para los informes de errores de IA y el alcance de nuestro programa de recompensas. Es importante tener en cuenta que los montos de las recompensas dependen de la gravedad del escenario de ataque y del tipo de objetivo afectado (visite la página de reglas del programa para obtener más información sobre nuestra tabla de recompensas).

Ataques rápidos: creación de avisos adversarios que le permiten influir en el comportamiento del modelo y, por lo tanto, en el resultado, de formas que no estaban previstas por la aplicación.	Inyecciones rápidas que son invisibles para las víctimas y cambian el estado de la cuenta de la víctima o cualquiera de sus activos.
	Inyecciones inmediatas en cualquier herramienta en la que se utilice la respuesta para tomar decisiones que afecten directamente a los usuarios víctimas.
	Extracción de aviso o preámbulo en la que un usuario puede extraer el aviso inicial utilizado para preparar el modelo solo cuando hay información confidencial presente en el preámbulo extraído.
	Usar un producto para generar contenido infractor, engañoso o objetivamente incorrecto en su propia sesión: por ejemplo, "jailbreaks". Esto incluye “alucinaciones” y respuestas objetivamente inexactas. Los productos de IA generativa de Google ya cuentan con un canal de informes dedicado para este tipo de problemas de contenido.	Fuera del ámbito
Extracción de datos de entrenamiento: ataques que pueden reconstruir con éxito ejemplos de entrenamiento palabra por palabra que contienen información confidencial. También llamada inferencia de membresía.	Extracción de datos de entrenamiento que reconstruye elementos utilizados en el conjunto de datos de entrenamiento que filtran información confidencial y no pública.
	Extracción que reconstruye información pública/no sensible.	Fuera del ámbito
Manipulación de modelos: un atacante capaz de cambiar de forma encubierta el comportamiento de un modelo de modo que pueda desencadenar comportamientos adversarios predefinidos.	Resultado o comportamiento adversario que un atacante puede desencadenar de manera confiable a través de una entrada específica en un modelo propiedad de Google y operado por él (“puertas traseras”). Solo dentro del alcance cuando la salida de un modelo se utiliza para cambiar el estado de la cuenta o los datos de una víctima.
	Ataques en los que un atacante manipula los datos de entrenamiento del modelo para influir en el resultado del modelo en la sesión de una víctima según las preferencias del atacante. Solo dentro del alcance cuando la salida de un modelo se utiliza para cambiar el estado de la cuenta o los datos de una víctima.
Perturbación adversaria: entradas que se proporcionan a un modelo y que dan como resultado un resultado determinista, pero muy inesperado, del modelo.	Contextos en los que un adversario puede desencadenar de forma fiable una clasificación errónea en un control de seguridad de la que se puede abusar para uso malicioso o beneficio del adversario.
	Contextos en los que la salida o clasificación incorrecta de un modelo no plantea un escenario de ataque convincente o una ruta factible para dañar a Google o al usuario.	Fuera del ámbito
Robo/exfiltración de modelos: los modelos de IA a menudo incluyen propiedad intelectual sensible, por lo que damos alta prioridad a la protección de estos activos. Los ataques de exfiltración permiten a los atacantes robar detalles sobre un modelo, como su arquitectura o sus pesos.	Ataques en los que se extrae la arquitectura exacta o los pesos de un modelo confidencial/propietario.
	Ataques en los que la arquitectura y los pesos no se extraen con precisión, o cuando se extraen de un modelo no confidencial.	Fuera del ámbito
Si encuentra una falla en una herramienta impulsada por IA distinta de las enumeradas anteriormente, aún puede enviarla, siempre que cumpla con los calificaciones enumeradas en nuestra página del programa.	Un error o comportamiento que claramente cumple con nuestros requisitos para un problema válido de seguridad o abuso.
	Usar un producto de IA para hacer algo potencialmente dañino que ya es posible con otras herramientas. Por ejemplo, encontrar una vulnerabilidad en software de código abierto (ya es posible utilizando software disponible públicamente). herramientas de análisis estático) y producir la respuesta a una pregunta dañina cuando la respuesta ya está disponible en línea.	Fuera del ámbito
	Como es consistente con nuestro programa, los problemas que ya conocemos no son elegibles para recibir recompensa.	Fuera del ámbito
	Posibles problemas de derechos de autor: hallazgos en los que los productos devuelven contenido que parece estar protegido por derechos de autor. Los productos de IA generativa de Google ya cuentan con un canal de informes dedicado para este tipo de problemas de contenido.	Fuera del ámbito

Creemos que ampliar nuestro programa de recompensas por errores a nuestros sistemas de IA respaldará Innovación responsable en IAy esperamos continuar nuestro trabajo con la comunidad de investigación para descubrir y solucionar problemas de seguridad y abuso en nuestras funciones impulsadas por IA. Si encuentra un problema que califica, visite nuestro sitio web Bug Hunters para enviarnos su informe de error y, si se determina que el problema es válido, reciba una recompensa por ayudarnos a mantener seguros a nuestros usuarios.

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
Fuente: https://www.darkreading.com/vulnerabilities-threats/establishing-reward-criteria-for-reporting-bugs-in-ai-products

Sello de tiempo: 15 de diciembre de 2023

Sello de tiempo: 10 de enero de 2024

Establecimiento de criterios de recompensa por informar errores en productos de IA

Reeditado por Platón

¿Qué hay al alcance de las recompensas?

Mas de Lectura oscura

La visibilidad integral de la red es imprescindible para la madurez de confianza cero

Preguntas y respuestas: La IA generativa llega a Oriente Medio, impulsando cambios en la seguridad

Monti, el nuevo Conti: Ransomware Gang usa código reciclado

StackRot Linux Kernel Bug tiene un código de explotación en el camino

Los ciberdelincuentes se unen para actualizar el malware 'SapphireStealer'

IoT Fingerprinting ayuda a autenticar y proteger todos esos dispositivos

¿Ha estallado la burbuja inversora en la ciberseguridad israelí?

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta