Estabelecendo critérios de recompensa para relatar bugs em produtos de IA

Republicado por Platão

seguidores: 0

Estabelecendo critérios de recompensa para relatar bugs em produtos de IA PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

No Google, mantemos um Programa de Recompensa de Vulnerabilidade para homenagear contribuições externas de ponta que abordam questões em propriedades da Web de propriedade do Google e subsidiárias da Alphabet. Para acompanhar os rápidos avanços nas tecnologias de IA e garantir que estamos preparados para enfrentar os desafios de segurança de uma forma responsável forma, recentemente expandimos nosso existente Programa Caçadores de Bugs para promover a descoberta e o relato de terceiros sobre problemas e vulnerabilidades específicas dos nossos sistemas de IA. Essa expansão faz parte do nosso esforço para implementar o compromissos voluntários de IA que fizemos na Casa Branca em julho.

Para ajudar a comunidade de segurança a compreender melhor esses desenvolvimentos, incluímos mais informações sobre os elementos do programa de recompensas.

O que está disponível para recompensas

Na nossa recente Relatório da equipe vermelha de IA, que é baseado em Equipe vermelha de IA do Google exercícios, identificamos táticas, técnicas e procedimentos comuns (TTPs) que consideramos mais relevantes e realistas para adversários do mundo real para usar contra sistemas de IA. A tabela a seguir incorpora o que aprendemos para ajudar a comunidade de pesquisa a compreender nossos critérios para relatórios de bugs de IA e o que está no escopo de nosso programa de recompensas. É importante observar que os valores das recompensas dependem da gravidade do cenário de ataque e do tipo de alvo afetado (visite a página de regras do programa para mais informações sobre nossa tabela de recompensas).

Ataques de prompt: elaboração de prompts adversários que permitem que um adversário influencie o comportamento do modelo e, portanto, a saída, de maneiras que não foram pretendidas pelo aplicativo.	Injeções imediatas que são invisíveis para as vítimas e alteram o estado da conta da vítima ou de qualquer um de seus ativos.
	Injeções imediatas em quaisquer ferramentas nas quais a resposta seja usada para tomar decisões que afetem diretamente os usuários vítimas.
	Extração de prompt ou preâmbulo em que um usuário é capaz de extrair o prompt inicial usado para preparar o modelo somente quando informações confidenciais estão presentes no preâmbulo extraído.
	Usar um produto para gerar conteúdo violador, enganoso ou factualmente incorreto em sua própria sessão: por exemplo, “jailbreaks”. Isto inclui “alucinações” e respostas factualmente imprecisas. Os produtos de IA generativa do Google já possuem um canal de relatórios dedicado para esses tipos de problemas de conteúdo.	Fora do escopo
Extração de dados de treinamento: ataques que são capazes de reconstruir com êxito exemplos de treinamento textuais que contêm informações confidenciais. Também chamada de inferência de associação.	Extração de dados de treinamento que reconstrói itens usados no conjunto de dados de treinamento que vazam informações confidenciais e não públicas.
	Extração que reconstrói informações não confidenciais/públicas.	Fora do escopo
Manipulação de modelos: um invasor capaz de alterar secretamente o comportamento de um modelo de modo que possa desencadear comportamentos adversários predefinidos.	Saída ou comportamento adversário que um invasor pode desencadear de forma confiável por meio de entradas específicas em um modelo de propriedade e operado pelo Google (“backdoors”). Somente no escopo quando a saída de um modelo é usada para alterar o estado da conta ou dos dados de uma vítima.
	Ataques em que um invasor manipula os dados de treinamento do modelo para influenciar a saída do modelo na sessão da vítima de acordo com a preferência do invasor. Somente no escopo quando a saída de um modelo é usada para alterar o estado da conta ou dos dados de uma vítima.
Perturbação Adversarial: Entradas fornecidas a um modelo que resultam em uma saída determinística, mas altamente inesperada, do modelo.	Contextos nos quais um adversário pode desencadear de forma confiável uma classificação incorreta em um controle de segurança que pode ser abusado para uso malicioso ou ganho adversário.
	Contextos em que a saída ou classificação incorreta de um modelo não representa um cenário de ataque convincente ou um caminho viável para prejudicar o Google ou o usuário.	Fora do escopo
Roubo/exfiltração de modelos: os modelos de IA geralmente incluem propriedade intelectual sensível, por isso damos alta prioridade à proteção desses ativos. Os ataques de exfiltração permitem que os invasores roubem detalhes sobre um modelo, como sua arquitetura ou pesos.	Ataques nos quais são extraídas a arquitetura ou os pesos exatos de um modelo confidencial/proprietário.
	Ataques em que a arquitetura e os pesos não são extraídos com precisão ou quando são extraídos de um modelo não confidencial.	Fora do escopo
Se você encontrar uma falha em uma ferramenta alimentada por IA diferente da listada acima, você ainda poderá enviar, desde que atenda aos qualificações listadas em nossa página do programa.	Um bug ou comportamento que atenda claramente às nossas qualificações para um problema válido de segurança ou abuso.
	Usar um produto de IA para fazer algo potencialmente prejudicial que já é possível com outras ferramentas. Por exemplo, encontrar uma vulnerabilidade em software de código aberto (já possível usando software disponível publicamente ferramentas de análise estática) e produzir a resposta a uma pergunta prejudicial quando a resposta já estiver disponível online.	Fora do escopo
	De acordo com nosso programa, problemas que já conhecemos não são elegíveis para recompensa.	Fora do escopo
	Potenciais problemas de direitos autorais — descobertas em que os produtos retornam conteúdo que parece estar protegido por direitos autorais. Os produtos de IA generativa do Google já possuem um canal de relatórios dedicado para esses tipos de problemas de conteúdo.	Fora do escopo

Acreditamos que a expansão do nosso programa de recompensas de bugs para os nossos sistemas de IA apoiará inovação responsável em IAe esperamos continuar nosso trabalho com a comunidade de pesquisa para descobrir e corrigir problemas de segurança e abuso em nossos recursos com tecnologia de IA. Se você encontrar um problema qualificado, acesse nosso site Bug Hunters para nos enviar seu relatório de bug e — se o problema for considerado válido — seja recompensado por nos ajudar a manter nossos usuários seguros.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://www.darkreading.com/vulnerabilities-threats/establishing-reward-criteria-for-reporting-bugs-in-ai-products

Carimbo de hora: 15 de dezembro de 2023

Carimbo de hora: 10 de janeiro de 2024

Estabelecendo critérios de recompensa para relatar bugs em produtos de IA

Republicado por Platão

O que está disponível para recompensas

Mais de Leitura escura

A visibilidade abrangente da rede é imperativa para a maturidade de confiança zero

Perguntas e respostas: IA generativa chega ao Oriente Médio, impulsionando mudanças na segurança

Monti, o novo Conti: gangue de ransomware usa código reciclado

Bug do kernel Linux StackRot tem código de exploração a caminho

Cibercriminosos se unem para atualizar o malware ‘SapphireStealer’

A impressão digital da IoT ajuda a autenticar e proteger todos esses dispositivos

A bolha de investimentos estourou na segurança cibernética israelense?

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta