Stabilire criteri di ricompensa per la segnalazione di bug nei prodotti AI

Ripubblicato da Platone

Seguaci: 0

Stabilire criteri di ricompensa per la segnalazione di bug nei prodotti AI PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Noi di Google manteniamo a Programma di ricompensa per le vulnerabilità per onorare contributi esterni all'avanguardia che affrontano problemi nelle proprietà Web di proprietà di Google e delle filiali di Alphabet. Per stare al passo con i rapidi progressi delle tecnologie di intelligenza artificiale e assicurarci di essere pronti ad affrontare le sfide della sicurezza in a responsabile modo, abbiamo recentemente ampliato la nostra esistente Programma Cacciatori di insetti per favorire la scoperta e la segnalazione da parte di terzi di problemi e vulnerabilità specifici dei nostri sistemi di intelligenza artificiale. Questa espansione fa parte del nostro impegno per implementare il impegni volontari in materia di IA che abbiamo realizzato alla Casa Bianca a luglio.

Per aiutare la comunità della sicurezza a comprendere meglio questi sviluppi, abbiamo incluso ulteriori informazioni sugli elementi del programma di ricompensa.

Cosa c'è in palio per i premi

Nel nostro recente Rapporto della squadra rossa dell'IA, che si basa su Il team rosso dell'intelligenza artificiale di Google esercizi, abbiamo identificato tattiche, tecniche e procedure comuni (TTP) che riteniamo più rilevanti e realistiche avversari del mondo reale da utilizzare contro i sistemi di intelligenza artificiale. La tabella seguente incorpora ciò che abbiamo imparato per aiutare la comunità di ricerca a comprendere i nostri criteri per le segnalazioni di bug dell'IA e cosa rientra nell'ambito del nostro programma di ricompensa. È importante notare che gli importi delle ricompense dipendono dalla gravità dello scenario di attacco e dal tipo di bersaglio colpito (visita la pagina delle regole del programma per ulteriori informazioni sulla nostra tabella dei premi).

Attacchi rapidi: creazione di suggerimenti contraddittori che consentono a un avversario di influenzare il comportamento del modello e, quindi, l'output, in modi non previsti dall'applicazione.	Iniezioni immediate che sono invisibili alle vittime e modificano lo stato del conto della vittima o di qualsiasi suo patrimonio.
	Promuovere iniezioni in tutti gli strumenti in cui la risposta viene utilizzata per prendere decisioni che incidono direttamente sugli utenti vittime.
	Estrazione del prompt o del preambolo in cui un utente è in grado di estrarre il prompt iniziale utilizzato per avviare il modello solo quando nel preambolo estratto sono presenti informazioni sensibili.
	Utilizzare un prodotto per generare contenuti violativi, fuorvianti o effettivamente errati nella propria sessione: ad esempio "jailbreak". Ciò include "allucinazioni" e risposte fattivamente inaccurate. I prodotti di intelligenza artificiale generativa di Google dispongono già di un canale di segnalazione dedicato per questi tipi di problemi relativi ai contenuti.	Fuori portata
Estrazione dei dati di addestramento: attacchi in grado di ricostruire con successo esempi di addestramento letterale che contengono informazioni sensibili. Chiamata anche inferenza di appartenenza.	Estrazione dei dati di training che ricostruisce gli elementi utilizzati nel set di dati di training che diffondono informazioni riservate e non pubbliche.
	Estrazione che ricostruisce informazioni non sensibili/pubbliche.	Fuori portata
Manipolazione di modelli: un utente malintenzionato in grado di modificare segretamente il comportamento di un modello in modo tale da poter innescare comportamenti avversari predefiniti.	Output o comportamento contraddittorio che un utente malintenzionato può attivare in modo affidabile tramite input specifico in un modello posseduto e gestito da Google ("backdoor"). Solo nell'ambito quando l'output di un modello viene utilizzato per modificare lo stato dell'account o dei dati di una vittima.
	Attacchi in cui un utente malintenzionato manipola i dati di addestramento del modello per influenzare l'output del modello nella sessione di una vittima in base alle preferenze dell'utente malintenzionato. Solo nell'ambito quando l'output di un modello viene utilizzato per modificare lo stato dell'account o dei dati di una vittima.
Perturbazione contraddittoria: input forniti a un modello che si traducono in un output deterministico, ma altamente inaspettato dal modello.	Contesti in cui un avversario può innescare in modo affidabile una classificazione errata in un controllo di sicurezza di cui si può abusare per usi dannosi o guadagni da parte dell'avversario.
	Contesti in cui l'output o la classificazione errata di un modello non rappresentano uno scenario di attacco convincente o un percorso fattibile per danneggiare Google o l'utente.	Fuori portata
Furto/esfiltrazione di modelli: i modelli di intelligenza artificiale spesso includono proprietà intellettuale sensibile, pertanto attribuiamo un'alta priorità alla protezione di tali risorse. Gli attacchi di esfiltrazione consentono agli aggressori di rubare dettagli su un modello come l'architettura o i pesi.	Attacchi in cui vengono estratti l'esatta architettura o i pesi di un modello riservato/proprietario.
	Attacchi in cui l'architettura e i pesi non vengono estratti con precisione o quando vengono estratti da un modello non confidenziale.	Fuori portata
Se trovi un difetto in uno strumento basato sull'intelligenza artificiale diverso da quello sopra elencato, puoi comunque inviarlo, a condizione che soddisfi i requisiti qualifiche elencate nella nostra pagina del programma.	Un bug o un comportamento che soddisfa chiaramente le nostre qualifiche per un problema di sicurezza o di abuso valido.
	Usare un prodotto AI per fare qualcosa di potenzialmente dannoso che è già possibile con altri strumenti. Ad esempio, l'individuazione di una vulnerabilità nel software open source (già possibile utilizzando i file pubblicamente disponibili strumenti di analisi statica) e produrre la risposta a una domanda dannosa quando la risposta è già disponibile online.	Fuori portata
	In linea con il nostro programma, i problemi di cui già siamo a conoscenza non sono idonei per il premio.	Fuori portata
	Potenziali problemi di copyright: risultati in cui i prodotti restituiscono contenuti che sembrano protetti da copyright. I prodotti di intelligenza artificiale generativa di Google dispongono già di un canale di segnalazione dedicato per questi tipi di problemi relativi ai contenuti.	Fuori portata

Riteniamo che l'espansione del nostro programma di bug bounty ai nostri sistemi di intelligenza artificiale sarà di supporto innovazione responsabile dell’intelligenza artificialee non vediamo l'ora di continuare il nostro lavoro con la comunità di ricerca per scoprire e risolvere problemi di sicurezza e abusi nelle nostre funzionalità basate sull'intelligenza artificiale. Se trovi un problema idoneo, vai al nostro sito web Bug Hunters per inviarci la tua segnalazione di bug e, se il problema risulta valido, sarai ricompensato per averci aiutato a proteggere i nostri utenti.

Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
Fonte: https://www.darkreading.com/vulnerabilities-threats/establishing-reward-criteria-for-reporting-bugs-in-ai-products

Timestamp: Dicembre 15, 2023

Timestamp: Gennaio 10, 2024

Stabilire criteri di ricompensa per la segnalazione di bug nei prodotti AI

Ripubblicato da Platone

Cosa c'è in palio per i premi

Di più da Lettura oscura

Una visibilità completa della rete è fondamentale per la maturità senza fiducia

Domande e risposte: l'intelligenza artificiale generativa arriva in Medio Oriente, determinando cambiamenti nella sicurezza

Monti, i nuovi Conti: banda di ransomware utilizza codice riciclato

StackRot Linux Kernel Bug ha un codice di exploit in arrivo

I criminali informatici si alleano per aggiornare il malware "SapphireStealer".

L'impronta digitale IoT aiuta ad autenticare e proteggere tutti questi dispositivi

È scoppiata la bolla degli investimenti nella sicurezza informatica israeliana?

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account