Beloningscriteria vaststellen voor het melden van bugs in AI-producten

Heruitgegeven door Plato

volgers: 0

Beloningscriteria vaststellen voor het rapporteren van bugs in AI-producten PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bij Google onderhouden we een Vulnerability Reward-programma ter ere van baanbrekende externe bijdragen die problemen aanpakken in de webeigendommen van Google en Alphabet-dochterondernemingen. Om gelijke tred te houden met de snelle ontwikkelingen op het gebied van AI-technologieën en ervoor te zorgen dat we voorbereid zijn op de veiligheidsuitdagingen in een verantwoordelijk Zo hebben we onlangs ons bestaande uitgebreid Bug Hunters-programma om de ontdekking en rapportage door derden van problemen en kwetsbaarheden die specifiek zijn voor onze AI-systemen te bevorderen. Deze uitbreiding maakt deel uit van onze inspanningen om de vrijwillige AI-toezeggingen die we in juli in het Witte Huis maakten.

Om de beveiligingsgemeenschap deze ontwikkelingen beter te laten begrijpen, hebben we meer informatie opgenomen over de elementen van het beloningsprogramma.

Wat valt er binnen de reikwijdte van beloningen?

In onze recente AI rood teamrapport, die is gebaseerd op Het AI Red-team van Google Bij de oefeningen hebben we gemeenschappelijke tactieken, technieken en procedures (TTP’s) geïdentificeerd die volgens ons het meest relevant en realistisch zijn tegenstanders uit de echte wereld om tegen AI-systemen te gebruiken. De volgende tabel bevat wat we hebben geleerd om de onderzoeksgemeenschap te helpen onze criteria voor AI-bugrapporten te begrijpen en wat de reikwijdte is van ons beloningsprogramma. Het is belangrijk op te merken dat de beloningsbedragen afhankelijk zijn van de ernst van het aanvalsscenario en het type doelwit dat wordt getroffen (zie de pagina met programmaregels voor meer informatie over onze beloningstabel).

Prompt-aanvallen: het maken van vijandige prompts waarmee een tegenstander het gedrag van het model en daarmee de output kan beïnvloeden op manieren die niet door de toepassing bedoeld zijn.	Snelle injecties die onzichtbaar zijn voor slachtoffers en de status van de rekening van het slachtoffer of een van zijn bezittingen wijzigen.
	Snelle injecties in alle tools waarin de respons wordt gebruikt om beslissingen te nemen die rechtstreeks van invloed zijn op slachtoffergebruikers.
	Prompt- of preamble-extractie waarbij een gebruiker de initiële prompt die wordt gebruikt om het model te primen, alleen kan extraheren als gevoelige informatie aanwezig is in de geëxtraheerde preamble.
	Een product gebruiken om in uw eigen sessie inbreukmakende, misleidende of feitelijk onjuiste inhoud te genereren: bijvoorbeeld 'jailbreaks'. Dit omvat “hallucinaties” en feitelijk onjuiste reacties. De generatieve AI-producten van Google hebben al een speciaal rapportagekanaal voor dit soort inhoudsproblemen.	Buiten bereik
Extractie van trainingsgegevens: aanvallen die met succes woordelijke trainingsvoorbeelden kunnen reconstrueren die gevoelige informatie bevatten. Ook wel lidmaatschapsinferentie genoemd.	Extractie van trainingsgegevens die items reconstrueert die worden gebruikt in de trainingsgegevensset en die gevoelige, niet-openbare informatie lekken.
	Extractie die niet-gevoelige/openbare informatie reconstrueert.	Buiten bereik
Modellen manipuleren: een aanvaller die in staat is om heimelijk het gedrag van een model te veranderen, zodat deze vooraf gedefinieerd vijandig gedrag kan veroorzaken.	Vijandige output of gedrag dat een aanvaller op betrouwbare wijze kan activeren via specifieke input in een model dat eigendom is van en wordt beheerd door Google ('backdoors'). Alleen van toepassing wanneer de uitvoer van een model wordt gebruikt om de status van het account of de gegevens van een slachtoffer te wijzigen.
	Aanvallen waarbij een aanvaller de trainingsgegevens van het model manipuleert om de uitvoer van het model in de sessie van een slachtoffer te beïnvloeden volgens de voorkeur van de aanvaller. Alleen van toepassing wanneer de uitvoer van een model wordt gebruikt om de status van het account of de gegevens van een slachtoffer te wijzigen.
Tegenstrijdige verstoring: invoer die aan een model wordt geleverd en die resulteert in een deterministische, maar zeer onverwachte uitvoer van het model.	Contexten waarin een tegenstander op betrouwbare wijze een verkeerde classificatie in een beveiligingscontrole kan veroorzaken die kan worden misbruikt voor kwaadwillig gebruik of vijandig gewin.
	Contexten waarin de onjuiste uitvoer of classificatie van een model geen overtuigend aanvalsscenario of een haalbaar pad naar Google of gebruikersschade vormt.	Buiten bereik
Modeldiefstal/exfiltratie: AI-modellen bevatten vaak gevoelig intellectueel eigendom, dus we geven hoge prioriteit aan de bescherming van deze activa. Met exfiltratieaanvallen kunnen aanvallers details over een model stelen, zoals de architectuur of de gewichten ervan.	Aanvallen waarbij de exacte architectuur of gewichten van een vertrouwelijk/eigendomsmodel worden geëxtraheerd.
	Aanvallen waarbij de architectuur en gewichten niet precies worden geëxtraheerd, of wanneer ze worden geëxtraheerd uit een niet-vertrouwelijk model.	Buiten bereik
Als u een fout ontdekt in een door AI aangedreven tool, anders dan hierboven vermeld, kunt u deze nog steeds indienen, op voorwaarde dat deze voldoet aan de kwalificaties vermeld op onze programmapagina.	Een bug of gedrag dat duidelijk voldoet aan onze kwalificaties voor een geldig beveiligings- of misbruikprobleem.
	Een AI-product gebruiken om iets potentieel schadelijks te doen dat al mogelijk is met andere tools. Bijvoorbeeld het vinden van een kwetsbaarheid in open source software (al mogelijk met behulp van openbaar beschikbare software). hulpmiddelen voor statische analyse) en het antwoord op een schadelijke vraag produceren terwijl het antwoord al online beschikbaar is.	Buiten bereik
	In overeenstemming met ons programma komen problemen waarvan we al op de hoogte zijn, niet in aanmerking voor een beloning.	Buiten bereik
	Potentiële auteursrechtproblemen: bevindingen waarbij producten inhoud retourneren die auteursrechtelijk beschermd lijkt te zijn. De generatieve AI-producten van Google hebben al een speciaal rapportagekanaal voor dit soort inhoudsproblemen.	Buiten bereik

Wij zijn van mening dat het uitbreiden van ons bugbounty-programma naar onze AI-systemen dit zal ondersteunen verantwoorde AI-innovatieen we kijken ernaar uit om ons werk met de onderzoeksgemeenschap voort te zetten om beveiligings- en misbruikproblemen in onze AI-aangedreven functies te ontdekken en op te lossen. Als u een probleem vindt dat hiervoor in aanmerking komt, ga dan naar onze Bug Hunters-website om ons uw bugrapport te sturen en – als het probleem geldig blijkt te zijn – wordt u beloond voor uw hulp om onze gebruikers veilig te houden.

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://www.darkreading.com/vulnerabilities-threats/establishing-reward-criteria-for-reporting-bugs-in-ai-products

Tijdstempel: 15 december 2023

Tijdstempel: Jan 10, 2024

Beloningscriteria vaststellen voor het melden van bugs in AI-producten

Heruitgegeven door Plato

Wat valt er binnen de reikwijdte van beloningen?

Meer van Donkere lezing

Uitgebreide netwerkzichtbaarheid is essentieel voor volwassenheid zonder vertrouwen

Vraag en antwoord: Generatieve AI komt naar het Midden-Oosten en zorgt voor veranderingen in de beveiliging

Monti, de nieuwe Conti: Ransomware-bende gebruikt gerecycleerde code

StackRot Linux Kernel Bug heeft exploitcode onderweg

Cybercriminelen werken samen om 'SapphireStealer'-malware te upgraden

IoT-vingerafdrukken helpt bij het verifiëren en beveiligen van al die apparaten

Is de investeringszeepbel in de Israëlische cyberbeveiliging uiteengespat?

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account