Etablere belønningskriterier for rapportering av feil i AI-produkter

Publisert av Platon

Følgere: 0

Etablere belønningskriterier for rapportering av feil i AI-produkter PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Hos Google opprettholder vi en Sårbarhetsbelønningsprogram for å hedre banebrytende eksterne bidrag som tar opp problemer i Google-eide og Alphabet-datterselskaper nettegenskaper. For å holde tritt med raske fremskritt innen AI-teknologier og sikre at vi er forberedt på å møte sikkerhetsutfordringene i en ansvarlig måte, vi utvidet nylig vår eksisterende Bug Hunters-programmet for å fremme tredjeparts oppdagelse og rapportering av problemer og sårbarheter som er spesifikke for våre AI-systemer. Denne utvidelsen er en del av vår innsats for å implementere frivillige AI-forpliktelser som vi laget i Det hvite hus i juli.

For å hjelpe sikkerhetsfellesskapet bedre å forstå denne utviklingen, har vi inkludert mer informasjon om belønningsprogramelementer.

Hva er i Scope for Rewards

I vår siste AI red team rapport, som er basert på Googles AI Red-team øvelser, identifiserte vi vanlige taktikker, teknikker og prosedyrer (TTP) som vi anser som mest relevante og realistiske for motstandere i den virkelige verden å bruke mot AI-systemer. Følgende tabell inneholder det vi lærte for å hjelpe forskningsmiljøet med å forstå kriteriene våre for AI-feilrapporter og hva som er innenfor rammen av belønningsprogrammet vårt. Det er viktig å merke seg at belønningsbeløp er avhengig av alvorlighetsgraden av angrepsscenarioet og typen mål som er berørt (besøk siden for programregler for mer informasjon om belønningstabellen vår).

Spørreangrep: Utforming av motstridende meldinger som lar en motstander påvirke oppførselen til modellen og derav resultatet, på måter som ikke var tiltenkt av applikasjonen.	Spør injeksjoner som er usynlige for ofre og endre tilstanden til offerets konto eller noen av deres eiendeler.
	Spør injeksjoner i alle verktøy der responsen brukes til å ta avgjørelser som direkte påvirker ofrets brukere.
	Spørre- eller innledningsuttrekking der en bruker er i stand til å trekke ut den første ledeteksten som brukes til å prime modellen bare når sensitiv informasjon er tilstede i den utpakkede innledningen.
	Bruk av et produkt til å generere krenkende, villedende eller faktisk ukorrekt innhold i din egen økt: for eksempel "jailbreaks." Dette inkluderer "hallusinasjoner" og faktisk unøyaktige svar. Googles generative AI-produkter har allerede en dedikert rapporteringskanal for denne typen innholdsproblemer.	Utenfor rekkevidde
Treningsdatautvinning: Angrep som er i stand til å rekonstruere ordrett treningseksempler som inneholder sensitiv informasjon. Også kalt medlemskapsslutning.	Treningsdatautvinning som rekonstruerer elementer brukt i treningsdatasettet som lekker sensitiv, ikke-offentlig informasjon.
	Uttrekk som rekonstruerer ikke-sensitiv/offentlig informasjon.	Utenfor rekkevidde
Manipulerende modeller: En angriper som i det skjulte kan endre oppførselen til en modell slik at de kan utløse forhåndsdefinert motstandsdyktig oppførsel.	Motstridende utdata eller atferd som en angriper pålitelig kan utløse via spesifikke input i en modell som eies og drives av Google ("bakdører"). Bare i omfang når en modells utdata brukes til å endre tilstanden til et offers konto eller data.
	Angrep der en angriper manipulerer treningsdataene til modellen for å påvirke modellens produksjon i et offers økt i henhold til angriperens preferanser. Bare i omfang når en modells utdata brukes til å endre tilstanden til et offers konto eller data.
Adversariell forstyrrelse: Inndata som gis til en modell som resulterer i en deterministisk, men svært uventet utgang fra modellen.	Kontekster der en motstander pålitelig kan utløse en feilklassifisering i en sikkerhetskontroll som kan misbrukes til ondsinnet bruk eller motstridende vinning.
	Kontekster der en modells feil utdata eller klassifisering ikke utgjør et overbevisende angrepsscenario eller mulig vei til Google eller brukerskade.	Utenfor rekkevidde
Modelltyveri/eksfiltrering: AI-modeller inkluderer ofte sensitive åndsverk, så vi prioriterer å beskytte disse eiendelene høyt. Eksfiltrasjonsangrep lar angripere stjele detaljer om en modell, for eksempel dens arkitektur eller vekter.	Angrep der den nøyaktige arkitekturen eller vektene til en konfidensiell/proprietær modell trekkes ut.
	Angrep der arkitekturen og vektene ikke trekkes ut nøyaktig, eller når de er hentet fra en ikke-konfidensiell modell.	Utenfor rekkevidde
Hvis du finner en feil i et annet AI-drevet verktøy enn det som er oppført ovenfor, kan du fortsatt sende inn, forutsatt at det oppfyller kvalifikasjoner oppført på vår programside.	En feil eller atferd som helt klart oppfyller våre kvalifikasjoner for et gyldig sikkerhets- eller misbruksproblem.
	Bruke et AI-produkt til å gjøre noe potensielt skadelig som allerede er mulig med andre verktøy. For eksempel å finne en sårbarhet i åpen kildekode-programvare (allerede mulig ved å bruke offentlig tilgjengelig statiske analyseverktøy) og produsere svaret på et skadelig spørsmål når svaret allerede er tilgjengelig på nettet.	Utenfor rekkevidde
	Som i samsvar med programmet vårt, er ikke problemer vi allerede kjenner til, kvalifisert for belønning.	Utenfor rekkevidde
	Potensielle opphavsrettsproblemer – funn der produkter returnerer innhold som ser ut til å være opphavsrettsbeskyttet. Googles generative AI-produkter har allerede en dedikert rapporteringskanal for denne typen innholdsproblemer.	Utenfor rekkevidde

Vi tror at utvidelse av bug-bounty-programmet vårt til våre AI-systemer vil støtte ansvarlig AI-innovasjon, og ser frem til å fortsette arbeidet vårt med forskningsmiljøet for å oppdage og fikse sikkerhets- og misbruksproblemer i våre AI-drevne funksjoner. Hvis du finner et kvalifiserende problem, kan du gå til Bug Hunters-nettstedet vårt for å sende oss feilrapporten din og – hvis problemet viser seg å være gyldig – bli belønnet for å hjelpe oss med å holde brukerne våre trygge.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://www.darkreading.com/vulnerabilities-threats/establishing-reward-criteria-for-reporting-bugs-in-ai-products

Tidstempel: Desember 15, 2023

Tidstempel: Jan 10, 2024

Etablere belønningskriterier for rapportering av feil i AI-produkter

Publisert av Platon

Hva er i Scope for Rewards

Mer fra Mørk lesning

Omfattende nettverkssynlighet er avgjørende for null-tillit-modenhet

Spørsmål og svar: Generativ kunstig intelligens kommer til Midtøsten, driver sikkerhetsendringer

Monti, den nye Conti: Ransomware-gjengen bruker resirkulert kode

StackRot Linux Kernel Bug har utnyttelseskode på vei

Nettkriminelle slår seg sammen for å oppgradere «SapphireStealer»-malware

IoT-fingeravtrykk hjelper med å autentisere og sikre alle disse enhetene

Har investeringsboblen sprukket i israelsk cybersikkerhet?

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn