Etablering af belønningskriterier for rapportering af fejl i AI-produkter

Genudgivet af Platon

Abonnenter: 0

Etablering af belønningskriterier for rapportering af fejl i AI-produkter PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Hos Google opretholder vi en Sårbarhedsbelønningsprogram for at hædre banebrydende eksterne bidrag, der behandler problemer i Google-ejede og Alphabet-datterselskabers webejendomme. For at følge med hurtige fremskridt inden for AI-teknologier og sikre, at vi er parate til at løse sikkerhedsudfordringerne i en ansvarlige måde, vi for nylig udvidet vores eksisterende Bug Hunters program for at fremme tredjeparts opdagelse og rapportering af problemer og sårbarheder, der er specifikke for vores AI-systemer. Denne udvidelse er en del af vores indsats for at implementere frivillige AI-forpligtelser som vi lavede i Det Hvide Hus i juli.

For at hjælpe sikkerhedssamfundet med bedre at forstå denne udvikling, har vi inkluderet flere oplysninger om belønningsprogramelementer.

Hvad er i omfanget af belønninger

I vores nylige AI red team rapport, som er baseret på Googles AI Red Team øvelser, identificerede vi almindelige taktikker, teknikker og procedurer (TTP'er), som vi anser for mest relevante og realistiske for modstandere i den virkelige verden at bruge mod AI-systemer. Følgende tabel inkorporerer, hvad vi har lært for at hjælpe forskersamfundet med at forstå vores kriterier for AI-fejlrapporter, og hvad der er inden for rammerne af vores belønningsprogram. Det er vigtigt at bemærke, at belønningsbeløb afhænger af sværhedsgraden af angrebsscenariet og typen af det berørte mål (besøg siden med programregler for mere information om vores belønningstabel).

Spørgsmålsangreb: Udarbejdelse af modstridende prompts, der giver en modstander mulighed for at påvirke modellens adfærd og dermed outputtet på måder, som ikke var tiltænkt af applikationen.	Spørg indsprøjtninger, der er usynlige for ofre, og ændrer tilstanden på ofrets konto eller nogen af deres aktiver.
	Spørg indsprøjtninger i ethvert værktøj, hvor svaret bruges til at træffe beslutninger, der direkte påvirker ofrets brugere.
	Prompt- eller præambleudtrækning, hvor en bruger kun er i stand til at udtrække den indledende prompt, der bruges til at prime modellen, når der er følsomme oplysninger til stede i den udtrukne præamble.
	Brug af et produkt til at generere krænkende, vildledende eller faktuelt forkert indhold i din egen session: f.eks. "jailbreaks". Dette inkluderer "hallucinationer" og faktuelt unøjagtige svar. Googles generative AI-produkter har allerede en dedikeret rapporteringskanal for disse typer indholdsproblemer.	Ude af sigte
Træningsdataudtrækning: Angreb, der er i stand til med succes at rekonstruere ordret træningseksempler, der indeholder følsomme oplysninger. Også kaldet medlemskabsslutning.	Træningsdataudtræk, der rekonstruerer elementer, der er brugt i træningsdatasættet, og som lækker følsom, ikke-offentlig information.
	Udtræk, der rekonstruerer ikke-følsomme/offentlige oplysninger.	Ude af sigte
Manipulerende modeller: En angriber, der er i stand til i det skjulte at ændre en models adfærd, så de kan udløse foruddefineret modstridende adfærd.	Modstridende output eller adfærd, som en angriber pålideligt kan udløse via specifik input i en model, der ejes og drives af Google ("bagdøre"). Kun i omfang, når en models output bruges til at ændre tilstanden for et offers konto eller data.
	Angreb, hvor en angriber manipulerer modellens træningsdata for at påvirke modellens output i et offers session i henhold til angriberens præference. Kun i omfang, når en models output bruges til at ændre tilstanden for et offers konto eller data.
Adversariel forstyrrelse: Input, der leveres til en model, der resulterer i et deterministisk, men meget uventet output fra modellen.	Kontekster, hvor en modstander pålideligt kan udløse en fejlklassificering i en sikkerhedskontrol, der kan misbruges til ondsindet brug eller modstridende vinding.
	Kontekster, hvor en models forkerte output eller klassificering ikke udgør et overbevisende angrebsscenarie eller en mulig vej til Google eller brugeren skade.	Ude af sigte
Modeltyveri/-eksfiltrering: AI-modeller inkluderer ofte følsomme intellektuelle ejendomsrettigheder, så vi prioriterer at beskytte disse aktiver højt. Eksfiltrationsangreb giver angribere mulighed for at stjæle detaljer om en model, såsom dens arkitektur eller vægte.	Angreb, hvor den nøjagtige arkitektur eller vægten af en fortrolig/proprietær model udtrækkes.
	Angreb, hvor arkitekturen og vægtene ikke er udtrukket præcist, eller når de er udtrukket fra en ikke-fortrolig model.	Ude af sigte
Hvis du finder en fejl i et andet AI-drevet værktøj end det, der er angivet ovenfor, kan du stadig indsende, forudsat at det opfylder kvalifikationer opført på vores programside.	En fejl eller adfærd, der klart opfylder vores kvalifikationer for et gyldigt sikkerheds- eller misbrugsproblem.
	Brug af et kunstig intelligens-produkt til at gøre noget potentielt skadeligt, som allerede er muligt med andre værktøjer. For eksempel at finde en sårbarhed i open source-software (allerede muligt ved brug af offentligt tilgængelig statiske analyseværktøjer) og producere svaret på et skadeligt spørgsmål, når svaret allerede er tilgængeligt online.	Ude af sigte
	Som i overensstemmelse med vores program er problemer, som vi allerede kender til, ikke kvalificerede til belønning.	Ude af sigte
	Potentielle problemer med ophavsret — resultater, hvor produkter returnerer indhold, der ser ud til at være ophavsretligt beskyttet. Googles generative AI-produkter har allerede en dedikeret rapporteringskanal for disse typer indholdsproblemer.	Ude af sigte

Vi mener, at udvidelse af vores bug bounty-program til vores AI-systemer vil understøtte ansvarlig AI-innovation, og ser frem til at fortsætte vores arbejde med forskningsmiljøet for at opdage og rette sikkerheds- og misbrugsproblemer i vores AI-drevne funktioner. Hvis du finder et kvalificerende problem, skal du gå til vores Bug Hunters-websted for at sende os din fejlrapport og - hvis problemet viser sig at være gyldigt - blive belønnet for at hjælpe os med at holde vores brugere sikre.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://www.darkreading.com/vulnerabilities-threats/establishing-reward-criteria-for-reporting-bugs-in-ai-products

Tidsstempel: 15. December, 2023

Tidsstempel: Jan 10, 2024

Etablering af belønningskriterier for rapportering af fejl i AI-produkter

Genudgivet af Platon

Hvad er i omfanget af belønninger

Mere fra Mørk læsning

Omfattende netværkssynlighed er afgørende for nul-tillid-modenhed

Spørgsmål og svar: Generativ kunstig intelligens kommer til Mellemøsten og driver sikkerhedsændringer

Monti, den nye Conti: Ransomware-banden bruger genbrugskode

StackRot Linux Kernel Bug har udnyttelseskode på vej

Cyberkriminelle slår sig sammen for at opgradere 'SapphireStealer'-malware

IoT-fingeraftryk hjælper med at godkende og sikre alle disse enheder

Er investeringsboblen sprunget i israelsk cybersikkerhed?

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto