I ChatGPTs tidsalder er AI-modeller enormt populære ... og lett kompromittert - Mass Tech Leadership Council

I ChatGPTs tidsalder er AI-modeller enormt populære ... og lett kompromittert - Mass Tech Leadership Council

I en tidsalder av ChatGPT er AI-modeller enormt populære ... og lett kompromittert - Mass Tech Leadership Council PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Lenge før 2023 var over, var det allerede blitt kronet som året for generativ AI. Ansporet av fremkomsten av modeller som ChatGPT som ga detaljerte, skurrende menneskelige svar på brukerforespørsler, begynte både eksperter og nybegynnere å fundere over teknologiens potensielle innvirkning på arbeid, utdanning og kreativitet.

Men mens dagens store språkmodeller (LLM) er utrolig dyktige, er de også sjokkerende sårbare, sier Khoury-professor Alina Oprea. Hun har studert AI i en cybersikkerhetskontekst i mer enn et tiår, og var nylig medforfatter av en rapport som fordyper seg i disse angrepene på AI – hvordan de fungerer, hvordan de er klassifisert og hvordan de kan (og ikke kan) bli mildnet.

"Det er veldig vanskelig å holde generativ AI sikker," sier Oprea. "Skalaen til disse modellene og treningsdataene deres vil vokse over tid, noe som bare gjør disse angrepene enklere. Og når du først begynner å snakke om generativ AI som går utover tekst til bilder og tale, blir sikkerhet et veldig åpent spørsmål."

Rapporten, utgitt av Department of Commerce National Institute of Standards and Technology (NIST), er en oppdatering av rapporten Oprea ble skrevet sammen med NISTs Apostol Vassilev i fjor. Den første rapporten handlet om mer tradisjonell prediktiv AI, men med generativ AI som har eksplodert i popularitet siden den gang, ønsket Opera og Vassilev generative AI-eksperter Alie Fordyce og Hyrum Anderson fra Robust Intelligence velkommen for å utvide prosjektets mandat.

"Nå har vi akademikere, myndigheter og industri som jobber sammen," bemerket Oprea, "som er den tiltenkte målgruppen for rapporten."

I følge rapporten skylder generative AI-modeller sin sårbarhet til en rekke faktorer. For det første, bemerker Oprea, er de fleste angrep "ganske enkle å montere og krever minimal kunnskap om AI-systemet." For en annen er modellens enorme treningsdatasett for store til at mennesker kan overvåke og validere. Og koden som ligger til grunn for modellene er ikke automatisert; den er avhengig av menneskelig måtehold og er utsatt for ondsinnet menneskelig innblanding.

Resultatet, sier forskerkvartetten, er fire hovedtyper av angrep som forvirrer AI-systemer og får dem til å fungere feil: unndragelsesangrep som endrer modellens input for å endre responsene, forgiftningsangrep som ødelegger modellens underliggende algoritmer eller treningsdata, personvern. angrep som lokker modellen til å avsløre sensitive treningsdata som medisinsk informasjon, og misbruksangrep som mater feil informasjon inn i legitime kilder som modellen lærer av. Ved å manipulere modellens innganger kan angripere velge utgangene på forhånd.

"Dette kan brukes til kommersielle formål, for reklame, for å generere spam eller hatefulle ytringer - ting modellen vanligvis ikke ville generere," forklarer Oprea.

Uten å overbelaste seg selv, kan ondsinnede aktører kontrollere nettdataene en AI-modell trener på, introdusere en bakdør og så snikende styre modellens oppførsel derfra. Gitt den eksploderende populariteten til disse modellene, ville slike bakdører være bekymringsfulle nok alene. Men skaden stopper ikke der.

"Vi har nå disse integrerte applikasjonene som bruker LLM-er. For eksempel bygger et selskap en e-postagent som integreres med en LLM i bakgrunnen, og den kan nå lese e-postene dine og sende e-poster på dine vegne, sier Oprea. "Men angripere kan bruke det samme verktøyet til å sende skadelig programvare og spam til tusenvis av mennesker. Angrepsoverflaten har økt fordi vi integrerer LLM-er i disse applikasjonene.»

Så ødeleggende og farlig som hatytringer og massespam er, er det enda større sikkerhetsproblemer i horisonten.

"Noen applikasjoner er sikkerhetskritiske, som selvkjørende biler," sier Oprea. "Hvis disse modellene gir uriktige spådommer, kan de ikke brukes."

Så hva kan gjøres? Teamet utarbeidet rapporten, som de planlegger å oppdatere årlig, for noen få målgrupper – beslutningstakere, AI-utviklere og akademikere som kan bruke rapportens taksonomi som grunnlag eller kontekst for sitt eget arbeid. Alle disse gruppene, sier Oprea, har arbeid å gjøre for å sikre at AI-modeller er tilpasset menneskelige verdier, bevarer personvernet og fungerer i brukernes beste interesse. Men hun erkjenner at det er utfordrende å ta opp alle problemstillinger som tas opp i rapporten, og at alle som selger løsninger i stedet for avbøtende tiltak tar alvorlig feil.

"Det er mange flere angrep enn reduksjoner, og for hver avbøtelse vi nevner, er det en avveining eller en ytelsesoverhead, inkludert forringelse av modellens nøyaktighet," advarer Oprea. "Begrensningene kommer ikke gratis, og å sikre AI er en virkelig utfordrende innsats, men vi håper at rapporten gir et nyttig utgangspunkt for å forstå angrepene."

Tidstempel:

Mer fra MassTLC