V dobi ChatGPT so modeli umetne inteligence zelo priljubljeni ... in zlahka ogroženi - Svet za množično tehnologijo

V dobi ChatGPT so modeli umetne inteligence zelo priljubljeni ... in zlahka ogroženi – svet za množično tehnologijo

In the Age of ChatGPT, AI Models are Massively Popular... and Easily Compromised - Mass Tech Leadership Council PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Dolgo preden se je leto 2023 končalo, je bilo že okronano za leto generativne umetne inteligence. Spodbujeni s pojavom modelov, kot je ChatGPT, ki so ustvarili podrobne, grozljivo človeške odgovore na uporabniške pozive, so tako strokovnjaki kot novinci začeli razmišljati o potencialnih vplivih tehnologije na delo, izobraževanje in ustvarjalnost.

Toda čeprav so današnji veliki jezikovni modeli (LLM) osupljivo sposobni, so tudi šokantno ranljivi, pravi profesorica Khouryja Alina Oprea. Več kot desetletje preučuje umetno inteligenco v kontekstu kibernetske varnosti in je pred kratkim bila soavtorica poročila, ki obravnava te napade na umetno inteligenco – kako delujejo, kako so razvrščeni in kako lahko (in ne morejo) biti omiliti.

»Resnično je težko ohraniti generativno umetno inteligenco varno,« pravi Oprea. »Obseg teh modelov in podatkov o njihovem usposabljanju se bo sčasoma povečal, kar le še olajša te napade. In ko začnete govoriti o generativni AI, ki presega besedilo v slike in govor, postane varnost zelo odprto vprašanje.«

Poročilo, ki ga je objavil Nacionalni inštitut za standarde in tehnologijo Ministrstva za trgovino (NIST), je posodobitev poročila, ki ga je Oprea lani napisala skupaj z Apostolom Vassilevom iz NIST. To začetno poročilo je obravnavalo bolj tradicionalno umetno inteligenco s predvidevanjem, a ker je generativna umetna inteligenca od takrat eksplodirala, sta Opera in Vassilev pozdravila strokovnjaka za generativno umetno inteligenco Alie Fordyce in Hyruma Andersona iz podjetja Robust Intelligence, da razširita naloge projekta.

"Zdaj imamo akademike, vlado in industrijo, ki delajo skupaj," je opozoril Oprea, "kar je ciljno občinstvo za poročilo."

Glede na poročilo so generativni modeli umetne inteligence svojo ranljivost dolžni različnim dejavnikom. Prvič, Oprea ugotavlja, da je večino napadov "dokaj enostavno namestiti in zahtevajo minimalno znanje o sistemu umetne inteligence." Po drugi strani pa so ogromni nabori podatkov o usposabljanju modelov preveliki, da bi jih ljudje spremljali in preverjali. In koda, ki podpira modele, ni avtomatizirana; sloni na človeški zmernosti in je izpostavljena zlonamernemu človeškemu vmešavanju.

Rezultat, pravi kvartet raziskovalcev, so štiri glavne vrste napadov, ki zmedejo sisteme umetne inteligence in povzročijo njihovo nepravilno delovanje: napadi izogibanja, ki spremenijo vnose modela, da spremenijo njegove odzive, napadi zastrupitve, ki poškodujejo temeljne algoritme modela ali podatke o usposabljanju, zasebnost napadi, ki prisilijo model, da razkrije občutljive podatke o usposabljanju, kot so zdravstvene informacije, in napadi zlorabe, ki vnesejo napačne informacije v zakonite vire, iz katerih se model uči. Z manipulacijo vhodov modela lahko napadalci vnaprej izberejo njegove rezultate.

»To je mogoče uporabiti v komercialne namene, za oglaševanje, za ustvarjanje neželene pošte z zlonamerno programsko opremo ali sovražnega govora – stvari, ki jih model običajno ne ustvari,« pojasnjuje Oprea.

Ne da bi se preobremenili, lahko zlonamerni akterji nadzorujejo spletne podatke, na katerih se uri model AI, uvedejo stranska vrata in nato od tam prikrito usmerjajo vedenje modela. Glede na eksplozivno priljubljenost teh modelov bi bila takšna stranska vrata sama po sebi dovolj zaskrbljujoča. Toda škoda se tu ne ustavi.

»Zdaj imamo te integrirane aplikacije, ki uporabljajo LLM. Na primer, podjetje zgradi e-poštnega agenta, ki se integrira z LLM v ozadju, in zdaj lahko bere vašo e-pošto in pošilja e-pošto v vašem imenu,« pravi Oprea. »Toda napadalci bi lahko uporabili isto orodje za pošiljanje zlonamerne programske opreme in neželene pošte na tisoče ljudi. Površina napadov se je povečala, ker integriramo LLM v te aplikacije.«

Čeprav sta sovražni govor in množična neželena pošta destruktivna in nevarna, so na obzorju še večji varnostni pomisleki.

»Nekatere aplikacije so kritične za varnost, kot so samovozeči avtomobili,« pravi Oprea. "Če ti modeli dajejo napačne napovedi, jih ni mogoče uporabiti."

Torej, kaj je mogoče storiti? Ekipa je pripravila poročilo, ki ga namerava letno posodabljati, za nekaj ciljnih skupin – oblikovalce politik, razvijalce umetne inteligence in akademike, ki lahko taksonomijo poročila uporabijo kot osnovo ali kontekst za svoje delo. Vse te skupine, pravi Oprea, morajo opraviti delo, da zagotovijo, da so modeli umetne inteligence usklajeni s človeškimi vrednotami, ohranijo zasebnost in delujejo v najboljšem interesu uporabnikov. Vendar priznava, da je obravnavanje vsakega vprašanja, izpostavljenega v poročilu, izziv in da se vsakdo, ki ponuja rešitve namesto ublažitev, močno moti.

»Napadov je veliko več kot ublažitev in za vsako ublažitev, ki jo omenimo, obstaja kompromis ali strošek zmogljivosti, vključno z poslabšanjem natančnosti modela,« opozarja Oprea. "Blažitve niso zastonj in zaščita umetne inteligence je resnično zahteven podvig, vendar upamo, da bo poročilo koristno izhodišče za razumevanje napadov."

Časovni žig:

Več od MassTLC