Kaj pomeni uskladiti AI s človeškimi vrednotami? Podatkovna inteligenca PlatoBlockchain. Navpično iskanje. Ai.

Kaj pomeni uskladiti AI s človeškimi vrednotami?

Predstavitev

Pred mnogimi leti sem se naučil programirati na starem stroju Symbolics Lisp. Operacijski sistem je imel vgrajen ukaz »DWIM«, okrajšava za »Naredi, kar mislim«. Če sem vnesel ukaz in se mi je pojavila napaka, sem lahko vnesel »DWIM« in stroj bi poskušal ugotoviti, kaj nameravam narediti. V presenetljivem delčku časa je dejansko delovalo.

Ukaz DWIM je bil mikrokozmos sodobnejšega problema »usklajevanja AI«: ljudje smo nagnjeni k temu, da strojem dajemo dvoumna ali napačna navodila, in želimo, da delajo, kar mislimo, ne nujno, kar rečemo.

Računalniki si pogosto napačno razlagajo, kaj želimo, z nepričakovanimi in pogosto zabavnimi rezultati. En raziskovalec strojnega učenja je na primer med raziskovanjem sumljivo dobrih rezultatov programa za klasifikacijo slik, odkril da klasifikacije ni temeljil na sliki sami, temveč na tem, kako dolgo je trajal dostop do slikovne datoteke - slike iz različnih razredov so bile shranjene v bazah podatkov z nekoliko različnimi dostopnimi časi. Še ena podjeten programer je želel, da se njegov sesalnik Roomba ne bi več zaletaval v pohištvo, zato je Roombo povezal z nevronsko mrežo, ki je nagrajevala hitrost, a kaznovala Roombo, ko je prednji odbijač trčil v nekaj. Stroj je dosegel te cilje tako, da je vedno vozil vzvratno.

Toda skupnost raziskovalcev usklajevanja AI vidi temnejšo stran teh anekdot. Pravzaprav verjamejo, da je nezmožnost strojev, da razločijo, kaj v resnici želimo, da naredijo, eksistencialno tveganje. Da bi rešili to težavo, menijo, da moramo najti načine za uskladitev sistemov AI s človeškimi preferencami, cilji in vrednotami.

To stališče je postalo vidno z uspešnico leta 2014 Superinteligenca filozofa Nicka Bostroma, ki je delno trdil, da lahko naraščajoča inteligenca računalnikov predstavlja neposredno grožnjo prihodnosti človeštva. Bostrom ni nikoli natančno opredelil inteligence, vendar je, tako kot večina drugih v skupnosti usklajevanja AI, kasneje sprejel definicijo zgibni raziskovalec AI Stuart Russell kot: "Subjekt se šteje za inteligentnega, grobo rečeno, če izbere dejanja, za katera se pričakuje, da bodo dosegli njegove cilje glede na to, kar je zaznal."

Bostrom je svoj pogled na tveganja umetne inteligence zasnoval na dveh tezah. Prva je teza o ortogonalnosti, ki po Bostromovih besedah ​​pravi: »Inteligenca in končni cilji so pravokotne osi, vzdolž katerih se možni akterji lahko prosto spreminjajo. Z drugimi besedami, bolj ali manj katero koli raven inteligence bi načeloma lahko kombinirali z bolj ali manj katerim koli končnim ciljem.« Druga je teza o instrumentalni konvergenci, ki pomeni, da bo inteligentni agent deloval na načine, ki bodo spodbujali njegovo lastno preživetje, samoizboljševanje in pridobivanje virov, dokler bo zaradi tega agent bolj verjetno dosegel svoj končni cilj. Nato je podal še zadnjo predpostavko: Raziskovalci bodo kmalu ustvarili superinteligenco AI - takšno, ki "močno presega kognitivno zmogljivost ljudi na skoraj vseh področjih, ki jih zanimajo."

Za Bostroma in druge v skupnosti usklajevanja umetne inteligence ta možnost pomeni pogubo za človeštvo, razen če nam uspe uskladiti superinteligentne umetne inteligence z našimi željami in vrednotami. Bostrom to nevarnost ponazori z zdaj že znanim miselnim eksperimentom: Predstavljajte si, da superinteligentni AI zadate cilj povečanja proizvodnje papirnih sponk. Po Bostromovih tezah bo sistem umetne inteligence v prizadevanju za dosego tega cilja uporabil svojo nadčloveško briljantnost in ustvarjalnost za povečanje lastne moči in nadzora ter na koncu pridobil vse svetovne vire za proizvodnjo več sponk za papir. Človeštvo bo izumrlo, vendar bo proizvodnja sponk za papir res maksimirana.

Če verjamete, da je inteligenca definirana z zmožnostjo doseganja ciljev, da bi lahko ljudje kateri koli cilj "vstavili" v superinteligentnega agenta AI in da bi tak agent uporabil svojo superinteligenco, da bi naredil karkoli za dosego tega cilja, potem boste priti do istega Sklenitev kar je storil Russell: "Vse, kar je potrebno za zagotovitev katastrofe, je zelo kompetenten stroj v kombinaciji z ljudmi, ki imajo nepopolno sposobnost, da popolnoma in pravilno določijo človeške preference."

To je znan trop v znanstveni fantastiki - človeštvo ogrožajo stroji brez nadzora, ki so si napačno razlagali človeške želje. Zdaj je nezanemarljiv segment raziskovalne skupnosti AI globoko zaskrbljen zaradi tovrstnega scenarija, ki se odvija v resničnem življenju. Na desetine inštitutov je že porabilo na stotine milijonov dolarjev za to težavo, raziskovalna prizadevanja za uskladitev pa potekajo na univerzah po vsem svetu in v velikih podjetjih AI, kot so Google, Meta in OpenAI.

Kaj pa neposrednejša tveganja, ki jih predstavlja nesuperinteligentna umetna inteligenca, kot so izguba službe, pristranskost, kršitve zasebnosti in širjenje napačnih informacij? Izkazalo se je, da je malo prekrivanja med skupnostmi, ki se ukvarjajo predvsem s takšnimi kratkoročnimi tveganji, in tistimi, ki jih bolj skrbijo dolgoročnejša tveganja usklajevanja. Pravzaprav obstaja nekakšna kulturna vojna umetne inteligence, pri čemer je ena stran bolj zaskrbljena zaradi teh trenutnih tveganj kot tistega, kar vidijo kot nerealni tehno-futurizem, druga stran pa meni, da so trenutni problemi manj nujni kot morebitna katastrofalna tveganja, ki jih predstavlja superinteligentna umetna inteligenca.

Mnogim izven teh specifičnih skupnosti je usklajevanje z umetno inteligenco videti kot religija – s spoštovanimi voditelji, nesporno doktrino in predanimi učenci, ki se borijo proti potencialno vsemogočnemu sovražniku (neuvrščeni superinteligentni umetni inteligenci). Dejansko je pred kratkim računalničar in bloger Scott Aaronson opozoriti da zdaj obstajata »pravoslavna« in »reformirana« veja vere usklajevanja AI. Prvi, piše, je skoraj v celoti zaskrbljen zaradi "neusklajene umetne inteligence, ki zavaja ljudi, medtem ko si prizadeva, da bi jih uničila." V nasprotju s tem piše: »Mi, ki tvegamo pri reformi AI, se zavzemamo za to možnost, vendar nas vsaj toliko skrbi močan AI, ki ga orožijo slabi ljudje in za katerega pričakujemo, da bo predstavljal eksistencialna tveganja veliko prej.«

Mnogi raziskovalci so aktivno vključeni v projekte, ki temeljijo na usklajevanju, od poskusi podajanja načel moralne filozofije do strojev, do usposabljanje velikih jezikovnih modelov o etičnih presojah množice. Nobeno od teh prizadevanj ni bilo posebej koristno pri pripravi strojev do razmišljanja o situacijah v resničnem svetu. Številni pisci so opozorili na številne ovire, ki strojem preprečujejo, da bi se naučili človeških preferenc in vrednot: ljudje so pogosto neracionalni in se obnašajo na načine, ki so v nasprotju z njihovimi vrednotami, vrednote pa se lahko spreminjajo v življenju posameznika in generaciji. Navsezadnje ni jasno, čigavih vrednot naj bi se stroji poskušali naučiti.

Mnogi v skupnosti usklajevanja menijo, da je najbolj obetavna pot naprej tehnika strojnega učenja, znana kot inverzno ojačitveno učenje (IRL). Pri IRL stroju ni zastavljen cilj maksimiranja; Takšni "vstavljeni" cilji lahko po mnenju zagovornikov poravnave nenamerno vodijo do scenarijev maksimiranja sponk za papir. Namesto tega je naloga stroja opazovati vedenje ljudi in sklepati o njihovih željah, ciljih in vrednotah. V zadnjih letih so raziskovalci uporabili IRL za usposobiti stroje za igranje videoiger z opazovanjem ljudi in učenjem robotov kako narediti premete nazaj tako, da so jim posredovali postopne povratne informacije od ljudi (ljudje so si ogledali kratke posnetke različnih poskusov robota in izbrali tistega, ki je bil videti najboljši).

Ni jasno, ali lahko podobne metode naučijo stroje bolj subtilnih in abstraktnih idej človeških vrednot. Pisatelj Brian Christian, avtor knjige a poljudnoznanstvena knjiga o usklajevanju AI, je optimističen: »Ni si težko zamisliti zamenjave nebuloznega koncepta 'backflip' s še bolj nebuloznim in neizrekljivim konceptom, kot je 'ustrežljivost'. Ali 'prijaznost'. Ali 'dobro' vedenje.”

Vendar menim, da to podcenjuje izziv. Etični pojmi, kot sta prijaznost in dobro vedenje, so veliko bolj zapleteni in odvisni od konteksta kot karkoli, kar je IRL do zdaj obvladal. Razmislite o pojmu "resnicoljubnost" - vrednost, ki si jo zagotovo želimo v naših sistemih AI. Dejansko je glavni problem današnjih velikih jezikovnih modelov njihova nezmožnost razlikovanja resnice od laži. Hkrati morda včasih želimo, da naši pomočniki AI, tako kot ljudje, ublažijo svojo resnicoljubnost: da zaščitijo zasebnost, da se izognejo žaljenju drugih ali da nekoga zaščitijo med nešteto drugimi situacijami, ki jih je težko artikulirati.

Drugi etični koncepti so prav tako zapleteni. Jasno bi moralo biti, da je bistven prvi korak k učenju strojev o etičnih konceptih omogočiti strojem, da sploh razumejo koncepte, podobne človeškim, za katere sem trdil, da so še vedno umetna inteligenca. najpomembnejši odprt problem.

Poleg tega vidim še bolj temeljno težavo v znanstvenih predstavah o uskladitvi AI. Večina razprav si superinteligentno umetno inteligenco predstavlja kot stroj, ki kljub temu, da prekaša ljudi v vseh kognitivnih nalogah, še vedno nima človeškega zdravega razuma in ostaja nenavadno mehanske narave. In kar je pomembno, v skladu z Bostromovo tezo o ortogonalnosti je stroj dosegel superinteligenco, ne da bi imel lastne cilje ali vrednote, namesto da bi čakal, da cilje vstavijo ljudje.

Vendar bi lahko inteligenca delovala na ta način? Nič v trenutni znanosti psihologije ali nevroznanosti ne podpira te možnosti. Vsaj pri ljudeh je inteligenca globoko povezana z našimi cilji in vrednotami, pa tudi z našim občutkom samega sebe ter našim posebnim družbenim in kulturnim okoljem. Intuicija, da je mogoče neke vrste čisto inteligenco ločiti od teh drugih dejavnikov, je privedla do tega veliko neuspešnih napovedi v zgodovini AI. Glede na to, kar vemo, se zdi veliko bolj verjetno, da ciljev na splošno inteligentnega sistema umetne inteligence ni bilo mogoče enostavno vstaviti, ampak bi se moral razviti, tako kot naš, kot rezultat lastne družbene in kulturne vzgoje.

V svoji knjigi Človeško združljiv, Russell zagovarja nujnost raziskav o problemu poravnave: »Pravi čas za skrb zaradi potencialno resnega problema za človeštvo ni odvisen samo od tega, kdaj se bo problem pojavil, ampak tudi od tega, kako dolgo bo trajalo, da se pripravi in ​​izvede rešitev. ” Toda brez boljšega razumevanja, kaj je inteligenca in kako ločljiva je od drugih vidikov našega življenja, ne moremo niti definirati problema, še manj pa najti rešitve. Pravilno definiranje in reševanje problema poravnave ne bo enostavno; od nas bo zahtevalo, da razvijemo široko, znanstveno utemeljeno teorijo inteligence.

Časovni žig:

Več od Quantamagazine