Mida tähendab tehisintellekti vastavusse viimine inimlike väärtustega?

Taasavaldanud Platon

järgijaid: 0

Aastaid tagasi õppisin programmeerima vanal Symbolics Lisp masinal. Operatsioonisüsteemis oli sisseehitatud käsk "DWIM", mis on lühend sõnadest "Do What I Mean". Kui ma tippisin käsu ja saan vea, võin kirjutada "DWIM" ja masin proovib aru saada, mida ma tahtsin teha. Üllatav osa ajast see tegelikult töötas.

DWIM-käsk oli „AI joondamise” kaasaegsema probleemi mikrokosmos: meie, inimesed, oleme altid andma masinatele mitmetähenduslikke või ekslikke juhiseid ja tahame, et nad teeksid seda, mida mõtleme, mitte tingimata seda, mida me ütleme.

Arvutid mõistavad sageli valesti, mida me tahame, et nad teeksid, ootamatute ja sageli lõbusate tulemustega. Näiteks üks masinõppe uurija, kes uuris kujutiste klassifitseerimisprogrammi kahtlaselt häid tulemusi, avastasin et see ei lähtunud klassifikatsioonidest mitte pildist endast, vaid sellest, kui kaua kulus pildifailile ligi pääsemiseks — erinevatest klassidest pärit pildid salvestati veidi erineva juurdepääsuajaga andmebaasidesse. Teine ettevõtlik programmeerija tahtis, et tema Roomba tolmuimeja lõpetaks mööbli põrkumise, mistõttu ühendas ta Roomba närvivõrku, mis tasustas kiirust, kuid karistas Roombat, kui eesmine põrkeraud millegagi kokku põrkas. Masin täitis need eesmärgid, sõites alati tagurpidi.

Kuid AI joondamise teadlaste kogukond näeb nendel anekdootidel tumedamat külge. Tegelikult usuvad nad, et masinate suutmatus eristada, mida me tegelikult tahame, on eksistentsiaalne risk. Nende arvates peame selle probleemi lahendamiseks leidma viise, kuidas AI-süsteeme viia vastavusse inimese eelistuste, eesmärkide ja väärtustega.

See seisukoht tõusis esile 2014. aasta enimmüüdud raamatuga Ülintelligentsus filosoof Nick Bostrom, kes väitis osaliselt, et arvutite kasvav intelligentsus võib kujutada otsest ohtu inimkonna tulevikule. Bostrom ei määratlenud kunagi intelligentsust täpselt, kuid nagu enamik teisi tehisintellekti joondamise kogukonnas, võttis ta definitsiooni kasutusele hiljem liigendatud AI uurija poolt Stuart russell nagu: "Üksimit peetakse jämedalt öeldes intelligentseks, kui ta valib tegevused, mis eeldatavasti saavutavad oma eesmärgid, arvestades seda, mida ta on tajunud."

Bostrom rajas oma nägemuse tehisintellekti riskidest kahele teesile. Esimene on ortogonaalsuse tees, mis ütleb Bostromi sõnadega: „Intellekt ja lõplikud eesmärgid on ortogonaalsed teljed, mida mööda võimalikud agendid võivad vabalt varieeruda. Teisisõnu, enam-vähem mis tahes intelligentsuse taset saab põhimõtteliselt kombineerida enam-vähem mis tahes lõppeesmärgiga. Teine on instrumentaalse konvergentsi tees, mis tähendab, et intelligentne agent tegutseb viisil, mis soodustab tema enda ellujäämist, enesetäiendamist ja ressursside omandamist seni, kuni see muudab agendi tõenäolisemaks oma lõppeesmärgi saavutamise. Seejärel tegi ta ühe lõpliku oletuse: teadlased loovad peagi tehisintellekti - sellise, mis "ületab oluliselt inimeste kognitiivset jõudlust peaaegu kõigis huvipakkuvates valdkondades".

Bostromi ja teiste tehisintellekti joondamise kogukonna liikmete jaoks tähendab see väljavaade inimkonnale hukatusse, kui meil ei õnnestu superintelligentseid tehisintellekti oma soovide ja väärtustega vastavusse viia. Bostrom illustreerib seda ohtu nüüdseks kuulsa mõtteeksperimendiga: kujutage ette, et andke üliintelligentsele tehisintellektile eesmärgiks maksimeerida kirjaklambrite tootmist. Bostromi teeside kohaselt kasutab AI-süsteem selle eesmärgi saavutamiseks oma üliinimlikku sära ja loovust, et suurendada oma võimu ja kontrolli, omandades lõpuks kõik maailma ressursid, et toota rohkem kirjaklambreid. Inimkond sureb välja, kuid kirjaklambrite tootmine maksimeeritakse.

Kui arvate, et intelligentsust defineerib võime saavutada eesmärke, et inimesed võivad mis tahes eesmärgi "sisestada" superintelligentsesse tehisintellekti agendisse ja et selline agent kasutaks oma superintellekti selle eesmärgi saavutamiseks ükskõik milleks, siis jõuda samale järeldus mida Russell tegi: "Katastroofi tagamiseks on vaja ainult väga kompetentset masinat, mis on kombineeritud inimestega, kellel on ebatäiuslik võime inimeste eelistusi täielikult ja õigesti määratleda."

See on ulmekirjandusest tuttav troop – inimkonda ohustavad kontrolli alt väljas masinad, mis on inimeste soove valesti tõlgendanud. Nüüd tunneb tehisintellekti teadlaskonna mitteoluline osa seda tüüpi stsenaariumide pärast väga mures. Kümned instituudid on probleemile juba kulutanud sadu miljoneid dollareid ning ühtlustamist käsitlevad uuringud on käimas ülikoolides üle maailma ja suurtes tehisintellekti ettevõtetes, nagu Google, Meta ja OpenAI.

Kuidas on lood mittesuperintelligentse tehisintellektiga kaasnevate vahetumate riskidega, nagu töökaotus, eelarvamus, privaatsuse rikkumised ja valeinformatsiooni levik? Selgub, et peamiselt selliste lühiajaliste riskidega tegelevate kogukondade ja nende vahel, kes muretsevad rohkem pikemaajaliste joondamisriskide pärast, on vähe kattumist. Tegelikult käib seal midagi tehisintellekti kultuurisõda, kus üks pool on nende praeguste riskide pärast rohkem mures kui see, mida nad peavad ebarealistlikuks tehnofuturismiks, ja teine pool peab praeguseid probleeme vähem pakilisemaks kui superintelligentse tehisintellekti tekitatud võimalikud katastroofilised riskid.

Paljudele väljaspool neid konkreetseid kogukondi näeb tehisintellekti joondamine välja nagu religioon – see, kus on austatud juhid, vaieldamatu õpetus ja pühendunud jüngrid, kes võitlevad potentsiaalselt kõikvõimsa vaenlasega (ühinemata superintelligentne AI). Tõepoolest, arvutiteadlane ja blogija Scott Aaronson hiljuti märkida et tehisintellekti joondamise usus on nüüd olemas "õigeusu" ja "reformi" harud. Ta kirjutab, et esimene muretseb peaaegu täielikult "valesti joondatud tehisintellekti pärast, mis petab inimesi, samal ajal kui töötab nende hävitamiseks". Seevastu kirjutab ta: "Meie, reformi tehisintellekti riskijad, naudime seda võimalust, kuid me muretseme vähemalt sama palju võimsate AI-de pärast, mida on relvastanud halvad inimesed ja mis me eeldame, et need kujutavad endast eksistentsiaalseid riske palju varem."

Paljud teadlased tegelevad aktiivselt joondamisel põhinevate projektidega, alates katsed levitada põhimõtteid moraalifilosoofiast masinatele, to suurte keelemudelite koolitamine eetiliste hinnangute kohta. Ükski neist jõupingutustest pole olnud eriti kasulik, et panna masinad reaalsete olukordade üle arutlema. Paljud kirjanikud on märkinud paljusid takistusi, mis takistavad masinatel inimeste eelistusi ja väärtusi õppimast: inimesed on sageli irratsionaalsed ja käituvad viisil, mis on nende väärtustega vastuolus ning väärtused võivad muutuda elude ja põlvkondade jooksul. Lõppude lõpuks pole selge, kelle väärtusi peaksid masinad proovima õppida.

Paljud joonduskogukonnas arvavad, et kõige lootustandvam edasiminek on masinõppetehnika, mida tuntakse kui pöördtugevdusõpe (IRL). IRL-i puhul ei anta masinale eesmärki maksimeerida; Sellised "sisestatud" eesmärgid, usuvad joondamise pooldajad, võivad tahtmatult viia kirjaklambri maksimeerimise stsenaariumideni. Selle asemel on masina ülesanne jälgida inimeste käitumist ning järeldada nende eelistusi, eesmärke ja väärtusi. Viimastel aastatel on teadlased IRL-i kasutanud treenige masinaid videomängude mängimiseks inimesi jälgides ja roboteid õpetades kuidas teha tagasilööke andes neile järkjärgulist tagasisidet inimestelt (inimesed vaatasid lühikesi klippe roboti erinevatest katsetest ja valisid välja parima väljanägemise).

On ebaselge, kas sarnased meetodid suudavad masinatele õpetada inimväärtuste peenemaid ja abstraktsemaid ideid. Kirjanik Brian Christian, autor a populaarteaduslik raamat AI joondamisest, on optimistlik: „Ei ole nii veniv ette kujutada, et udune mõiste „tagasilend” asendataks veelgi hägusama ja kirjeldamatuma mõistega, nagu „abivalmidus”. Või "lahkus". Või "hea" käitumine.

Siiski arvan, et see alahindab väljakutset. Sellised eetilised mõisted nagu lahkus ja hea käitumine on palju keerulisemad ja kontekstist sõltuvamad kui miski muu, mida IRL on seni valdanud. Mõelge "tõesuse" mõistele – väärtust, mida me kindlasti oma tehisintellektisüsteemides tahame. Tõepoolest, tänapäeva suurte keelemudelite peamine probleem on nende suutmatus eristada tõde valest. Samal ajal võime mõnikord soovida, et meie tehisintellekti abilised, nagu inimesedki, vähendaksid oma tõepärasust: privaatsuse kaitsmiseks, teiste solvamise vältimiseks või kellegi turvalisuse tagamiseks lugematute muude raskesti väljendatavate olukordade hulgas.

Teised eetilised mõisted on sama keerulised. Peaks olema selge, et esimene oluline samm masinatele eetiliste kontseptsioonide õpetamise suunas on võimaldada masinatel mõista inimesesarnaseid kontseptsioone, mida ma olen väitnud, et see on endiselt AI. kõige olulisem avatud probleem.

Veelgi enam, ma näen veelgi fundamentaalsemat probleemi tehisintellekti joondamise aluseks olevate teaduste jaoks. Enamik arutelusid kujutab üliintelligentset tehisintellekti ette masinana, mis ületab inimesi kõigis kognitiivsetes ülesannetes, kuid millel puudub siiski inimlik terve mõistus ja mis jääb oma olemuselt veidralt mehaaniliseks. Ja mis kõige tähtsam, Bostromi ortogonaalsuse teesiga kooskõlas on masin saavutanud superintelligentsuse, ilma et tal oleks oma eesmärke või väärtusi, vaid oodates, kuni inimesed eesmärgid sisestavad.

Kuid kas luure võiks sel viisil töötada? Miski praeguses psühholoogia- ega neuroteaduses ei toeta seda võimalust. Vähemalt inimeste puhul on intelligentsus tihedalt seotud meie eesmärkide ja väärtustega, samuti meie enesetunde ning meie konkreetse sotsiaalse ja kultuurilise keskkonnaga. Intuitsioon, mille kohaselt võib teatud tüüpi puhast intelligentsust neist muudest teguritest eraldada, on viinud paljud ebaõnnestunud ennustused AI ajaloos. Meile teadaolevalt tundub palju tõenäolisem, et üldiselt intelligentse tehisintellektisüsteemi eesmärke ei saa hõlpsasti sisestada, vaid see peaks arenema nagu meie oma sotsiaalse ja kultuurilise kasvatuse tulemusena.

Oma raamatus Inimesega ühilduvRussell väidab, et joondamisprobleemi uurimine on kiireloomuline: "Õige aeg inimkonna jaoks potentsiaalselt tõsise probleemi pärast muretsemiseks ei sõltu mitte ainult probleemi ilmnemise ajast, vaid ka sellest, kui kaua võtab aega lahenduse ettevalmistamine ja rakendamine. ” Kuid ilma parema arusaamata sellest, mis intelligentsus on ja kui eraldatav see meie elu muudest aspektidest on, ei suuda me isegi probleemi määratleda, veel vähem lahendust leida. Joondusprobleemi õige määratlemine ja lahendamine ei ole lihtne; see nõuab meilt laiaulatusliku, teaduslikult põhjendatud intelligentsuse teooria väljatöötamist.

Ajatempel: Detsember 13, 2022Detsember 13, 2022

Ajatempel: September 15, 2022

Mida tähendab tehisintellekti vastavusse viimine inimlike väärtustega?

Taasavaldanud Platon

Veel alates Kvantamagazin

Arvutiteaduse tõestus paljastab ootamatu takerdumise vormi

Masinad õpivad paremini, kui õpetame neile põhitõdesid

Miks matemaatikud uuesti tõestavad seda, mida nad juba teavad?

Kuidas ehitada origami arvutit Quanta ajakiri

Küsimus pöörleva joone kohta aitab paljastada, mis teeb pärisnumbrid eriliseks

Kuidas saab lõpmatult palju peamisi olla üksteisest lõpmatult kaugel?

Kuidas iidsest varjutuse ennustamise kunstist sai täppisteadus | Ajakiri Quanta

Arvutiteadlane, kes suurendab privaatsust Internetis

Kaoseuurijad saavad nüüd ennustada ohtlikke tagasitulekupunkte

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto

Sissejuhatus