Mitä tekoälyn sovittaminen yhteen inhimillisten arvojen kanssa tarkoittaa? PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Mitä tekoälyn sovittaminen yhteen inhimillisten arvojen kanssa tarkoittaa?

esittely

Monta vuotta sitten opin ohjelmoimaan vanhalla Symbolics Lisp -koneella. Käyttöjärjestelmässä oli sisäänrakennettu komento "DWIM", lyhenne sanoista "Do What I Mean". Jos kirjoitin komennon ja sain virheilmoituksen, voisin kirjoittaa "DWIM" ja kone yrittää selvittää, mitä tarkoitin. Yllättävän osan ajasta se todella toimi.

DWIM-komento oli mikrokosmos nykyaikaisemmasta "AI-linjaus"-ongelmasta: Me ihmiset olemme taipuvaisia ​​antamaan koneille epäselviä tai virheellisiä ohjeita, ja haluamme niiden tekevän mitä tarkoitamme, ei välttämättä sitä, mitä sanomme.

Tietokoneet ymmärtävät usein väärin, mitä haluamme niiden tekevän, ja tuloksena on odottamattomia ja usein hauskoja tuloksia. Esimerkiksi eräs koneoppimisen tutkija tutkiessaan kuvan luokitteluohjelman epäilyttävän hyviä tuloksia, löysi että luokittelu ei perustunut itse kuvaan, vaan siihen, kuinka kauan kuvatiedostoon pääsy kesti – eri luokkien kuvat tallennettiin tietokantoihin, joilla oli hieman eri pääsyajat. Toinen yritteliäs ohjelmoija halusi Roomba-pölynimurinsa lopettavan törmäyksen huonekaluihin, joten hän yhdisti Roomban hermoverkkoon, joka palkitsi nopeuden, mutta rankaisi Roombaa, kun etupuskuri törmäsi johonkin. Kone täytti nämä tavoitteet ajamalla aina taaksepäin.

Mutta tekoälyn suuntaamisen tutkijoiden yhteisö näkee näissä anekdooteissa pimeämmän puolen. Itse asiassa he uskovat, että koneiden kyvyttömyys erottaa, mitä me todella haluamme heidän tekevän, on eksistentiaalinen riski. He uskovat, että tämän ongelman ratkaisemiseksi meidän on löydettävä tapoja sovittaa tekoälyjärjestelmät ihmisten mieltymyksiin, tavoitteisiin ja arvoihin.

Tämä näkemys nousi esiin vuoden 2014 bestseller-kirjan myötä Yliopisto filosofi Nick Bostrom, joka väitti osittain, että tietokoneiden älykkyyden nousu voi muodostaa suoran uhan ihmiskunnan tulevaisuudelle. Bostrom ei koskaan määritellyt tarkasti älykkyyttä, mutta kuten useimmat muut tekoälyyhdistysyhteisön jäsenet, hän hyväksyi määritelmän myöhemmin. nivel- tekoälytutkijan toimesta Stuart russell kuten: "Kokoa pidetään älykkäänä karkeasti sanottuna, jos se valitsee toimia, joiden odotetaan saavuttavan sen tavoitteet, kun otetaan huomioon, mitä se on havainnut."

Bostrom perusti näkemyksensä tekoälyn riskeistä kahteen teesiin. Ensimmäinen on ortogonaalisuuden teesi, joka sanoo Bostromin sanoin: ”Älykkyys ja lopulliset tavoitteet ovat ortogonaalisia akseleita, joita pitkin mahdolliset agentit voivat vapaasti vaihdella. Toisin sanoen enemmän tai vähemmän mikä tahansa älykkyystaso voitaisiin periaatteessa yhdistää enemmän tai vähemmän mihin tahansa lopulliseen tavoitteeseen." Toinen on instrumentaalisen konvergenssin teesi, joka tarkoittaa, että älykäs agentti toimii tavoilla, jotka edistävät omaa selviytymistään, itsensä kehittämistä ja resurssien hankkimista, kunhan nämä saavat agentin todennäköisemmin saavuttamaan lopullisen tavoitteensa. Sitten hän teki yhden viimeisen oletuksen: tutkijat luovat pian tekoälyn superälyn - sellaisen, joka "ylittää suuresti ihmisten kognitiivisen suorituskyvyn käytännössä kaikilla kiinnostavilla aloilla".

Bostromille ja muille tekoälyyhdistysyhteisön jäsenille tämä mahdollisuus merkitsee tuhoa ihmiskunnalle, ellemme onnistu sovittamaan superälykkäitä tekoälyjä halujemme ja arvojemme kanssa. Bostrom havainnollistaa tätä vaaraa nyt kuuluisalla ajatuskokeella: Kuvittele, että superälykkäälle tekoälylle asetetaan tavoitteeksi maksimoida paperiliittimien tuotanto. Bostromin teesien mukaan tämän tavoitteen saavuttamiseksi tekoälyjärjestelmä käyttää yli-inhimillistä loistoaan ja luovuuttaan oman tehonsa ja hallinnan lisäämiseen ja hankkii lopulta kaikki maailman resurssit valmistaakseen lisää paperiliittimiä. Ihmiskunta kuolee sukupuuttoon, mutta paperiliittimien tuotanto todellakin maksimoidaan.

Jos uskot, että älykkyyden määrittelee kyky saavuttaa tavoitteita, että ihmiset voivat "lisätä" minkä tahansa tavoitteen superälykkääseen tekoälyagenttiin ja että tällainen agentti käyttäisi superälykkyyttään tehdäkseen mitä tahansa tämän tavoitteen saavuttamiseksi, saapua samaan johtopäätös jonka Russell teki: "Katastrofin takaamiseksi tarvitaan vain erittäin pätevä kone yhdistettynä ihmisiin, joilla on epätäydellinen kyky määrittää ihmisten mieltymykset täydellisesti ja oikein."

Se on tuttu trooppinen tieteiskirjallisuus – ihmiskuntaa uhkaavat hallitsemattomat koneet, jotka ovat tulkinneet väärin ihmisten toiveet. Nyt pieni osa tekoälytutkimusyhteisöstä on syvästi huolissaan tämänkaltaisista tosielämän skenaarioista. Kymmenet laitokset ovat jo käyttäneet satoja miljoonia dollareita ongelmaan, ja yhdenmukaistamista tutkitaan yliopistoissa ympäri maailmaa ja suurissa tekoälyyrityksissä, kuten Google, Meta ja OpenAI.

Entä ei-superälykkään tekoälyn aiheuttamat välittömät riskit, kuten työpaikan menetys, harha, yksityisyyden loukkaukset ja väärän tiedon leviäminen? Osoittautuu, että pääasiassa tällaisista lyhytaikaisista riskeistä kiinnostuneiden yhteisöjen ja niiden välillä, jotka ovat enemmän huolissaan pitkän aikavälin yhdenmukaistamisriskeistä, ei ole juurikaan päällekkäisyyksiä. Itse asiassa kyseessä on tekoälykulttuurisota, jossa toinen osapuoli on enemmän huolissaan näistä nykyisistä riskeistä kuin epärealistisena teknofuturismina näkemästään, ja toinen osapuoli pitää nykyisiä ongelmia vähemmän kiireellisinä kuin superälykkään tekoälyn aiheuttamat mahdolliset katastrofaaliset riskit.

Monien näiden tiettyjen yhteisöjen ulkopuolella tekoälyn suuntautuminen näyttää uskonnolta – uskonnolla, jossa on arvostettuja johtajia, kyseenalaistamatonta oppia ja omistautuneita opetuslapsia, jotka taistelevat potentiaalisesti kaikkivoipaa vihollista vastaan ​​(kohdistamaton superälykäs tekoäly). Itse asiassa tietojenkäsittelytieteilijä ja bloggaaja Scott Aaronson äskettäin huomattava että nyt on olemassa "ortodoksinen" ja "uudistus" AI-linjaususkossa. Hän kirjoittaa, että edellinen on lähes täysin huolissaan "virheellisesti kohdistetusta tekoälystä, joka pettää ihmisiä samalla kun se pyrkii tuhoamaan heidät". Sitä vastoin hän kirjoittaa: "Me Reformin tekoälyn riskitekijät pidämme tästä mahdollisuudesta, mutta olemme vähintään yhtä paljon huolissamme tehokkaista tekoälyistä, jotka huonot ihmiset ovat aseistautuneet ja joiden odotamme aiheuttavan eksistentiaalisia riskejä paljon aikaisemmin."

Monet tutkijat ovat aktiivisesti mukana linjaukseen perustuvissa projekteissa, mm yrittää välittää periaatteita moraalifilosofiasta koneille suurten kielimallien koulutus joukkorahoitteisista eettisistä arvioista. Mikään näistä ponnisteluista ei ole ollut erityisen hyödyllinen koneiden saamisessa pohtimaan todellisia tilanteita. Monet kirjoittajat ovat panneet merkille monet esteet, jotka estävät koneita oppimasta ihmisten mieltymyksiä ja arvoja: Ihmiset ovat usein irrationaalisia ja käyttäytyvät tavalla, joka on ristiriidassa heidän arvojensa kanssa, ja arvot voivat muuttua yksittäisten elämien ja sukupolvien aikana. Loppujen lopuksi ei ole selvää, kenen arvoja koneiden pitäisi yrittää oppia.

Monien kohdistusyhteisön mielestä lupaavin tie eteenpäin on koneoppimistekniikka, joka tunnetaan nimellä käänteinen vahvistusoppiminen (IRL). IRL:n kanssa koneelle ei ole annettu tavoitetta maksimoida; Sellaiset "lisätyt" tavoitteet, linjauksen kannattajat uskovat, voivat vahingossa johtaa paperiliittimen maksimointiskenaarioihin. Sen sijaan koneen tehtävänä on tarkkailla ihmisten käyttäytymistä ja päätellä heidän mieltymyksensä, tavoitteensa ja arvonsa. Viime vuosina tutkijat ovat käyttäneet IRL:ää kouluttaa koneita videopelien pelaamiseen tarkkailemalla ihmisiä ja opettamalla robotteja kuinka tehdä backflips antamalla heille asteittain palautetta ihmisiltä (ihmiset katsoivat lyhyitä leikkeitä robotin erilaisista yrityksistä ja valitsivat parhaalta näyttävän).

On epäselvää, voidaanko vastaavilla menetelmillä opettaa koneille hienovaraisempia ja abstraktimpia ideoita inhimillisistä arvoista. Kirjailija Brian Christian, kirjoittaja a populaaritieteellinen kirja tekoälyn suuntautumisesta, on optimistinen: "Ei ole niin vaikeaa kuvitella, että "takaisinflip"-käsite korvattaisiin vieläkin epäselvämmällä ja sanoinkuvaamattomalla käsitteellä, kuten "avullisuus". Tai "ystävällisyys". Tai "hyvää" käytöstä."

Mielestäni tämä kuitenkin aliarvioi haasteen. Eettiset käsitteet, kuten ystävällisyys ja hyvä käytös, ovat paljon monimutkaisempia ja kontekstiriippuvaisempia kuin mikään IRL:n tähän mennessä oppima. Harkitse "totuudenmukaisuuden" käsitettä – arvoa, jonka haluamme varmasti tekoälyjärjestelmiimme. Todellakin, suuri ongelma nykypäivän suurissa kielimalleissa on niiden kyvyttömyys erottaa totuus valheesta. Samalla saatamme joskus haluta tekoälyapulaisten, aivan kuten ihmistenkin, lieventävän totuudenmukaisuuttaan: suojelemaan yksityisyyttä, välttämään muiden loukkaamista tai pitämään jonkun turvassa lukemattomien muiden vaikeasti ilmaistavien tilanteiden joukossa.

Muut eettiset käsitteet ovat yhtä monimutkaisia. Pitäisi olla selvää, että olennainen ensimmäinen askel kohti koneiden eettisten käsitteiden opettamista on se, että koneet pystyvät alun perin ymmärtämään ihmisen kaltaisia ​​käsitteitä, mikä on mielestäni edelleen tekoälyä. tärkein avoin ongelma.

Lisäksi näen vielä perustavanlaatuisemman ongelman tekoälyn suuntaamisen taustalla olevissa tieteissä. Useimmat keskustelut kuvittelevat superälykkään tekoälyn koneeksi, joka ohittaa ihmiset kaikissa kognitiivisissa tehtävissä, mutta jolla ei silti ole inhimillistä maalaisjärkeä ja joka on luonteeltaan oudosti mekaaninen. Ja mikä tärkeintä, Bostromin ortogonaalisuusteesin mukaisesti kone on saavuttanut superälyn ilman omia tavoitteitaan tai arvojaan, vaan odottaa ihmisten asettamia tavoitteita.

Voisiko äly kuitenkin toimia tällä tavalla? Mikään nykyinen psykologia tai neurotiede ei tue tätä mahdollisuutta. Ainakin ihmisillä älykkyys liittyy syvästi tavoitteisiimme ja arvoihimme sekä itsetunteeseemme ja erityiseen sosiaaliseen ja kulttuuriseen ympäristöömme. Intuitio, että eräänlainen puhdas äly voidaan erottaa näistä muista tekijöistä, on johtanut monet epäonnistuneet ennusteet AI:n historiassa. Sen perusteella, mitä tiedämme, näyttää paljon todennäköisemmältä, että yleisesti älykkään tekoälyjärjestelmän tavoitteita ei voitaisi helposti asettaa, vaan sen pitäisi kehittyä, kuten meidän, oman sosiaalisen ja kulttuurisen kasvatuksensa seurauksena.

Kirjassaan Ihmisille sopivaRussell puolustaa linjausongelman tutkimuksen kiireellisyyttä: "Oikea aika huolehtia ihmiskunnalle mahdollisesti vakavasta ongelmasta ei riipu pelkästään siitä, milloin ongelma ilmenee, vaan myös siitä, kuinka kauan ratkaisun valmistelu ja toteuttaminen kestää. ” Mutta ilman parempaa ymmärrystä siitä, mitä älykkyys on ja kuinka erotettavissa se on muista elämämme osa-alueista, emme voi edes määritellä ongelmaa, saati löytää ratkaisua. Kohdistusongelman oikea määrittely ja ratkaiseminen ei ole helppoa; se vaatii meitä kehittämään laajan, tieteellisesti perustetun älykkyysteorian.

Aikaleima:

Lisää aiheesta Kvantamagatsiini