What Does It Mean To Align AI With Human Values?

Újra kiadta Platón

Követő: 0

Sok évvel ezelőtt megtanultam programozni egy régi Symbolics Lisp gépen. Az operációs rendszerben volt egy „DWIM” beépített parancs, amely a „Do What I Mean” rövidítése. Ha beírok egy parancsot, és hibaüzenetet kapok, beírhatom a „DWIM” kifejezést, és a gép megpróbálja kitalálni, hogy mit akarok csinálni. Az idő meglepő töredékében valóban működött.

A DWIM parancs az „AI-igazítás” modernebb problémájának mikrokozmosza volt: mi, emberek hajlamosak vagyunk kétértelmű vagy téves utasításokat adni a gépeknek, és azt akarjuk, hogy azt tegyék, amit gondolunk, nem feltétlenül azt, amit mondunk.

A számítógépek gyakran félreértelmezik azt, amit szeretnénk, hogy tegyenek, váratlan és gyakran mulatságos eredménnyel. Egy gépi tanulási kutató például, miközben egy képosztályozó program gyanúsan jó eredményeit vizsgálta, felfedezett hogy nem magára a képre alapozta az osztályozást, hanem arra, hogy mennyi ideig tartott a képfájl elérése – a különböző osztályokból származó képeket kissé eltérő hozzáférési idővel adatbázisokban tárolták. Egy másik vállalkozó szellemű programozó azt akarta, hogy Roomba porszívója ne ütközzen bútorokkal, ezért csatlakoztatta a Roombát egy neurális hálózathoz, amely jutalmazza a sebességet, de megbüntette a Roombát, amikor az első lökhárító valaminek ütközött. A gép ezeket a célokat úgy teljesítette, hogy mindig hátrafelé haladt.

Az AI-igazítást kutató közösség azonban látja ezeknek az anekdotáknak egy sötétebb oldalát is. Valójában úgy vélik, hogy az egzisztenciális kockázat, ha a gépek nem képesek felismerni, mit is akarunk tőlük. Úgy vélik, hogy ennek a problémának a megoldásához módot kell találnunk arra, hogy az AI-rendszereket az emberi preferenciákhoz, célokhoz és értékekhez igazítsuk.

Ez a nézet a 2014-es bestseller könyvvel vált előtérbe szuperintelligencia Nick Bostrom filozófus, aki részben azzal érvelt, hogy a számítógépek növekvő intelligenciája közvetlen veszélyt jelenthet az emberiség jövőjére. Bostrom soha nem definiálta pontosan az intelligenciát, de az AI-igazítási közösség többi tagjához hasonlóan később egy definíciót fogadott el. csuklós az AI-kutató Stuart russell így: „Nagyon véve egy entitást akkor tekintünk intelligensnek, ha olyan cselekvéseket választ, amelyek várhatóan elérik céljait, tekintettel arra, amit észlelt.”

Bostrom két tézisre alapozta véleményét az AI kockázatairól. Az első az ortogonalitás tézise, amely Bostrom szavaival élve kimondja: „Az intelligencia és a végső célok olyan merőleges tengelyek, amelyek mentén a lehetséges ágensek szabadon változhatnak. Más szóval, többé-kevésbé bármilyen szintű intelligencia elvileg kombinálható többé-kevésbé bármilyen végső céllal.” A második az instrumentális konvergencia tézise, amely azt jelenti, hogy az intelligens ágens olyan módon cselekszik, amely elősegíti saját túlélését, önfejlesztését és az erőforrások megszerzését, mindaddig, amíg ezek nagyobb valószínűséggel érik el végső célját. Aztán egy végső feltételezést tett: a kutatók hamarosan létrehoznak egy mesterséges intelligencia szuperintelligenciát – olyat, amely „nagymértékben meghaladja az emberek kognitív teljesítményét gyakorlatilag minden érdeklődési területen”.

Bostrom és a mesterséges intelligencia-közösség többi tagja számára ez a kilátás az emberiség végzetét jelenti, hacsak nem sikerül összhangba hoznunk a szuperintelligens AI-t vágyainkkal és értékeinkkel. Bostrom ezt a veszélyt egy ma már híres gondolatkísérlettel szemlélteti: Képzeld el, hogy egy szuperintelligens mesterséges intelligencia célul tűzze ki a gemkapcsok termelésének maximalizálását. Bostrom tézisei szerint e cél elérése érdekében a mesterséges intelligencia rendszer emberfeletti ragyogását és kreativitását használja fel saját erejének és irányíthatóságának növelésére, végül a világ összes erőforrását felvásárolja további gemkapcsok gyártásához. Az emberiség ki fog halni, de a gemkapocsgyártás valóban maximalizálódik.

Ha úgy gondolja, hogy az intelligenciát a célok elérésének képessége határozza meg, hogy az emberek bármilyen célt „beilleszthetnek” egy szuperintelligens AI-ügynökbe, és hogy egy ilyen ügynök a szuperintelligenciáját bármire felhasználná e cél elérése érdekében, akkor ugyanerre érkezzenek következtetés amit Russell tett: „A katasztrófa biztosításához csak egy rendkívül kompetens gépre van szükség, olyan emberekkel kombinálva, akik nem képesek tökéletesen és helyesen meghatározni az emberi preferenciákat.”

Ismerős trópus a sci-fi-ben – az emberiséget olyan kontrollálhatatlan gépek fenyegetik, amelyek félreértelmezték az emberi vágyakat. A mesterséges intelligencia-kutató közösség egy nem elhanyagolható szegmense most már mélyen aggódik az ilyen, a való életben játszódó forgatókönyvek miatt. Több tucat intézet költött már több százmillió dollárt a problémára, és az összehangolásra irányuló kutatások folynak a világ egyetemein és olyan nagy mesterségesintelligencia-cégeknél, mint a Google, a Meta és az OpenAI.

Mi a helyzet a nem szuperintelligens mesterséges intelligencia által jelentett közvetlenebb kockázatokkal, mint például a munkahely elvesztése, az elfogultság, a magánélet megsértése és a félretájékoztatás terjedése? Kiderült, hogy kevés az átfedés az elsősorban ilyen rövid távú kockázatokkal érintett közösségek és azok között, akik jobban aggódnak a hosszabb távú összehangolási kockázatok miatt. Valójában van valami mesterséges intelligencia-háború, ahol az egyik fél jobban aggódik ezek miatt a jelenlegi kockázatok miatt, mint az általuk irreális techno-futurizmus, a másik oldal pedig úgy véli, hogy a jelenlegi problémák kevésbé sürgősek, mint a szuperintelligens mesterséges intelligencia potenciális katasztrofális kockázatai.

Sokak számára ezeken a konkrét közösségeken kívül a mesterséges intelligencia igazodása valamiféle valláshoz hasonlít – egy olyan, amelyben tisztelt vezetők, megkérdőjelezhetetlen tanok és odaadó tanítványok harcolnak a potenciálisan mindenható ellenséggel (az összehangolatlan szuperintelligens MI). Sőt, az informatikus és blogger, Scott Aaronson nemrég neves hogy a mesterséges intelligencia igazodási hitének ma már „ortodox” és „reform” ága van. Az előbbi, írja, szinte teljes mértékben aggasztja „az elhibázott mesterséges intelligencia, amely megtéveszti az embereket, miközben elpusztítja őket”. Ezzel szemben azt írja, „mi, a reform AI-kockázatosok foglalkozunk ezzel a lehetőséggel, de legalább annyira aggódunk a rossz emberek által fegyverzett erős AI-k miatt, amelyekről azt várjuk, hogy sokkal korábban egzisztenciális kockázatot jelentenek.”

Sok kutató aktívan részt vesz az összehangoláson alapuló projektekben, kezdve a kísérletek az elvek átadására az erkölcsfilozófia a gépekhez, ahhoz nagy nyelvi modellek képzése a tömeges forrásból származó etikai ítéletekről. Ezen erőfeszítések egyike sem volt különösebben hasznos a gépek valós helyzetek megfontolásában. Sok író felfigyelt arra, hogy a gépek számos akadályt akadályoznak abban, hogy megtanulják az emberi preferenciákat és értékeket: Az emberek gyakran irracionálisak, és értékeiknek ellentmondó módon viselkednek, és az értékek az egyes életek és generációk során változhatnak. Végül is nem világos, hogy a gépek kinek az értékeit próbálják megtanulni.

Az igazítási közösségben sokan úgy gondolják, hogy a legígéretesebb út a gépi tanulási technika az úgynevezett inverz megerősítéses tanulás (IRL). Az IRL-nél a gép nem kap célt a maximalizálásra; Az ilyen „beszúrt” célok – vélik az igazodás hívei – akaratlanul is gemkapocsmaximalizálási forgatókönyvekhez vezethetnek. Ehelyett a gép feladata, hogy megfigyelje az emberek viselkedését, és következtessen preferenciáikra, céljaikra és értékeikre. Az elmúlt években a kutatók az IRL-t használták arra vonatgépek videojátékokhoz emberek megfigyelésével és robotok tanításával hogyan kell hátraszaltani fokozatosan visszajelzést adva nekik az emberektől (az emberek rövid klipeket néztek meg egy robot különféle próbálkozásairól, és kiválasztották a legjobban kinézőt).

Nem világos, hogy hasonló módszerekkel meg lehet-e tanítani a gépeket az emberi értékek finomabb és elvontabb elképzeléseire. Az író Brian Christian, szerzője a népszerű tudományos könyv a mesterséges intelligencia összehangolásáról, optimista: „Nem olyan nehéz elképzelni, hogy a „hátraszaladás” ködös fogalmát egy még homályosabb és kimondhatatlanabb fogalommal, például „segítőkészséggel” helyettesítjük. Vagy „kedvesség”. Vagy „jó” viselkedés.”

Úgy gondolom azonban, hogy ez alábecsüli a kihívást. Az olyan etikai fogalmak, mint a kedvesség és a jó viselkedés, sokkal összetettebbek és kontextusfüggőbbek, mint bármi, amit az IRL eddig elsajátított. Vegyük fontolóra az „igazságosság” fogalmát – ezt az értéket mindenképpen szeretnénk AI-rendszereinkben. Valójában a mai nagy nyelvi modellekkel az a fő probléma, hogy nem tudják megkülönböztetni az igazságot a hamisságtól. Ugyanakkor néha azt szeretnénk, hogy mesterséges intelligencia-asszisztenseink, akárcsak az emberek, mérsékeljék az őszinteségüket: megvédjék a magánéletüket, ne sértsenek meg másokat, vagy biztonságban tartsanak valakit, számtalan más nehezen megfogalmazható helyzet mellett.

Más etikai fogalmak ugyanilyen összetettek. Világosnak kell lennie, hogy a gépek etikai fogalmainak tanítása felé tett első lényeges lépés az, hogy lehetővé tegyük a gépek számára, hogy először is megértsék az emberszerű fogalmakat, amiről azt állítottam, hogy továbbra is az AI. legfontosabb nyitott probléma.

Ezen túlmenően egy még alapvetőbb problémát látok az AI-igazítás fogalmának alapjául szolgáló tudományban. A legtöbb eszmecsere a szuperintelligens mesterséges intelligencia gépezetként képzeli el, hogy bár minden kognitív feladatban felülmúlja az embert, még mindig hiányzik az emberi észérv, és furcsa módon mechanikus természetű marad. És ami fontos, Bostrom ortogonalitási tézisével összhangban a gép úgy érte el a szuperintelligenciát, hogy nem rendelkezett saját céljaival vagy értékeivel, ehelyett arra várt, hogy az emberek beillesszék a célokat.

Mégis működhet így az intelligencia? A jelenlegi pszichológia vagy idegtudomány semmi sem támogatja ezt a lehetőséget. Az embereknél legalábbis az intelligencia szorosan összefügg céljainkkal és értékeinkkel, valamint önérzetünkkel és sajátos társadalmi és kulturális környezetünkkel. Az az intuíció, hogy egyfajta tiszta intelligencia elválasztható ezektől a többi tényezőtől sok sikertelen jóslat az AI történetében. Ismereteink alapján sokkal valószínűbbnek tűnik, hogy egy általánosan intelligens mesterséges intelligencia rendszer céljait nem lehet könnyen beilleszteni, hanem a miénkhez hasonlóan a saját társadalmi és kulturális nevelésének eredményeként fejlődnie kell.

Könyvében Emberrel kompatibilisRussell az összehangolási probléma kutatásának sürgőssége mellett érvel: „Az emberiség számára potenciálisan súlyos probléma miatti aggódás megfelelő időpontja nemcsak attól függ, hogy a probléma mikor jelentkezik, hanem attól is, hogy mennyi ideig tart a megoldás előkészítése és megvalósítása. ” De anélkül, hogy jobban megértené, mi az intelligencia, és mennyire elválasztható az életünk más aspektusaitól, még a problémát sem tudjuk meghatározni, még kevésbé megoldást találni. Az igazítási probléma megfelelő meghatározása és megoldása nem lesz könnyű; ehhez egy széles körű, tudományosan megalapozott intelligenciaelmélet kidolgozására lesz szükségünk.

Időbélyeg: December 13, 2022December 13, 2022

Időbélyeg: 15. szeptember 2022.

Mit jelent az AI és az emberi értékek összehangolása?

Újra kiadta Platón

Még több Quantamagazine

A számítástechnikai bizonyíték az összefonódás váratlan formáját tárja fel

A gépek jobban tanulnak, ha megtanítjuk nekik az alapokat

Miért bizonyítják újra a matematikusok, amit már tudnak?

Hogyan készítsünk origami számítógépet | Quanta Magazin

A forgó vonallal kapcsolatos kérdés segít feltárni, mitől különlegesek a valós számok

Hogyan lehet végtelenül sok prímszám végtelenül távol egymástól?

Hogyan vált a fogyatkozás-jóslás ősi művészetéből pontos tudomány | Quanta Magazin

A számítógépes tudós, aki erősíti a magánélet védelmét az interneten

A káoszkutatók most megjósolhatják a vissza nem térő veszélyes pontokat

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók

Bevezetés