Ce înseamnă alinierea AI cu valorile umane? PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Ce înseamnă alinierea AI cu valorile umane?

Introducere

Cu mulți ani în urmă, am învățat să programez pe o mașină veche Symbolics Lisp. Sistemul de operare avea o comandă încorporată scrisă „DWIM”, prescurtare pentru „Do What I Mean”. Dacă introducem o comandă și primeam o eroare, puteam introduce „DWIM”, iar mașina ar încerca să-și dea seama ce am vrut să fac. O fracțiune surprinzătoare a timpului, chiar a funcționat.

Comanda DWIM a fost un microcosmos al problemei mai moderne a „alinierii AI”: noi, oamenii, suntem predispuși să dăm mașinilor instrucțiuni ambigue sau greșite și vrem ca ele să facă ceea ce vrem să spunem, nu neapărat ceea ce spunem.

Calculatoarele interpretează adesea greșit ceea ce vrem să facă, cu rezultate neașteptate și adesea amuzante. Un cercetător de învățare automată, de exemplu, în timp ce investighează rezultatele suspect de bune ale unui program de clasificare a imaginilor, a descoperit că se baza clasificările nu pe imaginea în sine, ci pe cât de mult a durat accesarea fișierului imagine — imaginile din diferite clase erau stocate în baze de date cu timpi de acces ușor diferiți. O alta programator întreprinzător a vrut ca aspiratorul său Roomba să nu se lovească de mobilă, așa că a conectat Roomba la o rețea neuronală care a recompensat viteza, dar a pedepsit Roomba când bara de protecție din față s-a ciocnit de ceva. Mașina a adaptat aceste obiective conducând întotdeauna înapoi.

Dar comunitatea cercetătorilor de aliniere AI vede o latură mai întunecată a acestor anecdote. De fapt, ei cred că incapacitatea mașinilor de a discerne ceea ce vrem cu adevărat să facă este un risc existențial. Pentru a rezolva această problemă, cred ei, trebuie să găsim modalități de a alinia sistemele AI cu preferințele, obiectivele și valorile umane.

Această viziune a câștigat proeminență odată cu cea mai bine vândută carte din 2014 Super inteligență de filozoful Nick Bostrom, care a susținut parțial că inteligența în creștere a computerelor ar putea reprezenta o amenințare directă pentru viitorul umanității. Bostrom nu a definit niciodată cu precizie inteligența, dar, ca majoritatea celorlalți din comunitatea de aliniere AI, a adoptat o definiție mai târziu articulat de către cercetătorul AI Stuart Russell ca: „O entitate este considerată inteligentă, în linii mari, dacă alege acțiuni despre care se așteaptă să-și atingă obiectivele, având în vedere ceea ce a perceput.”

Bostrom și-a bazat viziunea asupra riscurilor AI pe două teze. Prima este teza de ortogonalitate, care afirmă, în cuvintele lui Bostrom, „Inteligenta și scopurile finale sunt axe ortogonale de-a lungul cărora agenții posibili pot varia liber. Cu alte cuvinte, mai mult sau mai puțin orice nivel de inteligență ar putea fi, în principiu, combinat cu mai mult sau mai puțin orice scop final.” A doua este teza de convergență instrumentală, care implică faptul că un agent inteligent va acționa în moduri care să-și promoveze propria supraviețuire, auto-îmbunătățirea și achiziționarea de resurse, atâta timp cât acestea fac ca agentul să își atingă obiectivul final. Apoi a făcut o ultimă presupunere: cercetătorii vor crea în curând o superinteligență AI – una care „depășește cu mult performanța cognitivă a oamenilor în aproape toate domeniile de interes”.

Pentru Bostrom și alții din comunitatea de aliniere a AI, această perspectivă înseamnă un dezastru pentru umanitate, dacă nu reușim să aliniem AI-urile superinteligente cu dorințele și valorile noastre. Bostrom ilustrează acest pericol cu ​​un experiment de gândire acum faimos: imaginați-vă că oferiți unui AI superinteligent obiectivul de a maximiza producția de agrafe. Conform tezelor lui Bostrom, în încercarea de a atinge acest obiectiv, sistemul AI își va folosi strălucirea și creativitatea supraomenească pentru a-și crește propria putere și control, dobândind în cele din urmă toate resursele lumii pentru a produce mai multe agrafe de hârtie. Omenirea se va stinge, dar producția de agrafe va fi într-adevăr maximizată.

Dacă credeți că inteligența este definită de capacitatea de a atinge obiective, că orice scop ar putea fi „inserat” de oameni într-un agent AI superinteligent și că un astfel de agent și-ar folosi superinteligența pentru a face orice pentru a atinge acel obiectiv, atunci veți ajunge la fel concluzie ceea ce a făcut Russell: „Tot ceea ce este necesar pentru a asigura catastrofa este o mașină foarte competentă combinată cu oameni care au o capacitate imperfectă de a specifica preferințele umane complet și corect.”

Este un trop cunoscut în science fiction - umanitatea fiind amenințată de mașini scăpate de sub control care au interpretat greșit dorințele umane. Acum, un segment nesubstanțial al comunității de cercetare AI este profund îngrijorat de acest tip de scenariu care se desfășoară în viața reală. Zeci de institute au cheltuit deja sute de milioane de dolari pe această problemă, iar eforturile de cercetare privind aliniere sunt în curs de desfășurare la universități din întreaga lume și la mari companii de inteligență artificială precum Google, Meta și OpenAI.

Cum rămâne cu riscurile mai imediate prezentate de AI nesuprainteligentă, cum ar fi pierderea locurilor de muncă, părtinire, încălcări ale confidențialității și răspândirea dezinformării? Se dovedește că există puține suprapuneri între comunitățile preocupate în primul rând de astfel de riscuri pe termen scurt și cele care își fac mai multe griji cu privire la riscurile de aliniere pe termen lung. De fapt, există un fel de război cultural al inteligenței artificiale, cu o parte mai îngrijorată de aceste riscuri actuale decât ceea ce consideră ei ca tehno-futurism nerealist, iar cealaltă parte considerând problemele actuale mai puțin urgente decât potențialele riscuri catastrofale prezentate de inteligența artificială superinteligentă.

Pentru mulți din afara acestor comunități specifice, alinierea AI arată ceva ca o religie - una cu lideri venerați, doctrină neîndoielnică și discipoli devotați care luptă cu un inamic potențial atotputernic (AI superinteligentă nealiniată). Într-adevăr, informaticianul și bloggerul Scott Aaronson recent notat că există acum ramuri „ortodoxe” și „reforme” ale credinței de aliniere a AI. Primul, scrie el, se îngrijorează aproape în întregime de „AI nealiniată care înșală oamenii în timp ce lucrează pentru a-i distruge”. În contrast, scrie el, „noi, cei care riscă reforma AI, considerăm această posibilitate, dar ne îngrijorăm cel puțin la fel de mult pentru IA puternice care sunt armate de oameni răi, despre care ne așteptăm să prezinte riscuri existențiale mult mai devreme”.

Mulți cercetători sunt implicați activ în proiecte bazate pe aliniere, variind de la încercări de a transmite principii de filozofie morală la mașini, la antrenarea modelelor lingvistice mari pe judecăți etice crowdsourced. Niciunul dintre aceste eforturi nu a fost deosebit de util pentru a determina mașinile să raționeze despre situațiile din lumea reală. Mulți scriitori au remarcat numeroasele obstacole care împiedică mașinile să învețe preferințele și valorile umane: oamenii sunt adesea iraționali și se comportă în moduri care contrazic valorile lor, iar valorile se pot schimba de-a lungul vieților și generațiilor individuale. La urma urmei, nu este clar ale cui valori ar trebui să încerce mașinile să le învețe.

Mulți din comunitatea de aliniere cred că cea mai promițătoare cale este o tehnică de învățare automată cunoscută sub numele de învăţarea prin întărire inversă (IRL). Cu IRL, mașinii nu are un obiectiv de maximizat; astfel de obiective „inserate”, cred susținătorii alinierii, pot duce, din neatenție, la scenarii de maximizare a agrafelor. În schimb, sarcina mașinii este să observe comportamentul oamenilor și să deducă preferințele, obiectivele și valorile acestora. În ultimii ani, cercetătorii au folosit IRL pentru antrenează mașini pentru a juca jocuri video prin observarea oamenilor și să învețe roboți cum să faci backflips oferindu-le feedback incremental de la oameni (oamenii au văzut scurte clipuri ale diferitelor încercări ale unui robot și au ales-o pe cea care arăta cel mai bine).

Nu este clar dacă metode similare pot învăța mașinile ideile mai subtile și mai abstracte ale valorilor umane. Scriitorul Brian Christian, autorul a carte de știință populară despre alinierea AI, este optimist: „Nu este atât de exagerat să-ți imaginezi înlocuirea conceptului nebulos de „backflip” cu un concept și mai nebulos și inefabil, precum „utilitate”. Sau „bunătatea”. Sau comportament „bun””.

Cu toate acestea, cred că acest lucru subestimează provocarea. Noțiuni etice precum bunătatea și comportamentul bun sunt mult mai complexe și dependente de context decât orice a stăpânit IRL până acum. Luați în considerare noțiunea de „adevar” – o valoare pe care ne-o dorim cu siguranță în sistemele noastre AI. Într-adevăr, o problemă majoră cu modelele mari de limbaj de astăzi este incapacitatea lor de a distinge adevărul de fals. În același timp, ne putem dori uneori ca asistenții noștri AI, la fel ca oamenii, să-și tempereze veridicitatea: pentru a proteja intimitatea, pentru a evita insultarea altora sau pentru a păstra pe cineva în siguranță, printre nenumărate alte situații greu de exprimat.

Alte concepte etice sunt la fel de complexe. Ar trebui să fie clar că un prim pas esențial către predarea conceptelor etice ale mașinilor este acela de a permite mașinilor să înțeleagă concepte asemănătoare oamenilor, în primul rând, despre care am susținut că este încă un AI. cea mai importantă problemă deschisă.

Mai mult, văd o problemă și mai fundamentală cu noțiunile științifice care stau la baza alinierii AI. Cele mai multe discuții imaginează o inteligență artificială superinteligentă ca pe o mașină care, deși depășește oamenii în toate sarcinile cognitive, încă nu are bunul simț uman și rămâne ciudat de mecanică în natură. Și, important, în conformitate cu teza de ortogonalitate a lui Bostrom, mașina a obținut superinteligență fără a avea niciunul dintre propriile obiective sau valori, așteaptă în schimb ca obiectivele să fie introduse de oameni.

Cu toate acestea, inteligența ar putea funcționa așa? Nimic din știința actuală a psihologiei sau neuroștiinței nu susține această posibilitate. La oameni, cel puțin, inteligența este profund interconectată cu scopurile și valorile noastre, precum și cu sentimentul nostru de sine și cu mediul nostru social și cultural particular. A dus la intuiția că un fel de inteligență pură ar putea fi separată de acești alți factori multe predicții eșuate în istoria AI. Din câte știm, pare mult mai probabil ca obiectivele unui sistem AI în general inteligent să nu poată fi introduse cu ușurință, ci să se dezvolte, ca și al nostru, ca urmare a propriei sale educații sociale și culturale.

În cartea sa Compatibil uman, Russell susține urgența cercetării asupra problemei de aliniere: „Momentul potrivit pentru a vă face griji cu privire la o problemă potențial gravă pentru umanitate depinde nu doar de momentul în care va apărea problema, ci și de cât timp va dura pregătirea și implementarea unei soluții. ” Dar fără a înțelege mai bine ce este inteligența și cât de separabilă este ea de alte aspecte ale vieții noastre, nici măcar nu putem defini problema, cu atât mai puțin să găsim o soluție. Definirea și rezolvarea corectă a problemei de aliniere nu va fi ușoară; ne va cere să dezvoltăm o teorie largă a inteligenței, bazată științific.

Timestamp-ul:

Mai mult de la Quantamagazina