Pionierul în calcul ajută AI să vadă | Revista Quanta

Pionierul în calcul ajută AI să vadă | Revista Quanta

The Computing Pioneer Helping AI See | Quanta Magazine PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Introducere

Cand Alexei Efros s-a mutat cu familia din Rusia în California când era adolescent în anii 1980, și-a adus computerul personal construit în Soviet, un Elektronika BK-0010. Aparatul nu avea stocare externă și se supraîncălzi la fiecare câteva ore, așa că pentru a juca jocuri video, a trebuit să scrie cod, să depaneze și să joace rapid - înainte ca aparatul să se închidă. Acel ciclu, repetat în majoritatea zilelor, i-a accelerat învățarea.

„Am fost foarte norocos că acest computer sovietic nu era foarte bun!” spuse Efros, care râde ușor și vorbește cu un blând accent rusesc. El nu joacă atâtea jocuri în zilele noastre, dar acea dorință de a explora și de a profita la maximum de instrumentele sale rămâne.

În școala absolventă de la Universitatea din California, Berkeley, Efros a început să facă drumeții și să exploreze frumusețea naturală a Bay Area. Nu a trecut mult până când a început să combine pasiunea pentru computere cu plăcerea pe care o are de aceste priveliști. El a dezvoltat o modalitate de a petice perfect găurile în fotografii - de exemplu, înlocuind un tomberon rătăcit într-o fotografie a unei păduri de sequoie cu copaci cu aspect natural. Adobe Photoshop a adoptat ulterior o versiune a tehnicii pentru instrumentul său de „umplere în funcție de conținut”.

Acum, un informatician la Laboratorul de Cercetare a Inteligenței Artificiale Berkeley, Efros combină seturi masive de date online cu algoritmi de învățare automată pentru a înțelege, modela și re-crea lumea vizuală. În 2016, Asociația pentru Mașini de Calcul ia premiat-o Premiul în calcul pentru munca sa creând imagini sintetice realiste, numindu-l „alchimist de imagini. "

Introducere

Efros spune că, în ciuda eforturilor cercetătorilor, mașinile încă văd fundamental diferit de noi. „Peticele de culoare și luminozitate ne cer să conectăm ceea ce vedem acum cu memoria noastră despre unde am văzut aceste lucruri înainte”, a spus Efros. „Această conexiune dă sens a ceea ce vedem.” De prea multe ori, mașinile văd ce este acolo în acest moment fără a-l conecta la ceea ce au văzut înainte.

Dar diferența poate avea avantaje. În viziunea computerizată, Efros apreciază imediatitatea de a ști dacă un algoritm conceput pentru a recunoaște obiecte și scene funcționează pe o imagine. Unele dintre întrebările sale de viziune computerizată, cum ar fi „Ce face Parisul să semene cu Parisul?” — au o înclinație filozofică. Altele, cum ar fi modul de abordare persistentă părtinire în seturile de date, sunt practice și presante.

„Există o mulțime de oameni care fac AI cu limbaj în acest moment”, a spus Efros. „Vreau să mă uit la modelele complet vizuale care au rămas în urmă.” Îmbunătățind vederea computerizată, nu numai că speră la aplicații practice mai bune, cum ar fi mașinile cu conducere autonomă; el dorește, de asemenea, să extragă aceste informații pentru a înțelege mai bine ceea ce el numește „inteligență vizuală umană” – cum dau oamenii sens a ceea ce văd.

Revista Quanta sa întâlnit cu Efros în biroul său din Berkeley pentru a vorbi despre superputeri științifice, dificultatea de a descrie elementele vizuale și cât de periculoasă este inteligența artificială cu adevărat. Interviul a fost condensat și editat pentru claritate.

Introducere

Cum s-a îmbunătățit vederea computerizată de când erai student?

Când mi-am început doctoratul, nu era aproape nimic util. Unii roboți înșurubau niște șuruburi folosind viziunea computerizată, dar era limitat la acest tip de cadru industrial foarte controlat. Apoi, brusc, camera mea a detectat fețe și le-a făcut mai clare.

Acum, viziunea computerizată se află într-un număr mare de aplicații, cum ar fi mașinile cu conducere autonomă. Durează mai mult decât credeau inițial unii, dar totuși, există progrese. Pentru cineva care nu conduce, acest lucru este extrem de interesant.

Stai, nu conduci?

Nu, nu văd suficient de bine pentru a conduce! [Râde.] Pentru mine, asta ar schimba jocul – să am o mașină care să mă ducă în locuri.

Nu mi-am dat seama că vederea te împiedică să conduci. Puteți vedea imaginile cu care lucrați pe un monitor de computer?

Dacă le fac suficient de mari. Puteți vedea că fonturile mele sunt destul de mari. M-am născut nevăzând bine. Cred că toți ceilalți sunt un ciudat pentru că au o viziune nebună de bună.

Statutul tău de non-ciudat a influențat direcția ta de cercetare?

Cine ştie? Cu siguranță nu a existat sensul „Oh, nu văd bine, așa că voi face computere care să vadă mai bine”. Nu, nu am avut niciodată asta ca motivație.

Pentru a fi un bun om de știință, ai nevoie de o superputere secretă. Trebuie să faci ceva mai bun decât toți ceilalți. Lucrul grozav despre știință este că nu toți avem aceeași superputere. Poate că superputerea mea a fost că, pentru că nu văd foarte bine, s-ar putea să am o perspectivă mai bună asupra problemei vederii.

Introducere

Am înțeles devreme despre importanța datelor anterioare atunci când privesc lumea. Nu mă puteam vedea foarte bine, dar amintirea experiențelor anterioare a umplut găurile suficient încât să pot funcționa la fel de bine ca o persoană normală. Majoritatea oamenilor nu știu că nu văd bine. Asta mi-a dat – cred – această intuiție unică că ar putea fi mai puțin despre pixeli și mai mult despre memorie.

Calculatoarele văd doar ceea ce este acolo, în timp ce noi vedem momentul conectat la tapiseria a tot ceea ce am văzut înainte.

Este chiar posibil să exprimăm în cuvinte tiparele vizuale subtile care, de exemplu, fac Parisul să semene cu Parisul?

Când te afli într-un anume oraș, uneori știi doar în ce oraș te afli – există asta je ne sais quoi, chiar dacă nu ai fost niciodată la acel colț de stradă. Este extrem de greu de descris în cuvinte, dar este chiar acolo, în pixeli.

[Pentru Paris], ați putea vorbi despre cum sunt de obicei clădiri cu șase etaje și, de obicei, sunt balcoane la etajul al patrulea. Ați putea exprima o parte din acestea în cuvinte, dar multe nu sunt lingvistice. Pentru mine asta e incitant.

Lucrarea ta recentă implică predarea computerelor ingera date vizuale în moduri care imită vederea umană. Cum funcționează?

În acest moment, computerele au un set de date imens: miliarde de imagini aleatorii răzuite de pe internet. Ei iau imagini aleatorii, procesează o imagine, apoi iau o altă imagine aleatorie, procesează asta etc. Îți antrenezi sistemul [vizual al computerului] parcurgând peste și peste acest set de date.

Modul în care noi – agenții biologici – ingerăm date este foarte diferit. Când ne confruntăm cu o situație nouă, este singura și singura dată când aceste date vor fi acolo pentru noi. Nu am fost niciodată în această situație exactă, în această cameră, cu acest iluminat, îmbrăcați așa. În primul rând, folosim aceste date pentru a face ceea ce trebuie să facem, pentru a înțelege lumea. Apoi, folosim aceste date pentru a învăța din ele, [pentru a prezice] viitorul.

Introducere

De asemenea, datele pe care le vedem nu sunt aleatorii. Ceea ce vezi acum este foarte corelat cu ceea ce ai văzut acum câteva secunde. Te poți gândi la asta ca la un videoclip. Toate cadrele videoclipului sunt corelate între ele, ceea ce este foarte diferit de modul în care computerele procesează datele.

Mă interesează ca abordarea noastră de învățare să fie una în care computerele văd datele pe măsură ce intră, le procesează și învață din ele pe măsură ce merg.

Îmi imaginez că nu este la fel de simplu ca să se uite computerele la videoclipuri în loc de imagini statice.

Nu, mai aveți nevoie de [calculatoare] pentru a vă adapta. Sunt interesat să învăț abordări care văd datele pe măsură ce vin și apoi procesează și învață din ele pe măsură ce merg. O abordare pe care o avem este cunoscută ca antrenament în timpul testului. Ideea este că, pe măsură ce te uiți la o secvență de imagini precum un videoclip, lucrurile s-ar putea schimba. Deci nu vrei ca modelul tău să fie reparat. La fel cum un agent biologic se adaptează mereu la mediul înconjurător, dorim ca computerul să se adapteze continuu.

Paradigma standard este că te antrenezi mai întâi pe un set de date mari și apoi implementezi. Dall·E și ChatGPT au fost instruiți pe internet în jurul anului 2021, iar apoi [cunoștințele lor] au înghețat. Apoi vărsă ceea ce știe deja. O modalitate mai naturală este [formarea în timpul testului], să încerce să absoarbă datele și să învețe la locul de muncă, să nu aibă faze separate de pregătire și implementare.

Există cu siguranță o problemă cu computerele, numită schimbarea domeniului sau prejudecata setului de date - ideea că, dacă datele tale de antrenament sunt foarte diferite de datele pe care le folosești atunci când implementezi sistemul, lucrurile nu vor funcționa. foarte bine. Facem ceva progrese, dar încă nu am ajuns acolo.

Introducere

Este problema similară modului în care băncile avertizează investitorii că performanța trecută ar putea să nu prezică câștigurile viitoare?

Exact asta e problema. În lumea reală, lucrurile se schimbă. De exemplu, dacă un mouse de câmp ajunge într-o casă, se va descurca bine. Nu vei scăpa niciodată de acel șoarece! [Râde.] S-a născut pe un câmp, nu a mai fost niciodată într-o casă și totuși îți va găsi și mânca toate proviziile. Se adaptează foarte repede, învață și se adaptează la noul mediu.

Această abilitate nu există în sistemele actuale [de viziune pe computer]. Cu conducerea autonomă, dacă antrenezi o mașină în California și apoi o testezi în Minnesota — boom! - este zapada. Nu a văzut niciodată zăpadă. Devine confuz.

Acum oamenii abordează acest lucru obținând atât de multe date încât [sistemul] practic a văzut totul. Atunci nu trebuie să se adapteze. Dar asta ratează încă evenimente rare.

Se pare că sistemele AI sunt calea de urmat. Unde îi lasă pe oameni?

Lucrarea rezultată din OpenAI atât pe partea textului (ChatGPT), cât și pe cea a imaginii (Dall·E) a fost incredibil de interesantă și surprinzătoare. Reafirmă această idee că, odată ce ai suficiente date, metode rezonabil de simple pot produce rezultate surprinzător de bune.

Introducere

Dar ChatGPT m-a făcut să realizez că oamenii nu sunt atât de creativi și excepționali pe cât ne place să ne vedem pe noi înșine. De cele mai multe ori, recunoaștetorii de modele din noi ar putea prelua. Vorbim în propoziții făcute din fraze sau propoziții pe care le-am mai auzit. Desigur, avem zboruri de fantezie și creativitate. Suntem capabili să facem lucruri pe care computerele nu le pot face – cel puțin pentru moment. Dar de cele mai multe ori, am putea fi înlocuiți de ChatGPT și majoritatea oamenilor nu ar observa.

Este umilitor. Dar este și un motiv de motivare să ieși din acele tipare, să încerci să ai mai multe fantezii, să nu te blochezi în clișee și pastișe.

Unii oameni de știință și-au exprimat îngrijorarea cu privire la riscurile pe care le prezintă IA pentru umanitate. Esti ingrijorat?

Mulți cercetători pentru care am un mare respect au avertizat despre inteligența artificială. Nu vreau să minimizez aceste cuvinte. Multe dintre acestea sunt puncte valide. Dar trebuie să punem lucrurile în perspectivă.

În prezent, cel mai mare pericol pentru civilizație nu vine de la computere, ci de la oameni. Armaghedonul nuclear și schimbările climatice sunt îngrijorări mult mai presante. Federația Rusă și-a atacat vecinul complet nevinovat. M-am născut în Rusia și este deosebit de îngrozitor că foștii mei compatrioți ar putea face asta. Fac tot ce pot pentru a mă asigura că acesta rămâne subiectul numărul unu.

Putem crede că revoluția AI este cel mai important eveniment din viața noastră. Dar revoluția AI nu va fi nimic dacă nu salvăm lumea liberă.

Deci nu vă faceți griji cu privire la AI?

Nu. Știi, îmi place să-mi fac griji. Sunt un mare îngrijorător! Dar dacă Putin care distruge lumea este aici [ridică mâna la cap] și schimbările climatice sunt aici [își coboară mâna pe umeri], atunci AI este aici jos [își coboară mâna în picioare]. Sunt fracțiuni de un procent din îngrijorarea mea în comparație cu Putin și schimbările climatice.

Timestamp-ul:

Mai mult de la Quantamagazina