De ce OpenAI ar putea să-și acopere pariurile pe IA cuantică

De ce OpenAI ar putea să-și acopere pariurile pe IA cuantică

Why OpenAI might be hedging its bets on quantum AI PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Analiză Calculul cuantic a rămas la un deceniu distanță de peste un deceniu, dar, potrivit experților din industrie, ar putea deține secretul pentru a reduce apetitul nesățios al AI.

Cu fiecare lună care trece, apar modele mai mari și mai dense de parametri, iar scara implementărilor AI se extinde în tandem. Numai în acest an hiperscalers precum Meta, plănuiesc să implementa sute de mii de acceleratoare. Chiar și fondatorul OpenAI, Sam Altman, este convins vom avea nevoie de calcul exponențial mai mult dacă vrem să dezvoltăm în continuare AI.

Prin urmare, nu ar trebui să fie surprinzător că, cu cea mai recentă angajare, OpenAI ar să-și acopere pariurile pe calculul cuantic dacă nu poate. Săptămâna trecută, magistralul AI l-a adăugat în rândurile sale pe Ben Bartlett, un fost arhitect de sisteme cuantice la PsiQuantum.

Am contactat Open AI pentru a afla mai multe despre ce va face Bartlett la AI trendsetter și nu am primit răspuns. Totuși a lui bio oferă câteva indicii, deoarece o mare parte din cercetările sale s-au concentrat pe intersecția dintre fizica cuantică, învățarea automată și nanofotonica și „constă, practic, să proiectez mici piste de curse pentru fotoni care îi păcălesc să facă calcule utile”

Deci, ce și-ar putea dori OpenAI de la un fizician cuantic? Ei bine, există câteva posibilități, de la utilizarea optimizării cuantice pentru a eficientiza seturile de date de antrenament sau utilizarea unităților de procesare cuantică (QPU) pentru a descărca baze de date complexe de grafice, până la utilizarea opticii pentru a scala dincolo de limitele ambalajelor moderne de semiconductori.

Rețelele neuronale sunt doar o altă problemă de optimizare

Calculul cuantic are potențialul de a îmbunătăți drastic eficiența antrenării modelelor mari de IA, permițându-le să obțină răspunsuri mai precise din modele cu mai puțini parametri, spune Murray Thom de la D-Wave. Registrul.

Cu GPT-4 despre care se zvonește că depășește un trilion de parametri, nu este greu de înțeles de ce acest lucru ar putea fi atractiv. Fără a recurge la cuantificare și alte strategii de compresie, modelele AI au nevoie de aproximativ 1 GB de memorie pentru fiecare miliard de parametri atunci când rulează la precizie FP8 sau Int8 și la precizii mai mari, substanțial mai mult decât atât.

Trilioane de modele de parametri se apropie de limitele pe care un singur server AI poate găzdui eficient. Mai multe servere pot fi legate împreună pentru a suporta modele mai mari, dar părăsirea cutiei aduce o penalizare de performanță.

Și asta este astăzi. Și dacă Altman are dreptate, aceste modele vor deveni mai mari și mai răspândite. Ca atare, orice tehnologie care ar putea permite OpenAI să crească capacitatea modelelor sale, fără a crește semnificativ numărul de parametri, i-ar putea da un avans.

„Pe măsură ce antrenezi un model, numărul de parametri care intră în model determină într-adevăr costul și complexitatea antrenării modelului”, spune Trevor Lanting, vicepreședintele D-Wave pentru software și algoritmi. Registrul.

Pentru a ocoli acest lucru, explică el, dezvoltatorii vor subselecta adesea funcțiile pe care le consideră că vor fi cele mai importante pentru antrenamentul respectivului model, ceea ce, la rândul său, reduce numărul de parametri necesari.

Dar, mai degrabă decât să încerce să facă acest lucru folosind sisteme convenționale, D-Wave susține că algoritmii de optimizare cuantică pot fi mai eficienți în a determina ce caracteristici să lase în interior sau în afara.

Dacă nu sunteți familiarizat, problemele de optimizare, cum ar fi cele întâlnite în mod obișnuit în găsirea căilor sau în logistică, s-au dovedit a fi una dintre cele mai promițătoare aplicații ale calculului cuantic de până acum.

„Ceea ce sunt cu adevărat bune computerele noastre cuantice este să optimizeze lucrurile în care lucrurile fie se întâmplă, fie nu se întâmplă: cum ar fi cuiva care i se atribuie un anumit program sau i se atribuie o anumită livrare”, a spus Thom. „Dacă aceste decizii ar fi independente, ar fi bine și ar fi ușor de făcut pentru un computer clasic, dar ele afectează de fapt celelalte resurse din grup și există un fel de efect de rețea.”

Cu alte cuvinte, lumea reală este dezordonată. Pot exista mai multe vehicule pe drum, drumuri închise, evenimente meteorologice și așa mai departe. În comparație cu computerele clasice, atributele unice inerente computerelor cuantice le permit să exploreze acești factori simultan pentru a identifica cea mai bună cale.

Aceasta „este complet analogă cu o rețea neuronală în care neuronii fie declanșează, fie nu se declanșează, iar ei și ei au conexiuni sinaptice cu ceilalți neuroni, care fie excită, fie inhibă ceilalți neuroni să declanșeze”, explică Thom.

Și asta înseamnă că algoritmii cuantici pot fi utilizați pentru a optimiza seturile de date de antrenament AI pentru cerințe specifice, care, atunci când sunt antrenate, au ca rezultat un model mai slab și mai precis, a susținut Lanting.

Eșantionarea și descărcarea cuantice

Pe termen lung, D-Wave și alții caută modalități de a implementa QPU-uri mai profund în procesul de instruire.

Unul dintre aceste cazuri de utilizare implică aplicarea calculului cuantic la eșantionare. Eșantionarea se referă la modul în care modelele AI, cum ar fi LLM-urile, determină care ar trebui să fie următorul cuvânt sau, mai precis, simbolul, pe baza unei distribuții a probabilităților. Acesta este motivul pentru care se glumește adesea că LLM-urile sunt doar autocompletare pe steroizi.

„Hardware-ul este foarte bun la producerea de mostre și puteți regla distribuția, astfel încât să puteți regla ponderarea acelor mostre. Și ceea ce explorăm este: este aceasta o modalitate bună de a introduce efectiv calculul cuantic de recoacere din greu și mai direct în volumul de lucru de antrenament", a explicat Lanting.

Startup-ul francez de calcul cuantic Pasqal s-a jucat și cu aplicarea calculului cuantic pentru a descărca seturi de date structurate grafice care se găsesc în mod obișnuit în rețelele neuronale.

„În învățarea automată nu există o modalitate reală și simplă de a reprezenta datele în mod clasic, deoarece graficul este un obiect complex”, a explicat Loïc Henriet, co-CEO Pasqal, într-un interviu acordat Registrul. „Puteți încorpora datele structurate grafice în dinamica cuantică în mod relativ natural, ceea ce dă naștere unor noi modalități de tratare a acestor date.”

Cu toate acestea, înainte ca acest lucru să poată fi realizat, sistemele cuantice vor trebui să devină mult mai mari și mult mai rapide, a explicat Henriet.

„Seturile mari de date nu sunt practice pentru moment”, a spus el. „De aceea creștem numărul de qubiți; rata de repetare. Pentru că cu mai mulți qubiți puteți încorpora mai multe date.”

Cât timp va trebui să așteptăm înainte ca rețelele neuronale cu grafice cuantice să devină viabile este greu de spus. Pasqual are deja un sistem de 10,000 de qubiți În lucrări. Unfortunately, research suggests that even a system with 10,000 error-correcting qubits, or about a million physical qubits, may not be enough to concura cu GPU-uri moderne.

Un joc de fotonica de siliciu?

În afară de cazurile de utilizare exotice a IA cuantică, există și alte tehnologii pe care OpenAI le-ar putea urmări pentru care Bartlett se întâmplă să fie un expert.

Cel mai important, fostul angajator al lui Bartlett, PsiQuantum, a dezvoltat sisteme bazate pe fotonica cu siliciu. Acest lucru sugerează că angajarea lui ar putea fi legată de OpenAI raportate lucrează la un accelerator AI personalizat.

Mai multe startup-uri de fotonică de siliciu, inclusiv Ayar Labs, Lightmatter și Celestial AI, au promovat tehnologia ca un mijloc de a depăși limitele lățimii de bandă, care a devenit un factor limitator pentru scalarea performanței învățării automate.

Ideea aici este că poți împinge mult mai multe date pe o distanță mult mai mare cu lumină decât poți cu un semnal pur electric. În multe dintre aceste modele, lumina este de fapt transportată de ghiduri de undă gravate în siliciu, ceea ce sună foarte mult ca „proiectarea micilor piste de curse pentru fotoni”.

Materia Lumina consideră că această tehnologie va permite mai multor acceleratoare să funcționeze ca unul singur, fără a suporta o penalizare de lățime de bandă pentru datele care părăsesc cip. Între timp, Celestial vede un Oportunitate pentru a crește considerabil cantitatea de memorie cu lățime de bandă mare disponibilă pentru GPU-uri prin eliminarea necesității de a co-ambala modulele direct adiacente matriței acceleratorului. Ambele capabilități ar fi atractive pentru o companie care lucrează cu sisteme AI la scară masivă.

Rămâne de văzut dacă OpenAI va urmări în cele din urmă IA cuantică sau fotonica cu siliciu, dar pentru o companie al cărei fondator nu este străin să facă investiții de lungă durată, nu ar fi cel mai ciudat lucru pe care l-a susținut Altman. ®

Timestamp-ul:

Mai mult de la Registrul