Noua IA generativă „inspirată de fizică” depășește așteptările | Revista Quanta

Noua IA generativă „inspirată de fizică” depășește așteptările | Revista Quanta

New ‘Physics-Inspired’ Generative AI Exceeds Expectations | Quanta Magazine PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Introducere

Instrumentele inteligenței artificiale – în special rețelele neuronale – au fost bune pentru fizicieni. De ani de zile, această tehnologie i-a ajutat pe cercetători să reconstruiască traiectoriile particulelor în experimentele cu accelerator, să caute dovezi ale unor noi particule și să detecteze undele gravitaționale și exoplanete. În timp ce instrumentele AI pot face în mod clar multe pentru fizicieni, întrebarea acum, potrivit lui Max Tegmark, un fizician la Institutul de Tehnologie din Massachusetts, este: „Putem să dăm ceva înapoi?”

Tegmark crede că colegii săi fizicieni pot aduce contribuții semnificative la știința AI și a făcut din aceasta prioritatea sa principală de cercetare. O modalitate prin care fizicienii ar putea ajuta la avansarea tehnologiei AI, a spus el, ar fi înlocuirea algoritmilor „cutie neagră” ai rețelelor neuronale, ale căror funcționare sunt în mare parte insondabile, cu ecuații bine înțelese ale proceselor fizice.

Ideea nu este nou-nouță. Modele AI generative bazată pe difuzie — procesul care, de exemplu, face ca laptele turnat într-o ceașcă de cafea să se răspândească uniform — a apărut pentru prima dată în 2015, iar calitatea imaginilor pe care le generează s-a îmbunătățit semnificativ de atunci. Această tehnologie alimentează software-ul popular de producere a imaginilor, cum ar fi DALL·E 2 și Midjourney. Acum, Tegmark și colegii săi învață dacă alte modele generative inspirate de fizică ar putea funcționa la fel de bine ca modele bazate pe difuzie sau chiar mai bine.

La sfârșitul anului trecut, echipa Tegmark a introdus o nouă metodă promițătoare de producere a imaginilor numită Modelul generativ de flux Poisson (PFGM). În ea, datele sunt reprezentate de particule încărcate, care se combină pentru a crea un câmp electric ale cărui proprietăți depind de distribuția sarcinilor la un moment dat. Se numește model de flux Poisson deoarece mișcarea sarcinilor este guvernată de ecuația Poisson, care derivă din principiul care afirmă că forța electrostatică dintre două sarcini variază invers cu pătratul distanței dintre ele (similar cu formularea gravitației newtoniene) .

Acest proces fizic este în centrul PFGM. „Modelul nostru poate fi caracterizat aproape complet prin puterea și direcția câmpului electric în fiecare punct din spațiu”, a spus Yilun Xu, un student absolvent la MIT și coautor al lucrării. „Ceea ce rețeaua neuronală învață în timpul procesului de antrenament este cum să estimeze acel câmp electric.” Și, făcând acest lucru, poate învăța să creeze imagini, deoarece o imagine din acest model poate fi descrisă succint de un câmp electric.

Introducere

PFGM poate crea imagini de aceeași calitate ca cele produse prin abordări bazate pe difuzie și face acest lucru de 10 până la 20 de ori mai rapid. „Folosește o construcție fizică, câmpul electric, într-un mod pe care nu l-am mai văzut până acum”, a spus Hananel Hazan, un informatician la Universitatea Tufts. „Aceasta deschide ușa posibilității ca alte fenomene fizice să fie valorificate pentru a îmbunătăți rețelele noastre neuronale.”

Modelele de flux de difuzie și Poisson au multe în comun, pe lângă faptul că se bazează pe ecuații importate din fizică. În timpul antrenamentului, un model de difuzie conceput pentru generarea de imagini începe de obicei cu o imagine - un câine, să spunem - și apoi adaugă zgomot vizual, modificând fiecare pixel într-un mod aleatoriu până când caracteristicile sale devin complet acoperite (deși nu sunt complet eliminate). Modelul încearcă apoi să inverseze procesul și să genereze un câine care este aproape de original. Odată antrenat, modelul poate crea cu succes câini – și alte imagini – pornind de la o pânză aparent goală.

Modelele de flux Poisson funcționează aproape în același mod. În timpul antrenamentului, există un proces înainte, care implică adăugarea de zgomot, în mod incremental, la o imagine clară odată și un proces invers în care modelul încearcă să elimine acel zgomot, pas cu pas, până când versiunea inițială este în mare parte recuperată. Ca și în cazul generației bazate pe difuzie, sistemul învață în cele din urmă să facă imagini pe care nu le-a văzut niciodată la antrenament.

Dar fizica care stă la baza modelelor Poisson este complet diferită. Difuzia este condusă de forțe termodinamice, în timp ce fluxul Poisson este condus de forțe electrostatice. Acesta din urmă reprezintă o imagine detaliată folosind un aranjament de sarcini care poate crea un câmp electric foarte complicat. Acest câmp, totuși, face ca încărcăturile să se răspândească mai uniform în timp - la fel cum laptele se dispersează în mod natural într-o ceașcă de cafea. Rezultatul este că câmpul în sine devine mai simplu și mai uniform. Dar acest câmp uniform plin de zgomot nu este o tablă completă goală; încă mai conține semințele de informații din care imaginile pot fi ușor asamblate.

La începutul anului 2023, echipa și-a actualizat modelul Poisson, extinzându-l pentru a cuprinde o întreagă familie de modele. Versiunea augmentată, PFGM++, include un nou parametru, D, care permite cercetătorilor să ajusteze dimensionalitatea sistemului. Acest lucru poate face o mare diferență: în spațiul tridimensional familiar, puterea câmpului electric produs de o sarcină este invers legată de pătratul distanței de la acea sarcină. Dar în patru dimensiuni, intensitatea câmpului urmează o lege inversă a cubului. Și pentru fiecare dimensiune a spațiului și fiecare valoare a D, acea relație este oarecum diferită.

Introducere

Acea inovație unică a oferit modelelor de flux Poisson o variabilitate mult mai mare, cazurile extreme oferind beneficii diferite. Când D este scăzută, de exemplu, modelul este mai robust, adică este mai tolerant la erorile făcute în estimarea câmpului electric. „Modelul nu poate prezice perfect câmpul electric”, a spus Ziming Liu, un alt student absolvent la MIT și coautor al ambelor lucrări. „Întotdeauna există o abatere. Dar robustețea înseamnă că, chiar dacă eroarea dvs. de estimare este mare, puteți genera imagini bune.” Deci s-ar putea să nu ajungi cu câinele visurilor tale, dar tot vei ajunge cu ceva asemănător unui câine.

La cealaltă extremă, când D este mare, rețeaua neuronală devine mai ușor de antrenat, necesitând mai puține date pentru a-și stăpâni abilitățile artistice. Motivul exact nu este ușor de explicat, dar se datorează faptului că atunci când există mai multe dimensiuni, modelul are mai puține câmpuri electrice de urmărit - și, prin urmare, mai puține date de asimilat.

Modelul îmbunătățit, PFGM++, „vă oferă flexibilitatea de a interpola între aceste două extreme”, a spus Rose Yu, un informatician la Universitatea din California, San Diego.

Și undeva în acest interval se află o valoare ideală pentru D care atinge echilibrul potrivit între robustețe și ușurință de antrenament, a spus Xu. „Un obiectiv al lucrărilor viitoare va fi să găsim o modalitate sistematică de a găsi acel punct favorabil, astfel încât să putem selecta cel mai bun posibil D pentru o situație dată, fără a recurge la încercare și eroare.”

Un alt obiectiv pentru cercetătorii MIT implică găsirea mai multor procese fizice care pot oferi baza pentru noi familii de modele generative. Printr-un proiect numit GenPhys, echipa a identificat deja un candidat promițător: potențialul Yukawa, care se referă la forța nucleară slabă. „Este diferit de modelele de flux și difuzie Poisson, în care numărul de particule este întotdeauna conservat”, a spus Liu. „Potențialul Yukawa vă permite să anihilați particule sau să împărțiți o particulă în două. Un astfel de model ar putea, de exemplu, să simuleze sisteme biologice în care numărul de celule nu trebuie să rămână același.”

Aceasta poate fi o linie de anchetă fructuoasă, a spus Yu. „Ar putea duce la noi algoritmi și noi modele generative cu potențiale aplicații care se extind dincolo de generarea de imagini.”

Și numai PFGM++ a depășit deja așteptările inițiale ale inventatorilor săi. Nu și-au dat seama la început că când D este setat la infinit, modelul lor de flux Poisson amplificat devine imposibil de distins de un model de difuzie. Liu a descoperit acest lucru în calculele pe care le-a efectuat la începutul acestui an.

Mert Pilanci, un informatician la Universitatea Stanford, consideră că această „unificare” este cel mai important rezultat care decurge din munca grupului MIT. „Lucrarea PFGM++”, a spus el, „dezvăluie că ambele modele fac parte dintr-o clasă mai largă, [care] ridică o întrebare interesantă: ar putea exista și alte modele fizice pentru IA generativă care așteaptă descoperirea, sugerând o unificare și mai mare? ”

Timestamp-ul:

Mai mult de la Quantamagazina