Ny 'fysikk-inspirert' generativ AI overgår forventningene | Quanta Magazine

Ny 'fysikk-inspirert' generativ AI overgår forventningene | Quanta Magazine

Ny 'fysikk-inspirert' generativ AI overgår forventningene | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Introduksjon

Verktøyene til kunstig intelligens - spesielt nevrale nettverk - har vært gode for fysikere. I årevis har denne teknologien hjulpet forskere med å rekonstruere partikkelbaner i akseleratoreksperimenter, søke etter bevis på nye partikler og oppdage gravitasjonsbølger og eksoplaneter. Mens AI-verktøy helt klart kan gjøre mye for fysikere, er spørsmålet nå, ifølge Max Tegmark, en fysiker ved Massachusetts Institute of Technology,: "Kan vi gi noe tilbake?"

Tegmark mener at hans fysikere kan gi betydelige bidrag til vitenskapen om AI, og han har gjort dette til sin høyeste forskningsprioritet. En måte fysikere kan bidra til å fremme AI-teknologi, sa han, ville være å erstatte "black box"-algoritmene til nevrale nettverk, hvis virkemåte stort sett er uutgrunnelig, med velforståtte ligninger av fysiske prosesser.

Ideen er ikke helt ny. Generative AI-modeller basert på diffusjon — prosessen som for eksempel får melk som helles i en kopp kaffe til å spre seg jevnt — dukket først opp i 2015, og kvaliteten på bildene de genererer har forbedret seg betydelig siden den gang. Denne teknologien driver populær bildeproduserende programvare som DALL·E 2 og Midjourney. Nå lærer Tegmark og hans kolleger om andre fysikk-inspirerte generative modeller kan fungere like godt som diffusjonsbaserte modeller, eller enda bedre.

Sent i fjor introduserte teamet til Tegmark en lovende ny metode for å produsere bilder kalt Poisson flow generativ modell (PFGM). I den er data representert av ladede partikler, som kombineres for å skape et elektrisk felt hvis egenskaper avhenger av fordelingen av ladningene til enhver tid. Det kalles en Poisson-strømningsmodell fordi bevegelsen av ladninger er styrt av Poisson-ligningen, som stammer fra prinsippet som sier at den elektrostatiske kraften mellom to ladninger varierer omvendt med kvadratet på avstanden mellom dem (i likhet med formuleringen av Newtonsk gravitasjon) .

Den fysiske prosessen er kjernen i PFGM. "Vår modell kan karakteriseres nesten fullstendig av styrken og retningen til det elektriske feltet på hvert punkt i rommet," sa Yilun Xu, en hovedfagsstudent ved MIT og medforfatter av artikkelen. "Det nevrale nettverket lærer under treningsprosessen er hvordan man estimerer det elektriske feltet." Og ved å gjøre det kan den lære å lage bilder fordi et bilde i denne modellen kan beskrives kortfattet av et elektrisk felt.

Introduksjon

PFGM kan lage bilder av samme kvalitet som de som produseres ved diffusjonsbaserte tilnærminger og gjøre det 10 til 20 ganger raskere. "Den bruker en fysisk konstruksjon, det elektriske feltet, på en måte vi aldri har sett før," sa Hananel Hazan, en informatiker ved Tufts University. "Det åpner døren for muligheten for at andre fysiske fenomener kan utnyttes for å forbedre våre nevrale nettverk."

Diffusjons- og Poisson-strømningsmodeller har mye til felles, foruten å være basert på ligninger importert fra fysikk. Under trening starter en diffusjonsmodell designet for bildegenerering vanligvis med et bilde - en hund, la oss si - og legger deretter til visuell støy, og endrer hver piksel på en tilfeldig måte til funksjonene blir grundig dekket (men ikke helt eliminert). Modellen prøver deretter å reversere prosessen og generere en hund som er nær originalen. Når modellen er trent, kan den skape hunder – og andre bilder – med utgangspunkt i et tilsynelatende tomt lerret.

Poisson flow-modeller fungerer omtrent på samme måte. Under trening er det en fremadgående prosess, som involverer å legge til støy, trinnvis, til et en gang skarpt bilde, og en omvendt prosess der modellen forsøker å fjerne den støyen, trinn for trinn, til den opprinnelige versjonen for det meste er gjenopprettet. Som med diffusjonsbasert generasjon, lærer systemet etter hvert å lage bilder det aldri så i trening.

Men fysikken som ligger til grunn for Poisson-modeller er helt annerledes. Diffusjon er drevet av termodynamiske krefter, mens Poisson-strømmen drives av elektrostatiske krefter. Sistnevnte representerer et detaljert bilde ved hjelp av et arrangement av ladninger som kan skape et veldig komplisert elektrisk felt. Dette feltet fører imidlertid til at ladningene sprer seg jevnere over tid - akkurat som melk naturlig spres i en kopp kaffe. Resultatet er at selve feltet blir enklere og mer enhetlig. Men dette støyfylte uniformsfeltet er ikke et helt blankt ark; den inneholder fremdeles frøene til informasjon som bilder lett kan settes sammen fra.

Tidlig i 2023 oppgraderte teamet sin Poisson-modell, utvide den å omfatte en hel familie av modeller. Den utvidede versjonen, PFGM++, inkluderer en ny parameter, D, som lar forskere justere dimensjonaliteten til systemet. Dette kan utgjøre en stor forskjell: I kjent tredimensjonalt rom er styrken til det elektriske feltet produsert av en ladning omvendt relatert til kvadratet på avstanden fra den ladningen. Men i fire dimensjoner følger feltstyrken en omvendt kubelov. Og for hver dimensjon av plass, og hver verdi av D, det forholdet er noe annerledes.

Introduksjon

Den eneste innovasjonen ga Poissons flytmodeller langt større variasjon, med ekstreme tilfeller som ga forskjellige fordeler. Når D er lav, for eksempel er modellen mer robust, noe som betyr at den er mer tolerant overfor feilene som gjøres ved å estimere det elektriske feltet. "Modellen kan ikke forutsi det elektriske feltet perfekt," sa Ziming Liu, en annen doktorgradsstudent ved MIT og medforfatter av begge papirene. «Det er alltid noen avvik. Men robusthet betyr at selv om estimeringsfeilen din er høy, kan du fortsatt generere gode bilder." Så du ender kanskje ikke opp med drømmehunden, men du vil likevel ende opp med noe som ligner en hund.

I den andre ytterligheten, når D er høy, blir det nevrale nettverket lettere å trene, og krever mindre data for å mestre sine kunstneriske ferdigheter. Den nøyaktige årsaken er ikke lett å forklare, men den skyldes det faktum at når det er flere dimensjoner, har modellen færre elektriske felt å holde styr på - og dermed mindre data å assimilere.

Den forbedrede modellen, PFGM++, "gir deg fleksibiliteten til å interpolere mellom disse to ytterpunktene," sa Rose Yu, en informatiker ved University of California, San Diego.

Og et sted innenfor dette området ligger en ideell verdi for D som gir den rette balansen mellom robusthet og enkel trening, sa Xu. "Et mål med fremtidig arbeid vil være å finne ut en systematisk måte å finne det søte stedet på, slik at vi kan velge den best mulige D for en gitt situasjon uten å ty til prøving og feiling."

Et annet mål for MIT-forskerne er å finne flere fysiske prosesser som kan gi grunnlag for nye familier av generative modeller. Gjennom et prosjekt kalt GenPhys, har teamet allerede identifisert en lovende kandidat: Yukawa-potensialet, som er relatert til den svake atomkraften. "Det er forskjellig fra Poissons strømnings- og diffusjonsmodeller, der antall partikler alltid er bevart," sa Liu. «Yukawa-potensialet lar deg utslette partikler eller dele en partikkel i to. En slik modell kan for eksempel simulere biologiske systemer der antallet celler ikke trenger å være det samme.»

Dette kan være en fruktbar undersøkelseslinje, sa Yu. "Det kan føre til nye algoritmer og nye generative modeller med potensielle applikasjoner som strekker seg utover bildegenerering."

Og PFGM++ alene har allerede overgått oppfinnernes opprinnelige forventninger. De skjønte først ikke at når D er satt til uendelig, blir deres forsterkede Poisson-strømningsmodell umulig å skille fra en diffusjonsmodell. Liu oppdaget dette i beregninger han utførte tidligere i år.

Mert Pilanci, en dataforsker ved Stanford University, anser denne "foreningen" som det viktigste resultatet som stammer fra MIT-gruppens arbeid. "PFGM++-avisen," sa han, "avslører at begge disse modellene er en del av en bredere klasse, [som] reiser et spennende spørsmål: Kan det være andre fysiske modeller for generativ AI som venter på oppdagelse, som antyder en enda større forening? ”

Tidstempel:

Mer fra Quantamagazin