Ny "fysikinspirerad" generativ AI överträffar förväntningarna | Quanta Magazine

Ny "fysikinspirerad" generativ AI överträffar förväntningarna | Quanta Magazine

Ny "fysikinspirerad" generativ AI överträffar förväntningarna | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Beskrivning

Verktygen för artificiell intelligens - neurala nätverk i synnerhet - har varit bra för fysiker. I åratal har denna teknik hjälpt forskare att rekonstruera partikelbanor i acceleratorexperiment, söka efter bevis på nya partiklar och upptäcka gravitationsvågor och exoplaneter. Även om AI-verktyg helt klart kan göra mycket för fysiker, är frågan nu, enligt Max Tegmark, fysiker vid Massachusetts Institute of Technology,: "Kan vi ge något tillbaka?"

Tegmark tror att hans fysikerkamrater kan ge betydande bidrag till vetenskapen om AI, och han har gjort detta till sin högsta forskningsprioritet. Ett sätt som fysiker skulle kunna hjälpa till att utveckla AI-tekniken, sa han, skulle vara att ersätta de "svarta lådan"-algoritmerna för neurala nätverk, vars funktion i stort sett är outgrundlig, med välförstådda ekvationer av fysiska processer.

Idén är inte helt ny. Generativa AI-modeller baserat på diffusion — processen som till exempel får mjölk som hälls i en kopp kaffe att spridas jämnt — uppstod först 2015, och kvaliteten på bilderna de genererar har förbättrats avsevärt sedan dess. Den tekniken driver populära bildproducerande program som DALL·E 2 och Midjourney. Nu lär Tegmark och hans kollegor om andra fysikinspirerade generativa modeller kan fungera lika bra som diffusionsbaserade modeller, eller ännu bättre.

I slutet av förra året introducerade Tegmarks team en lovande ny metod för att producera bilder som heter Poisson flow generativ modell (PFGM). I den representeras data av laddade partiklar, som kombineras för att skapa ett elektriskt fält vars egenskaper beror på fördelningen av laddningarna vid varje givet ögonblick. Det kallas en Poisson-flödesmodell eftersom laddningarnas rörelse styrs av Poisson-ekvationen, som härrör från principen att den elektrostatiska kraften mellan två laddningar varierar omvänt med kvadraten på avståndet mellan dem (liknande formuleringen av Newtons gravitation) .

Den fysiska processen är kärnan i PFGM. "Vår modell kan karakteriseras nästan helt av styrkan och riktningen av det elektriska fältet vid varje punkt i rymden," sa Yilun Xu, en doktorand vid MIT och medförfattare till tidningen. "Vad det neurala nätverket lär sig under träningsprocessen är hur man uppskattar det elektriska fältet." Och på så sätt kan den lära sig att skapa bilder eftersom en bild i denna modell kan beskrivas kortfattat av ett elektriskt fält.

Beskrivning

PFGM kan skapa bilder av samma kvalitet som de som produceras av diffusionsbaserade metoder och gör det 10 till 20 gånger snabbare. "Den använder en fysisk konstruktion, det elektriska fältet, på ett sätt som vi aldrig har sett förut," sa Hananel Hazan, en datavetare vid Tufts University. "Det öppnar dörren för möjligheten att andra fysiska fenomen kan utnyttjas för att förbättra våra neurala nätverk."

Diffusions- och Poisson-flödesmodeller har mycket gemensamt, förutom att de är baserade på ekvationer importerade från fysiken. Under träning börjar en spridningsmodell som är designad för bildgenerering vanligtvis med en bild - låt oss säga en hund - och lägger sedan till visuellt brus, och ändrar varje pixel på ett slumpmässigt sätt tills dess funktioner blir ordentligt höljda (men inte helt eliminerade). Modellen försöker sedan vända processen och skapa en hund som är nära originalet. När den väl har tränats kan modellen framgångsrikt skapa hundar – och andra bilder – från en till synes tom duk.

Poisson-flödesmodeller fungerar på ungefär samma sätt. Under träningen finns det en framåtgående process, som involverar att lägga till brus, stegvis, till en en gång skarp bild, och en omvänd process där modellen försöker ta bort det bruset steg för steg tills den ursprungliga versionen till största delen återställs. Som med diffusionsbaserad generering lär sig systemet så småningom att göra bilder som det aldrig såg under träning.

Men fysiken bakom Poissons modeller är helt annorlunda. Diffusion drivs av termodynamiska krafter, medan Poisson-flödet drivs av elektrostatiska krafter. Den senare representerar en detaljerad bild med hjälp av ett arrangemang av laddningar som kan skapa ett mycket komplicerat elektriskt fält. Det fältet gör dock att laddningarna sprids jämnare över tiden - precis som mjölk naturligt sprids i en kopp kaffe. Resultatet blir att själva fältet blir enklare och mer enhetligt. Men detta bullriga uniformsfält är inte ett helt blankt blad; den innehåller fortfarande frön av information från vilken bilder lätt kan sammanställas.

I början av 2023 uppgraderade teamet sin Poisson-modell, förlänger den att omfatta en hel familj av modeller. Den utökade versionen, PFGM++, innehåller en ny parameter, D, vilket gör det möjligt för forskare att justera systemets dimensionalitet. Detta kan göra stor skillnad: I ett välbekant tredimensionellt utrymme är styrkan på det elektriska fältet som produceras av en laddning omvänt relaterat till kvadraten på avståndet från den laddningen. Men i fyra dimensioner följer fältstyrkan en omvänd kublag. Och för varje dimension av rymden, och varje värde av D, det förhållandet är något annorlunda.

Beskrivning

Den enda innovationen gav Poissons flödesmodeller mycket större variation, med extremfallen som erbjuder olika fördelar. När D är låg, till exempel är modellen mer robust, vilket betyder att den är mer tolerant mot de fel som görs vid uppskattning av det elektriska fältet. "Modellen kan inte förutsäga det elektriska fältet perfekt," sa Ziming Liu, en annan doktorand vid MIT och medförfattare till båda uppsatserna. ”Det finns alltid någon avvikelse. Men robusthet betyder att även om ditt uppskattningsfel är högt kan du fortfarande generera bra bilder.” Så du kanske inte slutar med din drömhund, men du kommer ändå att sluta med något som liknar en hund.

I den andra ytterligheten, när D är hög blir det neurala nätverket lättare att träna, vilket kräver mindre data för att bemästra sina konstnärliga färdigheter. Den exakta orsaken är inte lätt att förklara, men den beror på det faktum att när det finns fler dimensioner har modellen färre elektriska fält att hålla reda på - och därmed mindre data att assimilera.

Den förbättrade modellen, PFGM++, "ger dig flexibiliteten att interpolera mellan dessa två ytterligheter," sa Rose Yu, en datavetare vid University of California, San Diego.

Och någonstans inom detta intervall ligger ett idealiskt värde för D som ger rätt balans mellan robusthet och enkel träning, sa Xu. "Ett mål med framtida arbete kommer att vara att hitta ett systematiskt sätt att hitta den där söta platsen, så att vi kan välja den bästa möjliga D för en given situation utan att tillgripa försök och misstag.”

Ett annat mål för MIT-forskarna är att hitta fler fysiska processer som kan ge grunden för nya familjer av generativa modeller. Genom ett projekt som heter GenPhys, teamet har redan identifierat en lovande kandidat: Yukawa-potentialen, som relaterar till den svaga kärnkraften. "Det skiljer sig från Poissons flödes- och diffusionsmodeller, där antalet partiklar alltid bevaras," sa Liu. "Yukawa-potentialen gör att du kan förinta partiklar eller dela en partikel i två. En sådan modell kan till exempel simulera biologiska system där antalet celler inte behöver vara detsamma.”

Detta kan vara en fruktbar undersökningslinje, sa Yu. "Det kan leda till nya algoritmer och nya generativa modeller med potentiella tillämpningar som sträcker sig bortom bildgenerering."

Och bara PFGM++ har redan överträffat sina uppfinnares ursprungliga förväntningar. De insåg först inte att när D är inställd på oändlighet, blir deras förstärkta Poisson-flödesmodell omöjlig att skilja från en diffusionsmodell. Liu upptäckte detta i beräkningar som han gjorde tidigare i år.

Mert Pilanci, en datavetare vid Stanford University, anser att denna "förening" är det viktigaste resultatet som härrör från MIT-gruppens arbete. "PFGM++-tidningen", sa han, "avslöjar att båda dessa modeller är en del av en bredare klass, [vilket] väcker en spännande fråga: Kan det finnas andra fysiska modeller för generativ AI som väntar på upptäckt, som antyder en ännu större sammanslagning? ”

Tidsstämpel:

Mer från Quantamagazin