Nowa generatywna sztuczna inteligencja inspirowana fizyką przekracza oczekiwania | Magazyn Quanta

Nowa generatywna sztuczna inteligencja inspirowana fizyką przekracza oczekiwania | Magazyn Quanta

Nowa generatywna sztuczna inteligencja inspirowana fizyką przekracza oczekiwania | Magazyn Quanta PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wprowadzenie

Narzędzia sztucznej inteligencji – w szczególności sieci neuronowe – okazały się dobre dla fizyków. Od lat technologia ta pomaga badaczom rekonstruować trajektorie cząstek w eksperymentach z akceleratorami, szukać dowodów na istnienie nowych cząstek oraz wykrywać fale grawitacyjne i egzoplanety. Chociaż narzędzia sztucznej inteligencji mogą z pewnością wiele zrobić dla fizyków, zdaniem Maxa Tegmarka, fizyka z Massachusetts Institute of Technology, pytanie brzmi obecnie: „Czy możemy coś dać w zamian?”

Tegmark wierzy, że jego koledzy-fizycy mogą wnieść znaczący wkład w naukę o sztucznej inteligencji i uczynił to swoim najwyższym priorytetem badawczym. Stwierdził, że jednym ze sposobów, w jaki fizycy mogliby pomóc w rozwoju technologii sztucznej inteligencji, byłoby zastąpienie algorytmów „czarnej skrzynki” sieci neuronowych, których działanie jest w dużej mierze nieodgadnione, dobrze rozumianymi równaniami procesów fizycznych.

Pomysł nie jest nowy. Modele generatywne AI w oparciu o dyfuzję — proces, który na przykład powoduje równomierne rozprowadzenie mleka wlewanego do filiżanki kawy — pojawił się po raz pierwszy w 2015 r. i od tego czasu jakość generowanych obrazów znacznie się poprawiła. Technologia ta wykorzystywana jest w popularnych programach do tworzenia obrazów, takich jak DALL·E 2 i Midjourney. Teraz Tegmark i jego współpracownicy dowiadują się, czy inne modele generatywne inspirowane fizyką mogą działać równie dobrze, jak modele oparte na dyfuzji, a może nawet lepiej.

Pod koniec ubiegłego roku zespół Tegmarka wprowadził obiecującą nową metodę tworzenia obrazów zwaną Model generatorowy przepływu Poissona (PFGM). Dane są w nim reprezentowane przez naładowane cząstki, które łączą się, tworząc pole elektryczne, którego właściwości zależą od rozkładu ładunków w danym momencie. Nazywa się to modelem przepływu Poissona, ponieważ ruchem ładunków rządzi równanie Poissona, które wywodzi się z zasady mówiącej, że siła elektrostatyczna między dwoma ładunkami zmienia się odwrotnie proporcjonalnie do kwadratu odległości między nimi (podobnie jak w sformułowaniu grawitacji Newtona). .

Ten proces fizyczny leży u podstaw PFGM. „Nasz model można niemal całkowicie scharakteryzować na podstawie siły i kierunku pola elektrycznego w każdym punkcie przestrzeni” – powiedział Yilun Xu, absolwent MIT i współautor artykułu. „To, czego sieć neuronowa uczy się podczas procesu uczenia, to sposób oszacowania tego pola elektrycznego”. W ten sposób może nauczyć się tworzenia obrazów, ponieważ obraz w tym modelu można zwięźle opisać za pomocą pola elektrycznego.

Wprowadzenie

PFGM może tworzyć obrazy o tej samej jakości, co te wytwarzane metodami opartymi na dyfuzji i robić to 10 do 20 razy szybciej. „Wykorzystuje konstrukcję fizyczną, pole elektryczne, w sposób, jakiego nigdy wcześniej nie widzieliśmy” – powiedział Hananela Hazana, informatyk na Uniwersytecie Tufts. „To otwiera drzwi do możliwości wykorzystania innych zjawisk fizycznych do ulepszenia naszych sieci neuronowych”.

Modele dyfuzji i przepływu Poissona mają ze sobą wiele wspólnego, poza tym, że opierają się na równaniach zaczerpniętych z fizyki. Podczas szkolenia model dyfuzyjny przeznaczony do generowania obrazu zazwyczaj zaczyna się od zdjęcia – powiedzmy psa – a następnie dodaje szum wizualny, zmieniając każdy piksel w losowy sposób, aż jego cechy zostaną całkowicie zasłonięte (choć nie całkowicie wyeliminowane). Następnie model próbuje odwrócić ten proces i wygenerować psa zbliżonego do oryginału. Po przeszkoleniu model może z powodzeniem tworzyć psy – i inne obrazy – zaczynając od pozornie pustego płótna.

Modele przepływu Poissona działają w podobny sposób. Podczas uczenia występuje proces postępowy, który polega na stopniowym dodawaniu szumu do niegdyś ostrego obrazu, oraz proces odwrotny, podczas którego model próbuje usunąć ten szum krok po kroku, aż do odzyskania większości początkowej wersji. Podobnie jak w przypadku generowania opartego na dyfuzji, system w końcu uczy się tworzyć obrazy, których nigdy nie widział podczas szkolenia.

Ale fizyka leżąca u podstaw modeli Poissona jest zupełnie inna. Dyfuzja jest napędzana siłami termodynamicznymi, podczas gdy przepływ Poissona jest napędzany siłami elektrostatycznymi. Ten ostatni przedstawia szczegółowy obraz wykorzystujący układ ładunków, który może wytworzyć bardzo skomplikowane pole elektryczne. Jednakże to pole powoduje, że ładunki rozkładają się bardziej równomiernie w czasie – tak jak mleko naturalnie rozprasza się w filiżance kawy. W rezultacie samo pole staje się prostsze i bardziej jednolite. Jednak to przepełnione hałasem jednolite pole nie jest zupełnie czystą kartą; nadal zawiera nasiona informacji, z których można łatwo złożyć obrazy.

Na początku 2023 r. zespół ulepszył swój model Poissona, przedłużenie go obejmować całą rodzinę modeli. Wersja rozszerzona, PFGM++, zawiera nowy parametr, D, co pozwala badaczom dostosować wymiarowość systemu. To może mieć duże znaczenie: w znanej przestrzeni trójwymiarowej natężenie pola elektrycznego wytwarzanego przez ładunek jest odwrotnie proporcjonalne do kwadratu odległości od tego ładunku. Ale w czterech wymiarach natężenie pola jest zgodne z odwrotnym prawem sześcianu. I dla każdego wymiaru przestrzeni i każdej wartości D, ta relacja jest nieco inna.

Wprowadzenie

Ta pojedyncza innowacja zapewniła modelom przepływu Poissona znacznie większą zmienność, a skrajne przypadki oferowały różne korzyści. Gdy D jest niski, na przykład model jest solidniejszy, co oznacza, że ​​jest bardziej tolerancyjny na błędy popełnione przy szacowaniu pola elektrycznego. „Model nie jest w stanie doskonale przewidzieć pola elektrycznego” – powiedział Ziming Liu, kolejny absolwent MIT i współautor obu artykułów. „Zawsze jest jakieś odstępstwo. Jednak solidność oznacza, że ​​nawet jeśli błąd oszacowania jest wysoki, nadal możesz generować dobre obrazy”. Więc może nie skończysz z psem swoich marzeń, ale nadal będziesz mieć coś przypominającego psa.

Na drugim biegunie, kiedy D jest wysoka, sieć neuronowa staje się łatwiejsza do trenowania, a do opanowania jej umiejętności artystycznych potrzeba mniej danych. Dokładny powód nie jest łatwy do wyjaśnienia, ale wynika z faktu, że gdy istnieje więcej wymiarów, model ma mniej pól elektrycznych do śledzenia, a tym samym mniej danych do przyswojenia.

Ulepszony model PFGM++ „zapewnia elastyczność interpolacji między tymi dwoma skrajnościami” – stwierdził Róża Yu, informatyk z Uniwersytetu Kalifornijskiego w San Diego.

Gdzieś w tym zakresie leży idealna wartość dla D zapewnia właściwą równowagę między wytrzymałością a łatwością treningu, powiedział Xu. „Jednym z celów przyszłych prac będzie znalezienie systematycznego sposobu znajdowania tego optymalnego punktu, abyśmy mogli wybrać najlepszy możliwy D dla danej sytuacji bez uciekania się do prób i błędów.

Innym celem badaczy z MIT jest znalezienie większej liczby procesów fizycznych, które mogą stanowić podstawę dla nowych rodzin modeli generatywnych. Poprzez projekt pt GenPhyszespół zidentyfikował już jednego obiecującego kandydata: potencjał Yukawy, który wiąże się ze słabym oddziaływaniem jądrowym. „Różni się to od modeli przepływu i dyfuzji Poissona, w których liczba cząstek jest zawsze zachowana” – powiedział Liu. „Potencjał Yukawy pozwala anihilować cząstki lub dzielić cząstkę na dwie części. Taki model mógłby na przykład symulować systemy biologiczne, w których liczba komórek nie musi pozostać taka sama”.

To może być owocny kierunek dochodzenia, powiedział Yu. „Może to doprowadzić do powstania nowych algorytmów i nowych modeli generatywnych o potencjalnych zastosowaniach wykraczających poza generowanie obrazów”.

A sam PFGM++ przekroczył już pierwotne oczekiwania swoich wynalazców. Z początku nie zdawali sobie sprawy, kiedy D jest ustawiony na nieskończoność, ich wzmocniony model przepływu Poissona staje się nie do odróżnienia od modelu dyfuzji. Liu odkrył to w obliczeniach, które przeprowadził na początku tego roku.

Merta Pilanciego, informatyk z Uniwersytetu Stanforda, uważa to „ujednolicenie” za najważniejszy rezultat prac grupy MIT. „Artykuł PFGM++” – powiedział – „ujawnia, że ​​oba te modele należą do szerszej klasy, [co] rodzi intrygujące pytanie: czy mogą istnieć inne modele fizyczne generatywnej sztucznej inteligencji oczekujące na odkrycie, wskazujące na jeszcze wspanialszą unifikację? ”

Znak czasu:

Więcej z Magazyn ilościowy