Sztuczna inteligencja Google obejrzała 30,000 XNUMX godzin gier wideo

Opublikowane ponownie przez Plato

Obserwuje: 0

Sztuczna inteligencja Google obejrzała 30,000 XNUMX godzin gier wideo — teraz tworzy własną analizę danych PlatoBlockchain. Wyszukiwanie pionowe. AI.

Sztuczna inteligencja w dalszym ciągu generuje mnóstwo światła i ciepła. Najlepsze modele w tekście i obrazach – obecnie wymagające subskrypcji i wplecione w produkty konsumenckie – konkurują o cale. OpenAI, Google i Anthropic to mniej więcej łeb w łeb.

Nic więc dziwnego, że badacze sztucznej inteligencji chcą wypchnąć modele generatywne na nowe terytoria. Ponieważ sztuczna inteligencja wymaga ogromnych ilości danych, jednym ze sposobów prognozowania dalszego rozwoju sytuacji jest sprawdzenie, jakie dane są powszechnie dostępne w Internecie, ale nadal w dużej mierze niewykorzystane.

Wideo, którego jest mnóstwo, jest oczywistym kolejnym krokiem. Rzeczywiście, w zeszłym miesiącu zaprezentowano podgląd OpenAI nową sztuczną inteligencję przekształcającą tekst na wideo o nazwie Sora co zdumiało widzów.

Ale co z… grami wideo?

Proś i otrzymuj

Okazuje się, że w Internecie jest sporo filmów z grami. Google DeepMind twierdzi, że wytrenował nową sztuczną inteligencję, Genie, na podstawie 30,000 XNUMX godzin wyselekcjonowanego materiału wideo przedstawiającego graczy grających w proste platformówki – na przykład wczesne gry Nintendo – oraz teraz może tworzyć własne przykłady.

Genie zamienia prosty obraz, zdjęcie lub szkic w interaktywną grę wideo.

Po otrzymaniu podpowiedzi, na przykład rysunku postaci i jej otoczenia, sztuczna inteligencja może następnie przyjąć informacje od gracza, aby przenieść postać przez swój świat. W poście na blogu DeepMind pokazał dzieła Genie poruszające się po krajobrazach 2D, spacerujące lub skaczące między platformami. Podobnie jak wąż zjadający swój ogon, niektóre z tych światów zostały nawet pozyskane z obrazów wygenerowanych przez sztuczną inteligencję.

W przeciwieństwie do tradycyjnych gier wideo, Genie generuje te interaktywne światy klatka po klatce. Otrzymawszy monit i polecenie ruchu, przewiduje najbardziej prawdopodobne kolejne klatki i tworzy je na bieżąco. Nauczono się nawet uwzględniać poczucie paralaksy, wspólną cechę platformówek, w których pierwszy plan porusza się szybciej niż tło.

Warto zauważyć, że szkolenie AI nie obejmowało etykiet. Zamiast tego Genie nauczył się powiązywać polecenia wejściowe — takie jak idź w lewo, w prawo lub skakać — z ruchami w grze, po prostu obserwując przykłady podczas swojego szkolenia. Oznacza to, że gdy postać w filmie poruszyła się w lewo, nie było etykiety łączącej polecenie z ruchem. Genie sam wymyślił tę część. Oznacza to, że potencjalnie przyszłe wersje będą mogły być trenowane w oparciu o tyle odpowiednich filmów, ile jest dostępnych w Internecie.

Sztuczna inteligencja stanowi imponujący dowód słuszności koncepcji, ale jest wciąż na bardzo wczesnym etapie rozwoju, a DeepMind nie planuje jeszcze upubliczniania modelu.

Same gry to pikselowane światy, które płyną z szybkością jednej klatki na sekundę. Dla porównania, współczesne gry wideo mogą osiągać 60 lub 120 klatek na sekundę. Ponadto, podobnie jak wszystkie algorytmy generatywne, Genie generuje dziwne lub niespójne artefakty wizualne. Ma także skłonność do halucynacji „nierealistycznych przyszłości”, – napisał zespół w swoim artykule opisującym sztuczną inteligencję.

To powiedziawszy, istnieje kilka powodów, aby sądzić, że Genie ulegnie poprawie.

Ubijanie światów

Ponieważ sztuczna inteligencja może uczyć się z nieoznaczonych filmów online i mimo to ma niewielkie rozmiary — zaledwie 11 miliardów parametrów — istnieje wiele możliwości jej skalowania. Większe modele wyszkolone w oparciu o więcej informacji mają tendencję do radykalnej poprawy. I z rozwijający się przemysł skupiony na wnioskowaniu— proces, podczas którego wyszkolona sztuczna inteligencja wykonuje zadania, takie jak generowanie obrazów lub tekstu — prawdopodobnie będzie przebiegał szybciej.

DeepMind twierdzi, że Genie może pomóc ludziom, takim jak profesjonalni programiści, w tworzeniu gier wideo. Ale podobnie jak OpenAI – które wierzy, że Sora to coś więcej niż tylko filmy – zespół myśli szerzej. Podejście to może wykraczać daleko poza gry wideo.

Jeden przykład: Sztuczna inteligencja, która może kontrolować roboty. Zespół wyszkolił oddzielny model na filmie przedstawiającym ramiona robotyczne wykonujące różne zadania. Modelka nauczyła się manipulować robotami i obsługiwać różne przedmioty.

DeepMind stwierdziło również, że środowiska gier wideo generowane przez Genie mogą zostać wykorzystane do szkolenia agentów AI. To nie jest nowa strategia. W artykule z 2021 r. kolejny Zespół DeepMind opracował grę wideo o nazwie XLand który był zamieszkany przez agentów AI i władcę AI generującego zadania i gry, aby rzucić im wyzwanie. Pomysł, że kolejny duży krok w dziedzinie sztucznej inteligencji będzie wymagał algorytmów, które mogą się wzajemnie szkolić lub generować syntetyczne dane szkoleniowe, jest następujący uzyskanie przyczepności.

Wszystko to jest najnowszą salwą w intensywnej rywalizacji pomiędzy OpenAI i Google, mającej na celu pokazanie postępu w AI. Podczas gdy inni są w terenie, jak Antropiczny, rozwijają modele multimodalne podobne do GPT-4, Google i OpenAI również wydają się skupiać na algorytmach symulujących świat. Takie algorytmy mogą być lepsze w planowaniu i interakcji. Obie będą kluczowymi umiejętnościami dla agentów AI, których wytwarzaniem obie organizacje wydają się być zainteresowane.

„Dżina można inspirować obrazami, których nigdy wcześniej nie widział, takimi jak fotografie lub szkice świata rzeczywistego, umożliwiając ludziom interakcję z ich wyimaginowanymi wirtualnymi światami, co zasadniczo działa jako podstawowy model świata” – napisali badacze w czasopiśmie Wpis na blogu Genie. „Koncentrujemy się na filmy z platformówkami 2D i robotyką ale nasza metoda jest ogólna i powinna działać w przypadku każdego typu domeny oraz można ją skalować do coraz większych internetowych zbiorów danych”.

Podobnie, gdy w zeszłym miesiącu OpenAI zaprezentowało Sorę, badacze zasugerowali, że może to zwiastować coś bardziej fundamentalnego: symulator świata. Oznacza to, że oba zespoły wydają się postrzegać ogromną bazę filmów wideo w Internecie jako sposób na wyszkolenie sztucznej inteligencji w zakresie generowania własnego wideo, to prawda, ale także w celu skuteczniejszego rozumienia i działania w świecie, w Internecie lub poza nim.

Pytaniem otwartym jest, czy przyniesie to korzyści, czy też będzie trwałe. Ludzki mózg wykorzystuje moc żarówki; generatywna sztuczna inteligencja wykorzystuje całe centra danych. Lepiej jednak nie lekceważyć dostępnych obecnie sił – jeśli chodzi o talent, technologię, inteligencję i pieniądze – mając na celu nie tylko ulepszenie sztucznej inteligencji, ale także zwiększenie jej wydajności.

Zaobserwowaliśmy imponujący postęp w zakresie tekstu, obrazów, dźwięku i wszystkich trzech elementów razem wziętych. Kolejnym składnikiem wrzucanym do garnka są filmy wideo, które mogą sprawić, że napar będzie jeszcze mocniejszy.

Kredytowych Image: Google DeepMind