Dlaczego OpenAI może zabezpieczać swoje zakłady na kwantową sztuczną inteligencję

Dlaczego OpenAI może zabezpieczać swoje zakłady na kwantową sztuczną inteligencję

Dlaczego OpenAI może zabezpieczać swoje zakłady na kwantową sztuczną inteligencję PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Analiza Obliczenia kwantowe pozostają kwestią odległej dekady od ponad dekady, ale według ekspertów branżowych mogą kryć w sobie sekret ograniczenia nienasyconego apetytu sztucznej inteligencji.

Z każdym miesiącem pojawiają się większe modele o większej gęstości parametrów, a skala wdrożeń sztucznej inteligencji rośnie równolegle. Tylko w tym roku planują to hiperskalownicy, tacy jak Meta rozwijać setki tysięcy akceleratorów. Nawet założyciel OpenAI, Sam Altman, nadal nim jest przekonany będziemy potrzebować wykładniczo więcej mocy obliczeniowych, jeśli mamy dalej rozwijać sztuczną inteligencję.

Dlatego nie powinno dziwić, że wraz z najnowszym zatrudnieniem OpenAI by będzie zabezpieczać swoje zakłady w dziedzinie obliczeń kwantowych, jeśli tylko będzie to możliwe. W zeszłym tygodniu gigant AI dodał do swoich szeregów Bena Bartletta, byłego architekta systemów kwantowych w PsiQuantum.

Skontaktowaliśmy się z Open AI, aby dowiedzieć się więcej o tym, co Bartlett będzie robił u twórcy trendów w dziedzinie sztucznej inteligencji, ale nie otrzymaliśmy odpowiedzi. Jednak jego bio oferuje pewne wskazówki, ponieważ większość jego badań skupiała się na skrzyżowaniu fizyki kwantowej, uczenia maszynowego i nanofotoniki, a „w zasadzie polega na tym, że projektuję małe tory wyścigowe dla fotonów, które oszukują je do wykonywania użytecznych obliczeń”

Czego więc dokładnie OpenAI może chcieć od fizyka kwantowego? Cóż, istnieje kilka możliwości, od wykorzystania optymalizacji kwantowej do usprawnienia szkoleniowych zbiorów danych lub wykorzystania jednostek przetwarzania kwantowego (QPU) do odciążenia złożonych grafowych baz danych, po wykorzystanie optyki do skalowania wykraczającego poza ograniczenia nowoczesnych opakowań półprzewodników.

Sieci neuronowe to tylko kolejny problem optymalizacyjny

Obliczenia kwantowe mogą radykalnie poprawić efektywność uczenia dużych modeli sztucznej inteligencji, umożliwiając im uzyskiwanie dokładniejszych odpowiedzi z modeli o mniejszej liczbie parametrów, mówi Murray Thom z D-Wave Rejestr.

Biorąc pod uwagę, że GPT-4 ma ponad bilion parametrów, nietrudno zrozumieć, dlaczego może to być atrakcyjne. Bez uciekania się do kwantyzacji i innych strategii kompresji, modele AI potrzebują około 1 GB pamięci na każdy miliard parametrów, gdy działają z precyzją FP8 lub Int8 i przy wyższych precyzjach, czyli znacznie więcej.

Modele z bilionami parametrów zbliżają się do granic możliwości, jakie może efektywnie obsłużyć pojedynczy serwer AI. Można połączyć ze sobą wiele serwerów, aby obsługiwać większe modele, ale pozostawienie pudełka powoduje spadek wydajności.

I to dzisiaj. A jeśli Altman ma rację, modele te będą coraz większe i bardziej powszechne. W związku z tym każda technologia, która pozwoli OpenAI zwiększyć możliwości swoich modeli bez znaczącego zwiększania liczby parametrów, może zapewnić jej przewagę.

„Kiedy trenujesz model, liczba parametrów wprowadzanych do modelu naprawdę wpływa na koszt i złożoność uczenia modelu” – mówi Trevor Lanting, wiceprezes ds. oprogramowania i algorytmów w D-Wave Rejestr.

Wyjaśnia, że ​​aby obejść ten problem, programiści często dokonują podwyboru funkcji, które ich zdaniem będą najważniejsze w szkoleniu konkretnego modelu, co z kolei zmniejsza liczbę wymaganych parametrów.

Zamiast jednak próbować to zrobić przy użyciu konwencjonalnych systemów, D-Wave argumentuje, że algorytmy optymalizacji kwantowej mogą być bardziej skuteczne w określaniu, które cechy należy pominąć, a które pominąć.

Jeśli nie jesteś zaznajomiony, problemy optymalizacyjne, takie jak te powszechnie spotykane w znajdowaniu ścieżki lub logistyce, okazały się jak dotąd jednym z najbardziej obiecujących zastosowań obliczeń kwantowych.

„Nasze komputery kwantowe są naprawdę dobre w optymalizacji rzeczy tam, gdzie coś się dzieje lub nie: na przykład przydzielono komuś określony harmonogram lub konkretną dostawę” – powiedział Thom. „Gdyby te decyzje były niezależne, wszystko byłoby w porządku i byłoby to łatwe dla klasycznego komputera, ale w rzeczywistości wpływają one na inne zasoby w puli i występuje rodzaj efektu sieciowego”.

Innymi słowy, prawdziwy świat jest pełen bałaganu. Na drodze może znajdować się wiele pojazdów, drogi mogą być zamknięte, mogą wystąpić zdarzenia pogodowe i tak dalej. W porównaniu z komputerami klasycznymi unikalne atrybuty właściwe komputerom kwantowym pozwalają im jednocześnie badać te czynniki w celu określenia najlepszej trasy.

Jest to „całkowicie analogiczne do sieci neuronowej, w której neurony albo uruchamiają się, albo nie, i mają połączenia synaptyczne z innymi neuronami, które albo pobudzają, albo powstrzymują inne neurony od pobudzania” – wyjaśnia Thom.

Oznacza to, że algorytmy kwantowe można wykorzystać do optymalizacji zbiorów danych szkoleniowych AI pod kątem określonych wymagań, co po przeszkoleniu daje w efekcie prostszy i dokładniejszy model – twierdzi Lanting.

Kwantowe próbkowanie i rozładowywanie

W dłuższej perspektywie D-Wave i inni szukają sposobów na głębsze wdrożenie QPU w procesie szkoleniowym.

Jeden z tych przypadków użycia polega na zastosowaniu obliczeń kwantowych do próbkowania. Próbkowanie odnosi się do tego, w jaki sposób modele sztucznej inteligencji, takie jak LLM, określają, jakie powinno być następne słowo, a dokładniej token, w oparciu o rozkład prawdopodobieństw. Dlatego często żartuje się, że LLM są po prostu autouzupełniane na sterydach.

„Sprzęt bardzo dobrze radzi sobie z produkcją próbek i można dostroić dystrybucję, dzięki czemu można dostroić wagę tych próbek. Badamy, czy jest to dobry sposób na włączenie obliczeń kwantowych wyżarzania w sposób twardy i bardziej bezpośredni do obciążenia szkoleniowego” – wyjaśnił Lanting.

Francuski start-up zajmujący się obliczeniami kwantowymi, Pasqal, również bawi się wykorzystaniem obliczeń kwantowych do odciążania zestawów danych o strukturze graficznej powszechnie spotykanych w sieciach neuronowych.

„W uczeniu maszynowym nie ma naprawdę prostego sposobu klasycznej reprezentacji danych, ponieważ wykres jest obiektem złożonym” – wyjaśnił Loïc Henriet, współdyrektor generalny Pasqal w wywiadzie dla Rejestr. „Dane o strukturze graficznej można stosunkowo naturalnie osadzić w dynamice kwantowej, co daje początek nowym sposobom przetwarzania tych fragmentów danych”.

Jednak zanim będzie to możliwe, systemy kwantowe będą musiały stać się znacznie większe i znacznie szybsze, wyjaśnił Henriet.

„Duże zbiory danych są obecnie niepraktyczne” – stwierdził. „Dlatego zwiększamy liczbę kubitów; częstotliwość powtarzania. Ponieważ przy większej liczbie kubitów można osadzić więcej danych.

Trudno powiedzieć, jak długo będziemy musieli poczekać, zanim sieci neuronowe z grafami kwantowymi staną się opłacalne. Pasqal ma już system 10,000 XNUMX kubitów w pracach. Niestety badania sugerują, że nawet system zawierający 10,000 XNUMX kubitów korygujących błędy, czyli około miliona kubitów fizycznych, może nie wystarczyć do rywalizować z nowoczesnymi procesorami graficznymi.

Zabawa fotoniką krzemową?

Pomijając przypadki użycia egzotycznej sztucznej inteligencji kwantowej, istnieją inne technologie, które OpenAI mogłoby wykorzystać, a Bartlett tak się składa, że ​​jest ekspertem.

Co najważniejsze, były pracodawca Bartletta, PsiQuantum, opracowuje systemy oparte na fotonice krzemowej. Sugeruje to, że jego zatrudnienie może być powiązane z OpenAI zgłaszane pracować nad niestandardowym akceleratorem AI.

Kilka start-upów zajmujących się fotoniką krzemową, w tym Ayar Labs, Lightmatter i Celestial AI, wykorzystało tę technologię jako sposób na pokonanie ograniczeń przepustowości, które stały się czynnikiem ograniczającym skalowanie wydajności uczenia maszynowego.

Pomysł jest taki, że za pomocą światła możesz przesłać o wiele więcej danych na znacznie większą odległość niż za pomocą sygnału czysto elektrycznego. W wielu z tych projektów światło jest w rzeczywistości przenoszone przez falowody wyryte w krzemie, co brzmi bardzo podobnie do „projektowania małych torów wyścigowych dla fotonów”.

Światłomateria uważa, technologia ta umożliwi działanie wielu akceleratorów jako jeden bez ponoszenia kosztów związanych z przepustowością w przypadku danych opuszczających chip. Tymczasem Celestial widzi Okazja znacznie zwiększyć ilość pamięci o dużej przepustowości dostępnej dla procesorów graficznych, eliminując potrzebę wspólnego pakowania modułów bezpośrednio sąsiadujących z matrycą akceleratora. Obie te możliwości byłyby atrakcyjne dla firmy pracującej na masową skalę z systemami AI.

Czas pokaże, czy OpenAI ostatecznie zdecyduje się na kwantową sztuczną inteligencję czy fotonikę krzemową, ale dla firmy, której założycielowi nie są obce długoterminowe inwestycje, nie byłaby to najdziwniejsza rzecz, którą Altman wspierał. ®

Znak czasu:

Więcej z Rejestr