13 chipów waflowych dla superkomputera Exaflop AI PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

13 chipów waflowych do superkomputera Exaflop AI

Cerebras Systems, pionier w przyspieszaniu obliczeń sztucznej inteligencji (AI), zaprezentował dziś Andromedę, superkomputer AI z 13.5 milionami rdzeni, jest już dostępny i używany do prac komercyjnych i akademickich. Zbudowana z klastra 16 systemów Cerebras CS-2 i wykorzystująca technologie Cerebras MemoryX i SwarmX, Andromeda zapewnia ponad 1 eksaflop obliczeń AI i 120 petaflopów gęstych obliczeń przy 16-bitowej precyzji połowicznej. Jest to jedyny superkomputer AI, który kiedykolwiek zademonstrował niemal idealne skalowanie liniowe w przypadku obciążeń związanych z dużymi modelami językowymi, opierając się wyłącznie na prostej równoległości danych.

Odtwarzacz wideo YouTube

Odtwarzacz wideo YouTube

Odtwarzacz wideo YouTube

Wyposażona w 13.5 miliona rdzeni obliczeniowych zoptymalizowanych pod kątem sztucznej inteligencji i zasilana przez 18,176 3 procesorów AMD EPYC™ trzeciej generacji, Andromeda ma więcej rdzeni niż 1,953 procesory graficzne Nvidia A100 i 1.6 razy więcej rdzeni niż największy superkomputer na świecie, Frontier, który ma 8.7 miliona rdzeni. W przeciwieństwie do innych znanych klastrów opartych na procesorach graficznych, Andromeda zapewnia niemal idealne skalowanie poprzez prostą równoległość danych w dużych modelach językowych klasy GPT, w tym GPT-3, GPT-J i GPT-NeoX.

13 chipów waflowych dla superkomputera Exaflop AI PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

13 chipów waflowych dla superkomputera Exaflop AI PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Prawie idealne skalowanie oznacza, że ​​użycie dodatkowych CS-2 powoduje skrócenie czasu treningu w niemal idealnej proporcji. Obejmuje to duże modele językowe o bardzo dużych długościach sekwencji, co jest zadaniem niemożliwym do wykonania na procesorach graficznych. Tak naprawdę pracę niemożliwą do wykonania na GPU zademonstrował jeden z pierwszych użytkowników Andromedy, który osiągnął niemal idealne skalowanie na GPT-J przy 2.5 miliarda i 25 miliardach parametrów przy długich sekwencjach — MSL wynoszącym 10,240 2,000. Użytkownicy próbowali wykonać tę samą pracę na Polaris, klastrze Nvidia A100 z XNUMX procesorami, ale procesory graficzne nie były w stanie wykonać tej pracy ze względu na pamięć GPU i ograniczenia przepustowości pamięci.

13 chipów waflowych dla superkomputera Exaflop AI PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

13 chipów waflowych dla superkomputera Exaflop AI PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Silnik Wafer-Scale Engine (WSE-2), który napędza system Cerebras CS-2, to największy chip, jaki kiedykolwiek zbudowano. WSE-2 jest 56 razy większy od największego procesora graficznego, ma 123 razy więcej rdzeni obliczeniowych i 1000 razy więcej wysokowydajnej pamięci wbudowanej. Jedyny procesor w skali waflowej, jaki kiedykolwiek wyprodukowano, zawiera 2.6 biliona tranzystorów, 850,000 40 rdzeni zoptymalizowanych pod kątem sztucznej inteligencji i XNUMX gigabajtów wysokowydajnej pamięci na płytce, a wszystko to w celu przyspieszenia pracy sztucznej inteligencji.

Skala klastra w jednym chipie

W przeciwieństwie do tradycyjnych urządzeń z niewielką ilością wbudowanej pamięci podręcznej i ograniczoną przepustowością komunikacyjną, WSE-2 posiada 40 GB wbudowanej pamięci SRAM, równomiernie rozmieszczonej na całej powierzchni chipa, zapewniając każdemu rdzeniowi dostęp do danych w jednym cyklu zegara szybką pamięć o wyjątkowo dużej przepustowości 20PB/s. To 1,000 razy większa pojemność i 9,800 razy większa przepustowość w porównaniu z wiodącym procesorem graficznym.

Wysoka przepustowość, niskie opóźnienia
Interkonekt na płytce WSE-2 eliminuje spowolnienie komunikacji i nieefektywność łączenia setek małych urządzeń za pomocą przewodów i kabli. Zapewnia zdumiewającą przepustowość połączeń między rdzeniami wynoszącą 220 Pb/s. To ponad 45,000 XNUMX razy większa przepustowość między procesorami graficznymi. Rezultatem jest szybsze i bardziej wydajne wykonywanie zadań związanych z głębokim uczeniem się przy ułamku poboru mocy przez tradycyjne klastry GPU.

Brian Wang jest liderem myśli futurystycznej i popularnym blogerem naukowym z milionem czytelników miesięcznie. Jego blog Nextbigfuture.com zajmuje pierwsze miejsce w rankingu Science News Blog. Obejmuje wiele przełomowych technologii i trendów, w tym przestrzeń kosmiczną, robotykę, sztuczną inteligencję, medycynę, biotechnologię przeciwstarzeniową i nanotechnologię.

Znany z identyfikowania najnowocześniejszych technologii, obecnie jest współzałożycielem startupu i fundraiserem dla firm o wysokim potencjale we wczesnej fazie rozwoju. Pełni funkcję Szefa Działu Badań Alokacji dla inwestycji w głębokie technologie oraz Anioła Inwestora w Space Angels.

Częsty mówca w korporacjach, mówca TEDx, mówca Singularity University i gościnnie w licznych wywiadach dla radia i podcastów. Jest otwarty na wystąpienia publiczne i doradzanie.

Znak czasu:

Więcej z Następne duże kontrakty terminowe