Spójne demonstracje przełączników optycznych dla jeszcze większych klastrów AI

Spójne demonstracje przełączników optycznych dla jeszcze większych klastrów AI

W poniedziałek na konferencji Optical Fibre Communication Conference firma Networking biz Coherent zaprezentowała przełącznik obwodu optycznego przeznaczony do obsługi klastrów AI o dużej gęstości.

Przełącznik nie przypomina tych, które zwykle można znaleźć w klastrach AI, ponieważ faktyczne przełączanie odbywa się całkowicie optycznie, a nie za pomocą transceiverów do przekształcania fotonów w elektrony i odwrotnie. Światło lasera po prostu wchodzi do jednego portu i wychodzi z drugiego – oczywiście z pewnym tłumieniem.

Połączenia urządzenie, który ma zostać wprowadzony w masowej sprzedaży w przyszłym roku, ma 300 portów wejściowych i 300 wyjściowych i jest oparty na technologii Datacenter Light Wave Cross Connect firmy Coherent. Jak rozumiemy, działa to poprzez manipulowanie komórkami ciekłokrystalicznymi w celu kontrolowania, która długość fali światła trafia dokąd.

Najnowszy przełącznik obwodu optycznego Coherent zaprezentowany w OFC ma 300 portów wejściowych i 300 wyjściowych.

Najnowszy przełącznik obwodu optycznego Coherent prezentowany w OFC ma 300 portów wejściowych i 300 wyjściowych – kliknij, aby powiększyć

Analityk grupy Dell'Oro, Sameh Boujelbene, powiedział Rejestr że przełączniki obwodów optycznych oferują kilka korzyści. Oprócz sieci o dużej przepustowości i małych opóźnieniach, przełączniki tego typu są zwykle tańsze w obsłudze, ponieważ wymagają znacznie mniej przełączników elektrycznych i transceiverów optycznych.

Ponadto Coherent zauważa, że ​​tego rodzaju przełączanie optyczne jest zwykle bardziej niezawodne – jest to coś, co będzie procentować w bardzo większych klastrach, w których średni czas do wystąpienia awarii jest zwykle dość krótki.

Jest to jeden z powodów, dla których Google opracowało własne przełączniki obwodów optycznych dla swoich kapsuł TPUv4. W zeszłym roku przemawiając na Hot Chips, Andy Swing, kierownik techniczny grupy TPU w Google, wyjaśnione [Wideo] jak za pomocą OCS Google był w stanie zestawić ze sobą bardzo duże ilości akceleratorów.

Moduły te składają się z 64 stojaków, z których każdy zawiera 64 jednostki przetwarzające Tensor (TPU). Każdy z tych stojaków został ponownie podłączony optycznie do jednego z opracowanych wewnętrznie przełączników OCS firmy Google, co umożliwiło utworzenie siatki typu „wszystko do wszystkich”.

Swing wyjaśnił, że takie podejście ma kilka zalet – w tym możliwość dynamicznej rekonfiguracji rozmiaru klastra. Inną sytuacją jest to, że wszystkie akceleratory są ze sobą połączone, co zwiększa niezawodność – jest to pożądana jakość, ponieważ obciążenia szkoleniowe mogą trwać miesiące, w zależności od liczby parametrów modelu i rozmiaru zbioru danych.

W przypadku modułów Google TPUv4 w przypadku awarii jednego z węzłów można ponownie skonfigurować przełącznik, aby obejść problem.

Swing zauważył również, że podejście to pozwala na zastosowanie różnych topologii sieci w zależności od modelu. Na przykład podczas testów Google zaobserwował znaczny wzrost przepustowości sieci dzięki zastosowaniu topologii skręconego torusa, w której akceleratory są połączone ze sobą w sposób przypominający skręconą pętlę.

Choć nowe urządzenia OCS firmy Coherent mogą umożliwić innym budowanie klastrów z przełączaniem optycznym podobnych do klas Google, Boujelbene z Dell Oro zauważył, że OCS to wciąż stosunkowo nowa technologia w centrach danych.

„Jak dotąd tylko Google, po wielu latach rozwoju, był w stanie go wdrożyć masowo w sieciach centrów danych” – powiedziała. „Dodatkowo przełączniki OCS mogą wymagać zmiany zainstalowanej bazy światłowodów w zależności od dostawcy usług w chmurze.” ®

Znak czasu:

Więcej z Rejestr