Sammenhængende demo optiske switche til endnu større AI-klynger

Sammenhængende demo optiske switche til endnu større AI-klynger

Networking biz Coherent afslørede en optisk kredsløbsswitch designet til at understøtte high-density AI-klynger på Optical Fiber Communication Conference i mandags.

Switchen er ikke som dem, du typisk finder i AI-klynger, idet selve omskiftningen håndteres helt optisk i stedet for at bruge transceivere til at konvertere fotoner til elektroner og tilbage igen. Laserlys går simpelthen ind i én port og ud af en anden – med en lille smule dæmpning, selvfølgelig.

apparat, som er planlagt til at blive sendt i volumen næste år, har 300 input- og 300 output-porte og er baseret på Coherents Datacenter Light Wave Cross Connect-teknologi. Som vi forstår det, virker det ved at manipulere flydende krystalceller for at kontrollere, hvilken bølgelængde af lys der går hvorhen.

Coherents seneste optiske kredsløbskontakt på displayet på OFC kan prale af 300 input- og 300 output-porte.

Coherents seneste optiske kredsløbsswitch, der vises på OFC, kan prale af 300 input- og 300 output-porte – Klik for at forstørre

Det fortalte Dell'Oro Group-analytiker Sameh Boujelbene Registret at optiske kredsløbsafbrydere giver et par fordele. Ud over høj båndbredde og lav latens-netværk har switche af denne type tendens til at være billigere i drift – da de kræver væsentligt færre elektriske switche og optiske transceivere.

Derudover bemærker Coherent, at denne form for optisk omskiftning har en tendens til at være mere pålidelig - noget, der vil betale sig i meget større klynger, hvor den gennemsnitlige tid til fejl har en tendens til at være ret lav.

Dette er en af ​​grundene til, at Google udviklede sine egne optiske kredsløbsafbrydere til sine TPUv4-pods. Andy Swing, en teknisk leder for Googles TPU-gruppe, talte til Hot Chips sidste år, forklarede [Video], som ved at bruge OCS var Google i stand til at skifte sammen meget store mængder acceleratorer.

Disse pods består af 64 stativer, der hver indeholder 64 Tensor Processing Units (TPU'er). Hvert af disse stativer blev tilsluttet optisk tilbage til en af ​​Googles internt udviklede OCS-switche, for et alt-til-alle-mesh.

Swing forklarede, at denne tilgang har et par fordele - inklusive evnen til at omkonfigurere klyngestørrelsen dynamisk. En anden er, at alle acceleratorerne er forbundet med hinanden, hvilket forbedrer pålideligheden – en ønskværdig kvalitet, da træningsbelastninger kan vare måneder afhængigt af modellens parameterantal og størrelsen af ​​datasættet.

I tilfælde af Googles TPUv4-pods, hvis en af ​​noderne skulle fejle, kunne switchen omkonfigureres til at løse problemet.

Swing bemærkede også, at tilgangen giver mulighed for at bruge forskellige netværkstopologier afhængigt af modellen. For eksempel, i test, så Google et betydeligt løft i netværkets båndbredde ved at bruge en snoet torus-topologi, hvor acceleratorer er vævet sammen i noget, der ligner en snoet loop.

Men mens Coherents nye OCS-apparater kan tillade andre at bygge optisk switchede klynger svarende til Googles, bemærkede Dell Oros Boujelbene, at OCS stadig er en relativt ny teknologi i datacentret.

"Indtil videre var det kun Google, efter mange års udvikling, der var i stand til at implementere det massevis i dets datacenternetværk,” sagde hun. "Derudover kan OCS-switche kræve en ændring i den installerede fiberbase afhængigt af cloud-tjenesteudbyderen." ®

Tidsstempel:

Mere fra Registret