Comutatoare optice demonstrative coerente pentru clustere AI și mai mari

Comutatoare optice demonstrative coerente pentru clustere AI și mai mari

Networking biz Coherent a dezvăluit un comutator de circuit optic conceput pentru a susține clustere AI de înaltă densitate la Conferința de comunicații pe fibră optică de luni.

Comutatorul nu este ca cele pe care le puteți găsi în mod obișnuit în clusterele AI, deoarece comutarea reală este gestionată în întregime optic, mai degrabă decât utilizarea transceiver-urilor pentru a converti fotonii în electroni și înapoi. Lumina laser pur și simplu intră într-un port și iese din altul - cu puțină atenuare, desigur.

aparat, care este programat să fie livrat în volum anul viitor, are 300 de porturi de intrare și 300 de ieșire și se bazează pe tehnologia Coherent Datacenter Light Wave Cross Connect. După cum înțelegem noi, funcționează prin manipularea celulelor cu cristale lichide pentru a controla ce lungime de undă a luminii merge unde.

Cel mai recent comutator de circuit optic de la Coherent prezentat la OFC are 300 de porturi de intrare și 300 de porturi de ieșire.

Cel mai recent comutator de circuit optic de la Coherent prezentat la OFC are 300 de porturi de intrare și 300 de porturi de ieșire – Faceți clic pentru a mări

Analistul Dell'Oro Group Sameh Boujelbene a declarat Registrul că comutatoarele de circuite optice oferă câteva avantaje. Pe lângă lățimea de bandă mare și rețeaua cu latență scăzută, comutatoarele de acest tip tind să fie mai puțin costisitoare de operat - deoarece necesită substanțial mai puține comutatoare electrice și transceiver optice.

În plus, Coherent observă că acest tip de comutare optică tinde să fie mai fiabilă – ceva care va aduce dividende în grupuri foarte mari, în care timpul până la eșec tinde să fie destul de mic.

Acesta este unul dintre motivele pentru care Google și-a dezvoltat propriile comutatoare de circuite optice pentru podurile sale TPUv4. Vorbind la Hot Chips anul trecut, Andy Swing, lider tehnic al grupului TPU al Google, a explicat [Video] care, folosind OCS, Google a reușit să comute împreună cantități foarte mari de acceleratoare.

Aceste poduri constau din 64 de rafturi, fiecare conținând 64 de unități de procesare a tensorului (TPU). Fiecare dintre aceste rafturi a fost conectat optic înapoi la unul dintre comutatoarele OCS dezvoltate intern de Google, pentru o plasă all-to-all.

Swing a explicat că această abordare are câteva beneficii – inclusiv capacitatea de a reconfigura dinamic dimensiunea clusterului. O alta este că toate acceleratoarele sunt conectate între ele, ceea ce îmbunătățește fiabilitatea – o calitate de dorit, deoarece sarcinile de lucru de antrenament pot dura luni în funcție de numărul de parametri ai modelului și de dimensiunea setului de date.

În cazul podurilor TPUv4 de la Google, dacă unul dintre noduri ar eșua, comutatorul ar putea fi reconfigurat pentru a rezolva problema.

Swing a remarcat, de asemenea, că abordarea permite utilizarea diferitelor topologii de rețea în funcție de model. De exemplu, în timpul testării, Google a observat o creștere considerabilă a lățimii de bandă a rețelei prin utilizarea unei topologii de torus răsucite, în care acceleratoarele sunt îmbinate împreună într-un lucru asemănător cu o buclă răsucită.

Dar, în timp ce noile aparate OCS de la Coherent le pot permite altora să construiască clustere comutate optic similare cu cele ale Google, Boujelbene de la Dell Oro a remarcat că OCS este încă o tehnologie relativ nouă în centrul de date.

„Până acum, numai Google, după mulți ani de dezvoltare, a reușit să-l implementeze în masă în rețelele sale de centre de date”, a spus ea. „În plus, comutatoarele OCS pot necesita o modificare a bazei instalate de fibră, în funcție de furnizorul de servicii cloud.” ®

Timestamp-ul:

Mai mult de la Registrul