Demo saklar optik yang koheren untuk cluster AI yang lebih besar

Demo saklar optik yang koheren untuk cluster AI yang lebih besar

Bisnis jaringan Coherent meluncurkan saklar sirkuit optik yang dirancang untuk mendukung cluster AI kepadatan tinggi di Konferensi Komunikasi Serat Optik pada hari Senin.

Peralihan ini tidak seperti yang biasa Anda temukan di kluster AI karena peralihan sebenarnya ditangani sepenuhnya secara optik, dibandingkan menggunakan transceiver untuk mengubah foton menjadi elektron dan sebaliknya. Sinar laser cukup masuk ke satu port dan keluar dari port lainnya โ€“ tentu saja dengan sedikit redaman.

Grafik alat, yang dijadwalkan untuk dikirimkan dalam jumlah besar tahun depan, memiliki 300 port input dan 300 output dan didasarkan pada teknologi Pusat Data Light Wave Cross Connect dari Coherent. Seperti yang kita pahami, ia bekerja dengan memanipulasi sel kristal cair untuk mengontrol panjang gelombang cahaya yang menuju ke mana.

Sakelar sirkuit optik terbaru Coherent yang dipamerkan di OFC menawarkan 300 port input dan 300 output.

Sakelar sirkuit optik terbaru Coherent yang dipamerkan di OFC menawarkan 300 port input dan 300 output โ€“ Klik untuk memperbesar

Kata analis Dell'Oro Group, Sameh Boujelbene Pendaftaran bahwa saklar sirkuit optik menawarkan beberapa manfaat. Selain bandwidth tinggi dan jaringan latensi rendah, sakelar jenis ini cenderung lebih murah pengoperasiannya โ€“ karena memerlukan sakelar listrik dan transceiver optik yang jauh lebih sedikit.

Selain itu, Coherent mencatat bahwa peralihan optik semacam ini cenderung lebih dapat diandalkan โ€“ sesuatu yang akan memberikan keuntungan dalam kelompok yang sangat besar yang berarti waktu kegagalan cenderung cukup rendah.

Inilah salah satu alasan Google mengembangkan sakelar sirkuit optiknya sendiri untuk pod TPUv4-nya. Berbicara di Hot Chips tahun lalu, Andy Swing, pimpinan teknis grup TPU Google, menjelaskan [Video] bahwa dengan menggunakan OCS Google dapat mengganti akselerator dalam jumlah yang sangat besar.

Pod ini terdiri dari 64 rak yang masing-masing berisi 64 Tensor Processing Unit (TPU). Masing-masing rak ini dihubungkan kembali secara optik ke salah satu sakelar OCS yang dikembangkan secara internal oleh Google, untuk mesh menyeluruh.

Swing menjelaskan pendekatan ini memiliki beberapa manfaat โ€“ termasuk kemampuan untuk mengkonfigurasi ulang ukuran cluster secara dinamis. Alasan lainnya adalah semua akselerator terhubung satu sama lain, sehingga meningkatkan keandalan โ€“ kualitas yang diinginkan karena beban kerja pelatihan dapat bertahan berbulan-bulan bergantung pada jumlah parameter model dan ukuran kumpulan data.

Dalam kasus pod TPUv4 Google, jika salah satu node mengalami kegagalan, switch dapat dikonfigurasi ulang untuk mengatasi masalah tersebut.

Swing juga mencatat bahwa pendekatan ini memungkinkan berbagai topologi jaringan digunakan tergantung pada modelnya. Misalnya, dalam pengujian, Google melihat peningkatan yang cukup besar dalam bandwidth jaringan dengan menggunakan topologi twisted torus, di mana akselerator disatukan dalam sesuatu yang menyerupai loop memutar.

Namun meskipun peralatan OCS baru dari Coherent memungkinkan pihak lain untuk membangun cluster yang dialihkan secara optik serupa dengan milik Google, Boujelbene dari Dell Oro mencatat bahwa OCS masih merupakan teknologi yang relatif baru di pusat data.

โ€œSejauh ini hanya Google, setelah bertahun-tahun dalam pengembangan, yang mampu menerapkannya secara masal di jaringan pusat datanya,โ€ katanya. โ€œSelain itu, switch OCS mungkin memerlukan perubahan pada basis fiber yang terpasang tergantung pada penyedia layanan cloud.โ€ ยฎ

Stempel Waktu:

Lebih dari Pendaftaran