Tingkatkan Kinerja Harga Pelatihan Model Anda Menggunakan Cluster Heterogen Amazon SageMaker

Diterbitkan Ulang Oleh Plato

Followers: 0

Posting ini ditulis bersama dengan Chaim Rand dari Mobileye.

Beban kerja pembelajaran mesin (ML) tertentu, seperti melatih model visi komputer atau pembelajaran penguatan, sering kali melibatkan penggabungan tugas intensif GPU atau akselerator dari pelatihan model jaringan saraf dengan tugas prapemrosesan data intensif CPU, seperti augmentasi gambar. Saat kedua jenis tugas dijalankan pada jenis instans yang sama, prapemrosesan data akan terhambat pada CPU, yang menyebabkan penggunaan GPU lebih rendah. Masalah ini menjadi lebih buruk seiring waktu karena throughput generasi GPU yang lebih baru tumbuh lebih cepat daripada CPU.

Untuk mengatasi masalah ini, pada Juli 2022, kami diluncurkan cluster heterogen untuk Amazon SageMaker pelatihan model, yang memungkinkan Anda meluncurkan tugas pelatihan yang menggunakan jenis instans berbeda dalam satu tugas. Hal ini memungkinkan pembongkaran bagian dari pipa prapemrosesan data untuk komputasi yang dioptimalkan jenis instans, sedangkan tugas deep neural network (DNN) terus berjalan GPU atau komputasi yang dipercepat jenis contoh. Tolok ukur kami menunjukkan manfaat kinerja harga hingga 46% setelah mengaktifkan cluster heterogen dalam pelatihan model computer vision TensorFlow yang terikat CPU.

Untuk kasus penggunaan serupa, Mebel, sebuah perusahaan pengembangan teknologi kendaraan otonom, memiliki ini untuk dibagikan:

“Dengan memindahkan pelatihan model visi komputer pembelajaran mendalam yang terikat CPU untuk menjalankan beberapa jenis instans (akselerator CPU dan GPU/ML), menggunakan tf.data.service berdasarkan solusi yang telah kami bangun, kami berhasil mengurangi waktu pelatihan hingga 40% sekaligus mengurangi biaya pelatihan hingga 30%. Kami senang dengan klaster heterogen yang memungkinkan kami menjalankan solusi ini di Amazon SageMaker.”

— Rekayasa AI, Mobileye

Dalam posting ini, kita membahas topik-topik berikut:

Bagaimana cluster heterogen membantu menghilangkan kemacetan CPU
Kapan menggunakan cluster heterogen, dan alternatif lain
Implementasi referensi di PyTorch dan TensorFlow
Hasil benchmark kinerja
Cluster heterogen di Mobileye

AWS contoh komputasi yang dipercepat keluarga menyertakan akselerator dari chip khusus AWS (Inferensi AWS, Pelatihan AWS), NVIDIA (GPU), Dan Akselerator Gaudi dari Habana Labs (sebuah perusahaan Intel). Perhatikan bahwa dalam posting ini, kami menggunakan istilah GPU dan akselerator secara bergantian.

Bagaimana cluster heterogen menghilangkan kemacetan pemrosesan data

Ilmuwan data yang melatih model pembelajaran mendalam bertujuan untuk memaksimalkan efisiensi biaya pelatihan dan meminimalkan waktu pelatihan. Untuk mencapai hal ini, satu tujuan pengoptimalan dasar adalah memiliki penggunaan GPU yang tinggi, sumber daya yang paling mahal dan langka di dalam Cloud komputasi elastis Amazon (Amazon EC2) contoh. Ini bisa lebih menantang dengan beban kerja ML yang menggabungkan propagasi maju dan mundur model jaringan saraf intensif GPU klasik dengan tugas intensif CPU, seperti pemrosesan data dan augmentasi dalam visi komputer atau menjalankan simulasi lingkungan dalam pembelajaran penguatan. Beban kerja ini dapat berakhir menjadi terikat CPU, di mana memiliki lebih banyak CPU akan menghasilkan throughput yang lebih tinggi dan pelatihan yang lebih cepat dan lebih murah karena akselerator yang ada sebagian menganggur. Dalam beberapa kasus, kemacetan CPU dapat diatasi dengan beralih ke jenis instans lain dengan rasio CPU:GPU yang lebih tinggi. Namun, ada situasi di mana beralih ke jenis instans lain mungkin tidak dapat dilakukan karena arsitektur keluarga instans, penyimpanan, atau dependensi jaringan.

Dalam situasi seperti itu, Anda harus meningkatkan jumlah daya CPU dengan mencampurkan jenis instans: instans dengan GPU bersama dengan CPU. Dijumlahkan bersama-sama, ini menghasilkan rasio CPU:GPU yang lebih tinggi secara keseluruhan. Sampai saat ini, tugas pelatihan SageMaker terbatas pada memiliki instans dari satu jenis instans yang dipilih. Dengan kluster heterogen SageMaker, ilmuwan data dapat dengan mudah menjalankan tugas pelatihan dengan beberapa jenis instans, yang memungkinkan pembongkaran beberapa tugas CPU yang ada dari instans GPU ke instans CPU khusus yang dioptimalkan untuk komputasi, menghasilkan pemanfaatan GPU yang lebih tinggi dan lebih cepat dan lebih hemat biaya. pelatihan yang efisien. Selain itu, dengan kekuatan CPU ekstra, Anda dapat membuat tugas prapemrosesan yang biasanya dilakukan secara offline sebagai langkah awal pelatihan menjadi bagian dari pekerjaan pelatihan Anda. Ini membuatnya lebih cepat untuk mengulangi dan bereksperimen pada pra-pemrosesan data dan asumsi pelatihan DNN dan hyperparameter.

Misalnya, pertimbangkan jenis instans GPU yang kuat, ml.p4d.24xlarge (96 vCPU, 8 x NVIDIA A100 GPU), dengan rasio CPU:GPU 12:1. Anggaplah tugas pelatihan Anda memerlukan 20 vCPU untuk melakukan praproses data yang cukup agar satu GPU tetap digunakan 100%. Oleh karena itu, agar semua 8 GPU 100% digunakan, Anda memerlukan jenis instans 160 vCPU. Namun, ml.p4d.24xlarge kekurangan 64 vCPU, atau 40%, membatasi penggunaan GPU hingga 60%, seperti yang digambarkan di sebelah kiri diagram berikut. Apakah menambahkan instance ml.p4d.24xlarge lain akan membantu? Tidak, karena rasio CPU:GPU tugas akan tetap sama.

Dengan cluster yang heterogen, kita dapat menambahkan dua ml.c5.18xlarge (72 vCPU), seperti yang ditunjukkan di sebelah kanan diagram. Total vCPU bersih dalam kluster ini adalah 210 (96+2*72), sehingga rasio CPU:GPU menjadi 30:1. Masing-masing instans yang dioptimalkan untuk komputasi ini akan diturunkan muatannya dengan tugas intensif CPU prapemrosesan data, dan akan memungkinkan pemanfaatan GPU yang efisien. Terlepas dari biaya tambahan ml.c5.18xlarge, penggunaan GPU yang lebih tinggi memungkinkan pemrosesan yang lebih cepat, dan oleh karena itu, keuntungan kinerja harga yang lebih tinggi.

Kapan menggunakan cluster heterogen, dan alternatif lain

Di bagian ini, kami menjelaskan cara mengidentifikasi bottleneck CPU, dan mendiskusikan pemecahannya menggunakan peningkatan tipe instance vs. cluster heterogen.

Cara cepat untuk mengidentifikasi hambatan CPU adalah dengan memantau CPU dan GPU metrik pemanfaatan untuk pekerjaan pelatihan SageMaker di amazoncloudwatch. Anda dapat mengakses tampilan ini dari Konsol Manajemen AWS dalam hyperlink metrik instans halaman tugas pelatihan. Pilih metrik yang relevan dan beralih dari resolusi 5 menit ke 1 menit. Perhatikan bahwa skalanya adalah 100% per vCPU atau GPU, sehingga tingkat pemanfaatan untuk instans dengan 4 vCPU/GPU dapat mencapai 400%. Gambar berikut adalah salah satu contoh dari metrik CloudWatch, di mana CPU digunakan kira-kira 100%, menunjukkan kemacetan CPU, sedangkan GPU kurang dimanfaatkan.

Untuk diagnosis terperinci, jalankan pekerjaan pelatihan dengan Debugger Amazon SageMaker untuk membuat profil status pemanfaatan sumber daya, statistik, dan operasi kerangka kerja, dengan menambahkan konfigurasi profiler saat Anda membuat penaksir SageMaker menggunakan SageMaker Python SDK. Setelah Anda mengirimkan pekerjaan pelatihan, tinjau hasilnya laporan profiler untuk kemacetan CPU.

Jika Anda menyimpulkan bahwa pekerjaan Anda dapat memperoleh manfaat dari rasio komputasi CPU:GPU yang lebih tinggi, pertama-tama pertimbangkan untuk meningkatkan ke jenis instans lain dalam keluarga instans yang sama, jika tersedia. Misalnya, jika Anda melatih model Anda pada ml.g5.8xlarge (32 vCPU, 1 GPU), pertimbangkan untuk meningkatkan hingga ml.g5.16xlarge (64 vCPU, 1 GPU). Atau, jika Anda melatih model Anda menggunakan instans multi-GPU ml.g5.12xlarge (48 vCPU, 4 GPU), pertimbangkan untuk meningkatkan hingga ml.g5.24xlarge (96 vCPU, 4 GPU). Mengacu kepada G5 contoh spesifikasi keluarga untuk lebih jelasnya.

Terkadang, peningkatan skala bukanlah pilihan, karena tidak ada jenis instans dengan rasio vCPU:GPU yang lebih tinggi dalam keluarga instans yang sama. Misalnya, jika Anda melatih model pada ml.trn1.32xlarge, ml.p4d.24xlarge, atau ml.g5.48xlarge, Anda harus mempertimbangkan cluster heterogen untuk pelatihan model SageMaker.

Selain scaling up, kami ingin mencatat bahwa ada alternatif tambahan untuk cluster heterogen, seperti NVIDIA DALI, yang memindahkan prapemrosesan gambar ke GPU. Untuk informasi lebih lanjut, lihat Mengatasi Kemacetan Prapemrosesan Data dengan Layanan Data TensorFlow, NVIDIA DALI, dan Metode Lainnya.

Untuk mempermudah pengambilan keputusan, lihat diagram alur berikut.

Cara menggunakan kluster heterogen SageMaker

Untuk memulai dengan cepat, Anda dapat langsung membuka contoh TensorFlow atau PyTorch yang disediakan sebagai bagian dari posting ini.

Di bagian ini, kami memandu Anda melalui cara menggunakan cluster heterogen SageMaker dengan contoh sederhana. Kami berasumsi bahwa Anda sudah tahu cara melatih model dengan SageMaker Python SDK dan kelas Estimator. Jika tidak, lihat Menggunakan SageMaker Python SDK sebelum melanjutkan.

Sebelum fitur ini, Anda menginisialisasi kelas Estimator pekerjaan pelatihan dengan InstanceCount dan parameter InstanceType, yang secara implisit mengasumsikan Anda hanya memiliki satu tipe instans (cluster homogen). Dengan merilis cluster heterogen, kami memperkenalkan yang baru sagemaker.instance_group.InstanceGroup kelas. Ini mewakili grup yang terdiri dari satu atau beberapa instance dari jenis instance tertentu, yang dirancang untuk menjalankan peran logis (seperti pemrosesan data atau pengoptimalan jaringan saraf. Anda dapat memiliki dua grup atau lebih, dan menentukan nama khusus untuk setiap grup instance, instance jenis, dan jumlah instance untuk setiap grup instance. Untuk informasi selengkapnya, lihat Menggunakan SageMaker Python SDK dan Menggunakan API SageMaker Tingkat Rendah.

Setelah Anda menentukan grup instans, Anda perlu memodifikasi skrip pelatihan Anda untuk membaca SageMaker informasi lingkungan pelatihan yang mencakup konfigurasi cluster heterogen. Konfigurasi berisi informasi seperti grup instance saat ini, host saat ini di setiap grup, dan di grup mana host saat ini berada dengan peringkatnya. Anda dapat membangun logika dalam skrip pelatihan untuk menetapkan grup instans ke tugas pelatihan dan pemrosesan data tertentu. Selain itu, skrip pelatihan Anda perlu menangani komunikasi grup antar-instance atau mekanisme pemuatan data terdistribusi (misalnya, tf.data.service di TensorFlow atau generik server klien gRPC) atau kerangka kerja lainnya (misalnya, Apache Spark).

Mari kita lihat contoh sederhana meluncurkan tugas pelatihan heterogen dan membaca konfigurasi lingkungan saat runtime.

Saat mendefinisikan dan meluncurkan tugas pelatihan, kami mengonfigurasi dua grup instans yang digunakan sebagai argumen untuk penaksir SageMaker:

from sagemaker.instance_group import InstanceGroup
data_group = InstanceGroup("data_group", "ml.c5.18xlarge", 2)
dnn_group = InstanceGroup("dnn_group", "ml.p4d.24xlarge", 1)

from sagemaker.pytorch import PyTorch
estimator = PyTorch(...,
    entry_point='launcher.py',
    instance_groups=[data_group, dnn_group]
)

Pada skrip pelatihan titik masuk (bernama launcher.py), kita membaca konfigurasi cluster heterogen apakah instance akan menjalankan preprocessing atau kode DNN:
```
from sagemaker_training import environment
env = environment.Environment()
if env.current_instance_group == 'data_group': ...;
```

Dengan ini, mari rangkum tugas yang dilakukan SageMaker atas nama Anda, dan tugas yang menjadi tanggung jawab Anda.

SageMaker melakukan tugas-tugas berikut:

Sediakan berbagai jenis instans sesuai dengan definisi grup instans.
Sediakan saluran input pada semua atau grup instance tertentu.
Distribusikan skrip pelatihan dan dependensi ke instance.
Siapkan cluster MPI pada grup instance tertentu, jika ditentukan.

Anda bertanggung jawab atas tugas-tugas berikut:

Ubah skrip tugas pelatihan awal Anda untuk menentukan grup instance.
Menerapkan pipa data terdistribusi (misalnya, tf.data.service).
Ubah skrip titik masuk Anda (lihat launcher.py dalam buku catatan contoh) menjadi titik masuk tunggal yang akan berjalan di semua instans, mendeteksi grup instans yang menjalankannya, dan memicu perilaku yang relevan (seperti pemrosesan data atau pengoptimalan DNN).
Saat loop pelatihan selesai, Anda harus memastikan bahwa proses titik masuk Anda keluar dari semua instance di semua grup instance. Ini penting karena SageMaker menunggu semua instans selesai diproses sebelum menandai pekerjaan sebagai selesai dan menghentikan penagihan. Itu launcher.py skrip di buku catatan contoh TensorFlow dan PyTorch memberikan implementasi referensi untuk memberi sinyal kepada instance grup data untuk keluar saat instance grup DNN menyelesaikan pekerjaannya.

Contoh notebook untuk kluster heterogen SageMaker

Di bagian ini, kami memberikan ringkasan tentang contoh buku catatan untuk framework TensorFlow dan PyTorch ML. Di buku catatan, Anda dapat menemukan detail implementasi, panduan tentang cara kerja kode, cuplikan kode yang dapat digunakan kembali dalam skrip pelatihan, diagram alur, dan analisis perbandingan biaya.

Perhatikan bahwa dalam kedua contoh, Anda seharusnya tidak mengharapkan model menyatu dengan cara yang berarti. Maksud kami hanya untuk mengukur jalur pipa data dan throughput pengoptimalan jaringan saraf yang dinyatakan dalam epoch/step time. Anda harus melakukan benchmark dengan model dan set data Anda sendiri untuk menghasilkan manfaat kinerja harga yang sesuai dengan beban kerja Anda.

Cluster heterogen menggunakan pemuat data terdistribusi berbasis tf.data.service (TensorFlow)

Kredensial mikro buku catatan mendemonstrasikan cara menerapkan cluster heterogen untuk pelatihan SageMaker menggunakan TensorFlow's tf.data.service pipa data terdistribusi berbasis. Kami melatih model visi komputer pembelajaran yang mendalam ulangi 50 yang membutuhkan augmentasi data intensif CPU. Ini menggunakan Horvod untuk paralelisme data terdistribusi multi-GPU.

Kami menjalankan beban kerja dalam dua konfigurasi: pertama sebagai cluster homogen, instance ml.p4d.24xlarge tunggal, menggunakan standar tf.data pipa yang menunjukkan kemacetan CPU yang mengarah ke pemanfaatan GPU yang lebih rendah. Dalam proses kedua, kami beralih dari satu jenis instans ke dua grup instans menggunakan kluster heterogen SageMaker. Proses ini menurunkan beberapa pemrosesan data ke instance CPU tambahan (menggunakan tf.data.service).

Kami kemudian membandingkan konfigurasi homogen dan heterogen dan menemukan manfaat kinerja harga utama. Seperti yang ditunjukkan pada tabel berikut, pekerjaan heterogen (86 ms/langkah) 2.2 kali lebih cepat untuk dilatih daripada pekerjaan homogen (192 ms/langkah), sehingga 46% lebih murah untuk melatih model.

Contoh 1 (TF)	ml.p4d.24xl	ml.c5.18xl	Harga per Jam*	Waktu Langkah Rata-rata	Biaya per Langkah	Peningkatan Kinerja Harga
Homogen	1	0	$37.688	192 ms	$0.201	.
Heterogen	1	2	$45.032	86 ms	$0.108	46%

* Harga per jam berdasarkan us-east-1 Harga sesuai permintaan SageMaker

Percepatan ini dimungkinkan dengan memanfaatkan vCPU ekstra, yang disediakan oleh grup data, dan prapemrosesan yang lebih cepat. Lihat buku catatan untuk lebih jelasnya dan grafik.

Cluster heterogen menggunakan pemuat data terdistribusi berbasis klien-server gRPC (PyTorch)

Kredensial mikro buku catatan menunjukkan contoh beban kerja menggunakan cluster heterogen untuk pelatihan SageMaker menggunakan pemuat data terdistribusi berbasis klien-server gRPC. Contoh ini menggunakan GPU tunggal. Kami menggunakan model PyTorch berdasarkan berikut: contoh resmi MNIST. Kode pelatihan telah dimodifikasi menjadi berat pada pra-pemrosesan data. Kami melatih model ini dalam mode cluster homogen dan heterogen, dan membandingkan kinerja harga.

Dalam contoh ini, kami mengasumsikan beban kerja tidak dapat mengambil manfaat dari beberapa GPU, dan memiliki ketergantungan pada arsitektur GPU tertentu (NVIDIA V100). Kami menjalankan pekerjaan pelatihan yang homogen dan heterogen, dan menemukan manfaat kinerja harga utama, seperti yang ditunjukkan pada tabel berikut. Pekerjaan heterogen (1.19 detik/langkah) 6.5 kali lebih cepat untuk dilatih daripada pekerjaan homogen (0.18 detik/langkah), sehingga 77% lebih murah untuk melatih model.

Contoh 2 (PT)	ml.p3.2xl	ml.c5.9xl	Harga per Jam*	Waktu Langkah Rata-rata	Biaya per Langkah	Peningkatan Kinerja Harga
Homogen	1	0	$3.825	1193 ms	$0.127	.
Heterogen	1	1	$5.661	184 ms	$0.029	77%

* Harga per jam berdasarkan us-east-1 Harga sesuai permintaan SageMaker

Hal ini dimungkinkan karena dengan jumlah CPU yang lebih tinggi, kita dapat menggunakan 32 pekerja pemuat data (dibandingkan dengan 8 dengan ml.p3.2xlarge) untuk melakukan praproses data dan menjaga agar GPU mendekati 100% yang digunakan pada interval yang sering. Lihat buku catatan untuk lebih jelasnya dan grafik.

Cluster heterogen di Mobileye

Mobileye, sebuah perusahaan Intel, mengembangkan Advanced Driver Assistance Systems (ADAS) dan teknologi kendaraan otonom dengan tujuan merevolusi industri transportasi, membuat jalan lebih aman, dan menyelamatkan nyawa. Teknologi ini diaktifkan menggunakan model visi komputer (CV) canggih yang dilatih menggunakan SageMaker pada sejumlah besar data yang disimpan di Layanan Penyimpanan Sederhana Amazon (Amazon S3). Model-model ini menggunakan teknik jaringan saraf pembelajaran mendalam yang canggih.

Kami memperhatikan bahwa untuk salah satu model CV kami, kemacetan CPU terutama disebabkan oleh prapemrosesan data yang berat yang mengarah ke GPU yang kurang dimanfaatkan. Untuk beban kerja khusus ini, kami mulai mencari solusi alternatif, mengevaluasi teknologi pipeline data terdistribusi dengan cluster heterogen berdasarkan instans EC2, dan menghasilkan implementasi referensi untuk keduanya. TensorFlow dan PyTorch. Rilis klaster heterogen SageMaker memungkinkan kami menjalankan ini dan beban kerja serupa di SageMaker untuk mencapai manfaat kinerja harga yang lebih baik.

Pertimbangan

Dengan peluncuran fitur klaster heterogen, SageMaker menawarkan lebih banyak fleksibilitas dalam mencampur dan mencocokkan jenis instans dalam tugas pelatihan Anda. Namun, pertimbangkan hal berikut saat menggunakan fitur ini:

Fitur cluster heterogen tersedia melalui SageMaker PyTorch dan TensorFlow kelas penaksir kerangka kerja. Kerangka kerja yang didukung adalah PyTorch v1.10 atau lebih baru dan TensorFlow v2.6 atau lebih baru.
Semua grup instance berbagi gambar Docker yang sama.
Semua grup instance berbagi skrip pelatihan yang sama. Oleh karena itu, skrip pelatihan Anda harus dimodifikasi untuk mendeteksi grup instance mana dan fork berjalan sesuai dengan itu.
Nama host instance pelatihan (misalnya, alog-1, algo-2, dan seterusnya) ditetapkan secara acak, dan tidak menunjukkan grup instance mana yang menjadi milik mereka. Untuk mendapatkan peran instance, sebaiknya dapatkan keanggotaan grup instance selama runtime. Ini juga relevan saat meninjau log in CloudWatch, karena nama aliran log [training-job-name]/algo-[instance-number-in-cluster]-[epoch_timestamp] memiliki nama host.
Strategi pelatihan terdistribusi (biasanya cluster MPI) hanya dapat diterapkan ke satu grup instans.
SageMaker Kolam Hangat Terkelola dan SageMaker Mode lokal saat ini tidak dapat digunakan dengan pelatihan cluster heterogen.

Kesimpulan

Dalam posting ini, kami membahas kapan dan bagaimana menggunakan fitur cluster heterogen dari pelatihan SageMaker. Kami mendemonstrasikan peningkatan kinerja harga 46% pada kasus penggunaan dunia nyata dan membantu Anda memulai dengan cepat dengan pemuat data terdistribusi (tf.data.service dan implementasi klien-server gRPC). Anda dapat menggunakan implementasi ini dengan perubahan kode minimal dalam skrip pelatihan yang ada.

Untuk memulai, cobalah kami contoh buku catatan. Untuk mempelajari lebih lanjut tentang fitur ini, lihat Berlatih Menggunakan Cluster Heterogen.

Tentang penulis

Gili Nachum adalah Arsitek Solusi Spesialis AI/ML senior yang bekerja sebagai bagian dari tim Pembelajaran Mesin Amazon EMEA. Gili sangat menyukai tantangan dalam melatih model pembelajaran mendalam, dan bagaimana pembelajaran mesin mengubah dunia seperti yang kita kenal. Di waktu luangnya, Gili menikmati bermain tenis meja.

Hrushikesh Gangur adalah arsitek solusi utama untuk startup AI/ML dengan keahlian dalam Pelatihan ML dan Jaringan AWS. Dia membantu startup dalam teknologi Autonomous Vehicle, Robotics, CV, NLP, MLOps, ML Platform, dan Robotics Process Automation untuk menjalankan bisnis mereka secara efisien dan efektif di AWS. Sebelum bergabung dengan AWS, Hrushikesh memperoleh 20+ tahun pengalaman industri terutama di sekitar platform Cloud dan Data.

Gal Oshri adalah Manajer Produk Senior di tim Amazon SageMaker. Dia memiliki 7 tahun pengalaman bekerja pada alat, kerangka kerja, dan layanan Machine Learning.

Ketua Rand adalah pengembang algoritme pembelajaran mesin yang mengerjakan teknologi deep learning dan visi komputer untuk solusi Kendaraan Otonom di Mobileye, sebuah Perusahaan Intel. Lihat nya blog.

Stempel Waktu: Oktober 27, 2022Oktober 27, 2022

Stempel Waktu: Juli 31, 2023

Tingkatkan kinerja harga pelatihan model Anda menggunakan klaster heterogen Amazon SageMaker

Diterbitkan Ulang Oleh Plato

Bagaimana cluster heterogen menghilangkan kemacetan pemrosesan data

Kapan menggunakan cluster heterogen, dan alternatif lain

Cara menggunakan kluster heterogen SageMaker

Contoh notebook untuk kluster heterogen SageMaker

Cluster heterogen menggunakan pemuat data terdistribusi berbasis tf.data.service (TensorFlow)

Cluster heterogen menggunakan pemuat data terdistribusi berbasis klien-server gRPC (PyTorch)

Cluster heterogen di Mobileye

Pertimbangan

Kesimpulan

Tentang penulis

Lebih dari Pembelajaran Mesin AWS

Dapatkan wawasan yang lebih baik dari ulasan menggunakan Amazon Comprehend

Prediksi harga real estat perumahan di ImmoScout24 dengan Amazon SageMaker

Accenture menciptakan solusi pembuatan dokumen peraturan menggunakan layanan AI generatif AWS | Layanan Web Amazon

Tingkatkan skalabilitas untuk API stateless Amazon Rekognition menggunakan beberapa wilayah

Mengoptimalkan biaya penerapan model fondasi Amazon SageMaker JumpStart dengan titik akhir asinkron Amazon SageMaker | Layanan Web Amazon

Bangun alur kerja pelipatan protein untuk mempercepat penemuan obat di Amazon SageMaker | Layanan Web Amazon

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun