Pelatihan Penskalaan Model Bahasa Besar (LLM) Dengan Amazon EC2 Trn1 UltraClusters

Diterbitkan Ulang Oleh Plato

Followers: 0

Pra-pelatihan model modern sering kali membutuhkan penerapan klaster yang lebih besar untuk mengurangi waktu dan biaya. Di tingkat server, beban kerja pelatihan seperti itu menuntut komputasi yang lebih cepat dan peningkatan alokasi memori. Saat model berkembang menjadi ratusan miliar parameter, mereka memerlukan mekanisme pelatihan terdistribusi yang menjangkau beberapa node (instance).

Pada Oktober 2022, kami meluncurkan Instans Trn2 Amazon EC1, Didukung oleh Pelatihan AWS, yang merupakan akselerator pembelajaran mesin generasi kedua yang dirancang oleh AWS. Instans Trn1 dibuat khusus untuk pelatihan model pembelajaran mendalam berperforma tinggi sambil menawarkan penghematan biaya pelatihan hingga 50% dibandingkan instans berbasis GPU yang sebanding. Untuk mempersingkat waktu pelatihan dari minggu ke hari, atau hari ke jam, dan mendistribusikan tugas pelatihan model besar, kita dapat menggunakan EC2 Trn1 UltraCluster, yang terdiri dari rak instans komputasi Trn1 yang dikemas rapat dan ditempatkan bersama, semuanya saling terhubung oleh jaringan skala petabyte non-pemblokiran. Ini adalah UltraCluster terbesar kami hingga saat ini, menawarkan daya komputasi 6 exaflop sesuai permintaan dengan hingga 30,000 chip Trainium.

Dalam postingan ini, kami menggunakan beban kerja pra-pelatihan model Hugging Face BERT-Large sebagai contoh sederhana untuk menjelaskan cara menggunakan Trn1 UltraClusters.

Trn1 UltraClusters

Trn1 UltraCluster adalah grup penempatan instans Trn1 di pusat data. Sebagai bagian dari satu cluster yang berjalan, Anda dapat menjalankan cluster instance Trn1 dengan akselerator Trainium. Diagram berikut menunjukkan contoh.

Trn1 Ultrakluster

Instans UltraClusters dari Trn1 ditempatkan bersama di pusat data, dan saling terhubung menggunakan Adaptor Kain Elastis (EFA), yang merupakan antarmuka jaringan non-pemblokiran skala petabyte, dengan bandwidth jaringan hingga 800 Gbps, yang merupakan dua kali bandwidth yang didukung oleh instans AWS P4d (1.6 Tbps, empat kali lebih besar dengan instans Trn1n mendatang). Antarmuka EFA ini membantu menjalankan beban kerja pelatihan model yang menggunakan Perpustakaan Komunikasi Kolektif Neuron dalam skala besar. Trn1 UltraClusters juga menyertakan layanan penyimpanan yang terhubung ke jaringan seperti Amazon FSx untuk Lustre untuk mengaktifkan akses throughput tinggi ke kumpulan data besar, memastikan kluster beroperasi secara efisien. Trn1 UltraClusters dapat menampung hingga 30,000 perangkat Trainium dan mengirimkan hingga 6 exaflop komputasi dalam satu cluster. EC2 Trn1 UltraClusters menghadirkan hingga 6 exaflops komputasi, secara harfiah superkomputer sesuai permintaan, dengan model penggunaan bayar sesuai penggunaan. Dalam postingan ini, kami menggunakan beberapa alat HPC seperti Slurm untuk meningkatkan UltraCluster dan mengelola beban kerja.

Ikhtisar solusi

AWS menawarkan beragam layanan untuk pelatihan model terdistribusi atau beban kerja inferensi dalam skala besar, termasuk Batch AWS, Layanan Amazon Elastic Kubernetes (Amazon EKS), dan UltraClusters. Posting ini berfokus pada pelatihan model di UltraCluster. Solusi kami menggunakan Kluster Paralel AWS alat manajemen untuk menciptakan infrastruktur dan lingkungan yang diperlukan untuk menjalankan Trn1 UltraCluster. Infrastrukturnya terdiri dari node kepala dan beberapa node komputasi Trn1 dalam virtual private cloud (VPC). Kami menggunakan Slurm sebagai manajemen cluster dan sistem penjadwalan pekerjaan. Diagram berikut mengilustrasikan arsitektur solusi kami.

Tinjauan solusi

Untuk detail selengkapnya dan cara menerapkan solusi ini, lihat Latih model di AWS Trn1 ParallelCluster.

Mari kita lihat beberapa langkah penting dari solusi ini:

Buat VPC dan subnet.
Konfigurasi armada komputasi.
Buat kluster.
Periksa kluster.
Luncurkan pekerjaan pelatihan Anda.

Prasyarat

Untuk mengikuti posting ini, keakraban luas dengan layanan inti AWS seperti Cloud komputasi elastis Amazon (Amazon EC2) tersirat, dan keakraban dasar dengan pembelajaran mendalam dan PyTorch akan sangat membantu.

Buat VPC dan subnet

Cara mudah untuk membuat VPC dan subnet adalah melalui Cloud Pribadi Virtual Amazon (Amazon VPC) konsol. Instruksi lengkap dapat ditemukan di GitHub. Setelah VPC dan subnet diinstal, Anda perlu mengonfigurasi instance di armada komputasi. Singkatnya, ini dimungkinkan oleh skrip instalasi yang ditentukan oleh CustomActions dalam file YAML yang digunakan untuk membuat ParallelCluster (lihat Buat ParallelCluster). Sebuah ParallelCluster memerlukan VPC yang memiliki dua subnet dan gateway Network Address Translation (NAT), seperti yang ditunjukkan pada diagram arsitektur sebelumnya. VPC ini harus berada di Availability Zone tempat instans Trn1 tersedia. Selain itu, di VPC ini, Anda harus memiliki subnet publik dan subnet pribadi untuk menampung masing-masing node kepala dan node komputasi Trn1. Anda juga memerlukan akses internet gateway NAT, sehingga node komputasi Trn1 dapat mengunduh Neuron AWS paket. Secara umum, node komputasi akan menerima pembaruan untuk paket OS, driver dan runtime Neuron, dan driver EFA untuk pelatihan multi-instance.

Sedangkan untuk node kepala, selain komponen yang disebutkan di atas untuk node komputasi, ia juga menerima kompiler PyTorch-NeuronX dan NeuronX, yang memungkinkan proses kompilasi model di perangkat XLA seperti Trainium.

Konfigurasi armada komputasi

Dalam file YAML untuk membuat Trn1 UltraCluster, InstanceType ditentukan sebagai trn1.32xlarge. MaxCount dan MinCount digunakan untuk menunjukkan rentang ukuran armada komputasi Anda. Anda dapat menggunakan MinCount untuk menjaga beberapa atau semua instans Trn1 tersedia setiap saat. MinCount mungkin disetel ke nol sehingga jika tidak ada tugas yang berjalan, instans Trn1 dilepaskan dari klaster ini.

Trn1 juga dapat digunakan dalam UltraCluster dengan banyak antrean. Dalam contoh berikut, hanya ada satu antrean yang disiapkan untuk pengiriman tugas Slurm:

InstanceType: trn1.32xlarge
MaxCount: 16
MinCount: 0
Name: queue1-i1

Jika Anda membutuhkan lebih dari satu antrean, Anda dapat menentukan beberapa antrean InstanceType, masing-masing dengan sendiri MaxCount, MinCount, dan Name:

InstanceType: trn1.32xlarge
MaxCount: 8
MinCount: 0
Name: queue-0
InstanceType: trn1.32xlarge
MaxCount: 8
MinCount: 0
Name: queue-1

Di sini, dua antrian disiapkan, sehingga pengguna memiliki fleksibilitas untuk memilih sumber daya untuk pekerjaan Slurm mereka.

Buat kluster

Untuk meluncurkan Trn1 UltraCluster, gunakan yang berikut ini pcluster perintah dari mana Anda Alat ParallelCluster diinstal:

pcluster create-cluster --cluster-configuration <YAML FILE NAME> -n <CLUSTER NAME>

Kami menggunakan opsi berikut dalam perintah ini:

--cluster-configuration – Opsi ini mengharapkan file YAML yang menjelaskan konfigurasi cluster
-n (Atau --cluster-name) – Nama kluster ini

Perintah ini membuat klaster Trn1 di akun AWS Anda. Anda dapat memeriksa progres pembuatan cluster di Formasi AWS Cloud menghibur. Untuk informasi lebih lanjut, lihat Menggunakan konsol AWS CloudFormation.

Atau, Anda dapat menggunakan perintah berikut untuk melihat status permintaan Anda:

pcluster describe-cluster -n <CLUSTER NAME>

dan perintah akan menunjukkan status, misalnya:

{ "creationTime": "2023-01-09T03:26:17.235Z", "headNode": { "launchTime": "2023-01-09T03:29:23.000Z", "instanceId": "XXXXX", "publicIpAddress": "XX.XX.XXX.XXX", "instanceType": "c5.4xlarge", "state": "running", "privateIpAddress": "XX.XX.XX.XXX"
}, "version": "3.3.0", "clusterConfiguration": { "url": "XXXX....“
}, "tags": [
{ "value": "3.2.1", "key": "parallelcluster:version"
},
{ "value": "PC16Trn1", "key": "parallelcluster:cluster-name"
}
], "cloudFormationStackStatus": "CREATE_IN_PROGRESS", "clusterName": "PC16Trn1", "computeFleetStatus": "UNKNOWN", "cloudformationStackArn": "arn:aws:cloudformation:us-west-2:...:stack/PC16Trn1/...", "lastUpdatedTime": "2023-01-09T03:26:17.235Z", "region": "us-west-2", "clusterStatus": "CREATE_IN_PROGRESS", "scheduler": { "type": "slurm"
}
}

Berikut ini adalah parameter yang menarik dari output:

instanceId – Ini adalah ID instance dari node kepala, yang akan dicantumkan di konsol Amazon EC2
komputasiFleetStatus – Atribut ini menunjukkan kesiapan node komputasi
Tag – Atribut ini menunjukkan versi dari pcluster alat yang digunakan untuk membuat cluster ini

Periksa kluster

Anda dapat menggunakan yang disebutkan di atas pcluster describe-cluster perintah untuk memeriksa cluster. Setelah cluster dibuat, Anda akan mengamati hal berikut di output:

"clusterStatus": "CREATE_COMPLETE"

Pada titik ini, Anda dapat melakukan SSH ke node kepala (diidentifikasi dengan ID instans di konsol Amazon EC2). Berikut ini adalah diagram logika cluster.

Diagram logika cluster

Setelah Anda SSH ke node kepala, Anda dapat memverifikasi armada komputasi dan statusnya dengan perintah Slurm seperti sinfo untuk melihat informasi node untuk sistem. Berikut ini adalah contoh keluaran:

PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
compute1* up infinite 16 alloc compute1-st-queue1-i1-[1-16]

Ini menunjukkan bahwa ada satu antrian seperti yang ditunjukkan oleh satu partisi. Ada 16 node yang tersedia, dan sumber daya dialokasikan. Dari node kepala, Anda dapat SSH ke node komputasi mana pun yang diberikan:

ssh compute1-st-queue1-i1-16

penggunaan exit untuk kembali ke node kepala.

Demikian juga, Anda dapat SSH menjadi node komputasi dari node komputasi lain. Setiap node komputasi memiliki alat Neuron yang diinstal, seperti neuron-top. Anda dapat memohon neuron-top selama menjalankan skrip pelatihan untuk memeriksa pemanfaatan NeuronCore di setiap node.

Luncurkan pekerjaan pelatihan Anda

Kami menggunakan Memeluk Wajah BERT-Tutorial Pretraining Besar sebagai contoh untuk dijalankan di cluster ini. Setelah data pelatihan dan skrip diunduh ke cluster, kami menggunakan pengontrol Slurm untuk mengelola dan mengatur beban kerja kami. Kami mengirimkan pekerjaan pelatihan dengan sbatch memerintah. Skrip shell memanggil skrip Python melalui neuron_parallel_compile API untuk mengompilasi model menjadi grafik tanpa menjalankan pelatihan penuh. Lihat kode berikut:

sbatch --exclusive --nodes=16 --wrap "srun neuron_parallel_compile ./run_dp_bert_large_hf_pretrain_bf16_s128.sh"

Kami menggunakan opsi berikut dalam perintah ini:

--exclusive – Pekerjaan ini akan menggunakan semua node dan tidak akan berbagi node dengan pekerjaan lain saat menjalankan pekerjaan saat ini.
--nodes – Jumlah node untuk pekerjaan ini.
--wrap – Ini mendefinisikan string perintah yang dijalankan oleh pengontrol Slurm. Dalam hal ini, itu hanya mengkompilasi model secara paralel menggunakan semua node.

Setelah model berhasil dikompilasi, Anda dapat memulai tugas pelatihan penuh dengan perintah berikut:

sbatch --exclusive --nodes=16 --wrap "srun ./run_dp_bert_large_hf_pretrain_bf16_s128.sh"

Perintah ini akan meluncurkan tugas pelatihan untuk model Hugging Face BERT-Large. Dengan 16 node Trn1.32xlarge, Anda dapat mengharapkannya selesai dalam waktu kurang dari 8 jam.

Pada titik ini, Anda dapat menggunakan perintah Slurm seperti squeue untuk memeriksa pekerjaan yang diserahkan. Contoh keluarannya adalah sebagai berikut:

JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
3 compute1 wrap ubuntu R 45:27 16 compute1-st-queue1-i1-[1-16]

Output ini menunjukkan pekerjaan sedang berjalan (R) pada 16 node komputasi.

Saat pekerjaan sedang berjalan, keluaran ditangkap dan ditambahkan dalam file log Slurm. Dari terminal node kepala, Anda dapat memeriksanya secara real time.

tail -f slurm-3.out

Juga, di direktori yang sama dengan file log Slurm, ada direktori terkait untuk pekerjaan ini. Direktori ini mencakup yang berikut (misalnya):

-rw-rw-r— 1 ubuntu ubuntu 3772 Jan 10 21:41 results.json
-rw-rw-r— 1 ubuntu ubuntu 4160336620 Jan 10 21:42 ckpt_2593.pt
-rw-rw-r— 1 ubuntu ubuntu 106712 Jan 10 21:43 log_ph1_bf16_1_2
-rw-rw-r— 1 ubuntu ubuntu 429325 Jan 10 21:58 log_ph1_bf16_0_2
.....

Direktori ini dapat diakses oleh semua node komputasi. results.json menangkap metadata dari tugas khusus ini, seperti konfigurasi model, ukuran kumpulan, langkah total, langkah akumulasi gradien, dan nama set data pelatihan. Pos pemeriksaan model dan log keluaran per setiap node komputasi juga direkam dalam direktori ini.

Pertimbangkan skalabilitas cluster

Dalam UltraCluster Trn1, beberapa instans Trn1 yang saling terhubung menjalankan beban kerja pelatihan model besar secara paralel dan mengurangi total waktu komputasi atau waktu untuk konvergensi. Ada dua ukuran skalabilitas cluster: penskalaan yang kuat dan penskalaan yang lemah. Biasanya, untuk pelatihan model, yang diperlukan adalah mempercepat proses pelatihan, karena biaya penggunaan ditentukan oleh throughput sampel untuk putaran pembaruan gradien. Penskalaan yang kuat mengacu pada skenario di mana ukuran masalah total tetap sama dengan peningkatan jumlah prosesor, penskalaan yang kuat adalah ukuran penting dari skalabilitas untuk pelatihan model. Dalam mengevaluasi penskalaan yang kuat, (yaitu dampak paralelisasi), kami ingin menjaga ukuran kumpulan global tetap sama dan melihat berapa banyak waktu yang dibutuhkan untuk konvergensi. Dalam skenario seperti itu, kita perlu menyesuaikan langkah mikro akumulasi gradien sesuai dengan jumlah node komputasi. Ini dicapai dengan yang berikut dalam skrip shell pelatihan run_dp_bert_large_hf_pretrain_bf16_s128.sh:

GRAD_ACCUM_USTEPS=$(($GRAD_ACCUM_USTEPS/$WORLD_SIZE_JOB))

Sebaliknya, jika Anda ingin mengevaluasi berapa banyak lagi beban kerja yang dapat dijalankan pada waktu yang tetap dengan menambahkan lebih banyak node, gunakan penskalaan lemah untuk mengukur skalabilitas. Dalam penskalaan yang lemah, ukuran masalah meningkat pada tingkat yang sama dengan jumlah NeuronCoress, sehingga jumlah pekerjaan per NeuronCores tetap sama. Untuk mengevaluasi penskalaan yang lemah, atau efek penambahan lebih banyak node pada peningkatan beban kerja, cukup hapus baris di atas dari skrip pelatihan, dan pertahankan jumlah langkah untuk akumulasi gradien konstan dengan nilai default (32) yang disediakan dalam skrip pelatihan.

Evaluasi hasil Anda

Kami menyediakan beberapa hasil benchmark di Halaman kinerja neuron untuk menunjukkan efek skala. Data menunjukkan manfaat menggunakan beberapa instans untuk memparalelkan tugas pelatihan untuk banyak model besar yang berbeda untuk dilatih dalam skala besar.

Bersihkan infrastruktur Anda

Untuk menghapus semua infrastruktur UltraCluster ini, gunakan pcluster perintah untuk menghapus cluster dan sumber dayanya:

pcluster delete-cluster -n <CLUSTER NAME>

Kesimpulan

Dalam postingan ini, kita membahas bagaimana menskalakan tugas pelatihan Anda di Trn1-UltraCluster, yang didukung oleh akselerator Trainium di AWS, mengurangi waktu untuk melatih model. Kami juga menyediakan link ke Repositori sampel neuron, yang berisi instruksi tentang cara menerapkan tugas pelatihan terdistribusi untuk model BERT-Large. Trn1-UltraCluster menjalankan beban kerja pelatihan terdistribusi untuk melatih model deep learning ultra-besar dalam skala besar. Penyiapan pelatihan terdistribusi menghasilkan konvergensi model yang jauh lebih cepat dibandingkan dengan pelatihan pada satu instans Trn1.

Untuk mempelajari selengkapnya tentang cara memulai instans Trn1 yang didukung Trainium, kunjungi dokumentasi neuron.

Tentang Penulis

KC Tung adalah Arsitek Solusi Senior di AWS Annapurna Labs. Dia berspesialisasi dalam pelatihan dan penerapan model deep learning berskala besar di cloud. Dia memiliki gelar Ph.D. dalam biofisika molekuler dari University of Texas Southwestern Medical Center di Dallas. Dia telah berbicara di AWS Summits dan AWS Reinvent. Hari ini dia membantu pelanggan melatih dan menerapkan model PyTorch dan TensorFlow besar di AWS cloud. Dia adalah penulis dua buku: Pelajari Perusahaan TensorFlow dan TensorFlow 2 Referensi Saku.

Jeffrey Huynh adalah Insinyur Utama di AWS Annapurna Labs. Dia bersemangat membantu pelanggan menjalankan pelatihan dan beban kerja inferensi mereka di perangkat akselerator Trainium dan Inferentia menggunakan SDK Neuron AWS. Dia adalah alumni Caltech/Stanford dengan gelar Fisika dan EE. Dia suka berlari, tenis, memasak, dan membaca tentang sains dan teknologi.

Shruti Koparkar adalah Manajer Pemasaran Produk Senior di AWS. Dia membantu pelanggan mengeksplorasi, mengevaluasi, dan mengadopsi infrastruktur komputasi yang dipercepat EC2 untuk kebutuhan pembelajaran mesin mereka.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/scaling-large-language-model-llm-training-with-amazon-ec2-trn1-ultraclusters/

Stempel Waktu: Februari 16, 2023

Stempel Waktu: September 28, 2023

Diterbitkan Ulang Oleh Plato

Bangun solusi verifikasi vaksinasi menggunakan fitur Kueri di Amazon Textract | Layanan Web Amazon

Ukur Dampak Bisnis dari Rekomendasi Personalisasi Amazon

Mengumumkan Pratinjau Amazon SageMaker Profiler: Melacak dan memvisualisasikan data kinerja perangkat keras terperinci untuk beban kerja pelatihan model Anda | Layanan Web Amazon

Percepat perkiraan rangkaian waktu Anda hingga 50 persen dengan UI Kanvas Amazon SageMaker dan API AutoML | Layanan Web Amazon

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun