Kurangi waktu dan biaya pelatihan pembelajaran mendalam dengan Komposer MosaikML di AWS PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Kurangi waktu dan biaya pelatihan deep learning dengan MosaicML Composer di AWS

Dalam dekade terakhir, kita telah melihat Ilmu pembelajaran mendalam (DL) diadopsi dengan kecepatan luar biasa oleh pelanggan AWS. Parameter model DL yang berlimpah dan dilatih bersama memiliki kapasitas representasional besar yang membawa peningkatan dalam banyak kasus penggunaan pelanggan, termasuk analisis gambar dan ucapan, pemrosesan bahasa alami (NLP), pemrosesan deret waktu, dan banyak lagi. Dalam posting ini, kami menyoroti tantangan yang biasanya dilaporkan secara khusus dalam pelatihan DL, dan bagaimana perpustakaan sumber terbuka Komposer MosaicML membantu menyelesaikannya.

Tantangan dengan pelatihan DL

Model DL dilatih secara iteratif, dalam loop for bersarang. Sebuah loop berulang melalui potongan dataset pelatihan demi potongan dan, jika perlu, loop ini diulang beberapa kali di seluruh dataset. Praktisi ML yang mengerjakan pelatihan DL menghadapi beberapa tantangan:

  • Durasi pelatihan bertambah seiring dengan ukuran data. Dengan kumpulan data yang terus bertambah, waktu dan biaya pelatihan juga bertambah, dan ritme penemuan ilmiah melambat.
  • Skrip DL sering memerlukan kode boilerplate, terutama struktur loop ganda yang disebutkan di atas yang membagi kumpulan data menjadi minibatch dan pelatihan menjadi epoch.
  • Paradoks pilihan: beberapa makalah dan perpustakaan pengoptimalan pelatihan diterbitkan, namun tidak jelas mana yang harus diuji terlebih dahulu, dan bagaimana menggabungkan efeknya.

Dalam beberapa tahun terakhir, beberapa perpustakaan sumber terbuka seperti Keras, Petir PyTorch, Memeluk Transformer Wajah, dan Kereta Api telah berusaha membuat pelatihan DL lebih mudah diakses, terutama dengan mengurangi verbositas kode, sehingga menyederhanakan bagaimana jaringan saraf diprogram. Sebagian besar perpustakaan tersebut berfokus pada pengalaman pengembang dan kekompakan kode.

Dalam posting ini, kami menyajikan perpustakaan open-source baru yang mengambil sikap berbeda pada pelatihan DL: Komposer MosaicML adalah perpustakaan kecepatan-sentris yang tujuan utamanya adalah membuat skrip pelatihan jaringan saraf lebih cepat melalui inovasi algoritmik. Di dunia cloud DL, sebaiknya fokus pada kecepatan, karena infrastruktur komputasi sering kali dibayar per penggunaanโ€”bahkan hingga detik Pelatihan Amazon SageMakerโ€”dan peningkatan kecepatan dapat menghasilkan penghematan uang.

Secara historis, mempercepat pelatihan DL sebagian besar telah dilakukan dengan meningkatkan jumlah iterasi model komputasi mesin secara paralel, teknik yang disebut paralelisme data. Meskipun paralelisme data terkadang mempercepat pelatihan (tidak dijamin karena mengganggu konvergensi, seperti yang disorot dalam Goyal dkk.), tidak mengurangi biaya pekerjaan secara keseluruhan. Dalam praktiknya, cenderung meningkat, karena overhead komunikasi antar mesin dan biaya unit mesin yang lebih tinggi, karena mesin DL terdistribusi dilengkapi dengan jaringan kelas atas dan interkoneksi GPU dalam server.

Meskipun MosaicML Composer mendukung paralelisme data, filosofi intinya berbeda dari gerakan paralelisme data. Tujuannya adalah untuk mempercepat pelatihan tanpa memerlukan lebih banyak mesin, dengan berinovasi di tingkat implementasi sains. Oleh karena itu, ini bertujuan untuk mencapai penghematan waktu yang akan menghasilkan penghematan biaya karena struktur biaya bayar per penggunaan AWS.

Memperkenalkan perpustakaan sumber terbuka MosaicML Composer

MosaicML Composer adalah perpustakaan pelatihan DL open-source yang dibuat khusus untuk mempermudah membawa algoritme terbaru dan menyusunnya menjadi resep baru yang mempercepat pelatihan model dan membantu meningkatkan kualitas model. Pada saat penulisan ini, ia mendukung PyTorch dan mencakup 25 teknikโ€”disebut metode di dunia MosaicMLโ€”bersama dengan model standar, set data, dan tolok ukur

Komposer adalah tersedia melalui pip:

pip install mosaicml

Teknik speedup yang diimplementasikan di Composer dapat diakses dengan API fungsionalnya. Misalnya, cuplikan berikut menerapkan MengaburkanKolam Renang teknik ke TorchVision ResNet:

import logging

from composer import functional as CF
import torchvision.models as models
logging.basicConfig(level=logging.INFO)

model = models.resnet50()
CF.apply_blurpool(model)

Secara opsional, Anda juga dapat menggunakan a Pelatih untuk menyusun kombinasi teknik Anda sendiri:

from composer import Trainer
from composer.algorithms import LabelSmoothing, CutMix, ChannelsLast

trainer = Trainer(
    model=.. # must be a composer.ComposerModel
    train_dataloader=...,
    max_duration="2ep",  # can be a time, a number of epochs or batches
    algorithms=[
        LabelSmoothing(smoothing=0.1),
        CutMix(alpha=1.0),
        ChannelsLast(),
    ]
)

trainer.fit()

Contoh metode yang diterapkan di Composer

Beberapa metode yang tersedia di Komposer khusus untuk visi komputer, misalnya teknik augmentasi gambar ColoOut, Memotong, atau Pengubahan Ukuran Gambar Progresif. Lainnya khusus untuk pemodelan urutan, seperti Pemanasan Panjang Urutan or Alibi. Menariknya, beberapa kasus penggunaan agnostik dan dapat diterapkan ke berbagai jaringan saraf PyTorch di luar visi komputer dan NLP. Metode akselerasi pelatihan jaringan saraf generik itu termasuk Penghalusan Label, Selektif Backprop, Rata-rata Berat Stokastik, Pembekuan Lapisan, dan Ketajaman Sadar Minimisasi (SAM).

Mari selami beberapa di antaranya yang dianggap sangat efektif oleh tim MosaicML:

  • Ketajaman Sadar Minimisasi (SAM) adalah pengoptimal daripada meminimalkan fungsi kehilangan model dan ketajamannya dengan menghitung gradien dua kali untuk setiap langkah pengoptimalan. Untuk membatasi komputasi ekstra untuk menghukum throughput, SAM dapat dijalankan secara berkala.
  • Perhatian dengan Bias Linier (ALiBi), terinspirasi oleh Tekan dkk., khusus untuk model Transformers. Ini menghilangkan kebutuhan akan penyematan posisi, menggantikannya dengan bias yang tidak dipelajari terhadap bobot perhatian.
  • Selektif Backprop, terinspirasi oleh Jiang dkk., memungkinkan Anda untuk menjalankan back-propagation (algoritma yang meningkatkan bobot model dengan mengikuti kemiringan kesalahannya) hanya pada rekaman dengan fungsi kerugian tinggi. Metode ini membantu Anda menghindari komputasi yang tidak perlu dan membantu meningkatkan throughput.

Memiliki teknik-teknik tersebut dalam satu kerangka pelatihan yang ringkas merupakan nilai tambah yang signifikan bagi para praktisi ML. Yang juga berharga adalah umpan balik lapangan yang dapat ditindaklanjuti yang dihasilkan oleh tim MosaicML untuk setiap teknik, diuji dan diberi peringkat. Namun, dengan kotak peralatan yang kaya, Anda mungkin bertanya-tanya: metode apa yang harus saya gunakan? Apakah aman untuk menggabungkan penggunaan beberapa metode? Masuk ke MosaicML Explorer.

Penjelajah MosaicML

Untuk mengukur nilai dan kompatibilitas metode pelatihan DL, tim MosaicML mempertahankan Penjelajah, dasbor langsung pertama yang menampilkan lusinan eksperimen pelatihan DL pada lima set data dan tujuh model. Dasbor menggambarkan batas optimal pareto dalam pertukaran biaya/waktu/kualitas, dan memungkinkan Anda menelusuri dan menemukan kombinasi metode dengan skor tertinggiโ€”disebut resep di dunia MosaicMLโ€”untuk model dan set data tertentu. Misalnya, grafik berikut menunjukkan bahwa untuk pelatihan GPT125 parameter 2 juta, pelatihan termurah yang mempertahankan kebingungan 24.11 diperoleh dengan menggabungkan AliBi, Pemanasan Panjang Urutan, dan Jadwal Skala, mencapai biaya sekitar $145.83 di AWS Cloud! Namun, harap perhatikan bahwa perhitungan biaya ini dan yang mengikuti dalam posting ini hanya didasarkan pada komputasi sesuai permintaan EC2, pertimbangan biaya lain mungkin berlaku, tergantung pada lingkungan dan kebutuhan bisnis Anda.

Tangkapan layar MosaicML Explorer untuk pelatihan GPT-2

Prestasi penting dengan Komposer di AWS

Dengan menjalankan library Composer di AWS, tim MosaicML mencapai sejumlah hasil yang mengesankan. Perhatikan bahwa perkiraan biaya yang dilaporkan oleh tim MosaicML hanya terdiri dari biaya komputasi sesuai permintaan.

Kesimpulan

Anda dapat memulai Composer pada platform apa pun yang kompatibel, mulai dari laptop hingga server cloud besar yang dilengkapi GPU. Fitur perpustakaan intuitif Tur Selamat Datang dan Mulai halaman dokumentasi. Menggunakan Composer di AWS memungkinkan Anda untuk mengumpulkan ilmu pengoptimalan biaya Composer dengan layanan dan program pengoptimalan biaya AWS, termasuk komputasi Spot (Amazon EC2, Amazon SageMaker), Rencana Tabungan, Tuning model otomatis SageMaker, dan banyak lagi. Tim MosaicML mempertahankan a tutorial Komposer di AWS. Ini memberikan demonstrasi langkah demi langkah tentang bagaimana Anda dapat mereproduksi hasil MLPerf dan melatih ResNet-50 di AWS dengan akurasi standar 76.6% teratas hanya dalam 1 menit.

Jika Anda berjuang dengan jaringan saraf yang berlatih terlalu lambat, atau jika Anda ingin menjaga biaya pelatihan DL Anda tetap terkendali, cobalah MosaicML di AWS dan beri tahu kami apa yang Anda buat!


Tentang penulis

Kurangi waktu dan biaya pelatihan pembelajaran mendalam dengan Komposer MosaikML di AWS PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Bandish Shah adalah Manajer Teknik di MosaicML, bekerja untuk menjembatani pembelajaran mendalam yang efisien dengan sistem terdistribusi skala besar dan komputasi kinerja. Bandish memiliki lebih dari satu dekade pengalaman membangun sistem untuk pembelajaran mesin dan aplikasi perusahaan. Dia menikmati menghabiskan waktu bersama teman dan keluarga, memasak, dan menonton Star Trek berulang-ulang untuk mendapatkan inspirasi.

Kurangi waktu dan biaya pelatihan pembelajaran mendalam dengan Komposer MosaikML di AWS PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Olivier Cruchant adalah Arsitek Solusi Spesialis Pembelajaran Mesin di AWS, yang berbasis di Prancis. Olivier membantu pelanggan AWS โ€“ mulai dari perusahaan rintisan kecil hingga perusahaan besar โ€“ mengembangkan dan menerapkan aplikasi pembelajaran mesin tingkat produksi. Di waktu luangnya, ia senang membaca makalah penelitian dan menjelajahi alam liar bersama teman dan keluarga.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS