Persiapan data terpadu, pelatihan model, dan penerapan dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot – Bagian 2 PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Persiapan data terpadu, pelatihan model, dan penerapan dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot – Bagian 2

Bergantung pada kualitas dan kompleksitas data, ilmuwan data menghabiskan antara 45–80% waktu mereka untuk tugas persiapan data. Ini menyiratkan bahwa persiapan dan pembersihan data membutuhkan waktu yang berharga dari pekerjaan sains data yang sebenarnya. Setelah model pembelajaran mesin (ML) dilatih dengan data yang disiapkan dan siap untuk diterapkan, ilmuwan data harus sering menulis ulang transformasi data yang digunakan untuk menyiapkan data untuk inferensi ML. Ini dapat memperpanjang waktu yang diperlukan untuk menerapkan model yang berguna yang dapat menyimpulkan dan menilai data dari bentuk dan bentuknya yang mentah.

Di Bagian 1 dari seri ini, kami mendemonstrasikan bagaimana Data Wrangler memungkinkan a persiapan data terpadu dan pelatihan model pengalaman dengan Autopilot Amazon SageMaker hanya dalam beberapa klik. Di bagian kedua dan terakhir dari seri ini, kami fokus pada fitur yang menyertakan dan menggunakan kembali Pengatur Data Amazon SageMaker transformasi, seperti imputer nilai yang hilang, encoder ordinal atau one-hot, dan banyak lagi, bersama dengan model Autopilot untuk inferensi ML. Fitur ini memungkinkan pra-pemrosesan otomatis data mentah dengan penggunaan kembali transformasi fitur Data Wrangler pada saat inferensi, yang selanjutnya mengurangi waktu yang diperlukan untuk menerapkan model terlatih ke produksi.

Ikhtisar solusi

Data Wrangler mengurangi waktu untuk menggabungkan dan menyiapkan data untuk ML dari minggu ke menit, dan Autopilot secara otomatis membuat, melatih, dan menyesuaikan model ML terbaik berdasarkan data Anda. Dengan Autopilot, Anda tetap mempertahankan kontrol penuh dan visibilitas data dan model Anda. Kedua layanan tersebut dibuat khusus untuk membuat praktisi ML lebih produktif dan mempercepat waktu ke nilai.

Diagram berikut menggambarkan arsitektur solusi kami.

Prasyarat

Karena postingan ini adalah yang kedua dari seri dua bagian, pastikan Anda sudah berhasil membaca dan menerapkannya bagian 1 sebelum melanjutkan.

Ekspor dan latih modelnya

Di Bagian 1, setelah persiapan data untuk ML, kami membahas bagaimana Anda dapat menggunakan pengalaman terintegrasi di Data Wrangler untuk menganalisis set data dan dengan mudah membuat model ML berkualitas tinggi di Autopilot.

Kali ini, kami menggunakan integrasi Autopilot sekali lagi untuk melatih model terhadap set data pelatihan yang sama, tetapi alih-alih melakukan inferensi massal, kami melakukan inferensi real-time terhadap Amazon SageMaker titik akhir inferensi yang dibuat secara otomatis untuk kita.

Selain kemudahan yang diberikan oleh penerapan titik akhir otomatis, kami mendemonstrasikan bagaimana Anda juga dapat menerapkan dengan semua transformasi fitur Data Wrangler sebagai saluran inferensi serial SageMaker. Ini memungkinkan pra-pemrosesan data mentah secara otomatis dengan penggunaan kembali transformasi fitur Data Wrangler pada saat inferensi.

Perhatikan bahwa fitur ini saat ini hanya didukung untuk alur Data Wrangler yang tidak menggunakan transformasi gabung, kelompokkan menurut, penggabungan, dan deret waktu.

Kita dapat menggunakan integrasi Data Wrangler baru dengan Autopilot untuk melatih model secara langsung dari UI aliran data Data Wrangler.

  1. Pilih tanda plus di sebelah Nilai skala simpul, dan pilih Model kereta.
  2. Untuk Lokasi Amazon S3, sebutkan Layanan Penyimpanan Sederhana Amazon (Amazon S3) lokasi tempat SageMaker mengekspor data Anda.
    Jika disajikan dengan root bucket path secara default, Data Wrangler membuat sub-direktori ekspor unik di bawahnya—Anda tidak perlu mengubah root path default ini kecuali jika Anda menginginkannya. Autopilot menggunakan lokasi ini untuk melatih model secara otomatis, menghemat Anda waktu dari harus menentukan lokasi output aliran Data Wrangler dan kemudian menentukan lokasi input data pelatihan Autopilot. Ini membuat pengalaman yang lebih mulus.
  3. Pilih Ekspor dan kereta api untuk mengekspor data yang diubah ke Amazon S3.
    Persiapan data terpadu, pelatihan model, dan penerapan dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot – Bagian 2 PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
    Ketika ekspor berhasil, Anda diarahkan ke Buat eksperimen Autopilot halaman, dengan Memasukan data Lokasi S3 sudah diisi untuk Anda (diisi dari hasil halaman sebelumnya).
  4. Untuk Nama percobaan, masukkan nama (atau pertahankan nama default).
  5. Untuk target, pilih Hasil sebagai kolom yang ingin Anda prediksi.
  6. Pilih Berikutnya: Metode pelatihan.
    Persiapan data terpadu, pelatihan model, dan penerapan dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot – Bagian 2 PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Seperti yang dijelaskan dalam posting Amazon SageMaker Autopilot hingga delapan kali lebih cepat dengan mode pelatihan ensemble baru yang didukung oleh AutoGluon, Anda dapat membiarkan Autopilot memilih mode pelatihan secara otomatis berdasarkan ukuran set data, atau memilih mode pelatihan secara manual untuk pengoptimalan ensembling atau hyperparameter (HPO).

Rincian masing-masing opsi adalah sebagai berikut:

  • Mobil – Autopilot secara otomatis memilih mode ensembling atau HPO berdasarkan ukuran dataset Anda. Jika kumpulan data Anda lebih besar dari 100 MB, Autopilot memilih HPO; jika tidak, ia memilih ansambel.
  • Ansambling – Autopilot menggunakan Perekat Otomatis teknik ensembling untuk melatih beberapa model dasar dan menggabungkan prediksinya menggunakan model stacking menjadi model prediksi yang optimal.
  • Optimalisasi Hyperparameter – Autopilot menemukan versi model terbaik dengan menyetel hyperparameter menggunakan teknik pengoptimalan Bayesian dan menjalankan tugas pelatihan pada kumpulan data Anda. HPO memilih algoritme yang paling relevan dengan kumpulan data Anda dan memilih rentang hyperparameter terbaik untuk menyesuaikan model. Sebagai contoh, kami membiarkan pilihan default Mobil.
  1. Pilih Berikutnya: Penerapan dan pengaturan lanjutan untuk melanjutkan.
    Persiapan data terpadu, pelatihan model, dan penerapan dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot – Bagian 2 PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  2. pada Penerapan dan pengaturan lanjutan halaman, pilih opsi penerapan.
    Sangat penting untuk memahami opsi penerapan secara lebih rinci; apa yang kita pilih akan memengaruhi apakah transformasi yang kita buat sebelumnya di Data Wrangler akan disertakan dalam saluran inferensi atau tidak:
    • Terapkan model terbaik secara otomatis dengan transformasi dari Data Wrangler – Dengan opsi penerapan ini, saat Anda menyiapkan data di Data Wrangler dan melatih model dengan mengaktifkan Autopilot, model yang dilatih akan diterapkan bersama semua fitur Data Wrangler yang berubah sebagai Pipa inferensi serial SageMaker. Ini memungkinkan pra-pemrosesan data mentah secara otomatis dengan penggunaan kembali transformasi fitur Data Wrangler pada saat inferensi. Perhatikan bahwa titik akhir inferensi mengharapkan format data Anda dalam format yang sama seperti saat diimpor ke aliran Data Wrangler.
    • Terapkan model terbaik secara otomatis tanpa transformasi dari Data Wrangler – Opsi ini menyebarkan titik akhir waktu nyata yang tidak menggunakan transformasi Data Wrangler. Dalam hal ini, Anda perlu menerapkan transformasi yang ditentukan dalam aliran Data Wrangler ke data Anda sebelum inferensi.
    • Jangan menerapkan model terbaik secara otomatis – Anda harus menggunakan opsi ini jika Anda tidak ingin membuat titik akhir inferensi sama sekali. Ini berguna jika Anda ingin membuat model terbaik untuk digunakan nanti, seperti inferensi massal yang dijalankan secara lokal. (Ini adalah opsi penerapan yang kami pilih di Bagian 1 seri.) Perhatikan bahwa ketika Anda memilih opsi ini, model yang dibuat (dari kandidat terbaik Autopilot melalui SageMaker SDK) menyertakan fitur Data Wrangler yang berubah sebagai saluran inferensi serial SageMaker.

    Untuk posting ini, kami menggunakan Terapkan model terbaik secara otomatis dengan transformasi dari Data Wrangler .

  3. Untuk Opsi penyebaran, pilih Terapkan model terbaik secara otomatis dengan transformasi dari Data Wrangler.
  4. Biarkan pengaturan lainnya sebagai default.
  5. Pilih Berikutnya: Tinjau dan buat untuk melanjutkan.
    pada Tinjau dan buat halaman, kami melihat ringkasan pengaturan yang dipilih untuk percobaan Autopilot kami.
  6. Pilih Buat eksperimen untuk memulai proses pembuatan model.
    Persiapan data terpadu, pelatihan model, dan penerapan dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot – Bagian 2 PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Anda dialihkan ke halaman deskripsi pekerjaan Autopilot. Model tampil di Model tab saat dibuat. Untuk mengonfirmasi bahwa prosesnya selesai, buka Profil pekerjaan tab dan cari Completed nilai untuk Status lapangan.

Anda dapat kembali ke halaman deskripsi pekerjaan Autopilot ini kapan saja dari Studio Amazon SageMaker:

  1. Pilih Eksperimen dan Percobaan pada Sumber daya SageMaker menu drop down.
  2. Pilih nama pekerjaan Autopilot yang Anda buat.
  3. Pilih (klik kanan) eksperimen dan pilih Jelaskan Pekerjaan AutoML.

Lihat pelatihan dan penerapan

Saat Autopilot menyelesaikan eksperimen, kita dapat melihat hasil pelatihan dan menjelajahi model terbaik dari halaman deskripsi tugas Autopilot.

Pilih (klik kanan) model berlabel Model terbaik, dan pilih Buka di detail model.

Persiapan data terpadu, pelatihan model, dan penerapan dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot – Bagian 2 PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Grafik Performance tab menampilkan beberapa tes pengukuran model, termasuk matriks konfusi, area di bawah kurva presisi/recall (AUCPR), dan area di bawah kurva karakteristik operasi penerima (ROC). Ini menggambarkan kinerja validasi model secara keseluruhan, tetapi mereka tidak memberi tahu kami apakah model akan digeneralisasi dengan baik. Kami masih perlu menjalankan evaluasi pada data uji yang tidak terlihat untuk melihat seberapa akurat model membuat prediksi (untuk contoh ini, kami memprediksi apakah seseorang akan menderita diabetes).

Lakukan inferensi terhadap titik akhir waktu nyata

Buat notebook SageMaker baru untuk melakukan inferensi waktu nyata guna menilai kinerja model. Masukkan kode berikut ke dalam buku catatan untuk menjalankan inferensi waktu nyata untuk validasi:

import boto3

### Define required boto3 clients

sm_client = boto3.client(service_name="sagemaker")
runtime_sm_client = boto3.client(service_name="sagemaker-runtime")

### Define endpoint name

endpoint_name = ""

### Define input data

payload_str = '5,166.0,72.0,19.0,175.0,25.8,0.587,51'
payload = payload_str.encode()
response = runtime_sm_client.invoke_endpoint(
    EndpointName=endpoint_name,
    ContentType="text/csv",
    Body=payload,
)

response["Body"].read()

Setelah Anda menyiapkan kode untuk dijalankan di buku catatan, Anda perlu mengonfigurasi dua variabel:

  • endpoint_name
  • payload_str

Konfigurasikan endpoint_name

endpoint_name mewakili nama titik akhir inferensi waktu nyata yang dibuat secara otomatis untuk kami. Sebelum kita mengaturnya, kita perlu menemukan namanya.

  1. Pilih Titik akhir pada Sumber daya SageMaker menu drop down.
  2. Temukan nama titik akhir yang memiliki nama tugas Autopilot yang Anda buat dengan string acak yang ditambahkan padanya.
  3. Pilih (klik kanan) eksperimen, dan pilih Jelaskan Titik Akhir.
    Persiapan data terpadu, pelatihan model, dan penerapan dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot – Bagian 2 PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
    Grafik Detail Titik Akhir halaman muncul.
  4. Sorot nama titik akhir lengkap, dan tekan Ctrl + C untuk menyalinnya ke clipboard.
    Persiapan data terpadu, pelatihan model, dan penerapan dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot – Bagian 2 PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  5. Masukkan nilai ini (pastikan dikutip) untuk endpoint_name dalam buku catatan inferensi.
    Persiapan data terpadu, pelatihan model, dan penerapan dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot – Bagian 2 PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Konfigurasikan payload_str

Notebook ini dilengkapi dengan string payload default payload_str yang dapat Anda gunakan untuk menguji titik akhir Anda, tetapi jangan ragu untuk bereksperimen dengan nilai yang berbeda, seperti nilai dari kumpulan data pengujian Anda.

Untuk menarik nilai dari kumpulan data pengujian, ikuti petunjuk di bagian 1 untuk mengekspor kumpulan data pengujian ke Amazon S3. Kemudian di konsol Amazon S3, Anda dapat mengunduhnya dan memilih baris untuk menggunakan file dari Amazon S3.

Setiap baris dalam kumpulan data pengujian Anda memiliki sembilan kolom, dengan kolom terakhir adalah outcome nilai. Untuk kode buku catatan ini, pastikan Anda hanya menggunakan satu baris data (bukan header CSV) untuk payload_str. Pastikan juga Anda hanya mengirim payload_str dengan delapan kolom, di mana Anda telah menghapus nilai hasil.

Misalnya, jika file set data pengujian Anda terlihat seperti kode berikut, dan kami ingin melakukan inferensi real-time dari baris pertama:

Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome 
10,115,0,0,0,35.3,0.134,29,0 
10,168,74,0,0,38.0,0.537,34,1 
1,103,30,38,83,43.3,0.183,33,0

Kami mengatur payload_str untuk 10,115,0,0,0,35.3,0.134,29. Perhatikan bagaimana kami menghilangkan outcome nilai 0 pada akhirnya.

Jika kebetulan nilai target dataset Anda bukan nilai pertama atau terakhir, hapus saja nilai tersebut dengan struktur koma yang utuh. Misalnya, asumsikan kita sedang memprediksi bar, dan dataset kita terlihat seperti kode berikut:

foo,bar,foobar
85,17,20

Dalam hal ini, kami menetapkan payload_str untuk 85,,20.

Ketika notebook dijalankan dengan konfigurasi yang benar payload_str dan endpoint_name nilai, Anda mendapatkan respons CSV kembali dalam format outcome (0 atau 1), confidence (0-1).

Membersihkan

Untuk memastikan Anda tidak dikenakan biaya terkait tutorial setelah menyelesaikan tutorial ini, pastikan untuk mematikan aplikasi Data Wrangler (https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-shut-down.html), serta semua instans notebook yang digunakan untuk melakukan tugas inferensi. Titik akhir inferensi yang dibuat melalui penerapan Pilot Otomatis harus dihapus untuk mencegah biaya tambahan juga.

Kesimpulan

Dalam posting ini, kami menunjukkan cara mengintegrasikan pemrosesan data Anda, menampilkan teknik, dan pembuatan model menggunakan Data Wrangler dan Autopilot. Berdasarkan Bagian 1 dalam seri ini, kami menyoroti bagaimana Anda dapat dengan mudah melatih, menyetel, dan menerapkan model ke titik akhir inferensi waktu nyata dengan Autopilot langsung dari antarmuka pengguna Data Wrangler. Selain kemudahan yang diberikan oleh penerapan titik akhir otomatis, kami mendemonstrasikan bagaimana Anda juga dapat menerapkan dengan semua transformasi fitur Data Wrangler sebagai saluran inferensi serial SageMaker, menyediakan pra-pemrosesan otomatis data mentah, dengan penggunaan kembali transformasi fitur Data Wrangler di waktu inferensi.

Solusi low-code dan AutoML seperti Data Wrangler dan Autopilot menghilangkan kebutuhan untuk memiliki pengetahuan coding yang mendalam untuk membangun model ML yang kuat. Mulai menggunakan Data Wrangler hari ini untuk merasakan betapa mudahnya membangun model ML menggunakan Autopilot.


Tentang penulis

Persiapan data terpadu, pelatihan model, dan penerapan dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot – Bagian 2 PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Geremy Cohen adalah Arsitek Solusi dengan AWS di mana dia membantu pelanggan membangun solusi mutakhir berbasis cloud. Di waktu luangnya, ia menikmati jalan-jalan singkat di pantai, menjelajahi daerah teluk bersama keluarganya, memperbaiki barang-barang di sekitar rumah, memecahkan barang-barang di sekitar rumah, dan BBQing.

Persiapan data terpadu, pelatihan model, dan penerapan dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot – Bagian 2 PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Pradeep Reddy adalah Manajer Produk Senior di tim ML Rendah/Tanpa Kode SageMaker, yang mencakup SageMaker Autopilot, Penyetel Model Otomatis SageMaker. Di luar pekerjaan, Pradeep senang membaca, berlari, dan bermain-main dengan komputer seukuran telapak tangan seperti raspberry pi, dan teknologi otomatisasi rumah lainnya.

Persiapan data terpadu, pelatihan model, dan penerapan dengan Amazon SageMaker Data Wrangler dan Amazon SageMaker Autopilot – Bagian 2 PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Dr John He adalah insinyur pengembangan perangkat lunak senior di Amazon AI, di mana ia berfokus pada pembelajaran mesin dan komputasi terdistribusi. Dia memegang gelar PhD dari CMU.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS