Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Pasang kembali parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler

Pengatur Data Amazon SageMaker membantu Anda memahami, menggabungkan, mengubah, dan menyiapkan data untuk machine learning (ML) dari satu antarmuka visual. Ini berisi lebih dari 300 transformasi data bawaan sehingga Anda dapat dengan cepat menormalkan, mengubah, dan menggabungkan fitur tanpa harus menulis kode apa pun.

Praktisi ilmu data menghasilkan, mengamati, dan memproses data untuk memecahkan masalah bisnis di mana mereka perlu mengubah dan mengekstrak fitur dari kumpulan data. Transformasi seperti pengodean ordinal atau pengodean satu-panas pelajari pengodean pada kumpulan data Anda. Output yang disandikan ini disebut sebagai parameter terlatih. Karena kumpulan data berubah dari waktu ke waktu, pengkodean ulang mungkin perlu dilakukan pada data yang sebelumnya tidak terlihat agar alur transformasi tetap relevan dengan data Anda.

Kami dengan senang hati mengumumkan fitur parameter terlatih reparasi, yang memungkinkan Anda untuk menggunakan parameter terlatih sebelumnya dan mereparasinya sesuai keinginan. Dalam posting ini, kami mendemonstrasikan cara menggunakan fitur ini.

Tinjauan fitur reparasi Data Wrangler

Kami mengilustrasikan cara kerja fitur ini dengan contoh berikut, sebelum kami menyelami secara spesifik fitur parameter yang dilatih reparasi.

Asumsikan kumpulan data pelanggan Anda memiliki fitur kategori untuk country direpresentasikan sebagai string seperti Australia dan Singapore. Algoritma ML membutuhkan input numerik; oleh karena itu, nilai kategoris ini harus dikodekan ke nilai numerik. Encoding data kategorikal adalah proses membuat representasi numerik untuk kategori. Misalnya, jika negara kategori Anda memiliki nilai Australia dan Singapore, Anda dapat menyandikan informasi ini ke dalam dua vektor: [1, 0] untuk mewakili Australia dan [0, 1] untuk mewakili Singapore. Transformasi yang digunakan di sini adalah pengkodean satu-panas dan keluaran baru yang dikodekan mencerminkan parameter yang dilatih.

Setelah melatih model, seiring waktu pelanggan Anda dapat meningkat dan Anda memiliki lebih banyak nilai berbeda dalam daftar negara. Kumpulan data baru dapat berisi kategori lain, India, yang bukan merupakan bagian dari kumpulan data asli, yang dapat memengaruhi akurasi model. Oleh karena itu, perlu melatih ulang model Anda dengan data baru yang telah dikumpulkan dari waktu ke waktu.

Untuk mengatasi masalah ini, Anda perlu me-refresh pengkodean untuk memasukkan kategori baru dan memperbarui representasi vektor sesuai dataset terbaru Anda. Dalam contoh kami, pengkodean harus mencerminkan kategori baru untuk country, Yang India. Kami biasanya menyebut proses menyegarkan pengodean ini sebagai operasi reparasi. Setelah Anda melakukan operasi reparasi, Anda mendapatkan pengkodean baru: Australia: [1, 0, 0], Singapore: [0, 1, 0], dan India: [0, 0, 1]. Memasang kembali pengkodean one-hot dan kemudian melatih ulang model pada set data baru menghasilkan prediksi dengan kualitas yang lebih baik.

Fitur parameter terlatih reparasi Data Wrangler berguna dalam kasus berikut:

  • Data baru ditambahkan ke kumpulan data โ€“ Pelatihan ulang model ML diperlukan saat kumpulan data diperkaya dengan data baru. Untuk mencapai hasil yang optimal, kita perlu mereparasi parameter terlatih pada dataset baru.
  • Pelatihan pada set data lengkap setelah melakukan rekayasa fitur pada data sampel โ€“ Untuk kumpulan data besar, sampel kumpulan data dipertimbangkan untuk mempelajari parameter terlatih, yang mungkin tidak mewakili keseluruhan kumpulan data Anda. Kita perlu mempelajari kembali parameter yang dilatih pada kumpulan data lengkap.

Berikut ini adalah beberapa transformasi Data Wrangler yang paling umum dilakukan pada kumpulan data yang mendapat manfaat dari opsi parameter terlatih refit:

Untuk informasi selengkapnya tentang transformasi di Data Wrangler, lihat Transformasi Data.

Dalam posting ini, kami menunjukkan cara memproses parameter terlatih ini pada kumpulan data menggunakan Data Wrangler. Anda dapat menggunakan alur Data Wrangler dalam tugas produksi untuk memproses ulang data Anda seiring pertumbuhan dan perubahannya.

Ikhtisar solusi

Untuk posting ini, kami mendemonstrasikan cara menggunakan fitur parameter terlatih reparasi Data Wrangler dengan dataset yang tersedia untuk umum di Kaggle: Data Perumahan AS dari Zillow, Properti Dijual di Amerika Serikat. Ini memiliki harga jual rumah di berbagai geo-distribusi rumah.

Diagram berikut mengilustrasikan arsitektur tingkat tinggi Data Wrangler menggunakan fitur parameter terlatih reparasi. Kami juga menunjukkan efek pada kualitas data tanpa parameter pelatihan reparasi dan mengkontraskan hasilnya di akhir.

Alur kerja meliputi langkah-langkah berikut:

  1. Lakukan analisis data eksplorasi โ€“ Buat alur baru di Data Wrangler untuk memulai analisis data eksplorasi (EDA). Impor data bisnis untuk memahami, membersihkan, menggabungkan, mengubah, dan menyiapkan data Anda untuk pelatihan. Mengacu pada Jelajahi kemampuan Amazon SageMaker Data Wrangler dengan kumpulan data sampel untuk detail lebih lanjut tentang melakukan EDA dengan Data Wrangler.
  2. Buat tugas pemrosesan data โ€“ Langkah ini mengekspor semua transformasi yang Anda buat pada kumpulan data sebagai file aliran yang disimpan di konfigurasi Layanan Penyimpanan Sederhana Amazon (Amazon S3) lokasi. Pekerjaan pemrosesan data dengan file aliran yang dihasilkan oleh Data Wrangler menerapkan transformasi dan parameter terlatih yang dipelajari pada kumpulan data Anda. Saat pekerjaan pemrosesan data selesai, file output diunggah ke lokasi Amazon S3 yang dikonfigurasi di node tujuan. Perhatikan bahwa opsi reparasi dimatikan secara default. Sebagai alternatif untuk menjalankan pekerjaan pemrosesan secara instan, Anda juga dapat menjadwalkan pekerjaan pemrosesan dalam beberapa klik menggunakan Data Wrangler โ€“ Buat Pekerjaan untuk dijalankan pada waktu tertentu.
  3. Buat tugas pemrosesan data dengan fitur parameter terlatih reparasi โ€“ Pilih fitur parameter terlatih baru saat membuat tugas untuk menerapkan pembelajaran ulang parameter terlatih Anda pada kumpulan data lengkap atau yang diperkuat. Sesuai konfigurasi lokasi Amazon S3 untuk menyimpan file flow, tugas pemrosesan data membuat atau memperbarui file flow baru. Jika Anda mengonfigurasi lokasi Amazon S3 yang sama seperti di Langkah 2, tugas pemrosesan data akan memperbarui file alur yang dibuat di Langkah 2, yang dapat digunakan untuk menjaga agar alur Anda tetap relevan dengan data Anda. Setelah menyelesaikan pekerjaan pemrosesan, file output diunggah ke node tujuan yang dikonfigurasikan bucket S3. Anda dapat menggunakan alur yang diperbarui di seluruh kumpulan data untuk alur kerja produksi.

Prasyarat

Sebelum memulai, unggah set data ke bucket S3, lalu impor ke Data Wrangler. Untuk petunjuk, lihat Impor data dari Amazon S3.

Sekarang mari kita telusuri langkah-langkah yang disebutkan dalam diagram arsitektur.

Lakukan EDA di Data Wrangler

Untuk mencoba fitur parameter terlatih reparasi, atur analisis dan transformasi berikut di Data Wrangler. Di akhir penyiapan EDA, Data Wrangler membuat file aliran yang diambil dengan parameter terlatih dari kumpulan data.

  1. Buat alur baru di Amazon SageMaker Data Wrangler untuk analisis data eksplorasi.
  2. Impor data bisnis yang Anda unggah ke Amazon S3.
  3. Anda dapat melihat pratinjau data dan opsi untuk memilih jenis file, pembatas, pengambilan sampel, dan sebagainya. Untuk contoh ini, kami menggunakan K . pertama opsi pengambilan sampel yang disediakan oleh Data Wrangler untuk mengimpor 50,000 rekaman pertama dari kumpulan data.
  4. Pilih impor.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

  1. Setelah Anda memeriksa pencocokan tipe data yang diterapkan oleh Data Wrangler, tambahkan analisis baru.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

  1. Untuk Jenis analisis, pilih Kualitas Data dan Laporan Wawasan.
  2. Pilih membuat.

Dengan Laporan Kualitas dan Wawasan Data, Anda mendapatkan ringkasan singkat kumpulan data dengan informasi umum seperti nilai yang hilang, nilai yang tidak valid, jenis fitur, jumlah outlier, dan lainnya. Anda dapat memilih fitur property_type dan city untuk menerapkan transformasi pada dataset untuk memahami fitur parameter yang dilatih reparasi.

Mari kita fokus pada fiturnya property_type dari kumpulan data. Dalam laporan tersebut Detail Fitur bagian, Anda dapat melihat property_type, yang merupakan fitur kategorikal, dan enam nilai unik yang diperoleh dari 50,000 kumpulan data sampel oleh Data Wrangler. Kumpulan data lengkap mungkin memiliki lebih banyak kategori untuk fitur tersebut property_type. Untuk fitur dengan banyak nilai unik, Anda dapat memilih pengkodean ordinal. Jika fitur memiliki beberapa nilai unik, pendekatan enkode one-hot dapat digunakan. Untuk contoh ini, kami memilih penyandian satu-panas aktif property_type.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Demikian pula untuk city fitur, yang merupakan tipe data teks dengan sejumlah besar nilai unik, mari terapkan pengkodean ordinal ke fitur ini.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

  1. Arahkan ke aliran Data Wrangler, pilih tanda plus, dan pilih Tambahkan transformasi.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

  1. Pilih Enkode kategoris opsi untuk mengubah fitur kategorikal.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Dari Laporan Kualitas Data dan Wawasan, fitur property_type menunjukkan enam kategori unik: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILY, dan TOWNHOUSE.

  1. Untuk Mengubah, pilih Enkode satu-panas.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Setelah menerapkan penyandian satu panas pada fitur property_type, Anda dapat mempratinjau keenam kategori sebagai fitur terpisah yang ditambahkan sebagai kolom baru. Perhatikan bahwa 50,000 rekaman diambil sampelnya dari kumpulan data Anda untuk menghasilkan pratinjau ini. Saat menjalankan tugas pemrosesan Data Wrangler dengan alur ini, transformasi ini diterapkan ke seluruh kumpulan data Anda.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

  1. Tambahkan transformasi baru dan pilih Encode Kategoris untuk menerapkan transformasi pada fitur city, yang memiliki jumlah nilai teks kategori unik yang lebih besar.
  2. Untuk menyandikan fitur ini menjadi representasi numerik, pilih Kode ordinal untuk Mengubah.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

  1. Pilih Pratinjau pada transformasi ini.

Anda dapat melihat bahwa fitur kategorikal city dipetakan ke nilai ordinal di kolom keluaran e_city.

  1. Tambahkan langkah ini dengan memilih Memperbarui.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

  1. Anda dapat mengatur tujuan ke Amazon S3 untuk menyimpan transformasi yang diterapkan pada kumpulan data untuk menghasilkan keluaran sebagai file CSV.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Data Wrangler menyimpan alur kerja yang Anda tetapkan di antarmuka pengguna sebagai file alur dan mengunggah ke lokasi Amazon S3 pekerjaan pemrosesan data yang dikonfigurasi. File alur ini digunakan saat Anda membuat pekerjaan pemrosesan Data Wrangler untuk menerapkan transformasi pada kumpulan data yang lebih besar, atau untuk mengubah data penguatan baru untuk melatih kembali model.

Meluncurkan tugas pemrosesan data Data Wrangler tanpa mengaktifkan reparasi

Sekarang Anda dapat melihat bagaimana opsi reparasi menggunakan parameter terlatih pada kumpulan data baru. Untuk demonstrasi ini, kami mendefinisikan dua pekerjaan pemrosesan Data Wrangler yang beroperasi pada data yang sama. Pekerjaan pemrosesan pertama tidak akan mengaktifkan reparasi; untuk pekerjaan pemrosesan kedua, kami menggunakan refit. Kami membandingkan efeknya di bagian akhir.

  1. Pilih Ciptakan pekerjaan untuk memulai pekerjaan pemrosesan data dengan Data Wrangler.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

  1. Untuk Nama Pekerjaan, masukkan nama.
  2. Bawah Parameter terlatih, jangan pilih Reparasi.
  3. Pilih Konfigurasikan pekerjaan.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

  1. Konfigurasikan parameter tugas seperti jenis instans, ukuran volume, dan lokasi Amazon S3 untuk menyimpan file aliran keluaran.
  2. Data Wrangler membuat file aliran di lokasi S3 file aliran. Alur menggunakan transformasi untuk melatih parameter, dan nanti kami menggunakan opsi reparasi untuk melatih ulang parameter ini.
  3. Pilih membuat.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Tunggu hingga tugas pemrosesan data selesai untuk melihat data yang diubah dalam bucket S3 yang dikonfigurasi di node tujuan.

Luncurkan tugas pemrosesan data Data Wrangler dengan refit diaktifkan

Mari buat tugas pemrosesan lain yang diaktifkan dengan mengaktifkan fitur parameter terlatih reparasi. Opsi ini menerapkan parameter terlatih yang dipelajari kembali di seluruh kumpulan data. Saat tugas pemrosesan data ini selesai, file aliran dibuat atau diperbarui ke lokasi Amazon S3 yang dikonfigurasi.

  1. Pilih Ciptakan pekerjaan.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

  1. Untuk Nama Pekerjaan, masukkan nama.
  2. Untuk Parameter terlatih, pilih Reparasi.
  3. Jika Anda memilih Lihat semua, Anda dapat meninjau semua parameter yang dilatih.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

  1. Pilih Konfigurasikan pekerjaan.
  2. Masukkan lokasi file aliran Amazon S3.
  3. Pilih membuat.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Tunggu hingga pekerjaan pemrosesan data selesai.

Lihat bucket S3 yang dikonfigurasi di node tujuan untuk melihat data yang dihasilkan oleh tugas pemrosesan data yang menjalankan transformasi yang ditentukan.

Ekspor ke kode Python untuk menjalankan pekerjaan pemrosesan Data Wrangler

Sebagai alternatif untuk memulai tugas pemrosesan menggunakan opsi Buat tugas di Data Wrangler, Anda dapat memicu tugas pemrosesan data dengan mengekspor alur Data Wrangler ke notebook Jupyter. Data Wrangler menghasilkan notebook Jupyter dengan input, output, konfigurasi pekerjaan pemrosesan, dan kode untuk pemeriksaan status pekerjaan. Anda dapat mengubah atau memperbarui parameter sesuai kebutuhan transformasi data Anda.

  1. Pilih tanda tambah di sebelah final Mengubah simpul.
  2. Pilih Ekspor untuk dan Amazon S3 (Melalui Notebook Jupyter).

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Anda dapat melihat notebook Jupyter dibuka dengan input, output, konfigurasi pekerjaan pemrosesan, dan kode untuk pemeriksaan status pekerjaan.

  1. Untuk menerapkan opsi parameter terlatih reparasi melalui kode, atur refit parameter untuk True.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Bandingkan hasil pekerjaan pemrosesan data

Setelah pekerjaan pemrosesan Data Wrangler selesai, Anda harus membuat dua aliran Data Wrangler baru dengan output yang dihasilkan oleh pekerjaan pemrosesan data yang disimpan di tujuan Amazon S3 yang dikonfigurasi.

Anda dapat merujuk ke lokasi yang dikonfigurasi di folder tujuan Amazon S3 untuk meninjau output tugas pemrosesan data.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Untuk memeriksa hasil tugas pemrosesan, buat dua alur Data Wrangler baru menggunakan Data Quality and Insights Report untuk membandingkan hasil transformasi.

  1. Buat alur baru di Amazon SageMaker Data Wrangler.
  2. Impor tugas pemrosesan data tanpa file keluaran yang diaktifkan ulang dari Amazon S3.
  3. Tambahkan analisis baru.
  4. Untuk Jenis analisis, pilih Kualitas Data dan Laporan Wawasan.
  5. Pilih membuat.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Ulangi langkah-langkah di atas dan buat alur pengatur data baru untuk menganalisis output tugas pemrosesan data dengan refit diaktifkan.

Sekarang mari kita lihat output dari pekerjaan pemrosesan untuk fitur tersebut property_type menggunakan Laporan Kualitas Data dan Wawasan. Gulir ke detail fitur di daftar Laporan Data dan Wawasan feature_type.

Tugas pemrosesan parameter terlatih reparasi telah menyesuaikan parameter terlatih di seluruh kumpulan data dan mengkodekan nilai baru APARTMENT dengan tujuh nilai berbeda pada kumpulan data lengkap.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Pekerjaan pemrosesan normal menerapkan parameter terlatih kumpulan data sampel, yang hanya memiliki enam nilai berbeda untuk property_type fitur. Untuk data dengan feature_type APARTMENT, yang strategi penanganan yang tidak valid Lewati diterapkan dan tugas pemrosesan data tidak mempelajari kategori baru ini. Pengkodean one-hot telah melewatkan kategori baru yang ada pada data baru, dan pengkodean melewati kategori APARTMENT.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Sekarang mari kita fokus pada fitur lain, city. Pekerjaan pemrosesan parameter terlatih reparasi telah mempelajari kembali semua nilai yang tersedia untuk city fitur, mengingat data baru.

Seperti yang ditunjukkan pada Ringkasan Fitur bagian laporan, kolom fitur baru yang disandikan e_city memiliki parameter valid 100% dengan menggunakan fitur parameter terlatih reparasi.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Sebaliknya, pekerjaan pemrosesan normal memiliki 82.4% nilai yang hilang di kolom fitur baru yang disandikan e_city. Fenomena ini karena hanya kumpulan sampel dari parameter terlatih yang dipelajari yang diterapkan pada kumpulan data lengkap dan tidak ada refitting yang diterapkan oleh tugas pemrosesan data.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Histogram berikut menggambarkan fitur yang dikodekan ordinal e_city. Histogram pertama adalah fitur yang diubah dengan opsi reparasi.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Histogram berikutnya adalah fitur yang diubah tanpa opsi reparasi. Kolom oranye menunjukkan nilai yang hilang (NaN) dalam Kualitas Data dan Laporan Wawasan. Nilai-nilai baru yang tidak dipelajari dari kumpulan data sampel diganti sebagai Bukan Angka (NaN) seperti yang dikonfigurasi di UI Pengatur Data strategi penanganan yang tidak valid.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Pekerjaan pemrosesan data dengan parameter terlatih reparasi dipelajari kembali property_type dan city fitur mempertimbangkan nilai-nilai baru dari seluruh dataset. Tanpa parameter terlatih reparasi, pekerjaan pemrosesan data hanya menggunakan parameter terlatih yang telah dipelajari sebelumnya dari kumpulan data sampel. Ini kemudian menerapkannya ke data baru, tetapi nilai baru tidak dipertimbangkan untuk penyandian. Hal ini akan berimplikasi pada akurasi model.

Membersihkan

Saat Anda tidak menggunakan Data Wrangler, penting untuk mematikan instans yang dijalankannya untuk menghindari biaya tambahan.

Untuk menghindari kehilangan pekerjaan, simpan aliran data Anda sebelum mematikan Data Wrangler.

  1. Untuk menyimpan aliran data Anda di Studio Amazon SageMaker, pilih File, Lalu pilih Simpan Aliran Data Wrangler. Data Wrangler secara otomatis menyimpan aliran data Anda setiap 60 detik.
  2. Untuk mematikan instance Data Wrangler, di Studio, pilih Menjalankan Instance dan Kernel.
  3. Bawah APLIKASI YANG SEDANG BERJALAN, pilih ikon matikan di sebelah aplikasi sagemaker-data-wrangler-1.0.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

  1. Pilih Matikan semua untuk mengkonfirmasi.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Data Wrangler berjalan pada instance ml.m5.4xlarge. Contoh ini menghilang dari INSTALASI YANG BERJALAN saat Anda mematikan aplikasi Data Wrangler.

Setelah Anda mematikan aplikasi Data Wrangler, itu harus dimulai ulang saat berikutnya Anda membuka file aliran Data Wrangler. Ini bisa memakan waktu beberapa menit.

Kesimpulan

Dalam posting ini, kami memberikan ikhtisar tentang fitur parameter terlatih reparasi di Data Wrangler. Dengan fitur baru ini, Anda dapat menyimpan parameter terlatih dalam aliran Data Wrangler, dan pekerjaan pemrosesan data menggunakan parameter terlatih untuk menerapkan transformasi yang dipelajari pada set data besar atau set data penguatan. Anda dapat menerapkan opsi ini untuk membuat vektor fitur teks, data numerik, dan menangani outlier.

Mempertahankan parameter terlatih selama pemrosesan data siklus hidup ML menyederhanakan dan mengurangi langkah pemrosesan data, mendukung rekayasa fitur yang kuat, dan mendukung pelatihan model dan pelatihan penguatan pada data baru.

Kami mendorong Anda untuk mencoba fitur baru ini untuk persyaratan pemrosesan data Anda.


Tentang penulis

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. Hariharan Suresh adalah Arsitek Solusi Senior di AWS. Dia sangat tertarik dengan database, pembelajaran mesin, dan merancang solusi inovatif. Sebelum bergabung dengan AWS, Hariharan adalah seorang arsitek produk, spesialis implementasi perbankan inti, dan pengembang, serta bekerja dengan organisasi BFSI selama lebih dari 11 tahun. Di luar teknologi, ia menikmati paralayang dan bersepeda.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Santosh Kulkarni adalah Arsitek Solusi Perusahaan di Amazon Web Services yang bekerja dengan pelanggan olahraga di Australia. Dia bersemangat membangun aplikasi terdistribusi skala besar untuk memecahkan masalah bisnis menggunakan pengetahuannya dalam AI/ML, data besar, dan pengembangan perangkat lunak.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Vishaal Kapoor adalah Ilmuwan Terapan Senior dengan AWS AI. Dia bersemangat membantu pelanggan memahami data mereka di Data Wrangler. Di waktu luangnya, ia bersepeda gunung, bermain snowboard, dan menghabiskan waktu bersama keluarganya.

Sesuaikan parameter terlatih pada kumpulan data besar menggunakan Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Aniket Manjunath adalah Insinyur Pengembangan Perangkat Lunak di Amazon SageMaker. Dia membantu mendukung Amazon SageMaker Data Wrangler dan sangat tertarik dengan sistem pembelajaran mesin terdistribusi. Di luar pekerjaan, dia menikmati hiking, menonton film, dan bermain kriket.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS