Siapkan Data Dari Amazon EMR Untuk Pembelajaran Mesin Menggunakan Amazon SageMaker Data Wrangler

Diterbitkan Ulang Oleh Plato

Followers: 0

Persiapan data adalah komponen utama dari pipeline machine learning (ML). Bahkan, diperkirakan para profesional data menghabiskan sekitar 80 persen waktunya untuk persiapan data. Di pasar kompetitif yang intensif ini, tim ingin menganalisis data dan mengekstrak wawasan yang lebih bermakna dengan cepat. Pelanggan mengadopsi cara yang lebih efisien dan visual untuk membangun sistem pemrosesan data.

Pengatur Data Amazon SageMaker menyederhanakan proses persiapan data dan rekayasa fitur, mengurangi waktu yang diperlukan dari beberapa minggu menjadi beberapa menit dengan menyediakan antarmuka visual tunggal bagi ilmuwan data untuk memilih, membersihkan data, membuat fitur, dan mengotomatiskan persiapan data dalam alur kerja ML tanpa menulis kode apa pun. Anda dapat mengimpor data dari beberapa sumber data, seperti Layanan Penyimpanan Sederhana Amazon (Amazon S3), Amazon Athena, Pergeseran Merah Amazon, dan Kepingan Salju. Anda sekarang juga dapat menggunakan Amazon ESDM sebagai sumber data di Data Wrangler untuk menyiapkan data untuk ML dengan mudah.

Menganalisis, mengubah, dan menyiapkan data dalam jumlah besar adalah langkah mendasar dari alur kerja ilmu data dan ML apa pun. Profesional data seperti ilmuwan data ingin memanfaatkan kekuatan Apache Spark, Sarang lebah, dan Presto berjalan di Amazon EMR untuk persiapan data yang cepat, tetapi kurva pembelajarannya curam. Pelanggan kami menginginkan kemampuan untuk terhubung ke Amazon EMR untuk menjalankan kueri SQL ad hoc di Hive atau Presto untuk membuat kueri data di metastore internal atau metastore eksternal (misalnya, Katalog Data AWS Glue), dan menyiapkan data dalam beberapa klik.

Artikel blog ini akan membahas bagaimana pelanggan kini dapat menemukan dan terhubung ke klaster Amazon EMR yang ada menggunakan pengalaman visual di SageMaker Data Wrangler. Mereka dapat secara visual memeriksa database, tabel, skema, dan kueri Presto untuk mempersiapkan pemodelan atau pelaporan. Mereka kemudian dapat dengan cepat membuat profil data menggunakan antarmuka visual untuk menilai kualitas data, mengidentifikasi ketidaknormalan atau data yang hilang atau salah, serta menerima informasi dan rekomendasi tentang cara mengatasi masalah ini. Selain itu, mereka dapat menganalisis, membersihkan, dan merekayasa fitur dengan bantuan lebih dari selusin analisis bawaan tambahan dan 300+ transformasi bawaan ekstra yang didukung oleh Spark tanpa menulis satu baris kode pun.

Ikhtisar solusi

Profesional data dapat dengan cepat menemukan dan terhubung ke klaster EMR yang ada menggunakan konfigurasi SageMaker Studio. Selain itu, profesional data dapat menghentikan klaster EMR hanya dengan beberapa klik SageMaker Studio menggunakan templat yang telah ditentukan sebelumnya dan pembuatan kluster EMR sesuai permintaan. Dengan bantuan alat ini, pelanggan dapat langsung masuk ke notebook universal SageMaker Studio dan menulis kode di Apache Spark, Hive, Presto, atau PySpark untuk melakukan persiapan data dalam skala besar. Karena kurva pembelajaran yang curam untuk membuat kode Spark untuk menyiapkan data, tidak semua profesional data merasa nyaman dengan prosedur ini. Dengan Amazon EMR sebagai sumber data untuk Amazon SageMaker Data Wrangler, Anda sekarang dapat terhubung dengan cepat dan mudah ke Amazon EMR tanpa menulis satu baris kode pun.

Diagram berikut mewakili berbagai komponen yang digunakan dalam solusi ini.

Kami mendemonstrasikan dua opsi autentikasi yang dapat digunakan untuk membuat koneksi ke klaster EMR. Untuk setiap opsi, kami menggunakan tumpukan unik Formasi AWS Cloud template.

Templat CloudFormation melakukan tindakan berikut saat setiap opsi dipilih:

Membuat Domain Studio dalam mode khusus VPC, bersama dengan profil pengguna bernama studio-user.
Membuat blok penyusun, termasuk VPC, titik akhir, subnet, grup keamanan, klaster EMR, dan sumber daya lain yang diperlukan agar berhasil menjalankan contoh.
Untuk klaster EMR, sambungkan AWS Glue Data Catalog sebagai metastore untuk EMR Hive dan Presto, buat tabel Hive di EMR, dan isi dengan data dari dataset bandara AS.
Untuk template LDAP CloudFormation, buat sebuah Amazon Elastic Compute Cloud (Amazon EC2) misalnya untuk menghosting server LDAP untuk mengotentikasi pengguna Hive dan Presto LDAP.

Opsi 1: Protokol Direktori Akses Ringan

Untuk template CloudFormation autentikasi LDAP, kami menyediakan instans Amazon EC2 dengan server LDAP dan mengonfigurasi klaster EMR untuk menggunakan server ini untuk autentikasi. Ini adalah TLS Diaktifkan.

Opsi 2: Tanpa Otorisasi

Dalam template CloudFormation autentikasi No-Auth, kami menggunakan klaster EMR standar tanpa autentikasi diaktifkan.

Terapkan sumber daya dengan AWS CloudFormation

Selesaikan langkah-langkah berikut untuk menerapkan lingkungan:

Masuk ke Konsol Manajemen AWS sebagai Identitas dan Manajemen Akses AWS (IAM) pengguna, sebaiknya pengguna admin.
Pilih Luncurkan Stack untuk meluncurkan template CloudFormation untuk skenario autentikasi yang sesuai. Pastikan Wilayah yang digunakan untuk menerapkan tumpukan CloudFormation tidak memiliki Domain Studio yang ada. Jika Anda sudah memiliki Domain Studio di suatu Wilayah, Anda dapat memilih Wilayah yang berbeda.
- Tumpukan Peluncuran LDAP
- Tidak Ada Stack Peluncuran Autentikasi
Pilih Selanjutnya.
Untuk Nama tumpukan, masukkan nama untuk tumpukan (misalnya, dw-emr-blog).
Biarkan nilai lainnya sebagai default.
Untuk melanjutkan, pilih Selanjutnya dari halaman detail tumpukan dan opsi tumpukan. Tumpukan LDAP menggunakan kredensial berikut:
- username: david
- Sandi: welcome123
Pada halaman tinjauan, pilih kotak centang untuk mengonfirmasi bahwa AWS CloudFormation mungkin membuat sumber daya.
Pilih Buat tumpukan. Tunggu hingga status tumpukan berubah dari CREATE_IN_PROGRESS untuk CREATE_COMPLETE. Prosesnya biasanya memakan waktu 10–15 menit.

Catatan: Jika Anda ingin mencoba beberapa tumpukan, harap ikuti langkah-langkah di bagian Membersihkan. Ingatlah bahwa Anda harus hapus Domain SageMaker Studio sebelum tumpukan berikutnya berhasil diluncurkan.

Siapkan Amazon EMR sebagai sumber data di Data Wrangler

Di bagian ini, kami membahas menghubungkan ke klaster Amazon EMR yang ada yang dibuat melalui template CloudFormation sebagai sumber data di Data Wrangler.

Buat aliran data baru

Untuk membuat aliran data Anda, selesaikan langkah-langkah berikut:

Di konsol SageMaker, pilih Studio Amazon SageMaker di panel navigasi.
Pilih Buka studio.
Di Peluncur, pilih Aliran data baru. Alternatifnya, di File drop-down, pilih Baru, lalu pilih aliran Data Wrangler.
Membuat alur baru dapat memakan waktu beberapa menit. Setelah alur dibuat, Anda akan melihat Impor data .

Tambahkan Amazon EMR sebagai sumber data di Data Wrangler

Pada menu Tambahkan sumber data, pilih Amazon ESDM.

Anda dapat menelusuri semua kluster EMR yang dapat dilihat oleh peran eksekusi Studio Anda. Anda memiliki dua opsi untuk terhubung ke sebuah cluster; satu melalui UI interaktif, dan yang lainnya adalah yang pertama buat rahasia menggunakan AWS Secrets Manager dengan URL JDBC, termasuk informasi klaster EMR, lalu berikan AWS rahasia AWS yang disimpan di UI untuk terhubung ke Presto. Di blog ini, kami mengikuti opsi pertama. Pilih salah satu cluster berikut yang ingin Anda gunakan. Klik Selanjutnya, Lalu pilih endpoint.

Pilih Presto, terhubung ke Amazon ESDM, buat nama untuk mengidentifikasi koneksi Anda, dan klik Next.

Pilih Otentikasi ketik, LDAP atau Tanpa Otentikasi, dan klik Terhubung.

Untuk Protokol Akses Direktori Ringan (LDAP), berikan nama pengguna dan kata sandi untuk diautentikasi.

Untuk Tanpa Otentikasi, Anda akan terhubung ke EMR Presto tanpa memberikan kredensial pengguna di dalam VPC. Masukkan halaman penjelajah SQL Data Wrangler untuk EMR.

Setelah terhubung, Anda dapat secara interaktif melihat hierarki database dan pratinjau atau skema tabel. Anda juga dapat membuat kueri, menjelajahi, dan memvisualisasikan data dari EMR. Untuk pratinjau, Anda akan melihat batas 100 rekaman secara default. Untuk kueri yang dikustomisasi, Anda dapat memberikan pernyataan SQL di kotak editor kueri dan setelah mengklik Run tombol, kueri akan dijalankan pada mesin Presto ESDM.

Grafik Batalkan kueri tombol memungkinkan permintaan yang sedang berlangsung dibatalkan jika membutuhkan waktu yang sangat lama.

Langkah terakhir adalah mengimpor. Setelah Anda siap dengan data yang diminta, Anda memiliki opsi untuk memperbarui pengaturan pengambilan sampel untuk pemilihan data sesuai dengan jenis pengambilan sampel (FirstK, Random, atau Stratified) dan ukuran pengambilan sampel untuk mengimpor data ke Data Wrangler.

Klik impor. Halaman persiapan akan dimuat, memungkinkan Anda menambahkan berbagai transformasi dan analisis penting ke kumpulan data.

Arahkan ke DataFlow dari layar atas dan tambahkan lebih banyak langkah ke alur sesuai kebutuhan untuk transformasi dan analisis. Anda dapat menjalankan laporan wawasan data untuk mengidentifikasi masalah kualitas data dan mendapatkan rekomendasi untuk memperbaiki masalah tersebut. Mari kita lihat beberapa contoh transformasi.

Buka aliran data Anda, dan ini adalah layar yang harus Anda lihat. Ini menunjukkan kepada kita bahwa kita menggunakan EMR sebagai sumber data menggunakan konektor Presto.

Mari klik tombol + di sebelah kanan Tipe data dan pilih Tambahkan transformasi. Ketika Anda melakukannya, layar berikut akan muncul:

Mari kita telusuri datanya. Kami melihat bahwa ia memiliki beberapa fitur seperti iata_code, bandara, kota, negara, negara, lintang, dan garis bujur. Kita dapat melihat bahwa seluruh kumpulan data berbasis di satu negara, yaitu AS, dan ada nilai yang hilang di Lintang dan Bujur. Data yang hilang dapat menyebabkan bias dalam pendugaan parameter, dan dapat mengurangi keterwakilan sampel, sehingga perlu dilakukan beberapa tuduhan dan menangani nilai yang hilang dalam kumpulan data kami.

Mari klik pada Tambahkan Langkah tombol pada bilah navigasi di sebelah kanan. Pilih Menangani hilang. Konfigurasinya dapat dilihat pada screenshot berikut. Dibawah Mengubah, memilih Menyalahkan. Pilih jenis kolom sebagai Numeric dan nama kolom Lintang dan Garis bujur. Kami akan memasukkan nilai yang hilang menggunakan perkiraan nilai median. Pratinjau dan tambahkan transformasi.

Mari kita lihat contoh transformasi lainnya. Saat membuat model pembelajaran mesin, kolom dihapus jika berlebihan atau tidak membantu model Anda. Cara paling umum untuk menghapus kolom adalah dengan menjatuhkannya. Dalam dataset kami, fitur negara dapat dihapus karena dataset khusus untuk data bandara AS. Mari kita lihat bagaimana kita bisa mengelola kolom. Mari klik pada Tambahkan langkah tombol pada bilah navigasi di sebelah kanan. Pilih Kelola kolom. Konfigurasinya dapat dilihat pada screenshot berikut. Dibawah Mengubah, pilih Jatuhkan kolom, dan dibawah Kolom untuk dijatuhkan, pilih Negara.

Anda dapat terus menambahkan langkah-langkah berdasarkan berbagai transformasi yang diperlukan untuk kumpulan data Anda. Mari kita kembali ke aliran data kita. Anda sekarang akan melihat dua blok lagi yang menunjukkan transformasi yang kami lakukan. Dalam skenario kami, Anda dapat melihat Menyalahkan dan Jatuhkan kolom.

Praktisi ML menghabiskan banyak waktu untuk menyusun kode rekayasa fitur, menerapkannya ke set data awal mereka, melatih model pada set data yang direkayasa, dan mengevaluasi akurasi model. Mengingat sifat eksperimental dari pekerjaan ini, bahkan proyek terkecil pun akan menghasilkan banyak iterasi. Kode rekayasa fitur yang sama sering dijalankan berulang kali, menghabiskan waktu dan menghitung sumber daya untuk mengulangi operasi yang sama. Dalam organisasi besar, ini dapat menyebabkan hilangnya produktivitas yang lebih besar karena tim yang berbeda sering menjalankan pekerjaan yang identik atau bahkan menulis kode rekayasa fitur duplikat karena mereka tidak memiliki pengetahuan tentang pekerjaan sebelumnya. Untuk menghindari pemrosesan ulang fitur, sekarang kami akan mengekspor fitur yang diubah ke Toko Fitur Amazon. Mari klik pada + tombol di sebelah kanan Jatuhkan kolom. Pilih Ekspor ke Dan pilihlah Toko Fitur Sagemaker (melalui notebook Jupyter).

Anda dapat dengan mudah mengekspor fitur yang dihasilkan ke Toko Fitur SageMaker dengan memilihnya sebagai tujuan. Anda dapat menyimpan fitur ke dalam grup fitur yang sudah ada atau membuat yang baru.

Kami sekarang telah membuat fitur dengan Data Wrangler dan dengan mudah menyimpan fitur tersebut di Feature Store. Kami menunjukkan contoh alur kerja untuk rekayasa fitur di UI Data Wrangler. Kemudian kami menyimpan fitur tersebut ke dalam Feature Store langsung dari Data Wrangler dengan membuat grup fitur baru. Terakhir, kami menjalankan tugas pemrosesan untuk memasukkan fitur tersebut ke dalam Feature Store. Data Wrangler dan Feature Store bersama-sama membantu kami membangun proses otomatis dan berulang untuk merampingkan tugas persiapan data kami dengan pengkodean minimum yang diperlukan. Data Wrangler juga memberi kami fleksibilitas untuk mengotomatiskan aliran persiapan data yang sama menggunakan pekerjaan terjadwal. Kami juga dapat mengotomatiskan pelatihan atau rekayasa fitur dengan SageMaker Pipelines (melalui Jupyter Notebook) dan menerapkan ke titik akhir Inferensi dengan pipeline inferensi SageMaker (melalui Jupyter Notebook).

Membersihkan

Jika pekerjaan Anda dengan Data Wrangler selesai, pilih tumpukan yang dibuat dari halaman CloudFormation dan hapus untuk menghindari biaya tambahan.

Kesimpulan

Dalam postingan ini, kami membahas cara menyiapkan Amazon EMR sebagai sumber data di Data Wrangler, cara mengubah dan menganalisis kumpulan data, dan cara mengekspor hasilnya ke aliran data untuk digunakan di notebook Jupyter. Setelah memvisualisasikan kumpulan data kami menggunakan fitur analitik bawaan Data Wrangler, kami semakin meningkatkan aliran data kami. Fakta bahwa kami membuat pipa persiapan data tanpa menulis satu baris kode adalah signifikan.

Untuk memulai dengan Data Wrangler, lihat Siapkan Data ML dengan Amazon SageMaker Data Wrangler, dan lihat informasi terbaru tentang Halaman produk Data Wrangler.

Tentang penulis

Ajjay Govindaram adalah Arsitek Solusi Senior di AWS. Dia bekerja dengan pelanggan strategis yang menggunakan AI/ML untuk memecahkan masalah bisnis yang kompleks. Pengalamannya terletak pada memberikan arahan teknis serta bantuan desain untuk penyebaran aplikasi AI/ML skala kecil hingga besar. Pengetahuannya berkisar dari arsitektur aplikasi hingga data besar, analitik, dan pembelajaran mesin. Dia menikmati mendengarkan musik sambil beristirahat, menikmati alam bebas, dan menghabiskan waktu bersama orang yang dicintainya.

Isya Dua adalah Arsitek Solusi Senior yang berbasis di San Francisco Bay Area. Dia membantu pelanggan perusahaan AWS tumbuh dengan memahami tujuan dan tantangan mereka, dan memandu mereka tentang bagaimana mereka dapat merancang aplikasi mereka dengan cara cloud-native sambil memastikan mereka tangguh dan dapat diskalakan. Dia sangat tertarik dengan teknologi pembelajaran mesin dan kelestarian lingkungan.

Rui Jiang adalah Insinyur Pengembangan Perangkat Lunak di AWS yang berbasis di area New York City. Dia adalah anggota tim SageMaker Data Wrangler yang membantu mengembangkan solusi teknik bagi pelanggan perusahaan AWS untuk mencapai kebutuhan bisnis mereka. Di luar pekerjaan, dia menikmati menjelajahi makanan baru, kebugaran hidup, aktivitas luar ruangan, dan bepergian.

Stempel Waktu: Desember 8, 2022Desember 8, 2022

Stempel Waktu: 30 Mei 2023

Pemrosesan data paralel dengan RStudio di Amazon SageMaker

Kluster Sumber:

Pembelajaran Mesin AWS

Node Sumber: 1671065

Stempel Waktu: September 19, 2022

Siapkan data dari Databricks untuk pembelajaran mesin menggunakan Amazon SageMaker Data Wrangler

Kluster Sumber:

Pembelajaran Mesin AWS

Node Sumber: 1243552

Stempel Waktu: Mar 31, 2022

Percepat inferensi Amazon SageMaker dengan instans Amazon EC6 berbasis C2i Intel

Kluster Sumber:

Pembelajaran Mesin AWS

Node Sumber: 1816297

Stempel Waktu: Mar 20, 2023

Persiapkan data dari Amazon EMR untuk pembelajaran mesin menggunakan Amazon SageMaker Data Wrangler

Diterbitkan Ulang Oleh Plato

Ikhtisar solusi

Opsi 1: Protokol Direktori Akses Ringan

Opsi 2: Tanpa Otorisasi

Terapkan sumber daya dengan AWS CloudFormation

Siapkan Amazon EMR sebagai sumber data di Data Wrangler

Buat aliran data baru

Tambahkan Amazon EMR sebagai sumber data di Data Wrangler

Membersihkan

Kesimpulan

Tentang penulis

Lebih dari Pembelajaran Mesin AWS

Hubungkan Amazon EMR dan RStudio di Amazon SageMaker

Hubungkan Amazon Athena dengan mulus dengan Amazon Lookout for Metrics untuk mendeteksi anomali

Bagaimana VistaPrint memberikan rekomendasi produk yang dipersonalisasi dengan Amazon Personalize | Layanan Web Amazon

Deteksi anomali dengan Amazon SageMaker Edge Manager menggunakan AWS IoT Greengrass V2

Telusuri konten Adobe Experience Manager secara cerdas menggunakan Amazon Kendra | Layanan Web Amazon

Gunakan URL yang telah ditandatangani sebelumnya untuk memberi analis bisnis Anda akses aman ke Amazon SageMaker Canvas

Pemrosesan data paralel dengan RStudio di Amazon SageMaker

Siapkan data dari Databricks untuk pembelajaran mesin menggunakan Amazon SageMaker Data Wrangler

Percepat inferensi Amazon SageMaker dengan instans Amazon EC6 berbasis C2i Intel

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun