Pengatur Data Amazon SageMaker adalah agregasi data dan alat persiapan yang dibuat khusus untuk machine learning (ML). Ini memungkinkan Anda menggunakan antarmuka visual untuk mengakses data dan melakukan analisis data eksplorasi (EDA) dan rekayasa fitur. Fitur EDA dilengkapi dengan kemampuan analisis data bawaan untuk bagan (seperti plot sebar atau histogram) dan kemampuan analisis model yang menghemat waktu seperti pentingnya fitur, kebocoran target, dan kemampuan menjelaskan model. Kemampuan rekayasa fitur memiliki lebih dari 300 transformasi bawaan dan dapat melakukan transformasi khusus menggunakan runtime Python, PySpark, atau Spark SQL.
Untuk visualisasi dan transformasi khusus, Data Wrangler kini menyediakan cuplikan kode contoh untuk jenis visualisasi dan transformasi umum. Dalam posting ini, kami menunjukkan cara menggunakan cuplikan kode ini untuk memulai EDA Anda dengan cepat di Data Wrangler.
Ikhtisar solusi
Pada saat penulisan ini, Anda dapat mengimpor kumpulan data ke dalam Data Wrangler dari Layanan Penyimpanan Sederhana Amazon (Amazon S3), Amazon Athena, Pergeseran Merah Amazon, Databricks, dan Kepingan Salju. Untuk posting ini, kami menggunakan Amazon S3 untuk menyimpan Amazon 2014 ulasan kumpulan data. Berikut ini adalah contoh dari dataset:
Dalam posting ini, kami melakukan EDA menggunakan tiga kolomโasin
, reviewTime
, dan overall
โyang masing-masing dipetakan ke ID produk, tanggal waktu peninjauan, dan skor ulasan keseluruhan. Kami menggunakan data ini untuk memvisualisasikan dinamika jumlah ulasan selama berbulan-bulan dan bertahun-tahun.
Menggunakan contoh Cuplikan Kode untuk EDA di Data Wrangler
Untuk mulai melakukan EDA di Data Wrangler, selesaikan langkah-langkah berikut:
- Download Kumpulan data ulasan Musik Digital JSON dan unggah ke Amazon S3.
Kami menggunakan ini sebagai dataset mentah untuk EDA. - Open Studio Amazon SageMaker dan buat aliran Data Wrangler baru dan impor set data dari Amazon S3.
Kumpulan data ini memiliki sembilan kolom, tetapi kami hanya menggunakan tiga:
asin
,reviewTime
, danoverall
. Kita perlu menjatuhkan enam kolom lainnya. - Buat transformasi khusus dan pilih Piton (PySpark).
- Lihat lebih lanjut Cari cuplikan contoh Dan pilihlah Jatuhkan semua kolom kecuali beberapa.
- Masukkan cuplikan yang disediakan ke dalam transformasi khusus Anda dan ikuti petunjuk untuk mengubah kode.
Sekarang setelah kita memiliki semua kolom yang kita butuhkan, mari kita filter data agar hanya menyimpan ulasan antara tahun 2000โ2020.
- Gunakan Filter stempel waktu di luar rentang snippet untuk menghapus data sebelum tahun 2000 dan setelah 2020:
Selanjutnya, kami mengekstrak tahun dan bulan dari kolom reviewTime.
- Gunakan Menampilkan tanggal/waktu mengubah.
- Untuk Ekstrak kolom, pilih tahun dan bulan tersebut..
Selanjutnya, kami ingin menggabungkan jumlah ulasan berdasarkan tahun dan bulan yang kami buat di langkah sebelumnya.
- Gunakan Hitung statistik dalam grup potongan:
- Ganti nama agregasi dari langkah sebelumnya dari
count(overall)
untukreviews_num
dengan memilih Kelola Kolom dan Ganti nama kolom mengubah.
Terakhir, kami ingin membuat peta panas untuk memvisualisasikan distribusi ulasan menurut tahun dan bulan. - Pada tab analisis, pilih Visualisasi khusus.
- Lihat lebih lanjut Cari cuplikan Dan pilihlah Heatmap di menu drop-down.
- Masukkan cuplikan yang disediakan ke dalam visualisasi khusus Anda:
Kami mendapatkan visualisasi berikut.
Jika Anda ingin menyempurnakan peta panas lebih lanjut, Anda dapat mengiris data untuk hanya menampilkan ulasan sebelum 2011. Ini sulit diidentifikasi dalam peta panas yang baru saja kami buat karena volume besar ulasan sejak 2012. - Tambahkan satu baris kode ke visualisasi khusus Anda:
Kami mendapatkan peta panas berikut.
Sekarang peta panas mencerminkan ulasan sebelum 2011 dengan lebih jelas: kita dapat mengamati efek musiman (akhir tahun membawa lebih banyak pembelian dan karenanya lebih banyak ulasan) dan dapat mengidentifikasi bulan-bulan anomali, seperti Oktober 2003 dan Maret 2005. Perlu diselidiki lebih lanjut untuk menentukan penyebab anomali tersebut.
Kesimpulan
Data Wrangler adalah agregasi data dan alat persiapan yang dibuat khusus untuk ML. Dalam posting ini, kami menunjukkan cara melakukan EDA dan mengubah data Anda dengan cepat menggunakan cuplikan kode yang disediakan oleh Data Wrangler. Anda hanya perlu menemukan cuplikan, memasukkan kode, dan menyesuaikan parameter agar sesuai dengan kumpulan data Anda. Anda dapat terus mengulangi skrip Anda untuk membuat visualisasi dan transformasi yang lebih kompleks.
Untuk mempelajari lebih lanjut tentang Data Wrangler, lihat Buat dan Gunakan Aliran Data Wrangler.
Tentang Penulis
Nikita Ivkin adalah Ilmuwan Terapan, Amazon SageMaker Data Wrangler.
Haider Naqvi adalah Arsitek Solusi di AWS. Dia memiliki pengalaman pengembangan perangkat lunak dan arsitektur perusahaan yang luas. Dia berfokus untuk memungkinkan pelanggan mencapai hasil bisnis dengan AWS. Dia berbasis di New York.
Harish Rajagopalan adalah Arsitek Solusi Senior di Amazon Web Services. Harish bekerja dengan pelanggan perusahaan dan membantu mereka dengan perjalanan cloud mereka.
James Wu adalah Senior AI/ML Specialist SA di AWS. Dia bekerja dengan pelanggan untuk mempercepat perjalanan cloud mereka dan mempercepat realisasi nilai bisnis mereka. Selain itu, James juga bersemangat mengembangkan dan menskalakan solusi AI/ML besar di berbagai domain. Sebelum bergabung dengan AWS, ia memimpin tim teknologi inovasi multi-disiplin dengan insinyur ML dan pengembang perangkat lunak untuk perusahaan global teratas di pasar dan industri periklanan.
- Coinsmart. Pertukaran Bitcoin dan Crypto Terbaik Eropa.
- Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. AKSES GRATIS.
- CryptoHawk. Radar Altcoin. Uji Coba Gratis.
- Sumber: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- Tentang Kami
- mempercepat
- mengakses
- Mencapai
- di seluruh
- tambahan
- pengiklanan
- Semua
- memungkinkan
- Amazon
- Amazon Web Services
- analisis
- terapan
- arsitektur
- tersedia
- AWS
- Sumbu
- karena
- sebelum
- antara
- built-in
- bisnis
- kemampuan
- Menyebabkan
- Charts
- Pilih
- awan
- kode
- Kolom
- Umum
- lengkap
- kompleks
- terus
- kontrol
- membuat
- dibuat
- adat
- pelanggan
- data
- analisis data
- mendemonstrasikan
- menunjukkan
- Menentukan
- pengembang
- berkembang
- Pengembangan
- distribusi
- domain
- turun
- Menjatuhkan
- dinamika
- efek
- memungkinkan
- Teknik
- Insinyur
- Enter
- Enterprise
- contoh
- Kecuali
- pengalaman
- luas
- lebih cepat
- Fitur
- Akhirnya
- Perusahaan
- Pertama
- aliran
- berfokus
- mengikuti
- berikut
- dari
- fungsi
- fungsi
- lebih lanjut
- Aksi
- besar
- Grup
- memiliki
- bermanfaat
- membantu
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- HTTPS
- mengenali
- pentingnya
- industri
- Innovation
- Antarmuka
- IT
- perjalanan
- Menjaga
- besar
- BELAJAR
- pengetahuan
- Dipimpin
- baris
- Daftar
- mesin
- Mesin belajar
- peta
- March
- Pasar
- Cocok
- ML
- model
- Bulan
- bulan
- lebih
- musik
- nama
- NY
- jumlah
- Lainnya
- secara keseluruhan
- bergairah
- melakukan
- bermain
- Mempersiapkan
- sebelumnya
- Produk
- memberikan
- disediakan
- menyediakan
- membeli
- pembelian
- kuantitatif
- segera
- Mentah
- arsip
- mencerminkan
- ulasan
- Review
- skala
- ilmuwan
- Layanan
- Sederhana
- sejak
- ENAM
- Perangkat lunak
- pengembangan perangkat lunak
- Solusi
- spesialis
- awal
- statistika
- penyimpanan
- menyimpan
- target
- tim
- Teknologi
- Grafik
- karena itu
- tiga
- waktu
- alat
- puncak
- Mengubah
- transformasi
- jenis
- menggunakan
- nilai
- berbagai
- visualisasi
- volume
- jaringan
- layanan web
- SIAPA
- hebat
- bekerja
- bernilai
- penulisan
- X
- tahun
- tahun
- Anda