Organisasi yang bergerak menuju budaya berbasis data merangkul penggunaan data dan pembelajaran mesin (ML) dalam pengambilan keputusan. Untuk membuat keputusan berbasis ML dari data, Anda memerlukan data Anda tersedia, dapat diakses, bersih, dan dalam format yang tepat untuk melatih model ML. Organisasi dengan arsitektur multi-akun ingin menghindari situasi di mana mereka harus mengekstrak data dari satu akun dan memuatnya ke akun lain untuk aktivitas persiapan data. Membangun dan memelihara pekerjaan ekstrak, transformasi, dan pemuatan (ETL) yang berbeda secara manual di akun yang berbeda menambah kerumitan dan biaya, dan mempersulit pemeliharaan praktik terbaik tata kelola, kepatuhan, dan keamanan untuk menjaga keamanan data Anda.
Pergeseran Merah Amazon adalah gudang data cloud yang cepat dan terkelola sepenuhnya. Fitur berbagi data lintas-akun Amazon Redshift menyediakan cara sederhana dan aman untuk berbagi data baru, lengkap, dan konsisten di gudang data Amazon Redshift Anda dengan sejumlah pemangku kepentingan di akun AWS yang berbeda. Pengatur Data Amazon SageMaker adalah kemampuan dari Amazon SageMaker yang membuatnya lebih cepat bagi ilmuwan dan insinyur data untuk menyiapkan data untuk aplikasi ML dengan menggunakan antarmuka visual. Data Wrangler memungkinkan Anda menjelajahi dan mengubah data untuk ML dengan menghubungkan ke berbagi data Amazon Redshift.
Dalam posting ini, kami membahas penyiapan integrasi lintas-akun menggunakan datashare Amazon Redshift dan menyiapkan data menggunakan Data Wrangler.
Ikhtisar solusi
Kami mulai dengan dua akun AWS: akun produsen dengan gudang data Amazon Redshift, dan akun konsumen untuk kasus penggunaan SageMaker ML. Untuk posting ini, kami menggunakan kumpulan data perbankan. Untuk mengikuti, unduh kumpulan data ke mesin lokal Anda. Berikut ini adalah ikhtisar tingkat tinggi dari alur kerja:
- Buat instans klaster Amazon Redshift RA3 di akun produsen dan muat set data.
- Buat berbagi data Amazon Redshift di akun produsen dan izinkan akun konsumen mengakses data.
- Akses berbagi data Amazon Redshift di akun konsumen.
- Analisis dan proses data dengan Data Wrangler di akun konsumen dan bangun alur kerja persiapan data Anda.
Waspadai pertimbangan untuk bekerja dengan berbagi data Amazon Redshift:
- Beberapa akun AWS โ Anda memerlukan setidaknya dua akun AWS: akun produsen dan akun konsumen.
- Tipe kluster โ Berbagi data didukung dalam tipe klaster RA3. Saat membuat instance klaster Amazon Redshift, pastikan untuk memilih jenis klaster RA3.
- enkripsi โ Agar berbagi data berfungsi, kluster produsen dan konsumen harus dienkripsi dan harus berada di Wilayah AWS yang sama.
- daerah โ Berbagi data lintas-akun tersedia untuk semua Amazon Redshift Jenis simpul RA3 di AS Timur (Virginia Utara), AS Timur (Ohio), AS Barat (California Utara), AS Barat (Oregon), Asia Pasifik (Mumbai), Asia Pasifik (Seoul), Asia Pasifik (Singapura), Asia Pasifik ( Sydney), Asia Pasifik (Tokyo), Kanada (Tengah), Eropa (Frankfurt), Eropa (Irlandia), Eropa (London), Eropa (Paris), Eropa (Stockholm), dan Amerika Selatan (So Paulo).
- Harga โ Berbagi data lintas-akun tersedia di seluruh cluster yang berada di Wilayah yang sama. Tidak ada biaya untuk berbagi data. Anda cukup membayar untuk klaster Amazon Redshift yang berpartisipasi dalam berbagi.
Berbagi data lintas-akun adalah proses dua langkah. Pertama, administrator cluster produsen membuat berbagi data, menambahkan objek, dan memberikan akses ke akun konsumen. Kemudian administrator akun produsen mengizinkan berbagi data untuk konsumen yang ditentukan. Anda dapat melakukannya dari konsol Amazon Redshift.
Buat berbagi data Amazon Redshift di akun produsen
Untuk membuat datashare Anda, selesaikan langkah-langkah berikut:
- Di konsol Amazon Redshift, buat klaster Amazon Redshift.
- Menentukan Produksi dan pilih jenis simpul RA3.
- Bawah Konfigurasi tambahan, batal pilih Gunakan default.
- Bawah Konfigurasi basis data, siapkan enkripsi untuk cluster Anda.
- Setelah Anda membuat kluster, impor set data bank pemasaran langsung. Anda dapat mengunduh dari URL berikut: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- Unggah
bank-additional-full.csv
ke Layanan Penyimpanan Sederhana Amazon (Amazon S3) bucket yang dapat diakses oleh cluster Anda. - Gunakan editor kueri Amazon Redshift dan jalankan kueri SQL berikut untuk menyalin data ke Amazon Redshift:
- Navigasikan ke halaman detail cluster dan di berbagi data tab, pilih Buat berbagi data.
- Untuk Nama berbagi data, masukkan nama.
- Untuk Nama basis data, pilih database.
- Dalam majalah Tambahkan objek berbagi data bagian, pilih objek dari database yang ingin Anda sertakan dalam datashare.
Anda memiliki kontrol terperinci atas apa yang Anda pilih untuk dibagikan dengan orang lain. Untuk kesederhanaan, kami membagikan semua tabel. Dalam praktiknya, Anda dapat memilih satu atau beberapa tabel, tampilan, atau fungsi yang ditentukan pengguna. - Pilih Add.
- Untuk menambahkan konsumen data, pilih Tambahkan akun AWS ke berbagi data dan tambahkan ID akun AWS sekunder Anda.
- Pilih Buat berbagi data.
- Untuk mengotorisasi konsumen data yang baru saja Anda buat, buka berbagi data halaman di konsol Amazon Redshift dan pilih datashare baru.
- Pilih konsumen data dan pilih Mengizinkan.
Status konsumen berubah dari Pending authorization
untuk Authorized
.
Akses berbagi data lintas-akun Amazon Redshift di akun AWS konsumen
Sekarang setelah datashare disiapkan, beralihlah ke akun AWS konsumen Anda untuk menggunakan datashare. Pastikan Anda memiliki setidaknya satu klaster Amazon Redshift yang dibuat di akun konsumen Anda. Cluster harus dienkripsi dan di Wilayah yang sama dengan sumbernya.
- Di konsol Amazon Redshift, pilih berbagi data di panel navigasi.
- pada Dari akun lain tab, pilih datashare yang Anda buat dan pilih Menghubungkan.
- Anda dapat mengaitkan datashare dengan satu atau beberapa cluster di akun ini atau mengaitkan datashare ke seluruh akun sehingga cluster saat ini dan mendatang di akun konsumen mendapatkan akses ke share ini.
- Tentukan detail koneksi Anda dan pilih Terhubung.
- Pilih Buat database dari datashare dan masukkan nama untuk database baru Anda.
- Untuk menguji datashare, buka editor kueri dan jalankan kueri terhadap database baru untuk memastikan semua objek tersedia sebagai bagian dari datashare.
Analisis dan proses data dengan Data Wrangler
Anda sekarang dapat menggunakan Data Wrangler untuk mengakses data lintas-akun yang dibuat sebagai berbagi data di Amazon Redshift.
- Open Studio Amazon SageMaker.
- pada File menu, pilih New dan Aliran Data Wrangler.
- pada impor tab, pilih Tambahkan sumber data dan Pergeseran Merah Amazon.
- Masukkan detail koneksi klaster Amazon Redshift yang baru saja Anda buat di akun konsumen untuk berbagi data.
- Pilih Terhubung.
- Gunakan Identitas AWS dan Manajemen Akses (IAM) yang Anda gunakan untuk klaster Amazon Redshift Anda.
Perhatikan bahwa meskipun datashare adalah database baru di klaster Amazon Redshift, Anda tidak dapat menghubungkannya langsung dari Data Wrangler.
Cara yang benar adalah menyambungkan ke database klaster default terlebih dahulu, lalu menggunakan SQL untuk mengkueri database berbagi data. Berikan informasi yang diperlukan untuk menghubungkan ke database cluster default. Perhatikan bahwa Layanan Manajemen Kunci AWS ID kunci (AWS KMS) tidak diperlukan untuk terhubung.
Data Wrangler sekarang terhubung ke instans Amazon Redshift.
- Kueri data di database berbagi data Amazon Redshift menggunakan editor SQL.
- Pilih impor untuk mengimpor dataset ke Data Wrangler.
- Masukkan nama untuk kumpulan data dan pilih Add.
Anda sekarang dapat melihat aliran di Aliran data tab Data Wrangler.
Setelah Anda memuat data ke dalam Data Wrangler, Anda dapat melakukan analisis data eksplorasi dan menyiapkan data untuk ML.
- Pilih tanda plus dan pilih Tambahkan analisis.
Data Wrangler menyediakan analisis bawaan. Ini termasuk tetapi tidak terbatas pada kualitas data dan laporan wawasan, korelasi data, laporan bias pra-pelatihan, ringkasan kumpulan data Anda, dan visualisasi (seperti histogram dan plot sebar). Anda juga dapat membuat visualisasi kustom Anda sendiri.
Anda dapat menggunakan Kualitas Data dan Laporan Wawasan untuk membuat visualisasi dan analisis secara otomatis guna mengidentifikasi masalah kualitas data, dan merekomendasikan transformasi yang tepat yang diperlukan untuk kumpulan data Anda.
- Pilih Kualitas Data dan Laporan Wawasan, dan pilih Kolom sasaran as y.
- Karena ini adalah pernyataan masalah klasifikasi, untuk Jenis masalah, pilih Klasifikasi.
- Pilih membuat.
Data Wrangler membuat laporan mendetail tentang kumpulan data Anda. Anda juga dapat mengunduh laporan ke mesin lokal Anda.
- Untuk persiapan data, pilih tanda plus dan pilih Tambahkan analisis.
- Pilih Tambahkan langkah untuk mulai membangun transformasi Anda.
Pada saat penulisan ini, Data Wrangler menyediakan lebih dari 300 transformasi bawaan. Anda juga dapat menulis transformasi Anda sendiri menggunakan Pandas atau PySpark.
Anda sekarang dapat mulai membangun transformasi dan analisis berdasarkan kebutuhan bisnis Anda.
Kesimpulan
Dalam posting ini, kami menjelajahi berbagi data di seluruh akun menggunakan berbagi data Amazon Redshift tanpa harus mengunduh dan mengunggah data secara manual. Kami membahas cara mengakses data bersama menggunakan Data Wrangler dan menyiapkan data untuk kasus penggunaan ML Anda. Kemampuan tanpa kode/kode rendah dari berbagi data Amazon Redshift dan Data Wrangler ini mempercepat persiapan data pelatihan dan meningkatkan kelincahan insinyur data dan ilmuwan data dengan persiapan data berulang yang lebih cepat.
Untuk mempelajari lebih lanjut tentang Amazon Redshift dan SageMaker, lihat Panduan Pengembang Database Amazon Redshift dan Dokumentasi Amazon SageMaker.
Tentang Penulis
Meenakshisundaram Thandavarayan adalah spesialis AI/ML Senior dengan AWS. Dia membantu akun strategis berteknologi tinggi dalam perjalanan AI dan ML mereka. Dia sangat bersemangat tentang AI berbasis data.
James Wu adalah Arsitek Solusi Spesialis AI/ML Senior di AWS. membantu pelanggan merancang dan membangun solusi AI/ML. Pekerjaan James mencakup berbagai kasus penggunaan ML, dengan minat utama pada visi komputer, pembelajaran mendalam, dan penskalaan ML di seluruh perusahaan. Sebelum bergabung dengan AWS, James adalah seorang arsitek, pengembang, dan pemimpin teknologi selama lebih dari 10 tahun, termasuk 6 tahun di bidang teknik dan 4 tahun di industri pemasaran & periklanan.
- Coinsmart. Pertukaran Bitcoin dan Crypto Terbaik Eropa.
- Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. AKSES GRATIS.
- CryptoHawk. Radar Altcoin. Uji Coba Gratis.
- Sumber: https://aws.amazon.com/blogs/machine-learning/import-data-from-cross-account-amazon-redshift-in-amazon-sagemaker-data-wrangler-for-exploratory-data-analysis- dan-data-persiapan/
- "
- &
- 10
- 100
- 11
- 7
- a
- Tentang Kami
- mengakses
- dapat diakses
- Akun
- di seluruh
- kegiatan
- pengiklanan
- terhadap
- AI
- Semua
- memungkinkan
- Amazon
- Amerika
- analisis
- Lain
- aplikasi
- arsitektur
- Asia
- Asia Pacific
- Menghubungkan
- secara otomatis
- tersedia
- AWS
- Bank
- TERBAIK
- Praktik Terbaik
- batas
- membangun
- Bangunan
- built-in
- bisnis
- california
- Kampanye
- Kanada
- kasus
- pusat
- Pilih
- klasifikasi
- awan
- lengkap
- pemenuhan
- komputer
- Terhubung
- terhubung
- Menghubungkan
- koneksi
- konsisten
- konsul
- memakan
- konsumen
- Konsumen
- kontak
- kontrol
- membuat
- dibuat
- menciptakan
- Surat kepercayaan
- budaya
- terbaru
- adat
- pelanggan
- data
- analisis data
- berbagi data
- Basis Data
- keputusan
- mendalam
- Mendesain
- terperinci
- rincian
- Pengembang
- berbeda
- sulit
- langsung
- langsung
- Download
- editor
- Pendidikan
- merangkul
- enkripsi
- Teknik
- Insinyur
- Enter
- Enterprise
- Eropa
- menyelidiki
- FAST
- lebih cepat
- Fitur
- Pertama
- aliran
- mengikuti
- berikut
- format
- segar
- dari
- fungsi
- masa depan
- menghasilkan
- pemerintahan
- memiliki
- membantu
- membantu
- perumahan
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- HTTPS
- mengenali
- identitas
- memasukkan
- Termasuk
- industri
- informasi
- wawasan
- contoh
- integrasi
- bunga
- Antarmuka
- Irlandia
- masalah
- IT
- Pekerjaan
- Jobs
- bergabung
- perjalanan
- Menjaga
- kunci
- pemimpin
- BELAJAR
- pengetahuan
- Terbatas
- memuat
- lokal
- tempat
- London
- mesin
- Mesin belajar
- memelihara
- membuat
- MEMBUAT
- berhasil
- pengelolaan
- manual
- Marketing
- mungkin
- ML
- model
- Bulan
- lebih
- bergerak
- Mumbai
- Navigasi
- jumlah
- Ohio
- urutan
- Oregon
- organisasi
- Lainnya
- sendiri
- Pasifik
- Paris
- bagian
- ikut
- bergairah
- Membayar
- praktek
- Mempersiapkan
- sebelumnya
- primer
- Masalah
- proses
- produsen
- memberikan
- menyediakan
- kualitas
- jarak
- sarankan
- wilayah
- melaporkan
- wajib
- Peran
- Run
- aman
- sama
- skala
- ilmuwan
- sekunder
- aman
- keamanan
- Seoul
- set
- pengaturan
- Share
- berbagi
- berbagi
- menandatangani
- Sederhana
- Singapura
- So
- padat
- larutan
- Solusi
- Selatan
- spesialis
- awal
- Pernyataan
- Status
- penyimpanan
- Strategis
- Didukung
- Beralih
- sydney
- Teknologi
- uji
- Grafik
- Sumber
- Melalui
- waktu
- Tokyo
- terhadap
- Pelatihan
- Mengubah
- Transformasi
- transformasi
- us
- menggunakan
- virginia
- penglihatan
- visualisasi
- Barat
- Apa
- tanpa
- Kerja
- Alur kerja
- kerja
- penulisan
- tahun
- Anda