Tahun lalu, kami mengumumkan ketersediaan umum RStudio di Amazon SageMaker, lingkungan pengembangan terintegrasi (IDE) RStudio Workbench pertama yang dikelola sepenuhnya di industri di cloud. Anda dapat dengan cepat meluncurkan IDE RStudio yang sudah dikenal dan memanggil sumber daya komputasi yang mendasarinya tanpa mengganggu pekerjaan Anda, sehingga memudahkan untuk membangun solusi pembelajaran mesin (ML) dan analitik dalam skala R.
Banyak pengguna RStudio di SageMaker juga merupakan pengguna Pergeseran Merah Amazon, gudang data paralel besar-besaran berskala petabyte yang terkelola sepenuhnya untuk penyimpanan data dan beban kerja analitik. Itu membuatnya cepat, sederhana, dan hemat biaya untuk menganalisis semua data Anda menggunakan SQL standar dan alat intelijen bisnis (BI) yang ada. Pengguna juga dapat berinteraksi dengan data dengan ODBC, JDBC, atau Amazon Redshift Data API.
Penggunaan RStudio di SageMaker dan Amazon Redshift dapat membantu untuk melakukan analisis secara efisien pada kumpulan data besar di cloud. Namun, bekerja dengan data di cloud dapat menghadirkan tantangan, seperti kebutuhan untuk menghapus silo data organisasi, menjaga keamanan dan kepatuhan, serta mengurangi kerumitan dengan menstandarkan peralatan. AWS menawarkan alat seperti RStudio di SageMaker dan Amazon Redshift untuk membantu mengatasi tantangan ini.
Dalam posting blog ini, kami akan menunjukkan kepada Anda bagaimana menggunakan kedua layanan ini bersama-sama untuk melakukan analisis secara efisien pada kumpulan data besar di cloud sambil mengatasi tantangan yang disebutkan di atas. Blog ini berfokus pada Rstudio pada bahasa Amazon SageMaker, dengan analis bisnis, insinyur data, ilmuwan data, dan semua pengembang yang menggunakan Bahasa R dan Amazon Redshift, sebagai audiens target.
Jika Anda ingin menggunakan pengalaman SageMaker Studio tradisional dengan Amazon Redshift, lihat Menggunakan Amazon Redshift Data API untuk berinteraksi dari notebook Amazon SageMaker Jupyter.
Ikhtisar solusi
Di blog hari ini, kami akan menjalankan langkah-langkah berikut:
- Mengkloning repositori sampel dengan paket yang diperlukan.
- Menghubungkan ke Amazon Redshift dengan koneksi ODBC yang aman (ODBC adalah protokol pilihan untuk RStudio).
- Menjalankan kueri dan tindakan API SageMaker pada data dalam Amazon Redshift Tanpa Server melalui RStudio di SageMaker
Proses ini digambarkan dalam arsitektur solusi berikut:
Panduan solusi
Prasyarat
Sebelum memulai, pastikan Anda memiliki semua persyaratan untuk menyiapkan RStudio di Amazon SageMaker dan Amazon Redshift Tanpa Server, seperti:
Kami akan menggunakan tumpukan CloudFormation untuk menghasilkan infrastruktur yang diperlukan.
Catatan: Jika Anda sudah memiliki domain RStudio dan klaster Amazon Redshift, Anda dapat melewati langkah ini
Meluncurkan tumpukan ini akan membuat sumber daya berikut:
- 3 subnet pribadi
- 1 subnet publik
- 1 gerbang NAT
- Gerbang internet
- Kluster Tanpa Server Amazon Redshift
- Domain SageMaker dengan RStudio
- Profil pengguna SageMaker RStudio
- Peran layanan IAM untuk eksekusi domain SageMaker RStudio
- Peran layanan IAM untuk eksekusi profil pengguna SageMaker RStudio
Templat ini dirancang untuk berfungsi di suatu Wilayah (mis. us-east-1
, us-west-2
) dengan tiga Availability Zone, RStudio di SageMaker, dan Amazon Redshift Tanpa Server. Pastikan Wilayah Anda memiliki akses ke sumber daya tersebut, atau ubah template yang sesuai.
Tekan Luncurkan Stack tombol untuk membuat tumpukan.
- pada Buat tumpukan halaman, pilih Selanjutnya.
- pada Tentukan detail tumpukan halaman, berikan nama untuk tumpukan Anda dan biarkan opsi yang tersisa sebagai default, lalu pilih Selanjutnya.
- pada Konfigurasikan opsi tumpukan halaman, biarkan opsi sebagai default dan tekan Selanjutnya.
- pada Halaman ulasan, Pilih
- Saya mengakui bahwa AWS CloudFormation dapat membuat sumber daya IAM dengan nama khusus
- Saya memahami bahwa AWS CloudFormation mungkin memerlukan kemampuan berikut: CAPABILITY_AUTO_EXPANDcentang dan pilih Kirim.
Template akan menghasilkan lima tumpukan.
Setelah status tumpukan CREATE_COMPLETE, buka konsol Amazon Redshift Serverless. Ini adalah kemampuan baru yang membuatnya sangat mudah untuk menjalankan analitik di cloud dengan kinerja tinggi pada skala apa pun. Cukup muat data Anda dan mulai membuat kueri. Tidak perlu mengatur dan mengelola cluster.
Note: Pola yang didemonstrasikan dalam blog ini yang mengintegrasikan Amazon Redshift dan RStudio di Amazon SageMaker akan sama terlepas dari pola penerapan Amazon Redshift (tanpa server atau klaster tradisional).
Memuat data di Amazon Redshift Tanpa Server
Skrip CloudFormation membuat database bernama sagemaker
. Mari isi database ini dengan tabel untuk kueri pengguna RStudio. Buat tab editor SQL dan pastikan sagemaker
basis data dipilih. Kami akan menggunakan data transaksi kartu kredit sintetis untuk membuat tabel di database kami. Data ini merupakan bagian dari kumpulan data tabel sampel SageMaker s3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions
.
Kami akan menjalankan kueri berikut di editor kueri. Ini akan menghasilkan tiga tabel, kartu, transaksi, dan Pengguna.
Anda dapat memvalidasi bahwa kueri berhasil dijalankan dengan melihat tiga tabel di panel sebelah kiri editor kueri.
Setelah semua tabel terisi, navigasikan ke SageMaker RStudio dan mulai sesi baru dengan gambar dasar RSession pada instans ml.m5.xlarge.
Setelah sesi diluncurkan, kami akan menjalankan kode ini untuk membuat koneksi ke database Tanpa Server Amazon Redshift kami.
Untuk melihat tabel dalam skema sintetik, Anda harus memberikan akses di Amazon Redshift melalui editor kueri.
RStudio Koneksi panel harus menunjukkan sagemaker
database dengan skema sintetik dan kartu tabel, transaksi, pengguna.
Anda dapat mengklik ikon tabel di samping tabel untuk melihat 1,000 catatan.
Catatan: Kami telah membuat file R Markdown pre-built dengan semua blok kode pre-built yang dapat ditemukan di proyek GitHub repo.
Sekarang mari kita gunakan DBI
fungsi paket dbListTables()
untuk melihat tabel yang ada.
Gunakan dbGetQuery() untuk meneruskan kueri SQL ke database.
Kami juga bisa menggunakan dbplyr
dan dplyr
paket untuk mengeksekusi kueri dalam database. Ayo count()
berapa banyak transaksi yang ada di tabel transaksi. Tapi pertama-tama, kita perlu menginstal paket-paket ini.
Gunakan tbl()
berfungsi sambil menentukan skema.
Mari kita menghitung jumlah baris untuk setiap tabel.
Jadi kami memiliki 2,000 pengguna; 6,146 kartu; dan 24,386,900 transaksi. Kami juga dapat melihat tabel di konsol.
transactions_tbl
Kita juga bisa melihat apa dplyr
kata kerja lakukan di bawah tenda.
Mari jelajahi secara visual jumlah transaksi per tahun.
Kami juga dapat meringkas data dalam database sebagai berikut:
Misalkan kita ingin melihat penipuan menggunakan informasi kartu. Kita hanya perlu menggabungkan tabel dan kemudian mengelompokkannya berdasarkan atribut.
Sekarang mari siapkan dataset yang bisa digunakan untuk machine learning. Mari memfilter data transaksi untuk hanya menyertakan kartu kredit Discover sementara hanya mempertahankan sebagian kolom.
Dan sekarang mari kita lakukan pembersihan menggunakan transformasi berikut:
- mengubah
is_fraud
ke atribut biner - Hapus string transaksi dari
use_chip
dan ganti namanya menjadi type - Gabungkan tahun, bulan, dan hari menjadi objek data
- Hapus $ dari jumlah dan ubah menjadi tipe data numerik
Sekarang setelah kami memfilter dan membersihkan kumpulan data kami, kami siap untuk mengumpulkan kumpulan data ini ke dalam RAM lokal.
Sekarang kami memiliki kumpulan data yang berfungsi untuk mulai membuat fitur dan menyesuaikan model. Kami tidak akan membahas langkah-langkah tersebut di blog ini, tetapi jika Anda ingin mempelajari lebih lanjut tentang membuat model di RStudio di SageMaker, lihat Mengumumkan RStudio Terkelola Sepenuhnya di Amazon SageMaker untuk Ilmuwan Data.
Membersihkan
Untuk membersihkan sumber daya apa pun agar tidak menimbulkan biaya berulang, hapus templat root CloudFormation. Hapus juga semua mount EFS yang dibuat dan semua bucket dan objek S3 yang dibuat.
Kesimpulan
Analisis dan pemodelan data dapat menjadi tantangan saat bekerja dengan kumpulan data besar di cloud. Amazon Redshift adalah gudang data populer yang dapat membantu pengguna melakukan tugas ini. RStudio, salah satu lingkungan pengembangan terintegrasi (IDE) yang paling banyak digunakan untuk analisis data, sering digunakan dengan bahasa R. Dalam postingan blog ini, kami menunjukkan cara menggunakan Amazon Redshift dan RStudio di SageMaker bersama-sama untuk melakukan analisis secara efisien pada kumpulan data besar. Dengan menggunakan RStudio di SageMaker, pengguna dapat memanfaatkan infrastruktur yang dikelola sepenuhnya, kontrol akses, jaringan, dan kapabilitas keamanan SageMaker, sekaligus menyederhanakan integrasi dengan Amazon Redshift. Jika Anda ingin mempelajari lebih lanjut tentang penggunaan kedua alat ini bersama-sama, lihat postingan dan sumber daya blog kami yang lain. Anda juga dapat mencoba menggunakan RStudio di SageMaker dan Amazon Redshift untuk Anda sendiri dan melihat bagaimana mereka dapat membantu Anda dengan analisis data dan tugas pemodelan.
Silakan tambahkan umpan balik Anda ke blog ini, atau buat permintaan tarik di GitHub.
Tentang Penulis
Ryan Garner adalah Ilmuwan Data dengan Layanan Profesional AWS. Dia bersemangat membantu pelanggan AWS menggunakan R untuk memecahkan masalah Ilmu Data dan Pembelajaran Mesin mereka.
Raja Pathak adalah Arsitek Solusi Senior dan Teknolog yang berspesialisasi dalam Layanan Keuangan (Asuransi, Perbankan, Pasar Modal) dan Pembelajaran Mesin. Dia berspesialisasi dalam Pemrosesan Bahasa Alami (NLP), Model Bahasa Besar (LLM), dan proyek infrastruktur dan operasi Pembelajaran Mesin (MLOps).
Aditi Rajnish adalah mahasiswa rekayasa perangkat lunak tahun kedua di University of Waterloo. Minatnya meliputi visi komputer, pemrosesan bahasa alami, dan komputasi tepi. Dia juga bersemangat tentang penjangkauan dan advokasi STEM berbasis komunitas. Di waktu luangnya, dia dapat ditemukan memanjat tebing, bermain piano, atau belajar cara membuat scone yang sempurna.
Saiteja Pudi adalah Arsitek Solusi di AWS, berbasis di Dallas, Tx. Dia telah bersama AWS selama lebih dari 3 tahun, membantu pelanggan mendapatkan potensi sebenarnya dari AWS dengan menjadi penasihat tepercaya mereka. Dia berasal dari latar belakang pengembangan aplikasi, tertarik pada Ilmu Data dan Pembelajaran Mesin.
- AI
- ai seni
- generator seni ai
- punya robot
- Pergeseran Merah Amazon
- Amazon SageMaker
- kecerdasan buatan
- sertifikasi kecerdasan buatan
- kecerdasan buatan dalam perbankan
- robot kecerdasan buatan
- robot kecerdasan buatan
- perangkat lunak kecerdasan buatan
- Pembelajaran Mesin AWS
- blockchain
- konferensi blockchain
- kecerdasan
- kecerdasan buatan percakapan
- konferensi kripto
- dall's
- belajar mendalam
- Ahli (400)
- google itu
- Mesin belajar
- plato
- plato ai
- Kecerdasan Data Plato
- Permainan Plato
- Data Plato
- permainan plato
- skala ai
- sintaksis
- Petunjuk Teknis
- zephyrnet.dll