Anda dapat membuat penyimpanan fitur untuk menyediakan repositori pusat untuk fitur pembelajaran mesin (ML) yang dapat dibagikan dengan tim ilmu data di seluruh organisasi Anda untuk pelatihan, penilaian batch, dan inferensi waktu nyata. Tim ilmu data dapat menggunakan kembali fitur yang disimpan di repositori pusat, menghindari kebutuhan untuk merekayasa ulang saluran fitur untuk proyek yang berbeda dan sebagai hasilnya menghilangkan pengerjaan ulang dan duplikasi.
Untuk memenuhi kebutuhan keamanan dan kepatuhan, Anda mungkin memerlukan kontrol terperinci atas cara fitur ML bersama ini diakses. Kebutuhan ini sering kali melampaui kontrol akses tingkat tabel dan kolom ke kontrol akses tingkat baris individual. Misalnya, Anda mungkin ingin membiarkan perwakilan akun melihat baris dari tabel penjualan hanya untuk akun mereka dan menutupi awalan data sensitif seperti nomor kartu kredit. Kontrol akses mendetail diperlukan untuk melindungi data penyimpanan fitur dan memberikan akses berdasarkan peran individu. Ini sangat penting bagi pelanggan dan pemangku kepentingan di industri yang diharuskan mengaudit akses ke data fitur dan memastikan tingkat keamanan yang tepat tersedia.
Dalam posting ini, kami memberikan ikhtisar tentang cara menerapkan kontrol akses granular ke grup fitur dan fitur yang disimpan di toko fitur offline menggunakan Toko Fitur Amazon SageMaker dan Formasi Danau AWS. Jika Anda baru mengenal Feature Store, Anda mungkin ingin merujuk ke Memahami kapabilitas utama Amazon SageMaker Feature Store untuk latar belakang tambahan sebelum menyelam ke sisa posting ini. Perhatikan bahwa untuk toko fitur online, Anda dapat menggunakan Identitas AWS dan Manajemen Akses (IAM) kebijakan dengan ketentuan untuk membatasi akses pengguna terhadap grup fitur.
Ikhtisar solusi
Arsitektur berikut menggunakan Lake Formation untuk mengimplementasikan akses tingkat baris, kolom, atau sel untuk membatasi grup fitur atau fitur mana dalam grup fitur yang dapat diakses oleh ilmuwan data yang bekerja di Studio Amazon SageMaker. Meskipun kami fokus untuk membatasi akses ke pengguna yang bekerja di Studio, pendekatan yang sama berlaku untuk pengguna yang mengakses toko fitur offline menggunakan layanan seperti Amazon Athena.
Feature Store adalah solusi yang dibuat khusus untuk manajemen fitur ML yang membantu tim ilmu data menggunakan kembali fitur ML di seluruh tim dan model, menyajikan fitur untuk prediksi model dalam skala dengan latensi rendah, dan melatih serta menerapkan model baru dengan lebih cepat dan efektif.
Lake Formation adalah layanan terkelola sepenuhnya yang membantu Anda membangun, mengamankan, dan mengelola data lake, serta menyediakan kontrol akses untuk data di data lake. Lake Formation mendukung tingkat keamanan berikut:
- Izin tingkat baris โ Membatasi akses ke baris tertentu berdasarkan kepatuhan data dan kebijakan tata kelola
- Izin tingkat kolom โ Membatasi akses ke kolom tertentu berdasarkan filter data
- Izin tingkat sel โ Menggabungkan kontrol tingkat baris dan kolom dengan memungkinkan Anda mengakses baris dan kolom tertentu pada tabel database
Lake Formation juga menyediakan audit terpusat dan pelaporan kepatuhan dengan mengidentifikasi pelaku mana yang mengakses data apa, kapan, dan melalui layanan mana.
Dengan menggabungkan Feature Store dan Lake Formation, Anda dapat menerapkan akses granular ke fitur ML di toko fitur offline yang ada.
Dalam posting ini, kami menyediakan pendekatan untuk kasus penggunaan di mana Anda telah membuat grup fitur di Feature Store dan perlu memberikan akses ke tim ilmu data Anda untuk eksplorasi fitur dan membuat model untuk proyek mereka. Pada tingkat tinggi, admin Lake Formation mendefinisikan dan membuat model izin di Lake Formation dan menetapkannya ke pengguna Studio individu atau grup pengguna.
Kami memandu Anda melalui langkah-langkah berikut:
- Daftarkan toko fitur offline di Lake Formation.
- Buat filter data Lake Formation untuk kontrol akses yang halus.
- Berikan izin grup fitur (tabel) dan fitur (kolom).
Prasyarat
Untuk menerapkan solusi ini, Anda perlu membuat pengguna admin Lake Formation di IAM dan masuk sebagai pengguna admin tersebut. Untuk petunjuk, lihat Buat Administrator Data Lake.
Kami mulai dengan menyiapkan data pengujian menggunakan pesanan bahan makanan sintetis dari daftar pelanggan yang dibuat secara sintetis menggunakan Pemalsu Pustaka Python. Anda dapat mencobanya sendiri dengan mengikuti modul di GitHub. Untuk setiap pelanggan, notebook menghasilkan antara 1โ10 pesanan, dengan produk yang dibeli di setiap pesanan. Kemudian Anda dapat menggunakan yang berikut ini: buku catatan untuk membuat tiga grup fitur untuk pelanggan, produk, dan kumpulan data pesanan di toko fitur. Sebelum membuat grup fitur, pastikan lingkungan Studio Anda telah diatur di akun AWS Anda. Untuk petunjuk, lihat Masuk ke Domain Amazon SageMaker.
Tujuannya adalah untuk mengilustrasikan cara menggunakan Feature Store untuk menyimpan fitur dan menggunakan Lake Formation untuk mengontrol akses ke fitur ini. Tangkapan layar berikut menunjukkan definisi dari orders
grup fitur menggunakan konsol Studio.
Feature Store menggunakan Layanan Penyimpanan Sederhana Amazon (Amazon S3) di akun Anda untuk menyimpan data offline. Anda dapat menggunakan mesin kueri seperti Athena terhadap penyimpanan data offline di Amazon S3 untuk mengekstrak set data pelatihan atau menganalisis data fitur, dan Anda dapat bergabung dengan lebih dari satu grup fitur dalam satu kueri. Feature Store secara otomatis membangun Lem AWS Katalog Data untuk grup fitur selama pembuatan grup fitur, yang memungkinkan Anda menggunakan katalog ini untuk mengakses dan menanyakan data dari toko offline menggunakan Athena atau alat sumber terbuka seperti Presto.
Daftarkan toko fitur offline di Lake Formation
Untuk mulai menggunakan izin Lake Formation dengan database dan tabel Feature Store yang ada, Anda harus mencabut izin Super dari IAMAllowedPrincipals
grup pada database dan tabel grup fitur terkait di Lake Formation.
- Masuk ke Konsol Manajemen AWS sebagai pengelola Formasi Danau.
- Di panel navigasi, di bawah Katalog Data, pilih Database.
- Pilih databasenya
sagemaker_featurestore
, yang merupakan database yang terkait dengan toko fitur offline.
Karena Feature Store secara otomatis membuat Katalog Data AWS Glue saat Anda membuat grup fitur, penyimpanan fitur offline terlihat sebagai database di Lake Formation.
- pada tindakan menu, pilih Edit.
- pada Mengedit basis data halaman, jika Anda ingin izin Formasi Danau berfungsi untuk grup fitur yang baru dibuat juga dan tidak perlu mencabut
IAMAllowedPrincipals
untuk setiap tabel, batalkan pilihan Gunakan hanya kontrol akses IAM untuk tabel baru dalam database ini, Lalu pilih Save. - pada Database halaman, pilih
sagemaker_featurestore
database. - pada tindakan menu, pilih Lihat izin.
- Pilih
IAMAllowedPrincipals
kelompok dan pilih Mencabut.
Demikian pula, Anda perlu melakukan langkah-langkah ini untuk semua tabel grup fitur yang terkait dengan toko fitur offline Anda.
- Di panel navigasi, di bawah Katalog Data, pilih Meja.
- Pilih tabel dengan nama grup fitur Anda.
- pada tindakan menu, pilih Lihat izin.
- Pilih
IAMAllowedPrincipals
kelompok dan pilih Mencabut.
Untuk mengalihkan penyimpanan fitur offline ke model izin Formasi Danau, Anda perlu mengaktifkan izin Formasi Danau untuk lokasi Amazon S3 dari toko fitur offline. Untuk ini, Anda harus mendaftarkan lokasi Amazon S3.
- Di panel navigasi, di bawah Daftar dan Ingesti, pilih Lokasi data lake.
- Pilih Daftarkan lokasi.
- Pilih lokasi toko fitur offline di Amazon S3 untuk Jalur Amazon S3.
Lokasinya adalah S3Uri
yang disediakan dalam konfigurasi toko offline grup fitur dan dapat ditemukan di DescribeFeatureGroup
API ResolvedOutputS3Uri
lapangan.
Formasi Danau terintegrasi dengan Layanan Manajemen Kunci AWS (AWS KMS); pendekatan ini juga berfungsi dengan lokasi Amazon S3 yang telah dienkripsi dengan kunci terkelola AWS atau dengan pendekatan yang direkomendasikan dari kunci yang dikelola pelanggan. Untuk bacaan lebih lanjut, lihat Mendaftarkan lokasi Amazon S3 terenkripsi.
Buat filter data Formasi Danau untuk kontrol akses yang halus
Anda dapat menerapkan keamanan tingkat baris dan tingkat sel dengan membuat filter data. Anda memilih filter data saat Anda memberikan izin SELECT Lake Formation pada tabel. Dalam hal ini, kami menggunakan kemampuan ini untuk menerapkan serangkaian filter yang membatasi akses ke grup fitur dan fitur tertentu dalam grup fitur.
Mari gunakan gambar berikut untuk menjelaskan cara kerja filter data. Gambar tersebut menunjukkan dua grup fitur: customers
dan orders
. Filter data tingkat baris diterapkan ke customers
grup fitur, menghasilkan hanya catatan di mana feature1 = โ12โ
sedang dikembalikan. Demikian pula, akses ke grup fitur pesanan dibatasi menggunakan filter data tingkat sel untuk hanya menampilkan catatan di mana feature2 = โ22
', serta mengecualikan fitur 1 dari kumpulan data yang dihasilkan.
Untuk membuat filter data baru, di panel navigasi di konsol Lake Formation, di bawah Katalog Data, pilih Filter data lalu pilih Buat filter baru.
Ketika Anda memilih Akses ke semua kolom dan memberikan ekspresi filter baris, Anda hanya menetapkan keamanan tingkat baris (pemfilteran baris). Dalam contoh ini, kami membuat filter yang membatasi akses ke ilmuwan data hanya untuk merekam di orders
grup fitur berdasarkan nilai fitur customer_id ='C7782'
.
Saat Anda menyertakan atau mengecualikan kolom tertentu dan juga menyediakan ekspresi filter baris, Anda menetapkan keamanan tingkat sel (pemfilteran sel). Dalam contoh ini, kami membuat filter yang membatasi akses ke ilmuwan data ke fitur tertentu dari grup fitur (kami mengecualikan sex
dan is_married
) dan subset dari catatan di customers
grup fitur berdasarkan nilai fitur (customer_id ='C3126'
).
Tangkapan layar berikut menunjukkan filter data yang dibuat.
Berikan izin grup fitur (tabel) dan fitur (kolom)
Di bagian ini, Anda memberikan kontrol akses granular dan izin yang ditentukan di Lake Formation kepada pengguna SageMaker dengan menetapkan filter data ke peran eksekusi SageMaker yang terkait dengan pengguna yang awalnya membuat grup fitur. Peran eksekusi SageMaker dibuat sebagai bagian dari Penyiapan domain SageMaker Studio dan secara default dimulai dengan AmazonSageMaker-ExecutionRole-*
. Anda perlu memberikan izin peran ini pada API Formasi Danau (GetDataAccess
, StartQueryPlanning
, GetQueryState
, GetWorkUnits
, dan GetWorkUnitResults
) dan API Lem AWS (GetTables
dan GetDatabases
) di IAM agar dapat mengakses data.
Buat kebijakan berikut di IAM, beri nama kebijakan LakeFormationDataAccess
, dan lampirkan ke peran eksekusi SageMaker. Anda juga perlu melampirkan AmazonAthenaFullAccess
kebijakan untuk mengakses Athena.
Selanjutnya, Anda perlu memberikan akses ke database Feature Store dan tabel grup fitur tertentu ke peran eksekusi SageMaker dan menetapkannya sebagai salah satu filter data yang dibuat sebelumnya. Untuk memberikan izin data di dalam Formasi Danau, di panel navigasi, di bawah izin, pilih Izin Data Lake, Lalu pilih Hibah. Tangkapan layar berikut menunjukkan cara memberikan izin dengan filter data untuk akses tingkat baris ke peran eksekusi SageMaker.
Demikian pula, Anda dapat memberikan izin dengan filter data yang dibuat untuk akses tingkat sel ke peran eksekusi SageMaker.
Uji akses Toko Fitur
Di bagian ini, Anda memvalidasi kontrol akses yang disiapkan di Lake Formation menggunakan buku catatan Studio. Implementasi ini menggunakan Fitur Toko Python SDK dan Athena untuk menanyakan data dari toko fitur offline yang telah terdaftar di Formasi Danau.
Pertama, Anda menguji akses tingkat baris dengan membuat kueri Athena untuk grup fitur Anda orders
dengan kode berikut. Itu table_name
adalah tabel AWS Glue yang dibuat secara otomatis oleh Feature Store.
Anda menanyakan semua rekaman dari pesanan menggunakan string kueri berikut:
Hanya catatan dengan customer_id = โC7782โ
dikembalikan sesuai filter data yang dibuat di Lake Formation.
Kedua, Anda menguji akses tingkat sel dengan membuat kueri Athena untuk grup fitur Anda customers
dengan kode berikut. Itu table_name
adalah tabel AWS Glue yang dibuat secara otomatis oleh Feature Store.
Anda menanyakan semua rekaman dari pesanan menggunakan string kueri berikut:
Hanya catatan dengan customer_id ='C3126'
dikembalikan sesuai filter data yang dibuat di Lake Formation. Selain itu, fitur sex
dan is_married
tidak terlihat.
Dengan pendekatan ini, Anda dapat menerapkan kontrol akses izin granular ke toko fitur offline. Dengan model izin Formasi Danau, Anda dapat membatasi akses ke grup fitur tertentu atau fitur tertentu dalam grup fitur untuk individu berdasarkan peran mereka dalam organisasi.
Untuk menjelajahi contoh kode lengkap, dan mencobanya di akun Anda sendiri, lihat GitHub repo.
Kesimpulan
SageMaker Feature Store menyediakan solusi manajemen fitur yang dibuat khusus untuk membantu organisasi menskalakan pengembangan ML di seluruh unit bisnis dan tim ilmu data. Dalam posting ini, kami menjelaskan bagaimana Anda dapat menggunakan Lake Formation untuk mengimplementasikan kontrol akses yang halus untuk toko fitur offline Anda. Cobalah, dan beri tahu kami pendapat Anda di komentar.
Tentang Penulis
Arnaud Lauer adalah Arsitek Solusi Mitra Senior di tim Sektor Publik di AWS. Dia memungkinkan mitra dan pelanggan untuk memahami cara terbaik menggunakan teknologi AWS untuk menerjemahkan kebutuhan bisnis menjadi solusi. Dia memiliki lebih dari 16 tahun pengalaman dalam memberikan dan merancang proyek transformasi digital di berbagai industri, termasuk sektor publik, energi, dan barang-barang konsumen. Kecerdasan buatan dan pembelajaran mesin adalah beberapa kegemarannya. Arnaud memiliki 12 sertifikasi AWS, termasuk ML Specialty Certification.
Ioan Catana adalah Arsitek Solusi Spesialis Kecerdasan Buatan dan Pembelajaran Mesin di AWS. Dia membantu pelanggan mengembangkan dan menskalakan solusi ML mereka di AWS Cloud. Ioan memiliki pengalaman lebih dari 20 tahun, sebagian besar dalam desain arsitektur perangkat lunak dan rekayasa cloud.
Swagat Kulkarni adalah Arsitek Solusi Senior di AWS dan penggemar AI/ML. Dia bersemangat dalam memecahkan masalah dunia nyata bagi pelanggan dengan layanan cloud-native dan pembelajaran mesin. Swagat memiliki lebih dari 15 tahun pengalaman memberikan beberapa inisiatif transformasi digital untuk pelanggan di berbagai domain termasuk ritel, perjalanan dan perhotelan dan perawatan kesehatan. Di luar pekerjaan, Swagat menikmati perjalanan, membaca, dan bermeditasi.
Char Sarien adalah Manajer Produk Senior untuk Toko Fitur Amazon SageMaker. Sebelum AWS, dia memimpin strategi pertumbuhan dan monetisasi untuk layanan SaaS di VMware. Dia adalah penggemar data dan pembelajaran mesin dan memiliki lebih dari satu dekade pengalaman yang mencakup manajemen produk, rekayasa data, dan analitik tingkat lanjut. Dia memiliki gelar sarjana di bidang Teknologi Informasi dari Institut Teknologi Nasional, India dan gelar MBA dari University of Michigan, Ross School of Business.
- Coinsmart. Pertukaran Bitcoin dan Crypto Terbaik Eropa.
- Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. AKSES GRATIS.
- CryptoHawk. Radar Altcoin. Uji Coba Gratis.
- Sumber: https://aws.amazon.com/blogs/machine-learning/control-access-to-amazon-sagemaker-feature-store-offline-using-aws-lake-formation/
- '
- "
- 100
- 15 tahun
- 20 tahun
- 9
- Tentang Kami
- mengakses
- Akun
- di seluruh
- Tindakan
- tambahan
- Tambahan
- admin
- maju
- Semua
- Membiarkan
- Meskipun
- Amazon
- analisis
- Lebah
- berlaku
- pendekatan
- arsitektur
- buatan
- kecerdasan buatan
- Kecerdasan Buatan dan Pembelajaran Mesin
- Audit
- AWS
- latar belakang
- makhluk
- TERBAIK
- batas
- membangun
- membangun
- bisnis
- kemampuan
- kasus
- terpusat
- Sertifikasi
- Pilih
- awan
- kode
- komentar
- pemenuhan
- konfigurasi
- konsul
- konsumen
- kontrol
- dibuat
- menciptakan
- membuat
- penciptaan
- kredit
- kartu kredit
- pelanggan
- data
- ilmu data
- ilmuwan data
- Basis Data
- database
- dasawarsa
- mengantarkan
- menyebarkan
- Mendesain
- mengembangkan
- Pengembangan
- berbeda
- digital
- Transformasi digital
- domain
- domain
- efek
- energi
- Teknik
- Lingkungan Hidup
- menetapkan
- contoh
- eksekusi
- pengalaman
- eksplorasi
- menyelidiki
- Fitur
- Fitur
- Angka
- filter
- Fokus
- berikut
- ditemukan
- lebih lanjut
- tujuan
- barang
- pemerintahan
- Kelompok
- Pertumbuhan
- kesehatan
- membantu
- membantu
- High
- memegang
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- HTTPS
- mengidentifikasi
- identitas
- melaksanakan
- implementasi
- penting
- memasukkan
- Termasuk
- India
- sendiri-sendiri
- industri
- informasi
- teknologi informasi
- Intelijen
- IT
- ikut
- kunci
- terkemuka
- pengetahuan
- Tingkat
- Perpustakaan
- daftar
- tempat
- lokasi
- mesin
- Mesin belajar
- berhasil
- pengelolaan
- Solusi Manajemen
- manajer
- masker
- Michigan
- ML
- model
- model
- lebih
- beberapa
- nasional
- Navigasi
- buku catatan
- nomor
- Pengunjung
- secara online
- urutan
- perintah
- organisasi
- organisasi
- sendiri
- pasangan
- rekan
- bergairah
- Kebijakan
- kebijaksanaan
- Prediksi
- masalah
- Produk
- manajemen Produk
- Produk
- memprojeksikan
- melindungi
- memberikan
- menyediakan
- publik
- dibeli
- segera
- jarak
- Bacaan
- real-time
- arsip
- daftar
- terdaftar
- gudang
- wajib
- sumber
- ISTIRAHAT
- eceran
- penjualan
- Skala
- Sekolah
- Ilmu
- ilmuwan
- sektor
- aman
- keamanan
- layanan
- Layanan
- set
- pengaturan
- berbagi
- Demikian pula
- Sederhana
- Perangkat lunak
- larutan
- Solusi
- beberapa
- Secara khusus
- awal
- dimulai
- Pernyataan
- penyimpanan
- menyimpan
- toko
- Penyelarasan
- studio
- Mendukung
- Beralih
- tim
- Teknologi
- Teknologi
- uji
- Melalui
- alat
- Pelatihan
- Transformasi
- perjalanan
- memahami
- universitas
- us
- menggunakan
- Pengguna
- nilai
- terlihat
- vmware
- Apa
- SIAPA
- dalam
- Kerja
- kerja
- bekerja
- tahun