Vzpostavite lahko shrambe funkcij, da zagotovite osrednji repozitorij za funkcije strojnega učenja (ML), ki jih lahko delite s skupinami za podatkovno znanost v vaši organizaciji za usposabljanje, paketno točkovanje in sklepanje v realnem času. Skupine za podatkovne znanosti lahko ponovno uporabijo funkcije, shranjene v osrednjem repozitoriju, s čimer se izognejo potrebi po preoblikovanju cevovodov funkcij za različne projekte in posledično odpravijo predelavo in podvajanje.
Za izpolnitev potreb po varnosti in skladnosti boste morda potrebovali natančen nadzor nad tem, kako se dostopa do teh skupnih funkcij ML. Te potrebe pogosto presegajo nadzor dostopa na ravni tabele in stolpca do nadzora dostopa na ravni posamezne vrstice. Morda boste na primer želeli predstavnikom računov dovoliti, da vidijo vrstice iz prodajne tabele samo za svoje račune in prikriti predpono občutljivih podatkov, kot so številke kreditnih kartic. Natančne kontrole dostopa so potrebne za zaščito podatkov shrambe funkcij in odobritev dostopa na podlagi vloge posameznika. To je posebej pomembno za stranke in deležnike v panogah, ki morajo revidirati dostop do podatkov o funkcijah in zagotoviti ustrezno raven varnosti.
V tej objavi nudimo pregled, kako implementirati zrnat nadzor dostopa do skupin funkcij in funkcij, shranjenih v shrambi funkcij brez povezave z uporabo Trgovina s funkcijami Amazon SageMaker in Oblikovanje jezera AWS. Če ste novi v trgovini s funkcijami, se lahko obrnete na Razumevanje ključnih zmožnosti Amazon SageMaker Feature Store za dodatno ozadje, preden se potopite v preostanek te objave. Upoštevajte, da lahko za spletno trgovino s funkcijami uporabite AWS upravljanje identitete in dostopa (IAM) pravilniki s pogoji za omejevanje uporabniškega dostopa do skupin funkcij.
Pregled rešitev
Naslednja arhitektura uporablja Lake Formation za izvajanje dostopa na ravni vrstic, stolpcev ali celic, da omeji, do katerih skupin funkcij ali funkcij znotraj skupine funkcij lahko dostopa podatkovni znanstvenik, ki dela v Amazon SageMaker Studio. Čeprav se osredotočamo na omejevanje dostopa uporabnikom, ki delajo v Studiu, velja enak pristop za uporabnike, ki dostopajo do shrambe funkcij brez povezave s storitvami, kot je Amazonska Atena.
Feature Store je namensko izdelana rešitev za upravljanje funkcij ML, ki ekipam za podatkovno znanost pomaga pri ponovni uporabi funkcij ML v skupinah in modelih, služi funkcijam za napovedi modelov v velikem obsegu z nizko zakasnitvijo ter hitreje in učinkoviteje usposablja in uvaja nove modele.
Lake Formation je popolnoma upravljana storitev, ki vam pomaga zgraditi, zavarovati in upravljati podatkovna jezera ter zagotoviti nadzor dostopa do podatkov v podatkovnem jezeru. Lake Formation podpira naslednje varnostne ravni:
- Dovoljenja na ravni vrstice – Omejuje dostop do določenih vrstic na podlagi skladnosti podatkov in politik upravljanja
- Dovoljenja na ravni stolpca – Omeji dostop do določenih stolpcev na podlagi podatkovnih filtrov
- Dovoljenja na ravni celice – Združuje kontrole na ravni vrstic in stolpcev, tako da vam omogoča dostop do določenih vrstic in stolpcev v tabelah zbirke podatkov
Lake Formation zagotavlja tudi centralizirano revizijo in poročanje o skladnosti z ugotavljanjem, kateri principali so dostopali do katerih podatkov, kdaj in prek katerih storitev.
Če združite Feature Store in Lake Formation, lahko implementirate razdrobljen dostop do funkcij ML v vaši obstoječi shrambi funkcij brez povezave.
V tej objavi ponujamo pristop za primere uporabe, v katerih ste ustvarili skupine funkcij v trgovini s funkcijami in morate svojim skupinam za znanost podatkov zagotoviti dostop za raziskovanje funkcij in ustvarjanje modelov za njihove projekte. Na visoki ravni skrbnik Lake Formation definira in ustvari model dovoljenj v Lake Formation in ga dodeli posameznim uporabnikom Studia ali skupinam uporabnikov.
Vodimo vas skozi naslednje korake:
- Registrirajte trgovino s funkcijami brez povezave v Lake Formation.
- Ustvarite podatkovne filtre Lake Formation za natančen nadzor dostopa.
- Dodelite dovoljenja skupinam funkcij (tabelam) in funkcijam (stolpcem).
Predpogoji
Če želite implementirati to rešitev, morate ustvariti skrbniškega uporabnika Lake Formation v IAM in se prijaviti kot ta skrbniški uporabnik. Za navodila glejte Ustvarite skrbnika podatkovnega jezera.
Začnemo z nastavitvijo testnih podatkov z uporabo sintetičnih naročil živil iz sintetično ustvarjenih seznamov strank z uporabo Ponarejevalec Knjižnica Python. Lahko poskusite sami, tako da sledite modulu na GitHub. Za vsako stranko beležnica ustvari od 1 do 10 naročil z izdelki, kupljenimi v vsakem naročilu. Potem lahko uporabite naslednje prenosnik za ustvarjanje treh skupin funkcij za nabore podatkov strank, izdelkov in naročil v shrambi funkcij. Preden ustvarite skupine funkcij, se prepričajte, da je vaše okolje Studio nastavljeno v vašem računu AWS. Za navodila glejte Vkrcajte se na domeno Amazon SageMaker.
Cilj je ponazoriti, kako uporabljati Feature Store za shranjevanje funkcij in uporabo Lake Formation za nadzor dostopa do teh funkcij. Naslednji posnetek zaslona prikazuje definicijo orders
skupino funkcij z uporabo konzole Studio.
Trgovina s funkcijami uporablja an Preprosta storitev shranjevanja Amazon (Amazon S3) v vašem računu za shranjevanje podatkov brez povezave. Poizvedovalne mehanizme, kot je Athena, lahko uporabite proti shrambi podatkov brez povezave v Amazonu S3, da izvlečete nabore podatkov o usposabljanju ali analizirate podatke o funkcijah, in se lahko pridružite več kot eni skupini funkcij v eni sami poizvedbi. Feature Store samodejno zgradi AWS lepilo Katalog podatkov za skupine funkcij med ustvarjanjem skupine funkcij, ki vam omogoča uporabo tega kataloga za dostop in poizvedovanje po podatkih iz shrambe brez povezave z Atheno ali odprtokodnimi orodji, kot je Presto.
Registrirajte trgovino s funkcijami brez povezave v Lake Formation
Če želite začeti uporabljati dovoljenja Lake Formation z obstoječimi zbirkami podatkov in tabelami Feature Store, morate preklicati dovoljenje Super iz IAMAllowedPrincipals
skupine v zbirki podatkov in povezanih tabel skupin značilnosti v jezerski formaciji.
- Prijavite se v Konzola za upravljanje AWS kot skrbnik Lake Formation.
- V podoknu za krmarjenje pod Katalog podatkov, izberite Baze podatkov.
- Izberite bazo podatkov
sagemaker_featurestore
, ki je baza podatkov, povezana s shrambo funkcij brez povezave.
Ker Feature Store samodejno zgradi katalog podatkov AWS Glue Data Catalog, ko ustvarite skupine funkcij, je trgovina funkcij brez povezave vidna kot baza podatkov v Lake Formation.
- o Proces izberite meni Uredi.
- o Uredi zbirko podatkov stran, če želite, da dovoljenja Lake Formation delujejo tudi za novo ustvarjene skupine funkcij in vam ni treba preklicati
IAMAllowedPrincipals
za vsako tabelo prekličite izbiro Za nove tabele v tej bazi podatkov uporabite samo nadzor dostopa IAM, nato izberite Shrani. - o Baze podatkov strani izberite
sagemaker_featurestore
baze podatkov. - o Proces izberite meni Ogled dovoljenj.
- Izberite
IAMAllowedPrincipals
združite in izberite Prekliči.
Podobno morate te korake izvesti za vse tabele skupin funkcij, ki so povezane z vašo shrambo funkcij brez povezave.
- V podoknu za krmarjenje pod Katalog podatkov, izberite Mize.
- Izberite tabelo z imenom vaše skupine funkcij.
- o Proces izberite meni Ogled dovoljenj.
- Izberite
IAMAllowedPrincipals
združite in izberite Prekliči.
Če želite preklopiti shranjevanje funkcij brez povezave na model dovoljenj Lake Formation, morate vklopiti dovoljenja Lake Formation za lokacijo Amazon S3 shrambe funkcij brez povezave. Za to morate registrirati lokacijo Amazon S3.
- V podoknu za krmarjenje pod Registrirajte se in zaužijte, izberite Lokacije podatkovnega jezera.
- Izberite Registriraj lokacijo.
- Izberite lokacijo shrambe funkcij brez povezave v Amazon S3 za Pot Amazon S3.
Lokacija je S3Uri
ki je bil zagotovljen v konfiguraciji trgovine brez povezave skupine funkcij in ga je mogoče najti v DescribeFeatureGroup
API-ji ResolvedOutputS3Uri
področju.
- Izberite privzeto
AWSServiceRoleForLakeFormationDataAccess
IAM vlogo in izberite Registriraj lokacijo.
Lake Formation se povezuje z AWS Service Key Management (AWS KMS); ta pristop deluje tudi z lokacijami Amazon S3, ki so bile šifrirane s ključem, ki ga upravlja AWS, ali s priporočenim pristopom ključa, ki ga upravlja stranka. Za nadaljnje branje glejte Registracija šifrirane lokacije Amazon S3.
Ustvarite podatkovne filtre Lake Formation za natančen nadzor dostopa
Varnost na ravni vrstice in celice lahko implementirate z ustvarjanjem podatkovni filtri. Podatkovni filter izberete, ko dodelite dovoljenje SELECT Lake Formation za tabele. V tem primeru to zmožnost uporabimo za implementacijo nabora filtrov, ki omejujejo dostop do skupin funkcij in posebnih funkcij znotraj skupine funkcij.
Za razlago delovanja podatkovnih filtrov uporabimo naslednjo sliko. Slika prikazuje dve skupini funkcij: customers
in orders
. Podatkovni filter na ravni vrstice je uporabljen za customers
skupino značilnosti, kar ima za posledico samo zapise, kjer feature1 = ‘12’
se vrača. Podobno je dostop do skupine funkcij naročil omejen s podatkovnim filtrom na ravni celice samo na zapise funkcij, kjer feature2 = ‘22
', kot tudi izključitev funkcije 1 iz nastalega niza podatkov.
Če želite ustvariti nov podatkovni filter, v navigacijskem podoknu na konzoli Lake Formation pod Katalog podatkov, izberite Podatkovni filtri in nato izberite Ustvari nov filter.
Ko izberete Dostop do vseh stolpcev in zagotovite izraz filtra vrstic, vzpostavite samo varnost na ravni vrstic (filtriranje vrstic). V tem primeru ustvarimo filter, ki omejuje dostop do podatkovnega znanstvenika samo na zapise v orders
skupino funkcij glede na vrednost lastnosti customer_id ='C7782'
.
Ko vključite ali izključite določene stolpce in zagotovite izraz filtra vrstice, vzpostavite varnost na ravni celice (filtriranje celic). V tem primeru ustvarimo filter, ki podatkovnemu znanstveniku omejuje dostop do določenih funkcij skupine funkcij (izključujemo sex
in is_married
) in podnabor zapisov v customers
skupina funkcij glede na vrednost lastnosti (customer_id ='C3126'
).
Naslednji posnetek zaslona prikazuje ustvarjene podatkovne filtre.
Dodelite dovoljenje skupinam funkcij (tabelam) in funkcijam (stolpcem).
V tem razdelku dodelite zrnat nadzor dostopa in dovoljenja, definirana v Lake Formation, uporabniku SageMaker tako, da dodelite podatkovni filter vlogi izvajanja SageMaker, povezani z uporabnikom, ki je prvotno ustvaril skupine funkcij. Izvršilna vloga SageMaker je ustvarjena kot del Nastavitev domene SageMaker Studio in se privzeto začne z AmazonSageMaker-ExecutionRole-*
. Tej vlogi morate dati dovoljenja za API-je Lake Formation (GetDataAccess
, StartQueryPlanning
, GetQueryState
, GetWorkUnits
in GetWorkUnitResults
) in API-ji AWS Glue (GetTables
in GetDatabases
) v IAM, da lahko dostopa do podatkov.
Ustvarite naslednji pravilnik v IAM, poimenujte pravilnik LakeFormationDataAccess
, in ga priložite izvršilni vlogi SageMaker. Prav tako morate priložiti AmazonAthenaFullAccess
politiko za dostop do Athene.
Nato morate izvršilni vlogi SageMaker odobriti dostop do podatkovne baze Feature Store in posebne tabele skupine funkcij ter ji dodeliti enega od predhodno ustvarjenih podatkovnih filtrov. Če želite podeliti dovoljenja za podatke znotraj Lake Formation, v navigacijskem podoknu pod Dovoljenja, izberite Dovoljenja Data Lake, nato izberite Grant. Naslednji posnetek zaslona prikazuje, kako podeliti dovoljenja s podatkovnim filtrom za dostop na ravni vrstice do izvajalne vloge SageMaker.
Podobno lahko podelite dovoljenja s podatkovnim filtrom, ustvarjenim za dostop na ravni celice do izvajalne vloge SageMaker.
Testni dostop do trgovine funkcij
V tem razdelku potrdite nadzor dostopa, nastavljen v Lake Formation, z uporabo prenosnega računalnika Studio. Ta izvedba uporablja Feature Store Python SDK in Athena za poizvedbo po podatkih iz shrambe funkcij brez povezave, ki je bila registrirana v Lake Formation.
Najprej preizkusite dostop na ravni vrstice tako, da ustvarite poizvedbo Athena za svojo skupino funkcij orders
z naslednjo kodo. The table_name
je tabela AWS Glue, ki jo samodejno ustvari Feature Store.
Vse zapise iz naročil izvedete z naslednjim poizvedbenim nizom:
Samo zapisi z customer_id = ‘C7782’
se vrnejo v skladu s podatkovnimi filtri, ustvarjenimi v Lake Formation.
Drugič, preizkusite dostop na ravni celice tako, da ustvarite poizvedbo Athena za svojo skupino funkcij customers
z naslednjo kodo. The table_name
je tabela AWS Glue, ki jo samodejno ustvari Feature Store.
Vse zapise iz naročil izvedete z naslednjim poizvedbenim nizom:
Samo zapisi z customer_id ='C3126'
se vrnejo v skladu s podatkovnimi filtri, ustvarjenimi v Lake Formation. Poleg tega značilnosti sex
in is_married
niso vidni.
S tem pristopom lahko implementirate razdrobljen nadzor dostopa do dovoljenj do shrambe funkcij brez povezave. Z modelom dovoljenj Lake Formation lahko omejite dostop do določenih skupin funkcij ali posebnih funkcij znotraj skupine funkcij za posameznike glede na njihovo vlogo v organizaciji.
Če želite raziskati celoten primer kode in ga preizkusiti v svojem računu, glejte GitHub repo.
zaključek
SageMaker Feature Store ponuja namensko razvito rešitev za upravljanje funkcij, ki pomaga organizacijam razširiti razvoj ML v poslovnih enotah in skupinah za podatkovno znanost. V tej objavi smo razložili, kako lahko uporabite Lake Formation za implementacijo natančnega nadzora dostopa za vašo trgovino s funkcijami brez povezave. Poskusite in nam v komentarjih sporočite, kaj mislite.
O avtorjih
Arnaud Lauer je višji arhitekt partnerskih rešitev v skupini za javni sektor pri AWS. Partnerjem in strankam omogoča, da razumejo, kako najbolje uporabiti tehnologije AWS za pretvorbo poslovnih potreb v rešitve. Prinaša več kot 16 let izkušenj pri izvajanju in oblikovanju projektov digitalne transformacije v različnih panogah, vključno z javnim sektorjem, energetiko in potrošniškim blagom. Umetna inteligenca in strojno učenje sta nekaj njegovih strasti. Arnaud ima 12 certifikatov AWS, vključno s certifikatom ML Specialty.
Ioan Catana je strokovnjak za rešitve za umetno inteligenco in strojno učenje pri AWS. Strankam pomaga razviti in razširiti njihove rešitve ML v oblaku AWS. Ioan ima več kot 20 let izkušenj, večinoma na področju načrtovanja programske arhitekture in inženiringa v oblaku.
Swagat Kulkarni je višji arhitekt rešitev pri AWS in navdušenec nad AI/ML. Navdušen je nad reševanjem problemov iz resničnega sveta za stranke s storitvami v oblaku in strojnim učenjem. Swagat ima več kot 15 let izkušenj z zagotavljanjem več pobud za digitalno preobrazbo za stranke na več področjih, vključno s prodajo na drobno, potovanji ter gostinstvom in zdravstvenim varstvom. Zunaj dela Swagat uživa v potovanjih, branju in meditaciji.
Charu Sareen je višji produktni vodja za Amazon SageMaker Feature Store. Pred AWS je vodila strategijo rasti in monetizacije za storitve SaaS pri VMware. Je navdušenka nad podatki in strojnim učenjem in ima več kot desetletje izkušenj na področju upravljanja izdelkov, podatkovnega inženiringa in napredne analitike. Ima diplomo iz informacijske tehnologije na National Institute of Technology v Indiji in MBA na Univerzi Michigan, Ross School of Business.
- Coinsmart. Najboljša evropska borza bitcoinov in kriptovalut.
- Platoblockchain. Web3 Metaverse Intelligence. Razširjeno znanje. PROST DOSTOP.
- CryptoHawk. Altcoin radar. Brezplačen preizkus.
- Vir: https://aws.amazon.com/blogs/machine-learning/control-access-to-amazon-sagemaker-feature-store-offline-using-aws-lake-formation/
- '
- "
- 100
- 15 let
- 20 let
- 9
- O meni
- dostop
- Račun
- čez
- Ukrep
- Poleg tega
- Dodatne
- admin
- napredno
- vsi
- Dovoli
- Čeprav
- Amazon
- analitika
- API-ji
- primerno
- pristop
- Arhitektura
- umetni
- Umetna inteligenca
- Umetna inteligenca in strojno učenje
- Revizija
- AWS
- ozadje
- počutje
- BEST
- meja
- izgradnjo
- Gradi
- poslovni
- Zmogljivosti
- primeri
- centralizirano
- certificiranje
- Izberite
- Cloud
- Koda
- komentarji
- skladnost
- konfiguracija
- Konzole
- Potrošnik
- nadzor
- ustvaril
- ustvari
- Ustvarjanje
- Oblikovanje
- kredit
- kreditne kartice
- Stranke, ki so
- datum
- znanost o podatkih
- podatkovni znanstvenik
- Baze podatkov
- baze podatkov
- desetletje
- dostavo
- razporedi
- Oblikovanje
- Razvoj
- Razvoj
- drugačen
- digitalni
- Digitalni Transformation
- domena
- domen
- učinek
- energija
- Inženiring
- okolje
- vzpostaviti
- Primer
- izvedba
- izkušnje
- raziskovanje
- raziskuje
- Feature
- Lastnosti
- Slika
- Filtri
- Osredotočite
- po
- je pokazala,
- nadalje
- Cilj
- blago
- upravljanje
- skupina
- Rast
- zdravstveno varstvo
- pomoč
- Pomaga
- visoka
- drži
- Kako
- Kako
- HTTPS
- identifikacijo
- identiteta
- izvajati
- Izvajanje
- Pomembno
- vključujejo
- Vključno
- india
- individualna
- industrij
- Podatki
- informacijska tehnologija
- Intelligence
- IT
- pridružite
- Ključne
- vodi
- učenje
- Stopnja
- Knjižnica
- seznami
- kraj aktivnosti
- Lokacije
- stroj
- strojno učenje
- upravlja
- upravljanje
- Rešitev upravljanja
- upravitelj
- Maska
- Michigan
- ML
- Model
- modeli
- več
- več
- nacionalni
- ostalo
- prenosnik
- številke
- offline
- na spletu
- Da
- naročila
- Organizacija
- organizacije
- lastne
- partner
- partnerji
- strastno
- politike
- politika
- Napovedi
- Težave
- Izdelek
- upravljanje izdelkov
- Izdelki
- projekti
- zaščito
- zagotavljajo
- zagotavlja
- javnega
- kupili
- hitro
- območje
- reading
- v realnem času
- evidence
- Registracija
- registriranih
- Skladišče
- obvezna
- vir
- REST
- Trgovina na drobno
- prodaja
- Lestvica
- <span style="color: #f7f7f7;">Šola</span>
- Znanost
- Znanstvenik
- sektor
- zavarovanje
- varnost
- Storitev
- Storitve
- nastavite
- nastavitev
- deli
- podobno
- Enostavno
- Software
- Rešitev
- rešitve
- nekaj
- posebej
- Začetek
- začne
- Izjava
- shranjevanje
- trgovina
- trgovine
- Strategija
- studio
- Podpira
- Preklop
- skupina
- Tehnologije
- Tehnologija
- Test
- skozi
- orodja
- usposabljanje
- Preoblikovanje
- potovanja
- razumeli
- univerza
- us
- uporaba
- Uporabniki
- vrednost
- vidna
- VMware
- Kaj
- WHO
- v
- delo
- deluje
- deluje
- let