Du kan etablere funktionslagre for at give et centralt lager for maskinlæringsfunktioner (ML), der kan deles med datavidenskabsteams på tværs af din organisation til træning, batch-scoring og realtidsslutning. Datavidenskabsteams kan genbruge funktioner, der er gemt i det centrale lager, og undgår behovet for at omkonstruere funktionspipelines til forskellige projekter og som et resultat eliminerer omarbejde og duplikering.
For at tilfredsstille sikkerheds- og overholdelsesbehov har du muligvis brug for detaljeret kontrol over, hvordan disse delte ML-funktioner tilgås. Disse behov går ofte ud over adgangskontrol på tabel- og kolonneniveau til individuel adgangskontrol på rækkeniveau. For eksempel vil du måske kun lade kontorepræsentanter se rækker fra en salgstabel for deres konti og maskere præfikset for følsomme data som kreditkortnumre. Finmasket adgangskontrol er nødvendig for at beskytte funktionslagerdata og give adgang baseret på en persons rolle. Dette er specielt vigtigt for kunder og interessenter i brancher, der er forpligtet til at revidere adgang til funktionsdata og sikre, at det rigtige sikkerhedsniveau er på plads.
I dette indlæg giver vi et overblik over, hvordan man implementerer granulær adgangskontrol til funktionsgrupper og funktioner, der er gemt i en offline funktionsbutik ved hjælp af Amazon SageMaker Feature Store , AWS søformation. Hvis du er ny i Feature Store, kan du eventuelt henvise til Forstå de vigtigste funktioner i Amazon SageMaker Feature Store for yderligere baggrund, før du dykker ned i resten af dette indlæg. Bemærk, at du kan bruge den til online funktionsbutikken AWS identitets- og adgangsstyring (IAM) politikker med betingelser for at begrænse brugeradgang mod funktionsgrupper.
Løsningsoversigt
Følgende arkitektur bruger Lake Formation til at implementere række-, kolonne- eller celleniveauadgang for at begrænse, hvilke funktionsgrupper eller funktioner inden for en funktionsgruppe, der kan tilgås af en dataforsker, der arbejder i Amazon SageMaker Studio. Selvom vi fokuserer på at begrænse adgangen til brugere, der arbejder i Studio, er den samme tilgang gældende for brugere, der får adgang til offlinefunktionsbutikken ved hjælp af tjenester som f.eks. Amazonas Athena.
Feature Store er en specialbygget løsning til ML-funktionsstyring, der hjælper datavidenskabsteams med at genbruge ML-funktioner på tværs af teams og modeller, betjene funktioner til modelforudsigelser i skala med lav latenstid og træne og implementere nye modeller hurtigere og mere effektivt.
Lake Formation er en fuldt administreret tjeneste, der hjælper dig med at bygge, sikre og administrere datasøer og give adgangskontrol til data i datasøen. Lake Formation understøtter følgende sikkerhedsniveauer:
- Tilladelser på rækkeniveau – Begrænser adgangen til specifikke rækker baseret på dataoverholdelse og styringspolitikker
- Tilladelser på kolonneniveau – Begrænser adgang til specifikke kolonner baseret på datafiltre
- Tilladelser på celleniveau – Kombinerer kontroller på både række- og kolonneniveau ved at give dig adgang til specifikke rækker og kolonner i databasetabellerne
Lake Formation leverer også centraliseret revision og overholdelsesrapportering ved at identificere, hvilke principaler der har adgang til hvilke data, hvornår og gennem hvilke tjenester.
Ved at kombinere Feature Store og Lake Formation kan du implementere detaljeret adgang til ML-funktioner på din eksisterende offline feature-butik.
I dette indlæg giver vi en tilgang til use cases, hvor du har oprettet funktionsgrupper i Feature Store og har brug for at give adgang til dine datavidenskabsteams til funktionsudforskning og oprettelse af modeller til deres projekter. På et højt niveau definerer og opretter en Lake Formation-administrator en tilladelsesmodel i Lake Formation og tildeler den til individuelle Studio-brugere eller grupper af brugere.
Vi leder dig gennem følgende trin:
- Registrer offline funktionsbutikken i Lake Formation.
- Opret Lake Formation-datafiltrene til finmasket adgangskontrol.
- Giv funktionsgrupper (tabeller) og funktioner (kolonner) tilladelser.
Forudsætninger
For at implementere denne løsning skal du oprette en Lake Formation-admin-bruger i IAM og logge på som denne admin-bruger. For instruktioner, se Opret en Data Lake-administrator.
Vi begynder med at opsætte testdata ved hjælp af syntetiske dagligvareordrer fra syntetisk genererede kundelister ved hjælp af faker Python bibliotek. Du kan selv prøve det ved at følge modulet på GitHub. For hver kunde genererer notebooken mellem 1-10 ordrer, med produkter købt i hver ordre. Så kan du bruge følgende notesbog at oprette de tre funktionsgrupper for kunder, produkter og ordredatasæt i featurebutikken. Før du opretter funktionsgrupperne, skal du sørge for, at dit Studio-miljø er sat op på din AWS-konto. For instruktioner, se Ombord på Amazon SageMaker Domain.
Målet er at illustrere, hvordan man bruger Feature Store til at gemme funktionerne og bruge Lake Formation til at kontrollere adgangen til disse funktioner. Følgende skærmbillede viser definitionen af orders
funktionsgruppe ved hjælp af Studio-konsollen.
Feature Store bruger en Amazon Simple Storage Service (Amazon S3)-bøtte på din konto for at gemme offlinedata. Du kan bruge forespørgselsmotorer som Athena mod offlinedatalageret i Amazon S3 til at udtrække træningsdatasæt eller til at analysere funktionsdata, og du kan deltage i mere end én funktionsgruppe i en enkelt forespørgsel. Feature Store opbygger automatisk AWS Lim Datakatalog for funktionsgrupper under oprettelse af funktionsgruppe, som giver dig mulighed for at bruge dette katalog til at få adgang til og forespørge data fra offlinebutikken ved hjælp af Athena eller open source-værktøjer som f.eks. Presto.
Registrer offline funktionsbutikken i Lake Formation
For at begynde at bruge Lake Formation-tilladelser med dine eksisterende Feature Store-databaser og tabeller, skal du tilbagekalde Super-tilladelsen fra IAMAllowedPrincipals
gruppe på databasen og de tilhørende funktionsgruppetabeller i Lake Formation.
- Log ind på AWS Management Console som søformationsadministrator.
- I navigationsruden under Datakatalog, vælg Databaser.
- Vælg databasen
sagemaker_featurestore
, som er den database, der er knyttet til det offline funktionslager.
Fordi Feature Store automatisk bygger et AWS Glue Data Catalog, når du opretter funktionsgrupperne, er offline funktionslageret synligt som en database i Lake Formation.
- På handlinger menu, vælg Redigere.
- På Rediger database side, hvis du ønsker, at Lake Formation-tilladelser også skal fungere for nyoprettede funktionsgrupper og ikke skal tilbagekalde
IAMAllowedPrincipals
fravælg for hver tabel Brug kun IAM-adgangskontrol til nye tabeller i denne database, Og vælg derefter Gem. - På Databaser side, vælg
sagemaker_featurestore
databasen. - På handlinger menu, vælg Se tilladelser.
- Vælg
IAMAllowedPrincipals
gruppe og vælg Tilbagekald.
På samme måde skal du udføre disse trin for alle funktionsgruppetabeller, der er knyttet til din offline funktionsbutik.
- I navigationsruden under Datakatalog, vælg tabeller.
- Vælg tabel med dit funktionsgruppenavn.
- På handlinger menu, vælg Se tilladelser.
- Vælg
IAMAllowedPrincipals
gruppe og vælg Tilbagekald.
For at skifte offlinefunktionsbutikken til Lake Formation-tilladelsesmodellen skal du slå Lake Formation-tilladelser til for Amazon S3-placeringen af offlinefunktionsbutikken. Til dette skal du registrere Amazon S3-lokationen.
- I navigationsruden under Registrer og indtag, vælg Placering af datasøer.
- Vælg Registrer placering.
- Vælg placeringen af offline-funktionsbutikken i Amazon S3 for Amazon S3-sti.
Placeringen er S3Uri
som blev leveret i funktionsgruppens offline butikskonfiguration og kan findes i DescribeFeatureGroup
API'er ResolvedOutputS3Uri
felt.
Lake Formation integreres med AWS Key Management Service (AWS KMS); denne tilgang fungerer også med Amazon S3-lokationer, der er blevet krypteret med en AWS-administreret nøgle eller med den anbefalede tilgang fra en kundeadministreret nøgle. For yderligere læsning henvises til Registrering af en krypteret Amazon S3-placering.
Opret Lake Formation-datafiltre til finmasket adgangskontrol
Du kan implementere sikkerhed på rækkeniveau og celleniveau ved at oprette datafiltre. Du vælger et datafilter, når du giver tilladelsen SELECT Lake Formation på tabeller. I dette tilfælde bruger vi denne evne til at implementere et sæt filtre, der begrænser adgangen til funktionsgrupper og specifikke funktioner inden for en funktionsgruppe.
Lad os bruge følgende figur til at forklare, hvordan datafiltre fungerer. Figuren viser to funktionsgrupper: customers
, orders
. Et datafilter på rækkeniveau anvendes på customers
feature gruppe, hvilket resulterer i kun poster hvor feature1 = ‘12’
bliver returneret. Tilsvarende er adgangen til ordrefunktionsgruppen begrænset ved hjælp af et datafilter på celleniveau til kun at vise poster, hvor feature2 = ‘22
’, samt udelukke funktion 1 fra det resulterende datasæt.
For at oprette et nyt datafilter skal du i navigationsruden på Lake Formation-konsollen under Datakatalog, vælg Datafiltre og vælg derefter Opret nyt filter.
Når du vælger Adgang til alle kolonner og giver et rækkefilterudtryk, etablerer du kun sikkerhed på rækkeniveau (rækkefiltrering). I dette eksempel opretter vi et filter, der begrænser adgangen til en dataforsker til kun at registrere i orders
funktionsgruppe baseret på funktionens værdi customer_id ='C7782'
.
Når du inkluderer eller ekskluderer specifikke kolonner og også giver et rækkefilterudtryk, etablerer du sikkerhed på celleniveau (cellefiltrering). I dette eksempel opretter vi et filter, der begrænser adgangen til en dataforsker til visse funktioner i en funktionsgruppe (vi ekskluderer sex
, is_married
) og en undergruppe af posterne i customers
funktionsgruppe baseret på funktionens værdi (customer_id ='C3126'
).
Følgende skærmbillede viser de oprettede datafiltre.
Giv funktionsgrupper (tabeller) og funktioner (kolonner) tilladelse
I dette afsnit giver du granuleret adgangskontrol og tilladelser defineret i Lake Formation til en SageMaker-bruger ved at tildele datafilteret til SageMaker-udførelsesrollen, der er knyttet til den bruger, der oprindeligt oprettede funktionsgrupperne. SageMaker-udførelsesrollen oprettes som en del af SageMaker Studio domæneopsætning og starter som standard med AmazonSageMaker-ExecutionRole-*
. Du skal give denne rolle tilladelser på Lake Formation API'er (GetDataAccess
, StartQueryPlanning
, GetQueryState
, GetWorkUnits
og GetWorkUnitResults
) og AWS Glue API'er (GetTables
, GetDatabases
) i IAM for at den kan få adgang til dataene.
Opret følgende politik i IAM, navngiv politikken LakeFormationDataAccess
, og vedhæft den til SageMaker-udførelsesrollen. Du skal også vedhæfte AmazonAthenaFullAccess
politik for at få adgang til Athena.
Dernæst skal du give SageMaker-udførelsesrollen adgang til Feature Store-databasen og specifikke funktionsgruppetabeller og tildele den et af de tidligere oprettede datafiltre. For at give datatilladelser inde i Lake Formation, i navigationsruden under Tilladelser, vælg Data Lake-tilladelser, Og vælg derefter Grant. Følgende skærmbillede viser, hvordan man giver tilladelser med et datafilter for adgang på rækkeniveau til en SageMaker-udførelsesrolle.
På samme måde kan du give tilladelser med det datafilter, der er oprettet til adgang på celleniveau til SageMaker-udførelsesrollen.
Test Feature Store-adgang
I dette afsnit validerer du adgangskontrollerne, der er konfigureret i Lake Formation, ved hjælp af en Studio-notesbog. Denne implementering bruger Feature Store Python SDK og Athena for at forespørge data fra den offline funktionsbutik, der er blevet registreret i Lake Formation.
Først tester du adgang på rækkeniveau ved at oprette en Athena-forespørgsel til din funktionsgruppe orders
med følgende kode. Det table_name
er AWS Glue-tabellen, der automatisk genereres af Feature Store.
Du forespørger alle poster fra ordrerne ved hjælp af følgende forespørgselsstreng:
Optager kun med customer_id = ‘C7782’
returneres i henhold til datafiltrene oprettet i Lake Formation.
For det andet tester du adgang på celleniveau ved at oprette en Athena-forespørgsel til din funktionsgruppe customers
med følgende kode. Det table_name
er AWS Glue-tabellen, der automatisk genereres af Feature Store.
Du forespørger alle poster fra ordrerne ved hjælp af følgende forespørgselsstreng:
Optager kun med customer_id ='C3126'
returneres i henhold til datafiltrene oprettet i Lake Formation. Derudover funktionerne sex
, is_married
er ikke synlige.
Med denne tilgang kan du implementere detaljeret tilladelsesadgangskontrol til en offline funktionsbutik. Med Lake Formation-tilladelsesmodellen kan du begrænse adgangen til bestemte funktionsgrupper eller specifikke funktioner inden for en funktionsgruppe for enkeltpersoner baseret på deres rolle i organisationen.
For at udforske det komplette kodeeksempel og prøve det på din egen konto, se GitHub repo.
Konklusion
SageMaker Feature Store leverer en specialbygget funktionsstyringsløsning, der hjælper organisationer med at skalere ML-udvikling på tværs af forretningsenheder og datavidenskabsteams. I dette indlæg forklarede vi, hvordan du kan bruge Lake Formation til at implementere finmasket adgangskontrol til din offline funktionsbutik. Prøv det, og lad os vide, hvad du synes i kommentarerne.
Om forfatterne
Arnaud Lauer er Senior Partner Solutions Architect i den offentlige sektor hos AWS. Han gør det muligt for partnere og kunder at forstå, hvordan man bedst bruger AWS-teknologier til at omsætte forretningsbehov til løsninger. Han har mere end 16 års erfaring med at levere og arkitekte digitale transformationsprojekter på tværs af en række industrier, herunder den offentlige sektor, energi og forbrugsgoder. Kunstig intelligens og maskinlæring er nogle af hans passioner. Arnaud har 12 AWS-certificeringer, herunder ML Specialty Certification.
Ioan Catana er en specialist i kunstig intelligens og maskinlæringsløsninger hos AWS. Han hjælper kunder med at udvikle og skalere deres ML-løsninger i AWS Cloud. Ioan har over 20 års erfaring, for det meste inden for softwarearkitekturdesign og cloud engineering.
Swagat Kulkarni er Senior Solutions Architect hos AWS og AI/ML-entusiast. Han brænder for at løse problemer i den virkelige verden for kunder med cloud-native tjenester og maskinlæring. Swagat har over 15 års erfaring med at levere adskillige digitale transformationsinitiativer til kunder på tværs af flere domæner, herunder detailhandel, rejser og gæstfrihed og sundhedspleje. Uden for arbejdet nyder Swagat at rejse, læse og meditere.
Charu Sareen er Sr. Product Manager for Amazon SageMaker Feature Store. Før AWS ledede hun vækst- og indtægtsgenereringsstrategi for SaaS-tjenester hos VMware. Hun er en data- og maskinlæringsentusiast og har over ti års erfaring inden for produktstyring, datateknik og avanceret analyse. Hun har en bachelorgrad i informationsteknologi fra National Institute of Technology, Indien og en MBA fra University of Michigan, Ross School of Business.
- Coinsmart. Europas bedste Bitcoin og Crypto Exchange.
- Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. FRI ADGANG.
- CryptoHawk. Altcoin radar. Gratis prøveversion.
- Kilde: https://aws.amazon.com/blogs/machine-learning/control-access-to-amazon-sagemaker-feature-store-offline-using-aws-lake-formation/
- '
- "
- 100
- 15 år
- 20 år
- 9
- Om
- adgang
- Konto
- tværs
- Handling
- Desuden
- Yderligere
- admin
- fremskreden
- Alle
- tillade
- Skønt
- Amazon
- analytics
- API'er
- anvendelig
- tilgang
- arkitektur
- kunstig
- kunstig intelligens
- Kunstig intelligens og maskinlæring
- revision
- AWS
- baggrund
- være
- BEDSTE
- grænse
- bygge
- bygger
- virksomhed
- kapaciteter
- tilfælde
- centraliseret
- Certificering
- Vælg
- Cloud
- kode
- kommentarer
- Compliance
- Konfiguration
- Konsol
- forbruger
- kontrol
- oprettet
- skaber
- Oprettelse af
- skabelse
- kredit
- kreditkort
- Kunder
- data
- datalogi
- dataforsker
- Database
- databaser
- årti
- leverer
- indsætte
- Design
- udvikle
- Udvikling
- forskellige
- digital
- Digital Transformation
- domæne
- Domæner
- effekt
- energi
- Engineering
- Miljø
- etablere
- eksempel
- udførelse
- erfaring
- udforskning
- udforske
- Feature
- Funktionalitet
- Figur
- Filtre
- Fokus
- efter
- fundet
- yderligere
- mål
- varer
- regeringsførelse
- gruppe
- Vækst
- sundhedspleje
- hjælpe
- hjælper
- Høj
- besidder
- Hvordan
- How To
- HTTPS
- identificere
- Identity
- gennemføre
- implementering
- vigtigt
- omfatter
- Herunder
- Indien
- individuel
- industrier
- oplysninger
- informationsteknologi
- Intelligens
- IT
- deltage
- Nøgle
- førende
- læring
- Niveau
- Bibliotek
- Lister
- placering
- placeringer
- maskine
- machine learning
- lykkedes
- ledelse
- Management Solution
- leder
- maske
- Michigan
- ML
- model
- modeller
- mere
- flere
- national
- Navigation
- notesbog
- numre
- offline
- online
- ordrer
- ordrer
- organisation
- organisationer
- egen
- partner
- partnere
- lidenskabelige
- politikker
- politik
- Forudsigelser
- problemer
- Produkt
- produktstyring
- Produkter
- projekter
- beskytte
- give
- giver
- offentlige
- købt
- hurtigt
- rækkevidde
- Læsning
- realtid
- optegnelser
- register
- registreret
- Repository
- påkrævet
- ressource
- REST
- detail
- salg
- Scale
- Skole
- Videnskab
- Videnskabsmand
- sektor
- sikker
- sikkerhed
- tjeneste
- Tjenester
- sæt
- indstilling
- delt
- Tilsvarende
- Simpelt
- Software
- løsninger
- Løsninger
- nogle
- specifikt
- starte
- starter
- Statement
- opbevaring
- butik
- forhandler
- Strategi
- Studio
- Understøtter
- Kontakt
- hold
- Teknologier
- Teknologier
- prøve
- Gennem
- værktøjer
- Kurser
- Transformation
- rejse
- forstå
- universitet
- us
- brug
- brugere
- værdi
- synlig
- vmware
- Hvad
- WHO
- inden for
- Arbejde
- arbejder
- virker
- år