Puoi creare archivi di funzionalità per fornire un repository centrale per le funzionalità di machine learning (ML) che possono essere condivise con i team di data science in tutta l'organizzazione per l'addestramento, il punteggio batch e l'inferenza in tempo reale. I team di data science possono riutilizzare le funzionalità archiviate nel repository centrale, evitando la necessità di riprogettare pipeline di funzionalità per progetti diversi e, di conseguenza, eliminando rilavorazioni e duplicazioni.
Per soddisfare le esigenze di sicurezza e conformità, potrebbe essere necessario un controllo granulare sulle modalità di accesso a queste funzionalità ML condivise. Queste esigenze spesso vanno oltre il controllo dell'accesso a livello di tabella e colonna, fino al controllo dell'accesso a livello di riga individuale. Ad esempio, potresti voler consentire ai rappresentanti dell'account di vedere le righe di una tabella di vendita solo per i loro account e mascherare il prefisso di dati sensibili come i numeri di carta di credito. Sono necessari controlli di accesso dettagliati per proteggere i dati dell'archivio delle funzionalità e concedere l'accesso in base al ruolo di un individuo. Ciò è particolarmente importante per i clienti e le parti interessate nei settori che devono controllare l'accesso ai dati delle funzionalità e garantire che sia in atto il giusto livello di sicurezza.
In questo post viene fornita una panoramica di come implementare il controllo granulare dell'accesso ai gruppi di funzionalità e alle funzionalità archiviate in un archivio di funzionalità offline utilizzando Negozio di funzionalità Amazon SageMaker ed Formazione AWS Lake. Se non conosci il Feature Store, potresti fare riferimento a Comprensione delle funzionalità chiave di Amazon SageMaker Feature Store per ulteriori informazioni prima di immergerti nel resto di questo post. Tieni presente che per il negozio di funzionalità online è possibile utilizzare Gestione dell'identità e dell'accesso di AWS (IAM) con condizioni per limitare l'accesso degli utenti ai gruppi di funzionalità.
Panoramica della soluzione
L'architettura seguente usa Lake Formation per implementare l'accesso a livello di riga, colonna o cella per limitare i gruppi di funzionalità o le funzionalità all'interno di un gruppo di funzionalità a cui un data scientist che lavora in Amazon Sage Maker Studio. Sebbene ci concentriamo sulla limitazione dell'accesso agli utenti che lavorano in Studio, lo stesso approccio è applicabile agli utenti che accedono al negozio di funzionalità offline utilizzando servizi come Amazzone Atena.
Feature Store è una soluzione appositamente creata per la gestione delle funzionalità di ML che aiuta i team di data science a riutilizzare le funzionalità di ML tra team e modelli, fornire funzionalità per le previsioni dei modelli su larga scala con bassa latenza e addestrare e distribuire nuovi modelli in modo più rapido ed efficace.
Lake Formation è un servizio completamente gestito che consente di creare, proteggere e gestire i data lake e fornire il controllo dell'accesso ai dati nel data lake. Lake Formation supporta i seguenti livelli di sicurezza:
- Autorizzazioni a livello di riga – Limita l'accesso a righe specifiche in base alla conformità dei dati e alle politiche di governance
- Autorizzazioni a livello di colonna – Limita l'accesso a colonne specifiche in base ai filtri di dati
- Autorizzazioni a livello di cella – Combina i controlli a livello di riga e colonna consentendo l'accesso a righe e colonne specifiche nelle tabelle del database
Lake Formation fornisce anche audit centralizzati e report di conformità identificando quali principali hanno avuto accesso a quali dati, quando e attraverso quali servizi.
Combinando Feature Store e Lake Formation, puoi implementare l'accesso granulare alle funzionalità ML nel tuo esistente Feature Store offline.
In questo post, forniamo un approccio per i casi d'uso in cui hai creato gruppi di funzionalità in Feature Store e devi fornire l'accesso ai tuoi team di data science per l'esplorazione delle funzionalità e la creazione di modelli per i loro progetti. Ad alto livello, un amministratore di Lake Formation definisce e crea un modello di autorizzazione in Lake Formation e lo assegna a singoli utenti di Studio o gruppi di utenti.
Ti guidiamo attraverso i seguenti passaggi:
- Registra il negozio di funzionalità offline in Lake Formation.
- Crea i filtri di dati di Lake Formation per un controllo degli accessi a grana fine.
- Concedi autorizzazioni per gruppi di funzionalità (tabelle) e funzionalità (colonne).
Prerequisiti
Per implementare questa soluzione, devi creare un utente amministratore di Lake Formation in IAM e accedere come tale utente amministratore. Per istruzioni, fare riferimento a Creare un amministratore di Data Lake.
Iniziamo con l'impostazione dei dati di test utilizzando ordini di generi alimentari sintetici da elenchi di clienti generati sinteticamente utilizzando il impostore Libreria Python. Puoi provarlo tu stesso seguendo il modulo su GitHub. Per ogni cliente, il notebook genera da 1 a 10 ordini, con prodotti acquistati in ogni ordine. Quindi puoi usare quanto segue taccuino per creare i tre gruppi di funzionalità per i set di dati di clienti, prodotti e ordini nel negozio di funzionalità. Prima di creare i gruppi di funzionalità, assicurati che il tuo ambiente Studio sia configurato nel tuo account AWS. Per istruzioni, fare riferimento a Integrazione nel dominio Amazon SageMaker.
L'obiettivo è illustrare come utilizzare Feature Store per archiviare le funzionalità e utilizzare Lake Formation per controllare l'accesso a queste funzionalità. Lo screenshot seguente mostra la definizione di orders
gruppo di funzionalità utilizzando la console di Studio.
Feature Store utilizza un Servizio di archiviazione semplice Amazon (Amazon S3) nel tuo account per archiviare i dati offline. Puoi utilizzare motori di query come Athena rispetto al datastore offline in Amazon S3 per estrarre set di dati di addestramento o analizzare i dati delle funzionalità e puoi unirti a più gruppi di funzionalità in una singola query. Feature Store crea automaticamente il file Colla AWS Catalogo dati per gruppi di funzionalità durante la creazione del gruppo di funzionalità, che consente di utilizzare questo catalogo per accedere e interrogare i dati dal negozio offline utilizzando Athena o strumenti open source come Presto.
Registra il negozio di funzionalità offline in Lake Formation
Per iniziare a utilizzare le autorizzazioni di Lake Formation con i database e le tabelle di Feature Store esistenti, devi revocare l'autorizzazione Super dal IAMAllowedPrincipals
gruppo sul database e le tabelle dei gruppi di funzionalità associate in Lake Formation.
- Accedi al Console di gestione AWS come amministratore di Lake Formation.
- Nel riquadro di navigazione, sotto Catalogo datiscegli Database.
- Seleziona il database
sagemaker_featurestore
, che è il database associato all'archivio delle funzionalità offline.
Poiché Feature Store crea automaticamente un catalogo dati AWS Glue quando crei i gruppi di funzionalità, il feature store offline è visibile come database in Lake Formation.
- Sulla Azioni menù, scegliere Modifica.
- Sulla Modifica database pagina, se si desidera che le autorizzazioni di Lake Formation funzionino anche per i gruppi di funzionalità appena creati e non è necessario revocare il file
IAMAllowedPrincipals
per ogni tabella, deseleziona Utilizza solo il controllo degli accessi IAM per le nuove tabelle in questo database, Quindi scegliere Risparmi. - Sulla Database pagina, selezionare il
sagemaker_featurestore
Banca dati. - Sulla Azioni menù, scegliere Visualizza autorizzazioni.
- Seleziona il
IAMAllowedPrincipals
raggruppare e scegliere Revocare.
Allo stesso modo, è necessario eseguire questi passaggi per tutte le tabelle dei gruppi di funzionalità associate all'archivio delle funzionalità offline.
- Nel riquadro di navigazione, sotto Catalogo datiscegli tavoli.
- Seleziona la tabella con il nome del gruppo di funzionalità.
- Sulla Azioni menù, scegliere Visualizza autorizzazioni.
- Seleziona il
IAMAllowedPrincipals
raggruppare e scegliere Revocare.
Per passare dal feature store offline al modello di autorizzazione Lake Formation, devi attivare le autorizzazioni Lake Formation per la posizione Amazon S3 del feature store offline. Per questo, devi registrare la posizione Amazon S3.
- Nel riquadro di navigazione, sotto Registrati e acquisisciscegli Posizioni del data lake.
- Scegli Registra posizione.
- Seleziona la posizione del negozio di funzionalità offline in Amazon S3 per il Percorso Amazon S3.
La posizione è la S3Uri
che è stato fornito nella configurazione del negozio offline del gruppo di funzionalità e può essere trovato in DescribeFeatureGroup
API ResolvedOutputS3Uri
campo.
- Seleziona il valore predefinito
AWSServiceRoleForLakeFormationDataAccess
Ruolo IAM e scegli Registra posizione.
La Formazione del Lago si integra con Servizio di gestione delle chiavi AWS (AWS KMS); questo approccio funziona anche con le posizioni Amazon S3 che sono state crittografate con una chiave gestita da AWS o con l'approccio consigliato di una chiave gestita dal cliente. Per ulteriori letture, fare riferimento a Registrazione di una posizione Amazon S3 crittografata.
Crea filtri dati di Lake Formation per un controllo degli accessi a grana fine
È possibile implementare la sicurezza a livello di riga e di cella creando filtri dati. Si seleziona un filtro dati quando si concede l'autorizzazione SELECT Lake Formation sulle tabelle. In questo caso, utilizziamo questa funzionalità per implementare una serie di filtri che limitano l'accesso a gruppi di funzionalità e funzionalità specifiche all'interno di un gruppo di funzionalità.
Usiamo la figura seguente per spiegare come funzionano i filtri di dati. La figura mostra due gruppi di funzionalità: customers
ed orders
. Un filtro dati a livello di riga viene applicato a customers
gruppo di funzionalità, risultando in solo record in cui feature1 = ‘12’
viene restituito. Allo stesso modo, l'accesso al gruppo di funzionalità degli ordini è limitato utilizzando un filtro dati a livello di cella ai soli record di funzionalità in cui feature2 = ‘22
', oltre a escludere la caratteristica 1 dal set di dati risultante.
Per creare un nuovo filtro dati, nel riquadro di navigazione della console Lake Formation, sotto Catalogo datiscegli Filtri dati e quindi scegliere Crea nuovo filtro.
Quando si seleziona Accesso a tutte le colonne e fornisci un'espressione di filtro di riga, stai solo stabilendo la sicurezza a livello di riga (filtro di riga). In questo esempio, creiamo un filtro che limita l'accesso a un data scientist ai soli record nel file orders
gruppo di funzionalità in base al valore della funzionalità customer_id ='C7782'
.
Quando includi o escludi colonne specifiche e fornisci anche un'espressione di filtro di riga, stai stabilendo la sicurezza a livello di cella (filtro di celle). In questo esempio, creiamo un filtro che limita l'accesso di un data scientist a determinate funzionalità di un gruppo di funzionalità (escludiamo sex
ed is_married
) e un sottoinsieme dei record nel customers
gruppo di funzionalità in base al valore della funzionalità (customer_id ='C3126'
).
La schermata seguente mostra i filtri di dati creati.
Concedi l'autorizzazione a gruppi di funzionalità (tabelle) e funzionalità (colonne).
In questa sezione, si concede il controllo granulare dell'accesso e le autorizzazioni definite in Lake Formation a un utente SageMaker assegnando il filtro dati al ruolo di esecuzione SageMaker associato all'utente che ha originariamente creato i gruppi di funzionalità. Il ruolo di esecuzione SageMaker viene creato come parte di Configurazione del dominio SageMaker Studio e per impostazione predefinita inizia con AmazonSageMaker-ExecutionRole-*
. Devi concedere a questo ruolo le autorizzazioni sulle API di Lake Formation (GetDataAccess
, StartQueryPlanning
, GetQueryState
, GetWorkUnits
e GetWorkUnitResults
) e API AWS Glue (GetTables
ed GetDatabases
) in IAM per poter accedere ai dati.
Crea la seguente policy in IAM, denomina la policy LakeFormationDataAccess
e allegalo al ruolo di esecuzione SageMaker. È necessario allegare anche il AmazonAthenaFullAccess
politica per accedere ad Atena.
Successivamente, è necessario concedere l'accesso al database Feature Store e alla tabella del gruppo di funzionalità specifiche al ruolo di esecuzione di SageMaker e assegnargli uno dei filtri di dati creati in precedenza. Per concedere le autorizzazioni ai dati all'interno di Lake Formation, nel riquadro di navigazione, sotto Permessiscegli Autorizzazioni di Data Lake, Quindi scegliere Grant. La schermata seguente mostra come concedere autorizzazioni con un filtro dati per l'accesso a livello di riga a un ruolo di esecuzione SageMaker.
Allo stesso modo, puoi concedere autorizzazioni con il filtro dati creato per l'accesso a livello di cella al ruolo di esecuzione di SageMaker.
Testare l'accesso al negozio di funzionalità
In questa sezione convalidi i controlli di accesso impostati in Lake Formation utilizzando un notebook di Studio. Questa implementazione utilizza il SDK Python per l'archivio funzionalità e Athena per interrogare i dati dal feature store offline che è stato registrato in Lake Formation.
Innanzitutto, verifichi l'accesso a livello di riga creando una query Athena per il tuo gruppo di funzionalità orders
con il seguente codice. Il table_name
è la tabella AWS Glue generata automaticamente da Feature Store.
Interroga tutti i record degli ordini utilizzando la seguente stringa di query:
Solo record con customer_id = ‘C7782’
vengono restituiti secondo i filtri dati creati in Lake Formation.
In secondo luogo, verifichi l'accesso a livello di cella creando una query Athena per il tuo gruppo di funzionalità customers
con il seguente codice. Il table_name
è la tabella AWS Glue generata automaticamente da Feature Store.
Interroga tutti i record degli ordini utilizzando la seguente stringa di query:
Solo record con customer_id ='C3126'
vengono restituiti secondo i filtri dati creati in Lake Formation. Inoltre, le caratteristiche sex
ed is_married
non sono visibili.
Con questo approccio, puoi implementare il controllo granulare dell'accesso delle autorizzazioni a un archivio di funzionalità offline. Con il modello di autorizzazione Lake Formation, puoi limitare l'accesso a determinati gruppi di funzionalità o funzionalità specifiche all'interno di un gruppo di funzionalità per individui in base al loro ruolo nell'organizzazione.
Per esplorare l'esempio di codice completo e provarlo nel tuo account, consulta il Repository GitHub.
Conclusione
SageMaker Feature Store fornisce una soluzione di gestione delle funzionalità appositamente progettata per aiutare le organizzazioni a scalare lo sviluppo di ML tra business unit e team di data science. In questo post, abbiamo spiegato come utilizzare Lake Formation per implementare il controllo dell'accesso a grana fine per il tuo negozio di funzionalità offline. Provalo e facci sapere cosa ne pensi nei commenti.
Informazioni sugli autori
Arnaud Lauer è un Senior Partner Solutions Architect nel team del settore pubblico di AWS. Consente a partner e clienti di capire come utilizzare al meglio le tecnologie AWS per tradurre le esigenze aziendali in soluzioni. Vanta oltre 16 anni di esperienza nella realizzazione e nell'architettura di progetti di trasformazione digitale in una vasta gamma di settori, tra cui il settore pubblico, l'energia e i beni di consumo. Intelligenza artificiale e machine learning sono alcune delle sue passioni. Arnaud possiede 12 certificazioni AWS, inclusa la ML Specialty Certification.
Ioan Catana è un architetto specializzato in soluzioni di intelligenza artificiale e machine learning presso AWS. Aiuta i clienti a sviluppare e ridimensionare le loro soluzioni di machine learning nel cloud AWS. Ioan ha oltre 20 anni di esperienza, principalmente nella progettazione di architetture software e nell'ingegneria del cloud.
Swagat Kulkarni è un Senior Solutions Architect presso AWS e un appassionato di AI/ML. È appassionato di risoluzione dei problemi del mondo reale per i clienti con servizi cloud-native e machine learning. Swagat ha oltre 15 anni di esperienza nella fornitura di diverse iniziative di trasformazione digitale per clienti in più domini tra cui vendita al dettaglio, viaggi, ospitalità e assistenza sanitaria. Al di fuori del lavoro, Swagat ama viaggiare, leggere e meditare.
Charu Sareen è un Sr. Product Manager per Amazon SageMaker Feature Store. Prima di AWS, ha guidato la strategia di crescita e monetizzazione per i servizi SaaS presso VMware. È un'appassionata di dati e apprendimento automatico e ha oltre un decennio di esperienza nella gestione dei prodotti, nell'ingegneria dei dati e nell'analisi avanzata. Ha una laurea in Informatica presso il National Institute of Technology, India e un MBA presso l'Università del Michigan, Ross School of Business.
- Coinsmart. Il miglior scambio di bitcoin e criptovalute d'Europa.
- Platoblockchain. Web3 Metaverse Intelligence. Conoscenza amplificata. ACCESSO LIBERO.
- Criptofalco. Radar Altcoin. Prova gratuita.
- Fonte: https://aws.amazon.com/blogs/machine-learning/control-access-to-amazon-sagemaker-feature-store-offline-using-aws-lake-formation/
- '
- "
- 100
- 15 anni
- 20 anni
- 9
- Chi siamo
- accesso
- Il mio account
- operanti in
- Action
- aggiunta
- aggiuntivo
- Admin
- Avanzate
- Tutti
- Consentire
- Sebbene il
- Amazon
- analitica
- API
- applicabile
- approccio
- architettura
- artificiale
- intelligenza artificiale
- Intelligenza artificiale e apprendimento automatico
- revisione
- AWS
- sfondo
- essendo
- MIGLIORE
- sistema
- costruire
- costruisce
- affari
- funzionalità
- casi
- centralizzata
- Certificazione
- Scegli
- Cloud
- codice
- Commenti
- conformità
- Configurazione
- consolle
- Consumer
- di controllo
- creato
- crea
- Creazione
- creazione
- credito
- carta di credito
- Clienti
- dati
- scienza dei dati
- scienziato di dati
- Banca Dati
- banche dati
- decennio
- consegna
- schierare
- Design
- sviluppare
- Mercato
- diverso
- digitale
- DIGITAL TRANSFORMATION
- dominio
- domini
- effetto
- energia
- Ingegneria
- Ambiente
- stabilire
- esempio
- esecuzione
- esperienza
- esplorazione
- esplora
- caratteristica
- Caratteristiche
- figura
- filtri
- Focus
- i seguenti
- essere trovato
- ulteriormente
- scopo
- merce
- la governance
- Gruppo
- Crescita
- assistenza sanitaria
- Aiuto
- aiuta
- Alta
- detiene
- Come
- Tutorial
- HTTPS
- identificazione
- Identità
- realizzare
- implementazione
- importante
- includere
- Compreso
- India
- individuale
- industrie
- informazioni
- tecnologie dell'informazione
- Intelligence
- IT
- join
- Le
- principale
- apprendimento
- Livello
- Biblioteca
- elenchi
- località
- posizioni
- macchina
- machine learning
- gestito
- gestione
- Soluzione di gestione
- direttore
- mask
- Michigan
- ML
- modello
- modelli
- Scopri di più
- multiplo
- il
- Navigazione
- taccuino
- numeri
- offline
- online
- minimo
- ordini
- organizzazione
- organizzazioni
- proprio
- partner
- partner
- appassionato
- Termini e Condizioni
- politica
- Previsioni
- problemi
- Prodotto
- gestione del prodotto
- Prodotti
- progetti
- protegge
- fornire
- fornisce
- la percezione
- acquistati
- rapidamente
- gamma
- Lettura
- tempo reale
- record
- registro
- registrato
- deposito
- necessario
- risorsa
- REST
- nello specifico retail
- vendite
- Scala
- di moto
- Scienze
- Scienziato
- settore
- sicuro
- problemi di
- servizio
- Servizi
- set
- regolazione
- condiviso
- Allo stesso modo
- Un'espansione
- Software
- soluzione
- Soluzioni
- alcuni
- in particolare
- inizia a
- inizio
- dichiarazione
- conservazione
- Tornare al suo account
- negozi
- Strategia
- studio
- supporti
- Interruttore
- team
- Tecnologie
- Tecnologia
- test
- Attraverso
- strumenti
- Training
- Trasformazione
- viaggiare
- capire
- Università
- us
- uso
- utenti
- APPREZZIAMO
- visibile
- vmware
- Che
- OMS
- entro
- Lavora
- lavoro
- lavori
- anni