Annuncio del supporto del punto di accesso Amazon S3 per Amazon SageMaker Data Wrangler | Servizi Web di Amazon

Annuncio del supporto del punto di accesso Amazon S3 per Amazon SageMaker Data Wrangler | Servizi Web di Amazon

Siamo entusiasti di annunciare Gestore di dati di Amazon SageMaker supporto per Punti di accesso Amazon S3. Con la sua interfaccia visual point e clikc, SageMaker Data Wrangler semplifica il processo di preparazione dei dati e di ingegneria delle funzionalità, inclusa la selezione, la pulizia, l'esplorazione e la visualizzazione dei dati, mentre gli access point S3 semplificano l'accesso ai dati fornendo nomi host univoci con policy di accesso specifiche.

A partire da oggi, SageMaker Data Wrangler rende più semplice per gli utenti preparare i dati dai set di dati condivisi archiviati Servizio di archiviazione semplice Amazon (Amazon S3) consentendo alle organizzazioni di controllare in modo sicuro l'accesso ai dati nella propria organizzazione. Con gli access point S3, gli amministratori dei dati possono ora creare punti di accesso specifici per applicazioni e team per facilitare la condivisione dei dati, invece di gestire complesse policy di bucket con molte regole di autorizzazione diverse.

In questo post ti guideremo attraverso l'importazione e l'esportazione dei dati da un punto di accesso S3 in SageMaker Data Wrangler.

Panoramica della soluzione

Immagina di dover gestire i dati per più team di data science che eseguono i propri flussi di lavoro di preparazione dei dati in SageMaker Data Wrangler. Gli amministratori spesso devono affrontare tre sfide:

  • I team di data science devono accedere ai propri set di dati senza compromettere la sicurezza degli altri
  • I team di data science devono accedere ad alcuni set di dati con dati sensibili, il che complica ulteriormente la gestione delle autorizzazioni
  • La politica di sicurezza consente l'accesso ai dati solo attraverso endpoint specifici per impedire l'accesso non autorizzato e ridurre l'esposizione dei dati

Con le policy di bucket tradizionali, avresti difficoltà a configurare un accesso granulare perché le policy di bucket applicano le stesse autorizzazioni a tutti gli oggetti all'interno del bucket. Inoltre, le policy di bucket tradizionali non possono supportare la protezione dell'accesso a livello di endpoint.

Gli access point S3 risolvono questi problemi garantendo un controllo capillare degli accessi a livello granulare, semplificando la gestione delle autorizzazioni per diversi team senza influire su altre parti del bucket. Invece di modificare una singola policy del bucket, puoi creare più punti di accesso con policy individuali su misura per casi d'uso specifici, riducendo il rischio di errori di configurazione o di accesso involontario ai dati sensibili. Infine, puoi applicare policy endpoint sui punti di accesso per definire regole che controllano quali VPC o indirizzi IP possono accedere ai dati tramite un punto di accesso specifico.

Dimostriamo come utilizzare gli access point S3 con SageMaker Data Wrangler con i seguenti passaggi:

  1. Carica i dati in un bucket S3.
  2. Crea un punto di accesso S3.
  3. Configura il tuo Gestione dell'identità e dell'accesso di AWS (IAM) con le politiche necessarie.
  4. Crea un flusso SageMaker Data Wrangler.
  5. Esporta i dati da SageMaker Data Wrangler al punto di accesso.

Per questo post, utilizziamo il Set di dati di marketing bancario per i nostri dati di esempio. Tuttavia, puoi utilizzare qualsiasi altro set di dati che preferisci.

Prerequisiti

Per questa procedura dettagliata, è necessario disporre dei seguenti prerequisiti:

Carica i dati in un bucket S3

Carica i tuoi dati in un bucket S3. Per istruzioni, fare riferimento a Caricamento di oggetti. Per questo post, utilizziamo il Set di dati di marketing bancario.

Annuncio del supporto del punto di accesso Amazon S3 per Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Crea un punto di accesso S3

Per creare un punto di accesso S3, completare i seguenti passaggi. Per ulteriori informazioni, fare riferimento a Creazione di punti di accesso.

  1. Sulla console Amazon S3, scegli Punti di accesso nel pannello di navigazione.
  2. Scegli Crea punto di accesso.
  3. Nel Nome del punto di accesso, inserisci un nome per il tuo punto di accesso.
  4. Nel Benna, selezionare Scegli un bucket in questo account.
  5. Nel Nome del secchioe, inserisci il nome del bucket che hai creato.
  6. Lascia le impostazioni rimanenti come predefinite e scegli Crea punto di accesso.

Annuncio del supporto del punto di accesso Amazon S3 per Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Nella pagina dei dettagli del punto di accesso, annota l'Amazon Resource Name (ARN) e l'alias del punto di accesso. Li utilizzerai in seguito quando interagisci con il punto di accesso in SageMaker Data Wrangler.

Annuncio del supporto del punto di accesso Amazon S3 per Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Configura il tuo ruolo IAM

Se disponi di un dominio SageMaker Studio pronto, completa i seguenti passaggi per modificare il ruolo di esecuzione:

  1. Sulla console di SageMaker, scegli Domini nel pannello di navigazione.
  2. Scegli il tuo dominio.
  3. Sulla impostazioni dominio scheda, scegliere Modifica.

Annuncio del supporto del punto di accesso Amazon S3 per Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Per impostazione predefinita, il ruolo IAM utilizzato per accedere a Data Wrangler è SageMakerExecutionRole. Dobbiamo aggiungere le due policy seguenti per utilizzare i punti di accesso S3:

  • Politica 1 – Questa policy IAM concede a SageMaker Data Wrangler l'accesso per l'esecuzione PutObject, GetObjecte DeleteObject:
    { "Version": "2012-10-17", "Statement": [ { "Sid": "S3AccessPointAccess", "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:DeleteObject" ], "Resource": "arn:aws:s3:us-east-1:<<accountID>>:accesspoint/<<s3-dw-accesspoint>>" } ]
    }

  • Politica 2 – Questa policy IAM concede a SageMaker Data Wrangler l'accesso per ottenere il punto di accesso S3:
    { "Version": "2012-10-17", "Statement": [ { "Sid": "GetAccessPoint", "Effect": "Allow", "Action": "s3:GetAccessPoint", "Resource": "arn:aws:s3:us-east-1:<<accountID>>:accesspoint/<<s3-dw-accesspoint>>" } ]
    }

  1. Crea queste due policy e collegale al ruolo.

Annuncio del supporto del punto di accesso Amazon S3 per Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Utilizzo dei punti di accesso S3 in SageMaker Data Wrangler

Per creare un nuovo flusso SageMaker Data Wrangler, completare i seguenti passaggi:

  1. Avvia SageMaker Studio.
  2. Sulla Compila il menù, scegliere New ed Flusso di gestione dei dati.

Annuncio del supporto del punto di accesso Amazon S3 per Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

  1. Scegli Amazon S3 come origine dati.

Annuncio del supporto del punto di accesso Amazon S3 per Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

  1. Per l'origine S3, inserisci il punto di accesso S3 utilizzando l'ARN o l'alias annotato in precedenza.

Per questo post utilizziamo l'ARN per importare dati utilizzando il punto di accesso S3. Tuttavia, l'ARN funziona solo per i punti di accesso S3 e i domini SageMaker Studio all'interno della stessa regione.

Annuncio del supporto del punto di accesso Amazon S3 per Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

In alternativa, puoi utilizzare l'alias, come mostrato nello screenshot seguente. A differenza degli ARN, è possibile fare riferimento agli alias in tutte le regioni.

Annuncio del supporto del punto di accesso Amazon S3 per Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Esporta dati da SageMaker Data Wrangler ai punti di accesso S3

Dopo aver completato le trasformazioni necessarie, possiamo esportare i risultati sul punto di accesso S3. Nel nostro caso, abbiamo semplicemente eliminato una colonna. Una volta completate le trasformazioni necessarie per il tuo caso d'uso, completa i seguenti passaggi:

  1. Nel flusso di dati, scegli il segno più.
  2. Scegli Aggiungi destinazione e Amazon S3.

Annuncio del supporto del punto di accesso Amazon S3 per Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

  1. Inserisci il nome del set di dati e la posizione S3, facendo riferimento all'ARN.

Annuncio del supporto del punto di accesso Amazon S3 per Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Ora hai utilizzato gli access point S3 per importare ed esportare dati in modo sicuro ed efficiente senza dover gestire complesse policy di bucket e navigare in più strutture di cartelle.

Annuncio del supporto del punto di accesso Amazon S3 per Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

ripulire

Se hai creato un nuovo dominio SageMaker da seguire, assicurati di interrompere tutte le app in esecuzione e elimina il tuo dominio per smettere di incorrere in addebiti. Inoltre, elimina qualsiasi Punti di accesso S3 ed eliminare eventuali bucket S3.

Conclusione

In questo post, abbiamo introdotto la disponibilità degli access point S3 per SageMaker Data Wrangler e ti abbiamo mostrato come utilizzare questa funzionalità per semplificare il controllo dei dati all'interno di SageMaker Studio. Abbiamo effettuato l'accesso al set di dati da un alias del punto di accesso S3 su tutti gli account AWS e salvato le trasformazioni risultanti. Ci auguriamo che tu approfitti di questa funzionalità per rimuovere eventuali colli di bottiglia con l'accesso ai dati per i tuoi utenti SageMaker Studio e ti invitiamo a provarla!


Circa gli autori

Annuncio del supporto del punto di accesso Amazon S3 per Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Pietro Chung è un Solutions Architect al servizio dei clienti aziendali presso AWS. Ama aiutare i clienti a utilizzare la tecnologia per risolvere problemi aziendali su vari argomenti come la riduzione dei costi e lo sfruttamento dell'intelligenza artificiale. Ha scritto un libro su AWS FinOps e gli piace leggere e creare soluzioni.

Annuncio del supporto del punto di accesso Amazon S3 per Amazon SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Neelam Koshiya è un Enterprise Solution Architect presso AWS. Il suo obiettivo attuale è aiutare i clienti aziendali nel loro percorso di adozione del cloud per ottenere risultati aziendali strategici. Nel tempo libero le piace leggere e stare all'aria aperta.

Timestamp:

Di più da Apprendimento automatico di AWS