Importa dati da oltre 40 origini dati per il machine learning senza codice con Amazon SageMaker Canvas

Ripubblicato da Platone

Seguaci: 0

I dati sono al centro del machine learning (ML). L'inclusione di dati rilevanti per rappresentare in modo completo il tuo problema aziendale ti garantisce di acquisire in modo efficace tendenze e relazioni in modo da poter ricavare le informazioni necessarie per guidare le decisioni aziendali. Con Tela di Amazon SageMaker, ora puoi importare i dati da oltre 40 fonti di dati da utilizzare per ML senza codice. Canvas espande l'accesso al ML fornendo agli analisti aziendali un'interfaccia visiva che consente loro di generare autonomamente previsioni accurate di ML, senza richiedere alcuna esperienza di ML o dover scrivere una singola riga di codice. Ora puoi importare dati in-app da popolari data store relazionali come Amazzone Atena nonché piattaforme SaaS (software as a service) di terze parti supportate da Flusso di app Amazon come Salesforce, SAP OData e Google Analytics.

Il processo di raccolta di dati di alta qualità per ML può essere complesso e richiedere molto tempo, perché la proliferazione di applicazioni SaaS e servizi di archiviazione dei dati ha creato una diffusione di dati su una moltitudine di sistemi. Ad esempio, potrebbe essere necessario condurre un'analisi del tasso di abbandono dei clienti utilizzando i dati dei clienti di Salesforce, i dati finanziari di SAP e i dati logistici di Snowflake. Per creare un set di dati attraverso queste origini, è necessario accedere singolarmente a ciascuna applicazione, selezionare i dati desiderati ed esportarli localmente, dove possono essere aggregati utilizzando uno strumento diverso. Questo set di dati deve quindi essere importato in un'applicazione separata per ML.

Con questo lancio, Canvas ti consente di capitalizzare i dati archiviati in diverse fonti supportando l'importazione e l'aggregazione di dati in-app da oltre 40 origini dati. Questa funzionalità è resa possibile attraverso nuovi connettori nativi ad Athena e ad Amazon AppFlow tramite il Colla AWS Catalogo dati. Amazon AppFlow è un servizio gestito che consente di trasferire in modo sicuro i dati da applicazioni SaaS di terze parti a Servizio di archiviazione semplice Amazon (Amazon S3) e catalogare i dati con il Data Catalog con pochi click. Dopo che i tuoi dati sono stati trasferiti, puoi semplicemente accedere all'origine dati all'interno di Canvas, dove puoi visualizzare schemi di tabelle, unire tabelle all'interno o tra origini dati, scrivere query Athena e visualizzare in anteprima e importare i tuoi dati. Dopo aver importato i dati, puoi utilizzare le funzionalità di Canvas esistenti come la creazione di un modello ML, la visualizzazione dei dati sull'impatto delle colonne o la generazione di previsioni. Puoi automatizzare il processo di trasferimento dei dati in Amazon AppFlow per attivarlo in base a una pianificazione per assicurarti di avere sempre accesso ai dati più recenti in Canvas.

Panoramica della soluzione

I passaggi descritti in questo post forniscono due esempi di come importare i dati in Canvas per il machine learning senza codice. Nel primo esempio, dimostriamo come importare i dati tramite Athena. Nel secondo esempio, mostriamo come importare i dati da un'applicazione SaaS di terze parti tramite Amazon AppFlow.

Importa i dati da Athena

In questa sezione, mostriamo un esempio di importazione di dati in Canvas da Athena per condurre un'analisi di segmentazione dei clienti. Creiamo un modello di classificazione ML per classificare la nostra base di clienti in quattro classi diverse, con l'obiettivo finale di utilizzare il modello per prevedere in quale classe rientrerà un nuovo cliente. Seguiamo tre passaggi principali: importare i dati, addestrare un modello e generare previsioni. Iniziamo.

Importa i dati

Per importare i dati da Athena, completare i seguenti passaggi:

Nella console Canvas, scegli Dataset nel riquadro di navigazione, quindi scegli Importare.
espandere la Fonte di dati menu e scegli Athena.
Scegli il database e la tabella corretti da cui vuoi importare. Puoi facoltativamente visualizzare in anteprima la tabella scegliendo l'icona di anteprima.

Lo screenshot seguente mostra un esempio della tabella di anteprima.

Import data from over 40 data sources for no-code machine learning with Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Nel nostro esempio, segmentiamo i clienti in base al canale di marketing attraverso il quale hanno utilizzato i nostri servizi. Questo è specificato dalla colonna segmentation, dove A è carta stampata, B è mobile, C è promozione in negozio e D è televisione.

Quando sei soddisfatto di avere la tabella giusta, trascina la tabella desiderata nel file Trascina e rilascia i set di dati per unirli .
Ora puoi facoltativamente selezionare o deselezionare le colonne, unire le tabelle trascinando un'altra tabella nel file Trascina e rilascia i set di dati per unirli sezione o scrivere query SQL per specificare la sezione di dati. Per questo post, utilizziamo tutti i dati nella tabella.
Per importare i dati, scegli Importa dati.

I tuoi dati vengono importati in Canvas come set di dati dalla tabella specifica in Athena.

Addestra un modello

Dopo che i tuoi dati sono stati importati, vengono visualizzati sul file Dataset pagina. A questo punto, puoi costruire un modello. Per fare ciò, completare i seguenti passaggi:

Seleziona il tuo set di dati e scegli Crea un modello.
Nel Nome del modello, inserisci il nome del tuo modello (per questo post, my_first_model).
Canvas consente di creare modelli per l'analisi predittiva, l'analisi delle immagini e l'analisi del testo. Poiché vogliamo classificare i clienti, seleziona Analisi predittiva per Tipo di problema.
Per procedere, scegli Creare.

Sulla Costruire pagina, puoi visualizzare le statistiche sul tuo set di dati, come la percentuale di valori mancanti e la media dei dati.

Nel Colonna di destinazione, scegli una colonna (per questo post, segmentation).

Canvas offre due tipi di modelli che possono generare previsioni. La creazione rapida privilegia la velocità rispetto alla precisione, fornendo un modello in 2-15 minuti. La costruzione standard privilegia la precisione rispetto alla velocità, fornendo un modello in 2-4 ore.

Per questo post, scegli Costruzione rapida.
Dopo che il modello è stato addestrato, è possibile analizzare la precisione del modello.

Il seguente modello classifica correttamente i clienti il 94.67% delle volte.

Import data from over 40 data sources for no-code machine learning with Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Facoltativamente, puoi anche visualizzare l'impatto di ogni colonna sulla categorizzazione. In questo esempio, man mano che un cliente invecchia, la colonna ha un'influenza minore sulla categorizzazione. Per generare previsioni con il tuo nuovo modello, scegli Prevedere.

Genera previsioni

Sulla Prevedere scheda, è possibile generare sia previsioni in batch che previsioni singole. Completa i seguenti passaggi:

Per questo post, scegli Pronostico unico per capire quale sarà la segmentazione della clientela per un nuovo cliente.

Per la nostra previsione, vogliamo capire quale sarà la segmentazione di un cliente se ha 32 anni ed è avvocato di professione.

Sostituire i valori corrispondenti con questi input.
Scegli Aggiornanento.

La previsione aggiornata viene visualizzata nella finestra della previsione. In questo esempio, un avvocato di 32 anni è classificato nel segmento D.

Import data from over 40 data sources for no-code machine learning with Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Importa dati da un'applicazione SaaS di terze parti in AWS

Per importare dati da applicazioni SaaS di terze parti in Canvas per ML senza codice, devi prima trasferire i dati dall'applicazione ad Amazon S3 tramite Amazon AppFlow. In questo esempio, trasferiamo i dati di produzione da SAP OData.

Per trasferire i tuoi dati, completa i seguenti passaggi:

Nella console Amazon AppFlow, scegli Crea flusso.
Nel Nome del flusso, inserisci un nome.
Scegli Avanti.
Nel Nome della fonte, scegli l'applicazione SaaS di terze parti desiderata (per questo post, SAP OData).
Scegli Crea una nuova connessione.
Nel Connettiti a SAP OData finestra pop-up, compilare i dettagli di autenticazione e scegliere Connettiti.
Nel Oggetto SAP OData, scegli l'oggetto contenente i tuoi dati all'interno di SAP OData.
Nel Nome della destinazionescegli Amazon S3.
Nel Dettagli del secchio, specifica i dettagli del tuo bucket S3.
Seleziona Cataloga i tuoi dati nel Catalogo dati di AWS Glue.
Nel Ruolo dell'utente, scegli il Gestione dell'identità e dell'accesso di AWS (IAM) che l'utente Canvas utilizzerà per accedere ai dati da.
Nel Trigger di flusso, selezionare Esegui su richiesta.

In alternativa, puoi automatizzare il trasferimento del flusso selezionando Eseguire il flusso nei tempi previsti.

Scegli Avanti.
Scegli come mappare i campi e completa la mappatura dei campi. Per questo post, poiché non esiste un database di destinazione corrispondente a cui eseguire la mappatura, non è necessario specificare la mappatura.
Scegli Avanti.
Facoltativamente, aggiungi filtri se necessario per limitare i dati trasferiti.
Scegli Avanti.
Controlla i tuoi dati e scegli Crea flusso.

Quando il flusso viene creato, un nastro verde si popolerà nella parte superiore della pagina a indicare che è stato aggiornato correttamente.

Scegli Esegui flusso.

A questo punto, hai trasferito correttamente i tuoi dati da SAP OData ad Amazon S3.

Ora puoi importare i dati dall'app Canvas. Per importare i tuoi dati da Canvas, segui la stessa serie di passaggi descritti in Importazione dei dati sezione precedente in questo post. Per questo esempio, sul Fonte di dati menu a discesa del file Importazione dei dati pagina, puoi vedere SAP OData elencati.

Import data from over 40 data sources for no-code machine learning with Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ora puoi utilizzare tutte le funzionalità di Canvas esistenti, come la pulizia dei dati, la creazione di un modello ML, la visualizzazione dei dati sull'impatto delle colonne e la generazione di previsioni.

ripulire

Per ripulire le risorse di cui è stato eseguito il provisioning, disconnettersi dall'applicazione Canvas scegliendo Log out nel pannello di navigazione.

Import data from over 40 data sources for no-code machine learning with Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Conclusione

Con Canvas, ora puoi importare dati per ML senza codice da 47 origini dati tramite connettori nativi con Athena e Amazon AppFlow tramite il catalogo dati di AWS Glue. Questo processo consente di accedere e aggregare direttamente i dati tra le origini dati all'interno di Canvas dopo che i dati sono stati trasferiti tramite Amazon AppFlow. Puoi automatizzare il trasferimento dei dati per l'attivazione in base a una pianificazione, il che significa che non devi ripetere il processo per aggiornare i dati. Con questo processo, puoi creare nuovi set di dati con i dati più recenti senza dover uscire dall'app Canvas. Questa funzionalità è ora disponibile in tutte le regioni AWS in cui è disponibile Canvas. Per iniziare a importare i tuoi dati, vai alla console Canvas e segui i passaggi descritti in questo post. Per saperne di più, fare riferimento a Connetti a origini dati.

Circa gli autori

Brandon Nair è Senior Product Manager per Amazon SageMaker Canvas. Il suo interesse professionale risiede nella creazione di servizi e applicazioni di machine learning scalabili. Al di fuori del lavoro può essere trovato ad esplorare i parchi nazionali, perfezionare il suo swing nel golf o pianificare un viaggio avventuroso.

Import data from over 40 data sources for no-code machine learning with Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertical Search. Ai. Sanjana Kambalapally è un Software Development Manager per AWS Sagemaker Canvas, che mira a democratizzare l'apprendimento automatico creando applicazioni ML senza codice.

Import data from over 40 data sources for no-code machine learning with Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertical Search. Ai. Xin Xu è un ingegnere di sviluppo software nel team Canvas, dove lavora alla preparazione dei dati, tra gli altri aspetti nei prodotti di machine learning senza codice. Nel tempo libero ama fare jogging, leggere e guardare film.

Import data from over 40 data sources for no-code machine learning with Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertical Search. Ai. Volkan Unsal è Sr. Frontend Engineer nel team Canvas, dove crea prodotti senza codice per rendere l'intelligenza artificiale accessibile agli esseri umani. Nel tempo libero gli piace correre, leggere, guardare gli sport elettronici e le arti marziali.