Aumentare la produttività degli sviluppatori: come Deloitte utilizza Amazon SageMaker Canvas per il machine learning senza codice/a basso codice

Ripubblicato da Platone

Seguaci: 0

La capacità di creare e distribuire rapidamente modelli di machine learning (ML) sta diventando sempre più importante nel mondo odierno basato sui dati. Tuttavia, la creazione di modelli ML richiede molto tempo, impegno e competenze specializzate. Dalla raccolta e pulizia dei dati all'ingegneria delle funzionalità, alla creazione di modelli, all'ottimizzazione e alla distribuzione, il completamento dei progetti ML spesso richiede mesi per essere completato dagli sviluppatori. E può essere difficile trovare data scientist esperti.

È qui che la suite AWS di servizi ML low-code e no-code diventa uno strumento essenziale. Con pochi clic utilizzando Tela di Amazon SageMaker, puoi sfruttare la potenza del machine learning senza dover scrivere codice.

In qualità di integratore di sistemi strategici con una profonda esperienza di ML, Deloitte utilizza gli strumenti di ML no-code e low-code di AWS per creare e distribuire in modo efficiente modelli ML per i clienti di Deloitte e per le risorse interne. Questi strumenti consentono a Deloitte di sviluppare soluzioni ML senza la necessità di codificare manualmente modelli e pipeline. Ciò può aiutare ad accelerare i tempi di consegna del progetto e consentire a Deloitte di farsi carico di più lavoro del cliente.

Di seguito sono riportati alcuni motivi specifici per cui Deloitte utilizza questi strumenti:

Accessibilità per i non programmatori – Gli strumenti senza codice aprono la creazione di modelli ML ai non programmatori. I membri del team con solo competenze nel settore e pochissime competenze di codifica possono sviluppare modelli ML.
Adozione rapida di nuove tecnologie – La disponibilità e il miglioramento costante dei modelli pronti all'uso e di AutoML contribuiscono a garantire che gli utenti utilizzino costantemente tecnologie all'avanguardia.
Sviluppo conveniente – Gli strumenti senza codice aiutano a ridurre i costi e i tempi necessari per lo sviluppo del modello ML, rendendolo più accessibile ai clienti, il che può aiutarli a ottenere un ritorno sull’investimento più elevato.

Inoltre, questi strumenti forniscono una soluzione completa per flussi di lavoro più rapidi, consentendo quanto segue:

Preparazione dei dati più rapida – SageMaker Canvas dispone di oltre 300 trasformazioni integrate e della capacità di utilizzare il linguaggio naturale in grado di accelerare la preparazione dei dati e renderli pronti per la creazione di modelli.
Costruzione del modello più veloce – SageMaker Canvas offre modelli pronti all'uso o Amazon AutoML tecnologia che ti consente di creare modelli personalizzati sui dati aziendali con pochi clic. Ciò aiuta ad accelerare il processo rispetto alla codifica dei modelli da zero.
Distribuzione più semplice – SageMaker Canvas offre la possibilità di distribuire modelli pronti per la produzione su un file Amazon Sagmaker endpoint in pochi clic registrandolo al tempo stesso Registro dei modelli di Amazon SageMaker.

Vishveshwara Vasa, CTO del cloud per Deloitte, dice:

"Tramite i servizi ML senza codice di AWS come SageMaker Canvas e SageMaker Data Wrangler, noi di Deloitte Consulting abbiamo sbloccato nuove efficienze, migliorando la velocità di sviluppo e la produttività di distribuzione del 30-40% nei nostri progetti interni e rivolti ai clienti."

In questo post, dimostriamo la potenza della creazione di un modello ML end-to-end senza codice utilizzando SageMaker Canvas, mostrandoti come creare un modello di classificazione per prevedere se un cliente andrà in default su un prestito. Prevedendo le inadempienze sui prestiti in modo più accurato, il modello può aiutare una società di servizi finanziari a gestire il rischio, valutare i prestiti in modo appropriato, migliorare le operazioni, fornire servizi aggiuntivi e ottenere un vantaggio competitivo. Dimostriamo come SageMaker Canvas può aiutarti a passare rapidamente dai dati grezzi a un modello di classificazione binaria distribuito per la previsione del default del prestito.

SageMaker Canvas offre funzionalità complete di preparazione dei dati basate su Gestore di dati di Amazon SageMaker nell'area di lavoro SageMaker Canvas. Ciò ti consente di affrontare tutte le fasi di un flusso di lavoro ML standard, dalla preparazione dei dati alla creazione e distribuzione del modello, su un'unica piattaforma.

La preparazione dei dati è in genere la fase che richiede più tempo del flusso di lavoro ML. Per ridurre il tempo impiegato nella preparazione dei dati, SageMaker Canvas ti consente di preparare i tuoi dati utilizzando oltre 300 trasformazioni integrate. In alternativa, puoi scrivere istruzioni in linguaggio naturale, ad esempio "rilascia le righe per la colonna c che sono valori anomali" e ti verrà presentato lo snippet di codice necessario per questo passaggio di preparazione dei dati. Puoi quindi aggiungerlo al flusso di lavoro di preparazione dei dati in pochi clic. Ti mostriamo come usarlo anche in questo post.

Panoramica della soluzione

Il diagramma seguente descrive l'architettura per un modello di classificazione predefinito del prestito utilizzando gli strumenti low-code e no-code di SageMaker.

Aumento della produttività degli sviluppatori: in che modo Deloitte utilizza Amazon SageMaker Canvas per il machine learning no-code/low-code | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

A partire da un set di dati contenente dettagli sui dati di default del prestito Servizio di archiviazione semplice Amazon (Amazon S3), utilizziamo SageMaker Canvas per ottenere informazioni dettagliate sui dati. Eseguiamo quindi l'ingegneria delle funzionalità per applicare trasformazioni come la codifica delle funzionalità categoriali, l'eliminazione delle funzionalità non necessarie e altro ancora. Successivamente, archiviamo i dati ripuliti in Amazon S3. Utilizziamo il set di dati ripulito per creare un modello di classificazione per prevedere le inadempienze dei prestiti. Quindi abbiamo un modello pronto per la produzione per l'inferenza.

Prerequisiti

Assicurati che quanto segue prerequisiti siano completi e di aver abilitato il file Modelli in tela pronti all'uso opzione durante la configurazione del dominio SageMaker. Se hai già configurato il tuo dominio, modifica le impostazioni del tuo dominio e andare a Impostazioni della tela per abilitare il Abilita modelli Canvas pronti all'uso opzione. Inoltre, imposta e creare l'applicazione SageMaker Canvas, quindi richiedi e abilita Accesso al modello antropico Claude on Roccia Amazzonica.

dataset

Utilizziamo un set di dati pubblico da kaggle che contiene informazioni sui prestiti finanziari. Ogni riga nel set di dati rappresenta un singolo prestito e le colonne forniscono dettagli su ciascuna transazione. Scarica questo set di dati e archivialo in un bucket S3 a tua scelta. La tabella seguente elenca i campi nel set di dati.

Nome colonna	Tipo di dati	Descrizione
`Person_age`	Numero intero	Età della persona che ha preso il prestito
`Person_income`	Numero intero	Reddito del mutuatario
`Person_home_ownership`	Corda	Stato di proprietà della casa (di proprietà o in affitto)
`Person_emp_length`	Decimale	Numero di anni di lavoro
`Loan_intent`	Corda	Motivo del prestito (personale, medico, educativo e così via)
`Loan_grade`	Corda	Grado del prestito (A–E)
`Loan_int_rate`	Decimale	Tasso d'interesse
`Loan_amnt`	Numero intero	Importo totale del prestito
`Loan_status`	Numero intero	Obiettivo (indipendentemente dal fatto che siano inadempienti o meno)
`Loan_percent_income`	Decimale	Importo del prestito rispetto alla percentuale del reddito
`Cb_person_default_on_file`	Numero intero	Predefinizioni precedenti (se presenti)
`Cb_person_credit_history_length`	Corda	Lunghezza della loro storia creditizia

Semplifica la preparazione dei dati con SageMaker Canvas

La preparazione dei dati può richiedere fino all’80% dello sforzo nei progetti ML. Una corretta preparazione dei dati porta a migliori prestazioni del modello e previsioni più accurate. SageMaker Canvas consente l'esplorazione, la trasformazione e la preparazione interattiva dei dati senza scrivere alcun codice SQL o Python.

Completa i seguenti passaggi per preparare i tuoi dati:

Nella console SageMaker Canvas, scegli Preparazione dei dati nel pannello di navigazione.
Sulla Creare menù, scegliere funzionalità di.
Nel Nome del set di dati, inserisci un nome per il tuo set di dati.
Scegli Creare.
Scegli Amazon S3 come origine dati e connettilo al set di dati.
Dopo aver caricato il set di dati, creare un flusso di dati utilizzando quel set di dati.
Passa alla scheda analisi e crea un file Rapporto sulla qualità dei dati e sugli approfondimenti.

Questo è un passaggio consigliato per analizzare la qualità del set di dati di input. L'output di questo report produce informazioni istantanee basate sul machine learning, ad esempio distorsione dei dati, duplicati nei dati, valori mancanti e molto altro. La schermata seguente mostra un esempio del report generato per il set di dati del prestito.

Generando queste informazioni per tuo conto, SageMaker Canvas ti fornisce una serie di problemi nei dati che necessitano di risoluzione nella fase di preparazione dei dati. Per scegliere i due problemi principali identificati da SageMaker Canvas, devi codificare le caratteristiche categoriche e rimuovere le righe duplicate in modo che la qualità del modello sia elevata. Puoi fare queste e altre cose in un flusso di lavoro visivo con SageMaker Canvas.

Innanzitutto, codifica a caldo il file loan_intent, loan_gradee person_home_ownership
Puoi rilasciare il cb_person_cred_history_length colonna perché ha il minor potere di previsione, come mostrato nel report sulla qualità dei dati e sugli approfondimenti.

SageMaker Canvas ha recentemente aggiunto un file Chatta con i dati opzione. Questa funzionalità utilizza la potenza dei modelli di base per interpretare le query in linguaggio naturale e generare codice basato su Python per applicare trasformazioni di ingegneria delle funzionalità. Questa funzionalità è basata su Amazon Bedrock e può essere configurata per essere eseguita interamente in un VPC in modo che i dati non lascino mai l'ambiente.
Per utilizzare questa funzione per rimuovere le righe duplicate, scegli il segno più accanto a Colonna di rilascio trasforma, quindi scegli Chatta con i dati.
Inserisci la tua query in linguaggio naturale (ad esempio, "Rimuovi righe duplicate dal set di dati").
Esamina la trasformazione generata e scegli Aggiungi ai passaggi per aggiungere la trasformazione al flusso.
Infine, esporta l'output di queste trasformazioni su Amazon S3 o, facoltativamente Negozio di funzionalità Amazon SageMaker per utilizzare queste funzionalità su più progetti.

Puoi anche aggiungere un'altra fase per creare una destinazione Amazon S3 per il set di dati per ridimensionare il flusso di lavoro per un set di dati di grandi dimensioni. Il diagramma seguente mostra il flusso di dati di SageMaker Canvas dopo l'aggiunta delle trasformazioni visive.

Hai completato l'intera fase di elaborazione dei dati e di progettazione delle funzionalità utilizzando flussi di lavoro visivi in SageMaker Canvas. Ciò aiuta a ridurre da settimane a giorni il tempo che un ingegnere dei dati dedica alla pulizia e alla preparazione dei dati per lo sviluppo del modello. Il passaggio successivo è creare il modello ML.

Costruisci un modello con SageMaker Canvas

Amazon SageMaker Canvas fornisce un flusso di lavoro end-to-end senza codice per creare, analizzare, testare e distribuire questo modello di classificazione binaria. Completa i seguenti passaggi:

Crea un set di dati in SageMaker Canvas.
Specificare la posizione S3 utilizzata per esportare i dati o la posizione S3 che si trova nella destinazione del lavoro SageMaker Canvas.

Ora sei pronto per costruire il modello.
Scegli Modelli nel riquadro di navigazione e scegli Nuovo modello.
Assegna un nome al modello e seleziona Analisi predittiva come tipo di modello.
Scegli il set di dati creato nel passaggio precedente.

Il passaggio successivo è la configurazione del tipo di modello.
Scegli la colonna di destinazione e il tipo di modello verrà automaticamente impostato come previsione di categoria 2.
Scegli il tipo di costruzione, Costruzione standard or Costruzione rapida.

SageMaker Canvas visualizza il tempo di costruzione previsto non appena inizi a costruire il modello. La compilazione standard richiede solitamente dalle 2 alle 4 ore; puoi utilizzare l'opzione di creazione rapida per set di dati più piccoli, che richiede solo 2-15 minuti. Per questo particolare set di dati, il completamento della creazione del modello dovrebbe richiedere circa 45 minuti. SageMaker Canvas ti tiene informato sullo stato di avanzamento del processo di creazione.
Dopo aver creato il modello, è possibile esaminarne le prestazioni.

SageMaker Canvas fornisce varie metriche come accuratezza, precisione e punteggio F1 a seconda del tipo di modello. Lo screenshot seguente mostra la precisione e alcuni altri parametri avanzati per questo modello di classificazione binaria.
Il passo successivo è fare previsioni di prova.
SageMaker Canvas ti consente di effettuare previsioni batch su più input o su una singola previsione per verificare rapidamente la qualità del modello. Lo screenshot seguente mostra un'inferenza di esempio.
L'ultimo passaggio consiste nel distribuire il modello addestrato.
SageMaker Canvas distribuisce il modello sugli endpoint SageMaker e ora hai un modello di produzione pronto per l'inferenza. Lo screenshot seguente mostra l'endpoint distribuito.

Una volta distribuito il modello, puoi richiamarlo tramite l'SDK AWS o Interfaccia della riga di comando di AWS (AWS CLI) o effettua chiamate API a qualsiasi applicazione di tua scelta per prevedere con sicurezza il rischio di un potenziale mutuatario. Per ulteriori informazioni sul test del modello, fare riferimento a Richiama endpoint in tempo reale.

ripulire

Per evitare di incorrere in costi aggiuntivi, disconnettersi da SageMaker Canvas or eliminare il dominio SageMaker che è stato creato. Inoltre, eliminare l'endpoint del modello SageMaker ed eliminare il set di dati caricato su Amazon S3.

Conclusione

Il machine learning senza codice accelera lo sviluppo, semplifica l'implementazione, non richiede competenze di programmazione, aumenta la standardizzazione e riduce i costi. Questi vantaggi hanno reso il machine learning senza codice interessante per Deloitte per migliorare le proprie offerte di servizi di machine learning e hanno ridotto le tempistiche di creazione dei modelli di machine learning del 30-40%.

Deloitte è un integratore di sistemi globale strategico con oltre 17,000 professionisti AWS certificati in tutto il mondo. Continua ad alzare il livello attraverso la partecipazione al programma AWS Competency con 25 competenze, incluso il Machine Learning. Connettiti con Deloitte per iniziare a utilizzare le soluzioni AWS no-code e low-code per la tua azienda.

Circa gli autori

Chida Sadayappan guida la pratica Cloud AI/Machine Learning di Deloitte. Porta una forte esperienza di leadership di pensiero negli impegni e prospera nel supportare le parti interessate esecutive a raggiungere obiettivi di miglioramento delle prestazioni e di modernizzazione in tutti i settori utilizzando AI/ML. Chida è un imprenditore tecnologico seriale e un appassionato costruttore di comunità negli ecosistemi di startup e sviluppatori.

Kuldeep Singh, uno dei principali leader globali di AI/ML presso AWS con oltre 20 anni di esperienza nel settore tecnologico, combina abilmente le sue competenze di vendita e imprenditorialità con una profonda conoscenza di AI, ML e sicurezza informatica. Eccelle nella creazione di partnership strategiche globali, nella promozione di soluzioni e strategie trasformative in vari settori con particolare attenzione all'intelligenza artificiale generativa e ai GSI.

Kasi Muthu è un architetto di soluzioni per partner senior specializzato in dati e AI/ML presso AWS con sede a Houston, Texas. La sua passione è aiutare partner e clienti ad accelerare il loro percorso verso i dati cloud. È un consulente fidato in questo campo e ha molta esperienza nell'architettura e nella creazione di carichi di lavoro scalabili, resilienti e performanti nel cloud. Al di fuori del lavoro, gli piace trascorrere del tempo con la sua famiglia.