In che modo Getir ha ridotto la durata della formazione dei modelli del 90% con Amazon SageMaker e AWS Batch

Ripubblicato da Platone

Seguaci: 0

Questo è un guest post scritto in collaborazione da Nafi Ahmet Turgut, Hasan Burak Yel e Damla Şentürk di Getir.

Fondata nel 2015, portato si è posizionata come pioniere nel campo della consegna ultraveloce di generi alimentari. Questa innovativa azienda tecnologica ha rivoluzionato il segmento delle consegne dell’ultimo miglio con la sua interessante offerta di “generi alimentari in pochi minuti”. Con una presenza in Turchia, Regno Unito, Paesi Bassi, Germania e Stati Uniti, Getir è diventata una forza multinazionale da non sottovalutare. Oggi, il marchio Getir rappresenta un conglomerato diversificato che comprende nove diversi settori verticali, che lavorano tutti in sinergia sotto un unico ombrello.

In questo post, spieghiamo come abbiamo creato una pipeline di previsione delle categorie di prodotto end-to-end per aiutare i team commerciali a utilizzarla Amazon Sage Maker ed Batch AWS, riducendo la durata dell'addestramento del modello del 90%.

Comprendere in modo dettagliato il nostro assortimento di prodotti esistente è una sfida cruciale che noi, insieme a molte aziende, affrontiamo nel mercato competitivo e frenetico di oggi. Una soluzione efficace a questo problema è la previsione delle categorie di prodotti. Un modello che genera un albero di categorie completo consente ai nostri team commerciali di confrontare il nostro portafoglio di prodotti esistente con quello dei nostri concorrenti, offrendo un vantaggio strategico. Pertanto, la nostra sfida principale è la creazione e l’implementazione di un accurato modello di previsione delle categorie di prodotto.

Abbiamo sfruttato i potenti strumenti forniti da AWS per affrontare questa sfida e navigare in modo efficace nel complesso campo del machine learning (ML) e dell'analisi predittiva. I nostri sforzi hanno portato alla creazione di successo di una pipeline di previsione delle categorie di prodotti end-to-end, che combina i punti di forza di SageMaker e AWS Batch.

Questa capacità di analisi predittiva, in particolare la previsione accurata delle categorie di prodotti, si è rivelata preziosa. Ha fornito ai nostri team informazioni critiche basate sui dati che hanno ottimizzato la gestione dell'inventario, migliorato le interazioni con i clienti e rafforzato la nostra presenza sul mercato.

La metodologia che spieghiamo in questo post spazia dalla fase iniziale di raccolta del set di funzionalità all'implementazione finale della pipeline di previsione. Un aspetto importante della nostra strategia è stato l'uso di SageMaker e AWS Batch per perfezionare modelli BERT preaddestrati per sette lingue diverse. Inoltre, la nostra perfetta integrazione con il servizio di storage di oggetti di AWS Servizio di archiviazione semplice Amazon (Amazon S3) è stato fondamentale per archiviare e accedere in modo efficiente a questi modelli raffinati.

SageMaker è un servizio ML completamente gestito. Con SageMaker, data scientist e sviluppatori possono creare e addestrare modelli ML in modo rapido e semplice e quindi distribuirli direttamente in un ambiente ospitato pronto per la produzione.

Essendo un servizio completamente gestito, AWS Batch ti aiuta a eseguire carichi di lavoro di elaborazione batch di qualsiasi scala. AWS Batch effettua automaticamente il provisioning delle risorse di calcolo e ottimizza la distribuzione del carico di lavoro in base alla quantità e alla scala dei carichi di lavoro. Con AWS Batch, non è necessario installare o gestire software di elaborazione batch, quindi puoi concentrare il tuo tempo sull'analisi dei risultati e sulla risoluzione dei problemi. Abbiamo utilizzato processi GPU che ci aiutano a eseguire processi che utilizzano le GPU di un'istanza.

Panoramica della soluzione

Cinque persone del team di scienza dei dati e del team dell'infrastruttura di Getir hanno lavorato insieme a questo progetto. Il progetto è stato completato in un mese e messo in produzione dopo una settimana di test.

Il diagramma seguente mostra l'architettura della soluzione.

In che modo Getir ha ridotto la durata dell'addestramento dei modelli del 90% con Amazon SageMaker e AWS Batch | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Il modello di pipeline viene eseguito separatamente per ciascun paese. L'architettura include due processi cron GPU AWS Batch per ciascun paese, in esecuzione secondo pianificazioni definite.

Abbiamo superato alcune sfide distribuendo strategicamente le risorse GPU SageMaker e AWS Batch. Il processo utilizzato per affrontare ciascuna difficoltà è dettagliato nelle sezioni seguenti.

Ottimizzazione dei modelli BERT multilingue con lavori GPU AWS Batch

Abbiamo cercato una soluzione per supportare più lingue per la nostra base di utenti diversificata. I modelli BERT sono stati una scelta ovvia grazie alla loro consolidata capacità di gestire in modo efficace compiti complessi legati al linguaggio naturale. Per adattare questi modelli alle nostre esigenze, abbiamo sfruttato la potenza di AWS utilizzando processi di istanze GPU a nodo singolo. Ciò ci ha consentito di ottimizzare i modelli BERT preaddestrati per ciascuna delle sette lingue per le quali richiedevamo supporto. Attraverso questo metodo, abbiamo garantito un’elevata precisione nella previsione delle categorie di prodotto, superando eventuali barriere linguistiche.

Archiviazione efficiente dei modelli utilizzando Amazon S3

Il nostro passo successivo è stato quello di affrontare l'archiviazione e la gestione dei modelli. Per questo abbiamo selezionato Amazon S3, noto per la sua scalabilità e sicurezza. L'archiviazione dei nostri modelli BERT ottimizzati su Amazon S3 ci ha permesso di fornire un facile accesso a diversi team all'interno della nostra organizzazione, semplificando così in modo significativo il nostro processo di distribuzione. Questo è stato un aspetto cruciale per ottenere agilità nelle nostre operazioni e una perfetta integrazione dei nostri sforzi di ML.

Creazione di una pipeline di previsione end-to-end

Era necessaria una pipeline efficiente per utilizzare al meglio i nostri modelli pre-addestrati. Abbiamo inizialmente distribuito questi modelli su SageMaker, un'azione che ha consentito previsioni in tempo reale con bassa latenza, migliorando così la nostra esperienza utente. Per previsioni batch su larga scala, altrettanto vitali per le nostre operazioni, abbiamo utilizzato lavori GPU AWS Batch. Ciò ha garantito l’utilizzo ottimale delle nostre risorse, fornendoci un perfetto equilibrio tra prestazioni ed efficienza.

Esplorare le possibilità future con gli MME SageMaker

Mentre continuiamo ad evolverci e a cercare efficienza nella nostra pipeline ML, una strada che desideriamo esplorare è l'utilizzo degli endpoint multi-modello (MME) SageMaker per la distribuzione dei nostri modelli ottimizzati. Con gli MME, possiamo potenzialmente semplificare l'implementazione di vari modelli ottimizzati, garantendo una gestione efficiente dei modelli e beneficiando al tempo stesso delle funzionalità native di SageMaker come varianti shadow, ridimensionamento automatico e Amazon Cloud Watch integrazione. Questa esplorazione è in linea con la nostra continua ricerca di migliorare le nostre capacità di analisi predittiva e di fornire esperienze superiori ai nostri clienti.

Conclusione

La nostra riuscita integrazione di SageMaker e AWS Batch non solo ha risolto le nostre sfide specifiche, ma ha anche aumentato significativamente la nostra efficienza operativa. Attraverso l'implementazione di una sofisticata pipeline di previsione delle categorie di prodotto, siamo in grado di fornire ai nostri team commerciali approfondimenti basati sui dati, facilitando così un processo decisionale più efficace.

I nostri risultati la dicono lunga sull'efficacia del nostro approccio. Abbiamo raggiunto un'accuratezza di previsione dell'80% su tutti e quattro i livelli di granularità delle categorie, che svolge un ruolo importante nel modellare gli assortimenti di prodotti per ciascun paese che serviamo. Questo livello di precisione estende la nostra portata oltre le barriere linguistiche e ci garantisce di soddisfare la nostra diversificata base di utenti con la massima accuratezza.

Inoltre, utilizzando strategicamente lavori GPU AWS Batch pianificati, siamo stati in grado di ridurre la durata dell'addestramento dei nostri modelli del 90%. Questa efficienza ha ulteriormente semplificato i nostri processi e rafforzato la nostra agilità operativa. Lo storage efficiente dei modelli utilizzando Amazon S3 ha svolto un ruolo fondamentale in questo risultato, bilanciando sia le previsioni in tempo reale che quelle batch.

Per ulteriori informazioni su come iniziare a creare le tue pipeline ML con SageMaker, consulta Risorse Amazon SageMaker. AWS Batch è un'opzione eccellente se stai cercando una soluzione scalabile e a basso costo per l'esecuzione di processi batch con costi operativi bassi. Per iniziare, vedere Nozioni di base su AWS Batch.

Informazioni sugli autori

Nafi Ahmet Turgut ha conseguito la laurea magistrale in Ingegneria elettrica ed elettronica e ha lavorato come ricercatore laureato. Il suo obiettivo era costruire algoritmi di apprendimento automatico per simulare anomalie della rete nervosa. È entrato in Getir nel 2019 e attualmente lavora come Senior Data Science & Analytics Manager. Il suo team è responsabile della progettazione, implementazione e manutenzione di algoritmi di machine learning end-to-end e soluzioni basate sui dati per Getir.

In che modo Getir ha ridotto la durata dell'addestramento dei modelli del 90% con Amazon SageMaker e AWS Batch | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Hasan Burak Yel ha conseguito la laurea in Ingegneria Elettrica ed Elettronica presso l'Università di Boğaziçi. Ha lavorato presso Turkcell, concentrandosi principalmente sulla previsione delle serie temporali, sulla visualizzazione dei dati e sull'automazione della rete. È entrato in Getir nel 2021 e attualmente lavora come Data Science & Analytics Manager con la responsabilità dei domini Ricerca, Raccomandazione e Crescita.

In che modo Getir ha ridotto la durata dell'addestramento dei modelli del 90% con Amazon SageMaker e AWS Batch | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Damla Senturk ha conseguito la laurea in Ingegneria Informatica presso l'Università Galatasaray. Continua il suo master in Ingegneria Informatica presso l'Università di Boğaziçi. È entrata in Getir nel 2022 e ha lavorato come Data Scientist. Ha lavorato su progetti commerciali, di supply chain e legati alla scoperta.

In che modo Getir ha ridotto la durata dell'addestramento dei modelli del 90% con Amazon SageMaker e AWS Batch | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Esra Kayabali è un Senior Solutions Architect presso AWS, specializzato nel dominio dell'analisi, tra cui data warehousing, data lake, analisi di big data, streaming di dati in batch e in tempo reale e integrazione dei dati. Ha 12 anni di esperienza nello sviluppo di software e nell'architettura. È appassionata di apprendimento e insegnamento delle tecnologie cloud.