Riduci i costi di inferenza di Amazon SageMaker con AWS Graviton

Ripubblicato da Platone

Seguaci: 0

Amazon Sage Maker offre un'ampia selezione di infrastrutture di machine learning (ML) e opzioni di distribuzione del modello per soddisfare le tue esigenze di inferenza ML. È un servizio completamente gestito e si integra con gli strumenti MLOps in modo da poter lavorare per ridimensionare la distribuzione del modello, ridurre i costi di inferenza, gestire i modelli in modo più efficace nella produzione e ridurre il carico operativo. SageMaker fornisce più opzioni di inferenza così puoi scegliere l'opzione che meglio si adatta al tuo carico di lavoro.

Le nuove generazioni di CPU offrono un significativo miglioramento delle prestazioni nell'inferenza ML grazie a istruzioni incorporate specializzate. In questo post, ci concentriamo su come puoi sfruttare il AWS Gravitone3basato su Amazon Elastic Compute Cloud (EC2) istanze C7g per aiutare a ridurre i costi di inferenza fino al 50% rispetto a istanze EC2 comparabili per inferenza in tempo reale su Amazon SageMaker. Mostriamo come puoi valutare le prestazioni dell'inferenza e passare i tuoi carichi di lavoro ML alle istanze AWS Graviton in pochi passaggi.

Per coprire la vasta e popolare gamma di applicazioni dei clienti, in questo post discutiamo le prestazioni di inferenza di PyTorch, TensorFlow, XGBoost e i framework scikit-learn. Copriamo scenari di visione artificiale (CV), elaborazione del linguaggio naturale (NLP), classificazione e classificazione per modelli e istanze ml.c6g, ml.c7g, ml.c5 e ml.c6i SageMaker per il benchmarking.

Risultati comparativi

Per confronto, abbiamo utilizzato quattro diversi tipi di istanza:

Tutte e quattro le istanze hanno 16 vCPU e 32 GiB di memoria.

Nel grafico seguente, abbiamo misurato l'inferenza del costo per milione per i quattro tipi di istanza. Abbiamo ulteriormente normalizzato i risultati dell'inferenza del costo per milione a un'istanza c5.4xlarge, misurata come 1 sull'asse Y del grafico. Puoi vedere che per i modelli XGBoost, l'inferenza del costo per milione per c7g.4xlarge (AWS Graviton3) è circa il 50% di c5.4xlarge e il 40% di c6i.4xlarge; per i modelli PyTorch NLP, il risparmio sui costi è di circa il 30-50% rispetto alle istanze c5 e c6i.4xlarge. Per altri modelli e framework, abbiamo misurato almeno il 30% di risparmio sui costi rispetto alle istanze c5 e c6i.4xlarge.

Riduci i costi di inferenza di Amazon SageMaker con AWS Graviton PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Analogamente al precedente grafico di confronto dei costi di inferenza, il grafico seguente mostra la latenza p90 del modello per gli stessi quattro tipi di istanza. Abbiamo ulteriormente normalizzato i risultati della latenza all'istanza c5.4xlarge, che viene misurata come 1 nell'asse Y del grafico. La latenza di inferenza del modello c7g.4xlarge (AWS Graviton3) è fino al 50% migliore rispetto alle latenze misurate su c5.4xlarge e c6i.4xlarge.

Riduci i costi di inferenza di Amazon SageMaker con AWS Graviton PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Migra alle istanze AWS Graviton

Per distribuire i tuoi modelli alle istanze AWS Graviton, puoi utilizzare Contenitori per l'apprendimento profondo AWS (DLC) o porta i tuoi contenitori compatibili con l'architettura ARMv8.2.

La migrazione (o nuova distribuzione) dei tuoi modelli alle istanze AWS Graviton è semplice perché non solo AWS fornisce container per ospitare modelli con PyTorch, TensorFlow, scikit-learn e XGBoost, ma i modelli sono anche indipendenti dall'architettura. Puoi anche portare le tue librerie, ma assicurati che il tuo contenitore sia costruito con un ambiente che supporti l'architettura ARMv8.2. Per ulteriori informazioni, vedere Costruire il proprio contenitore di algoritmi.

Dovrai completare tre passaggi per distribuire il tuo modello:

Crea un modello SageMaker. Questo conterrà, tra gli altri parametri, le informazioni sulla posizione del file del modello, il contenitore che verrà utilizzato per la distribuzione e la posizione dello script di inferenza. (Se disponi di un modello esistente già distribuito in un'istanza di inferenza ottimizzata per il calcolo, puoi saltare questo passaggio).
Creare una configurazione dell'endpoint. Questo conterrà informazioni sul tipo di istanza che desideri per l'endpoint (ad esempio, ml.c7g.xlarge per AWS Graviton3), il nome del modello che hai creato nella fase precedente e il numero di istanze per endpoint.
Avvia l'endpoint con la configurazione dell'endpoint creata nel passaggio precedente.

Per istruzioni dettagliate, fare riferimento a Esegui carichi di lavoro di inferenza di machine learning su istanze basate su AWS Graviton con Amazon SageMaker

Metodologia di benchmarking

Abbiamo usato Raccomandatore di inferenza Amazon SageMaker per automatizzare il benchmarking delle prestazioni tra diverse istanze. Questo servizio confronta le prestazioni del tuo modello ML in termini di latenza e costo su diverse istanze e consiglia l'istanza e la configurazione che offre le migliori prestazioni al minor costo. Abbiamo raccolto i suddetti dati sulle prestazioni utilizzando Inference Recommender. Per maggiori dettagli, consultare il Repository GitHub.

È possibile utilizzare il taccuino di esempio per eseguire i benchmark e riprodurre i risultati. Abbiamo utilizzato i seguenti modelli per il benchmarking:

Conclusione

AWS ha misurato fino al 50% di risparmio sui costi per PyTorch, TensorFlow, XGBoost e l'inferenza del modello scikit-learn con istanze EC3 C2g basate su AWS Graviton7 rispetto a istanze EC2 comparabili su Amazon SageMaker. Puoi migrare i tuoi casi d'uso di inferenza esistenti o distribuire nuovi modelli ML su AWS Graviton seguendo i passaggi forniti in questo post. Puoi anche fare riferimento al Guida tecnica di AWS Graviton, che fornisce l'elenco delle librerie ottimizzate e delle best practice che ti aiuteranno a ottenere vantaggi in termini di costi con le istanze AWS Graviton su diversi carichi di lavoro.

Se trovi casi d'uso in cui non si osservano miglioramenti delle prestazioni simili su AWS Graviton, contattaci. Continueremo ad aggiungere ulteriori miglioramenti delle prestazioni per rendere AWS Graviton il processore per uso generico più conveniente ed efficiente per l'inferenza ML.

Circa gli autori

Riduci i costi di inferenza di Amazon SageMaker con AWS Graviton PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Sunita Nadampalli è un Software Development Manager presso AWS. Dirige le ottimizzazioni delle prestazioni del software Graviton per carichi di lavoro di machine learning, HPC e multimediali. È appassionata dello sviluppo open source e della fornitura di soluzioni software convenienti con i SoC Arm.

Riduci i costi di inferenza di Amazon SageMaker con AWS Graviton PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Jaymin Desai è un Software Development Engineer del team di Amazon SageMaker Inference. È appassionato di portare l'intelligenza artificiale alle masse e migliorare l'usabilità delle risorse di intelligenza artificiale all'avanguardia trasformandole in funzionalità e servizi. Nel tempo libero ama esplorare la musica e viaggiare.

Riduci i costi di inferenza di Amazon SageMaker con AWS Graviton PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Mike Schneider è uno sviluppatore di sistemi, con sede a Phoenix AZ. È membro dei container Deep Learning, che supportano varie immagini di container Framework, tra cui Graviton Inference. Si dedica all'efficienza e alla stabilità delle infrastrutture.

Mohan Gandhi è Senior Software Engineer presso AWS. È stato con AWS negli ultimi 10 anni e ha lavorato su vari servizi AWS come EMR, EFA e RDS. Attualmente, è concentrato sul miglioramento dell'esperienza di inferenza di SageMaker. Nel tempo libero ama fare escursioni e maratone.

Riduci i costi di inferenza di Amazon SageMaker con AWS Graviton PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. QingweiLi è uno specialista dell'apprendimento automatico di Amazon Web Services. Ha ricevuto il suo dottorato di ricerca. in Operations Research dopo aver rotto il conto di borsa di ricerca del suo consulente e non è riuscito a consegnare il premio Nobel che ha promesso. Attualmente aiuta i clienti nel settore dei servizi finanziari e assicurativi a sviluppare soluzioni di machine learning su AWS. Nel suo tempo libero, gli piace leggere e insegnare.

Wayne To è Specialist Solutions Architect per Graviton presso AWS. Si concentra sull'aiutare i clienti ad adottare l'architettura ARM per carichi di lavoro di container su larga scala. Prima di entrare in AWS, Wayne ha lavorato per diversi grandi fornitori di software, tra cui IBM e Red Hat.

Lauren Mullenx è una Solutions Architect con sede a Denver, CO. Lavora con i clienti per aiutarli a progettare soluzioni su AWS. Nel tempo libero le piace fare escursioni e cucinare la cucina hawaiana.