Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services

Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services

In der dynamischen Welt des Streamings weiter Amazon MusikJede Suche nach einem Song, einem Podcast oder einer Playlist birgt eine Geschichte, eine Stimmung oder eine Flut von Emotionen, die darauf warten, enthüllt zu werden. Diese Suchen dienen als Tor zu neuen Entdeckungen, geschätzten Erfahrungen und bleibenden Erinnerungen. In der Suchleiste geht es nicht nur darum, ein Lied zu finden; Es geht um die Millionen aktiver Nutzer, die ihre persönliche Reise in die reiche und vielfältige Welt beginnen, die Amazon Music zu bieten hat.

Um ein erstklassiges Kundenerlebnis zu bieten und die Musik, nach der Benutzer suchen, sofort zu finden, ist eine Plattform erforderlich, die sowohl intelligent als auch reaktionsfähig ist. Amazon Music nutzt dazu die Kraft der KI. Allerdings ist es in Spitzenverkehrszeiten schwierig, das Kundenerlebnis zu optimieren und gleichzeitig die Kosten für Schulung und Inferenz von KI-Modellen zu verwalten, die die Funktionen der Suchleiste unterstützen, wie z. B. Rechtschreibprüfung in Echtzeit und Vektorsuche.

Amazon Sage Maker bietet eine End-to-End-Reihe von Diensten, die es Amazon Music ermöglichen, mit minimalem Aufwand in der AWS Cloud zu erstellen, zu trainieren und bereitzustellen. Indem SageMaker sich um die undifferenzierte Schwerarbeit kümmert, können Sie sich auf die Arbeit an Ihren Modellen für maschinelles Lernen (ML) konzentrieren und müssen sich nicht um Dinge wie die Infrastruktur kümmern. Als Teil des Modells der geteilten Verantwortung stellt SageMaker sicher, dass die von ihnen bereitgestellten Dienste zuverlässig, leistungsstark und skalierbar sind, während Sie sicherstellen, dass die Anwendung der ML-Modelle die von SageMaker bereitgestellten Funktionen optimal nutzt.

In diesem Beitrag gehen wir durch den Weg, den Amazon Music unternommen hat, um Leistung und Kosten mithilfe von SageMaker und NVIDIA Triton Inference Server und TensorRT zu optimieren. Wir zeigen Ihnen ausführlich, wie diese scheinbar einfache, aber komplizierte Suchleiste funktioniert und sorgen für eine ununterbrochene Reise in das Universum von Amazon Music mit kaum bis gar keinen frustrierenden Tippfehlerverzögerungen und relevanten Echtzeit-Suchergebnissen.

Amazon SageMaker und NVIDIA: Bereitstellung schneller und genauer Vektorsuch- und Rechtschreibprüfungsfunktionen

Amazon Music bietet eine riesige Bibliothek mit über 100 Millionen Songs und Millionen Podcast-Episoden. Allerdings kann es eine Herausforderung sein, den richtigen Song oder Podcast zu finden, insbesondere wenn Sie den genauen Titel, Interpreten oder Albumnamen nicht kennen oder die Suchanfrage sehr weit gefasst ist, wie zum Beispiel „Nachrichten-Podcasts“.

Amazon Music hat einen zweigleisigen Ansatz gewählt, um den Such- und Abrufprozess zu verbessern. Der erste Schritt besteht in der Einführung der Vektorsuche (auch bekannt als einbettungsbasierter Abruf), einer ML-Technik, die Benutzern dabei helfen kann, mithilfe der Semantik des Inhalts den relevantesten Inhalt zu finden, nach dem sie suchen. Der zweite Schritt umfasst die Einführung eines Transformer-basierten Rechtschreibkorrekturmodells in den Suchstapel. Dies kann besonders bei der Suche nach Musik hilfreich sein, da Benutzer möglicherweise nicht immer die genaue Schreibweise eines Songtitels oder Künstlernamens kennen. Mithilfe der Rechtschreibkorrektur können Nutzer die gesuchte Musik auch dann finden, wenn ihnen bei ihrer Suchanfrage ein Rechtschreibfehler unterläuft.

Die Einführung von Transformer-Modellen in einer Such- und Abrufpipeline (in der Abfrageeinbettungsgenerierung, die für die Vektorsuche benötigt wird, und des generativen Seq2Seq-Transformermodells in der Rechtschreibkorrektur) kann zu einer erheblichen Erhöhung der Gesamtlatenz führen und sich negativ auf das Kundenerlebnis auswirken. Daher war es für uns oberste Priorität, die Echtzeit-Inferenzlatenz für Vektorsuch- und Rechtschreibkorrekturmodelle zu optimieren.

Amazon Music und NVIDIA haben sich zusammengetan, um das bestmögliche Kundenerlebnis in die Suchleiste zu bringen, indem sie SageMaker nutzen, um sowohl schnelle und genaue Rechtschreibprüfungsfunktionen als auch semantische Suchvorschläge in Echtzeit mithilfe vektorsuchbasierter Techniken zu implementieren. Die Lösung umfasst die Verwendung von SageMaker-Hosting mit G5-Instanzen, die NVIDIA A10G Tensor Core-GPUs, den von SageMaker unterstützten NVIDIA Triton Inference Server Container und den verwenden NVIDIA TensorRT Modellformat. Durch die Reduzierung der Inferenzlatenz des Rechtschreibprüfungsmodells auf 25 Millisekunden bei Spitzenverkehr und die Reduzierung der Latenz bei der Generierung der Einbettung von Suchanfragen um durchschnittlich 63 % und der Kosten um 73 % im Vergleich zur CPU-basierten Inferenz hat Amazon Music die Leistung der Suchleiste gesteigert.

Darüber hinaus erreichte Amazon Music beim Training des KI-Modells, um genaue Ergebnisse zu liefern, eine satte 12-fache Beschleunigung der Trainingszeit für sein BART-Sequenz-zu-Sequenz-Rechtschreibkorrektur-Transformator-Modell und sparte durch die Optimierung der GPU-Auslastung sowohl Zeit als auch Geld.

Amazon Music hat sich mit NVIDIA zusammengetan, um dem Kundensucherlebnis Priorität einzuräumen und eine Suchleiste mit gut optimierten Rechtschreibprüfungs- und Vektorsuchfunktionen zu erstellen. In den folgenden Abschnitten erzählen wir mehr darüber, wie diese Optimierungen orchestriert wurden.

Optimierung des Trainings mit NVIDIA Tensor Core GPUs

Der Zugriff auf eine NVIDIA Tensor Core-GPU für das Training großer Sprachmodelle reicht nicht aus, um ihr wahres Potenzial auszuschöpfen. Während des Trainings müssen wichtige Optimierungsschritte durchgeführt werden, um die GPU-Auslastung vollständig zu maximieren. Eine nicht ausreichend ausgelastete GPU führt jedoch zweifellos zu einer ineffizienten Ressourcennutzung, längeren Schulungszeiten und höheren Betriebskosten.

In den ersten Phasen des Trainings wird der Rechtschreibkorrektor BART (Bart-Basis) Transformer-Modell auf einer SageMaker ml.p3.24xlarge-Instanz (8 NVIDIA V100 Tensor Core GPUs) betrug die GPU-Auslastung von Amazon Music etwa 35 %. Um die Vorteile des NVIDIA GPU-beschleunigten Trainings zu maximieren, unterstützten die Lösungsarchitekten von AWS und NVIDIA Amazon Music bei der Identifizierung von Optimierungsbereichen, insbesondere im Hinblick auf die Batch-Größe und die Präzisionsparameter. Diese beiden entscheidenden Parameter beeinflussen die Effizienz, Geschwindigkeit und Genauigkeit des Trainings von Deep-Learning-Modellen.

Die daraus resultierenden Optimierungen führten zu einer neuen und verbesserten V100-GPU-Auslastung, die konstant bei etwa 89 % liegt, wodurch sich die Schulungszeit von Amazon Music drastisch von 3 Tagen auf 5–6 Stunden verkürzte. Durch Ändern der Stapelgröße von 32 auf 256 und Verwenden von Optimierungstechniken wie Ausführen automatisches gemischtes Präzisionstraining Anstatt nur die FP32-Präzision zu verwenden, konnte Amazon Music sowohl Zeit als auch Geld sparen.

Das folgende Diagramm veranschaulicht den Anstieg der GPU-Auslastung um 54 Prozentpunkte nach Optimierungen.

Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Die folgende Abbildung veranschaulicht die Beschleunigung der Trainingszeit.

Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Diese Erhöhung der Batchgröße ermöglichte es der NVIDIA-GPU, deutlich mehr Daten gleichzeitig auf mehreren Tensor-Kernen zu verarbeiten, was zu einer beschleunigten Trainingszeit führte. Es ist jedoch wichtig, beim Speicher ein ausgewogenes Verhältnis zu wahren, da größere Batchgrößen mehr Speicher erfordern. Sowohl die Erhöhung der Stapelgröße als auch der Einsatz gemischter Präzision können entscheidend sein, um die Leistung von NVIDIA Tensor Core-GPUs freizusetzen.

Nachdem das Modell auf Konvergenz trainiert wurde, war es an der Zeit, es für die Inferenzbereitstellung in der Suchleiste von Amazon Music zu optimieren.

Rechtschreibkorrektur: Inferenzierung des BART-Modells

Mit Hilfe von SageMaker G5-Instanzen und NVIDIA Triton Inference Server (einer Open-Source-Inferenzbereitstellungssoftware) sowie NVIDIA TensorRT, einem SDK für leistungsstarke Deep-Learning-Inferenz, das einen Inferenzoptimierer und eine Laufzeit umfasst, begrenzt Amazon Music seine Rechtschreibprüfung BART (Bart-Basis) modellieren die Server-Inferenzlatenz bei Spitzenverkehr auf nur 25 Millisekunden. Dazu gehören Gemeinkosten wie Lastausgleich, Vorverarbeitung, Modellinferenz und Nachverarbeitungszeiten.

NVIDIA Triton Inference Server bietet zwei verschiedene Arten von Backends: eines zum Hosten von Modellen auf der GPU und ein Python-Backend, in das Sie Ihren eigenen benutzerdefinierten Code einbringen können, der in Vor- und Nachverarbeitungsschritten verwendet werden kann. Die folgende Abbildung veranschaulicht dies Modell-Ensemble-Schema.

Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Amazon Music hat seinen BART entwickelt Inferenzpipeline indem sowohl Vorverarbeitungsschritte (Text-Tokenisierung) als auch Nachverarbeitungsschritte (Tokens zu Text) auf CPUs ausgeführt werden, während der Modellausführungsschritt weiter ausgeführt wird NVIDIA A10G Tensor Core GPUs. Ein Python-Backend befindet sich in der Mitte der Vor- und Nachverarbeitungsschritte und ist für die Kommunikation mit den TensorRT-konvertierten BART-Modellen sowie den Encoder-/Decoder-Netzwerken verantwortlich. TensorRT steigert die Inferenzleistung durch Präzisionskalibrierung, Layer- und Tensorfusion, Kernel-Auto-Tuning, dynamischen Tensorspeicher, Multi-Stream-Ausführung und Zeitfusion.

Die folgende Abbildung veranschaulicht das übergeordnete Design der Schlüsselmodule, aus denen die Inferenzpipeline des BART-Modells für die Rechtschreibkorrektur besteht.

Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Vektorsuche: Abfrageeinbettung zur Erzeugung eines Satzes, BERT-Modellinferenz

Das folgende Diagramm zeigt die 60-prozentige Verbesserung der Latenz (für p90 800–900 TPS) bei Verwendung der NVIDIA AI Inference Platform im Vergleich zu einer CPU-basierten Basislinie.

Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Das folgende Diagramm zeigt eine Kostensenkung von 70 % bei Verwendung der NVIDIA AI Inference Platform im Vergleich zu einer CPU-basierten Basislinie.

Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Die folgende Abbildung zeigt ein SDK für leistungsstarke Deep-Learning-Inferenz. Es umfasst einen Deep-Learning-Inferenzoptimierer und eine Laufzeit, die eine geringe Latenz und einen hohen Durchsatz für Inferenzanwendungen bietet.

Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Um diese Ergebnisse zu erzielen, experimentierte Amazon Music mit mehreren verschiedenen Triton-Bereitstellungsparametern Triton-Modellanalysator, ein Tool, das dabei hilft, die beste NVIDIA Triton-Modellkonfiguration zu finden, um effiziente Inferenz bereitzustellen. Um die Modellinferenz zu optimieren, bietet Triton Funktionen wie dynamisches Batching und gleichzeitige Modellausführung und verfügt über Framework-Unterstützung für andere Flexibilitätsfunktionen. Die dynamische Stapelverarbeitung sammelt Rückschlussanfragen und gruppiert sie nahtlos in Kohorten, um den Durchsatz zu maximieren und gleichzeitig Echtzeit-Antworten für Amazon Music-Benutzer sicherzustellen. Die Fähigkeit zur gleichzeitigen Modellausführung verbessert die Inferenzleistung weiter, indem mehrere Kopien des Modells auf derselben GPU gehostet werden. Schließlich durch die Nutzung Triton-ModellanalysatorAmazon Music konnte die dynamischen Stapelverarbeitungs- und Modell-Parallelitäts-Inferenz-Hosting-Parameter sorgfältig optimieren, um optimale Einstellungen zu finden, die die Inferenzleistung mithilfe von simuliertem Datenverkehr maximieren.

Zusammenfassung

Durch die Optimierung der Konfigurationen mit Triton Inference Server und TensorRT auf SageMaker konnte Amazon Music hervorragende Ergebnisse sowohl für Trainings- als auch für Inferenz-Pipelines erzielen. Die SageMaker-Plattform ist die offene End-to-End-Plattform für Produktions-KI und bietet eine schnelle Wertschöpfung sowie die Vielseitigkeit, alle wichtigen KI-Anwendungsfälle sowohl in der Hardware als auch in der Software zu unterstützen. Durch die Optimierung der V100-GPU-Auslastung für das Training und den Wechsel von CPUs zu G5-Instanzen mithilfe von NVIDIA A10G Tensor Core-GPUs sowie durch die Verwendung optimierter NVIDIA-Software wie Triton Inference Server und TensorRT können Unternehmen wie Amazon Music Zeit und Geld sparen und gleichzeitig die Leistung in beiden Bereichen steigern Schulung und Schlussfolgerung, was sich direkt in einem besseren Kundenerlebnis und niedrigeren Betriebskosten niederschlägt.

SageMaker übernimmt die undifferenzierte Schwerarbeit für ML-Training und -Hosting und ermöglicht es Amazon Music, zuverlässige, skalierbare ML-Operationen sowohl für Hardware als auch für Software bereitzustellen.

Wir empfehlen Ihnen, zu überprüfen, ob Ihre Workloads mit SageMaker optimiert sind, indem Sie stets Ihre Hardware- und Softwareauswahl bewerten, um zu sehen, ob es Möglichkeiten gibt, eine bessere Leistung bei geringeren Kosten zu erzielen.

Weitere Informationen zu NVIDIA AI in AWS finden Sie hier:


Über die Autoren

Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Siddharth Sharma ist ein technischer Leiter für maschinelles Lernen im Wissenschafts- und Modellierungsteam von Amazon Music. Er ist auf Such-, Retrieval-, Ranking- und NLP-bezogene Modellierungsprobleme spezialisiert. Siddharth verfügt über umfassende Erfahrung in der Arbeit an groß angelegten maschinellen Lernproblemen, die latenzempfindlich sind, z. B. Ads Targeting, Multi Modal Retrieval, Search Query Understanding usw. Vor seiner Tätigkeit bei Amazon Music arbeitete Siddharth bei Unternehmen wie Meta, Walmart Labs und Rakuten zu E-Commerce-zentrierten ML-Problemen. Siddharth verbrachte den ersten Teil seiner Karriere damit, mit Ad-Tech-Startups aus der Bay Area zusammenzuarbeiten.

Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Tarun Sharma ist ein Software Development Manager, der die Amazon Music Search Relevance leitet. Sein Team aus Wissenschaftlern und ML-Ingenieuren ist dafür verantwortlich, den Kunden von Amazon Music kontextrelevante und personalisierte Suchergebnisse bereitzustellen.

Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.James Park ist Lösungsarchitekt bei Amazon Web Services. Er arbeitet mit Amazon.com zusammen, um Technologielösungen auf AWS zu entwerfen, zu erstellen und bereitzustellen, und hat ein besonderes Interesse an KI und maschinellem Lernen. In seiner Freizeit erkundet er gerne neue Kulturen, neue Erfahrungen und bleibt über die neuesten Technologietrends auf dem Laufenden. Sie finden ihn auf LinkedIn.

Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Kshitiz Gupta ist Lösungsarchitekt bei NVIDIA. Es macht ihm Spaß, Cloud-Kunden über die GPU-KI-Technologien von NVIDIA aufzuklären und sie bei der Beschleunigung ihrer Anwendungen für maschinelles Lernen und Deep Learning zu unterstützen. Außerhalb der Arbeit geht er gerne laufen, wandern und Wildtiere beobachten.

Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Jiahong Liu ist Solution Architect im Cloud Service Provider-Team bei NVIDIA. Er unterstützt Kunden bei der Einführung von Lösungen für maschinelles Lernen und KI, die NVIDIA Accelerated Computing nutzen, um ihre Trainings- und Inferenzherausforderungen zu bewältigen. In seiner Freizeit beschäftigt er sich gerne mit Origami, DIY-Projekten und spielt Basketball.

Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Tugrul Konuk ist Senior Solution Architect bei NVIDIA und auf groß angelegte Schulungen, multimodales Deep Learning und leistungsstarkes wissenschaftliches Rechnen spezialisiert. Vor seiner Zeit bei NVIDIA arbeitete er in der Energiebranche und konzentrierte sich auf die Entwicklung von Algorithmen für die rechnergestützte Bildgebung. Im Rahmen seiner Doktorarbeit beschäftigte er sich mit physikbasiertem Deep Learning für numerische Simulationen im großen Maßstab. In seiner Freizeit liest er gerne, spielt Gitarre und Klavier.

Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Rohil Bhargava ist Produktmarketingmanager bei NVIDIA und konzentriert sich auf die Bereitstellung von NVIDIA-Anwendungsframeworks und SDKs auf bestimmten CSP-Plattformen.

Wie Amazon Music SageMaker mit NVIDIA nutzt, um die Leistung und Kosten von ML-Training und Inferenz zu optimieren | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Eliuth Triana Isaza ist Developer Relations Manager bei NVIDIA und befähigt die KI-MLOps, DevOps, Wissenschaftler und AWS-Technikexperten von Amazon, den NVIDIA-Computing-Stack zur Beschleunigung und Optimierung von Generative AI Foundation-Modellen zu beherrschen, die von Datenkuration, GPU-Training, Modellinferenz und Produktionsbereitstellung auf AWS-GPU-Instanzen reichen . Darüber hinaus ist Eliuth ein leidenschaftlicher Mountainbiker, Skifahrer, Tennis- und Pokerspieler.

Zeitstempel:

Mehr von AWS Maschinelles Lernen