Zmniejsz zużycie energii przez zadania związane z uczeniem maszynowym nawet o 90% dzięki specjalnie zaprojektowanym akceleratorom AWS | Usługi sieciowe Amazona

Zmniejsz zużycie energii przez zadania związane z uczeniem maszynowym nawet o 90% dzięki specjalnie zaprojektowanym akceleratorom AWS | Usługi sieciowe Amazona

Inżynierowie uczenia maszynowego (ML) tradycyjnie koncentrowali się na znalezieniu równowagi między szkoleniem modeli a kosztami wdrożenia i wydajnością. Coraz częściej zrównoważony rozwój (efektywność energetyczna) staje się dodatkowym celem dla klientów. Jest to ważne, ponieważ szkolenie modeli ML, a następnie używanie wyszkolonych modeli do prognozowania (wnioskowania) może być zadaniami bardzo energochłonnymi. Ponadto coraz więcej aplikacji wokół nas zostało nasyconych ML, a nowe aplikacje oparte na ML powstają każdego dnia. Popularnym przykładem jest ChatGPT OpenAI, który jest oparty na najnowocześniejszym dużym modelu językowym (LMM). Na przykład, GPT-3, LLM wcześniejszej generacji ma 175 miliardów parametrów i wymaga miesięcy nieprzerwanego szkolenia na klastrze tysięcy przyspieszonych procesorów. The Badanie Carbontrackera szacuje, że szkolenie GPT-3 od podstaw może wyemitować do 85 ton metrycznych ekwiwalentu CO2, przy użyciu klastrów wyspecjalizowanych akceleratorów sprzętowych.

Istnieje kilka sposobów, w jakie AWS umożliwia praktykom ML zmniejszenie wpływu ich obciążeń na środowisko. Jednym ze sposobów jest dostarczanie normatywne wskazówki dotyczące projektowania obciążeń związanych ze sztuczną inteligencją/uczeniem maszynowym w celu zapewnienia zrównoważonego rozwoju. Innym sposobem jest oferowanie zarządzanych szkoleń i usług orkiestracji ML, takich jak Studio Amazon SageMaker, które automatycznie niszczy i skaluje zasoby uczenia maszynowego, gdy nie są używane, oraz udostępnia wiele gotowych narzędzi, które oszczędzają koszty i zasoby. Innym ważnym czynnikiem umożliwiającym jest rozwój energooszczędne, wysokowydajne, specjalnie skonstruowane akceleratory do szkolenia i wdrażania modeli ML.

Ten post koncentruje się na sprzęcie jako dźwigni zrównoważonego uczenia maszynowego. Przedstawiamy wyniki ostatnich eksperymentów z wydajnością i poborem mocy przeprowadzonych przez AWS, które określają ilościowo korzyści w zakresie efektywności energetycznej, jakich można się spodziewać po migracji obciążeń związanych z głębokim uczeniem się z innych przyspieszonych aplikacji zoptymalizowanych pod kątem wnioskowania i szkolenia Elastyczna chmura obliczeniowa Amazon (Amazon EC2) instancji do Inferencja AWS i Szkolenie AWS. Inferentia i Trainium są Niedawny dodatek AWS do portfolio specjalnie zaprojektowanych akceleratorów specjalnie zaprojektowany przez Amazon Laboratorium Annapurny na potrzeby wnioskowania i obciążeń szkoleniowych ML.

AWS Inferentia i AWS Trainium dla zrównoważonego uczenia maszynowego

Aby zapewnić realistyczne liczby potencjalnych oszczędności energii AWS Inferentia i AWS Trainium w rzeczywistej aplikacji, przeprowadziliśmy kilka eksperymentów porównawczych poboru mocy. Opracowaliśmy te testy porównawcze, mając na uwadze następujące kluczowe kryteria:

  • Po pierwsze, chcieliśmy się upewnić, że uchwyciliśmy bezpośrednie zużycie energii związane z obciążeniem testowym, w tym nie tylko akcelerator ML, ale także moc obliczeniową, pamięć i sieć. Dlatego w naszej konfiguracji testowej zmierzyliśmy pobór mocy na tym poziomie.
  • Po drugie, podczas uruchamiania obciążeń szkoleniowych i wnioskowania upewniliśmy się, że wszystkie instancje działają z odpowiednimi fizycznymi ograniczeniami sprzętowymi i wykonaliśmy pomiary dopiero po osiągnięciu tego limitu, aby zapewnić porównywalność.
  • Na koniec chcieliśmy mieć pewność, że oszczędności energii opisane w tym poście można osiągnąć w praktycznym zastosowaniu w świecie rzeczywistym. Dlatego wykorzystaliśmy typowe przypadki użycia ML inspirowane przez klientów do testów porównawczych i testowania.

Wyniki przedstawiono w poniższych sekcjach.

Eksperyment wnioskowania: rozumienie dokumentów w czasie rzeczywistym za pomocą LayoutLM

Wnioskowanie, w przeciwieństwie do szkolenia, jest ciągłym, nieograniczonym obciążeniem, które nie ma zdefiniowanego punktu zakończenia. W związku z tym stanowi dużą część zużycia zasobów w okresie istnienia obciążenia ML. Właściwe wnioskowanie jest kluczem do osiągnięcia wysokiej wydajności, niskich kosztów i zrównoważonego rozwoju (lepsza efektywność energetyczna) w całym cyklu życia uczenia maszynowego. W przypadku zadań wnioskowania klienci są zwykle zainteresowani osiągnięciem określonej szybkości wnioskowania, aby nadążyć za zapotrzebowaniem pozyskiwania.

Eksperyment przedstawiony w tym poście jest inspirowany dokumentem czasu rzeczywistego rozumiejącym przypadek użycia, który jest powszechnym zastosowaniem w branżach takich jak bankowość czy ubezpieczenia (na przykład do obsługi roszczeń lub wniosków). Konkretnie wybieramy UkładLM, wstępnie wyszkolony model transformatora używany do przetwarzania obrazu dokumentu i ekstrakcji informacji. Ustaliliśmy docelową umowę SLA na 1,000,000 XNUMX XNUMX inferencji na godzinę, wartość często uważaną za czas rzeczywisty, a następnie określiliśmy dwie konfiguracje sprzętowe, które mogą spełnić to wymaganie: jedną wykorzystującą Instancje Amazon EC2 Inf1, wyposażony w AWS Inferentia i jeden wykorzystujący porównywalne przyspieszone instancje EC2 zoptymalizowane pod kątem zadań wnioskowania. W trakcie eksperymentu śledzimy kilka wskaźników, aby zmierzyć wydajność wnioskowania, koszt i efektywność energetyczną obu konfiguracji sprzętowych. Wyniki przedstawiono na poniższym rysunku.

Zmniejsz zużycie energii w ramach zadań związanych z uczeniem maszynowym nawet o 90% dzięki specjalnie zaprojektowanym akceleratorom AWS | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wydajność, koszty i efektywność energetyczna Wyniki testów porównawczych wnioskowania

AWS Inferentia zapewnia 6.3 razy wyższą przepustowość wnioskowania. W rezultacie dzięki Inferentia możesz uruchamiać ten sam dokument oparty na LayoutLM w czasie rzeczywistym, rozumiejąc obciążenie pracą w mniejszej liczbie instancji (6 instancji AWS Inferentia w porównaniu z 33 innymi przyspieszonymi instancjami EC2 zoptymalizowanymi pod kątem wnioskowania, co odpowiada 82% redukcji), zużywa mniej niż jedną dziesiątą (-92%) energii w procesie, a wszystko to przy znacznie niższym koszcie na wnioskowanie (2 USD w porównaniu z 25 USD na milion wnioskowań, co odpowiada redukcji kosztów o 91%).

Eksperyment szkoleniowy: Szkolenie BERT Large od podstaw

Trening, w przeciwieństwie do wnioskowania, jest skończonym procesem, który powtarza się znacznie rzadziej. Inżynierowie ML są zwykle zainteresowani wysoką wydajnością klastra, aby skrócić czas szkolenia przy jednoczesnym utrzymaniu kosztów pod kontrolą. Efektywność energetyczna jest kwestią drugorzędną (ale rosnącą). Dzięki AWS Trainium nie ma decyzji o kompromisie: inżynierowie ML mogą czerpać korzyści z wysokiej wydajności szkolenia, jednocześnie optymalizując koszty i zmniejszając wpływ na środowisko.

Aby to zilustrować, wybieramy BERT Duży, popularny model językowy używany do zrozumienia przypadków użycia języka naturalnego, takich jak odpowiadanie na pytania za pomocą chatbota i przewidywanie odpowiedzi konwersacyjnych. Wyszkolenie dobrze działającego dużego modelu BERT od podstaw zwykle wymaga przetworzenia 450 milionów sekwencji. Porównujemy dwie konfiguracje klastrów, każda o stałym rozmiarze 16 instancji i zdolna do szkolenia BERT Large od podstaw (450 milionów przetworzonych sekwencji) w mniej niż jeden dzień. Pierwsza wykorzystuje tradycyjne przyspieszone instancje EC2. Druga konfiguracja używa Instancje Amazon EC2 Trn1 z AWS Trainium. Ponownie porównujemy obie konfiguracje pod względem wydajności treningowej, kosztów i wpływu na środowisko (efektywność energetyczna). Wyniki przedstawiono na poniższym rysunku.

Zmniejsz zużycie energii w ramach zadań związanych z uczeniem maszynowym nawet o 90% dzięki specjalnie zaprojektowanym akceleratorom AWS | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wydajność, koszty i efektywność energetyczna Wyniki wzorców szkoleniowych

W eksperymentach instancje oparte na AWS Trainium przewyższały porównywalne przyspieszone instancje EC2 zoptymalizowane pod kątem treningu o współczynnik 1.7 pod względem sekwencji przetwarzanych na godzinę, skracając całkowity czas szkolenia o 43% (2.3 godziny w porównaniu z 4 godzinami w przypadku porównywalnych przyspieszonych instancji EC2) . W rezultacie, w przypadku korzystania z klastra instancji opartego na Trainium, całkowite zużycie energii do szkolenia BERT Large od podstaw jest o około 29% niższe w porównaniu z klastrem tej samej wielkości porównywalnych przyspieszonych instancji EC2. Ponownie, te korzyści w zakresie wydajności i efektywności energetycznej wiążą się również ze znaczną redukcją kosztów: koszt szkolenia dla obciążenia BERT ML jest o około 62% niższy w instancjach Trainium (787 USD w porównaniu z 2091 USD za pełne szkolenie).

Pierwsze kroki z akceleratorami AWS stworzonymi specjalnie dla ML

Chociaż wszystkie przeprowadzone tutaj eksperymenty wykorzystują standardowe modele z domeny przetwarzania języka naturalnego (NLP), AWS Inferentia i AWS Trainium wyróżniają się wieloma innymi złożonymi architekturami modeli, w tym LLM i najbardziej wymagającymi generatywna sztuczna inteligencja architektury tworzone przez użytkowników (takie jak GPT-3). Te akceleratory szczególnie dobrze radzą sobie z modelami o ponad 10 miliardach parametrów lub modelami komputerowego widzenia, takimi jak stabilna dyfuzja (zob. Wytyczne dopasowania architektury modelu po więcej szczegółów). Rzeczywiście, wielu naszych klientów już korzysta z Inferentia i Trainium do wielu różnych zastosowań Przypadki użycia ML.

Aby uruchomić kompleksowe zadania głębokiego uczenia w instancjach opartych na AWS Inferentia i AWS Trainium, możesz użyć Neuron AWS. Neuron to kompleksowy zestaw do tworzenia oprogramowania (SDK), który zawiera kompilator głębokiego uczenia, środowisko wykonawcze i narzędzia, które są natywnie zintegrowane z najpopularniejszymi frameworkami ML, takimi jak TensorFlow i PyTorch. Możesz użyć Neuron SDK, aby łatwo przenieść istniejące obciążenia TensorFlow lub PyTorch głębokiego uczenia ML do Inferentia i Trainium i rozpocząć tworzenie nowych modeli przy użyciu tych samych dobrze znanych platform ML. Aby ułatwić konfigurację, skorzystaj z jednego z naszych Amazon Machine Images (AMI) do głębokiego uczenia, które są dostarczane z wieloma wymaganymi pakietami i zależnościami. Jeszcze prościej: możesz użyć Amazon SageMaker Studio, które natywnie obsługuje TensorFlow i PyTorch na Inferentia i Trainium (zobacz aws-przykłady Repozytorium GitHub dla przykładu).

Ostatnia uwaga: podczas gdy Inferentia i Trainium zostały stworzone specjalnie z myślą o obciążeniach związanych z głębokim uczeniem, wiele mniej złożonych algorytmów uczenia maszynowego może dobrze działać na instancjach opartych na procesorze (np. XGBoost i LightGBM i nawet niektóre CNN). W takich przypadkach migracja do Grawiton AWS3 może znacznie zmniejszyć wpływ obciążeń związanych z uczeniem się na środowisko. Instancje oparte na AWS Graviton zużywają do 60% mniej energii przy tej samej wydajności niż porównywalne przyspieszone instancje EC2.

Wnioski

Istnieje powszechne błędne przekonanie, że uruchamianie obciążeń uczenia maszynowego w zrównoważony i energooszczędny sposób oznacza poświęcenie wydajności lub kosztów. Dzięki specjalnie zaprojektowanym akceleratorom AWS do uczenia maszynowego inżynierowie ML nie muszą iść na kompromis. Zamiast tego mogą uruchamiać zadania głębokiego uczenia na wysoce wyspecjalizowanym sprzęcie do głębokiego uczenia, takim jak AWS Inferentia i AWS Trainium, który znacznie przewyższa porównywalne akcelerowane typy instancji EC2, zapewniając niższy koszt, wyższą wydajność i lepszą efektywność energetyczną — do 90% — wszystko w tym samym czasie. Aby rozpocząć uruchamianie obciążeń ML w Inferentia i Trainium, sprawdź Dokumentacja AWS Neuron lub zakręć jednym z nich przykładowe zeszyty. Możesz także obejrzeć wykład AWS re:Invent 2022 Zrównoważony rozwój i krzem AWS (SUS206), który obejmuje wiele tematów omówionych w tym poście.


O autorach

Zmniejsz zużycie energii w ramach zadań związanych z uczeniem maszynowym nawet o 90% dzięki specjalnie zaprojektowanym akceleratorom AWS | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Karstena Schroera jest architektem rozwiązań w AWS. Wspiera klientów w wykorzystywaniu danych i technologii w celu wspierania zrównoważonego rozwoju ich infrastruktury IT i tworzenia rozwiązań opartych na danych, które umożliwiają zrównoważone działania w ich odpowiednich branżach. Karsten dołączył do AWS po ukończeniu studiów doktoranckich w zakresie stosowanego uczenia maszynowego i zarządzania operacjami. Jest prawdziwym pasjonatem opartych na technologii rozwiązań wyzwań społecznych i uwielbia zagłębiać się w metody i architektury aplikacji leżące u podstaw tych rozwiązań.

Zmniejsz zużycie energii w ramach zadań związanych z uczeniem maszynowym nawet o 90% dzięki specjalnie zaprojektowanym akceleratorom AWS | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Kamran Khan jest starszym technicznym menedżerem produktu w AWS Annapurna Labs. Ściśle współpracuje z klientami AI/ML, aby kształtować mapę drogową dla opracowanych specjalnie dla AWS innowacji krzemowych pochodzących z Annapurna Labs firmy Amazon. Specjalizuje się w przyspieszonych układach głębokiego uczenia, w tym AWS Trainium i AWS Inferentia. Kamran ma 18 lat doświadczenia w branży półprzewodników. Kamran ma ponad dziesięcioletnie doświadczenie w pomaganiu programistom w osiąganiu ich celów ML.

Znak czasu:

Więcej z Uczenie maszynowe AWS