Jak Amazon Search obsługuje wielkoskalowe, odporne projekty uczenia maszynowego za pomocą Amazon SageMaker PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj.

Uczenie maszynowe AWS

Jak Amazon Search prowadzi wielkoskalowe, odporne projekty uczenia maszynowego za pomocą Amazon SageMaker

AIZnacznik czasu: 13 października 2022 4:39

Opublikowane ponownie przez Plato

Obserwuje: 0

Jeśli szukałeś przedmiotu do kupienia na amazon.com, skorzystałeś z usług Amazon Search. W Amazon Search odpowiadamy za jakość wyszukiwania i odkrywania dla naszych klientów na całym świecie. W tle indeksujemy nasz światowy katalog produktów, wdrażamy wysoce skalowalne floty AWS i wykorzystujemy zaawansowane uczenie maszynowe (ML), aby dopasować odpowiednie i interesujące produkty do każdego zapytania klienta.

Nasi naukowcy regularnie szkolą tysiące modeli ML, aby poprawić jakość wyników wyszukiwania. Wspieranie eksperymentów na dużą skalę wiąże się z własnymi wyzwaniami, zwłaszcza jeśli chodzi o poprawę produktywności naukowców szkolących te modele ML.

W tym poście dzielimy się tym, jak zbudowaliśmy system zarządzania wokół Amazon Sage Maker szkolenia, dzięki którym nasi naukowcy mogą odpalić i zapomnieć o tysiącach eksperymentów i być powiadamiani w razie potrzeby. Mogą teraz skupić się na zadaniach o dużej wartości i rozwiązywaniu błędów algorytmicznych, oszczędzając 60% swojego czasu.

Wyzwanie

W Amazon Search nasi naukowcy rozwiązują problemy z wyszukiwaniem informacji, eksperymentując i uruchamiając liczne zadania szkoleniowe modeli ML w programie SageMaker. Aby nadążyć za innowacjami naszego zespołu, z czasem wzrosła złożoność naszych modeli i liczba zadań szkoleniowych. Zadania szkoleniowe SageMaker pozwalają nam skrócić czas i zmniejszyć koszty szkolenia i dostrajania tych modeli na dużą skalę, bez konieczności zarządzania infrastrukturą.

Jak wszystko w tak dużych projektach ML, zadania szkoleniowe mogą zakończyć się niepowodzeniem z powodu różnych czynników. Ten post koncentruje się na niedoborach mocy i awariach spowodowanych błędami algorytmów.

Zaprojektowaliśmy architekturę z systemem zarządzania zadaniami, aby tolerować i zmniejszać prawdopodobieństwo niepowodzenia zadania z powodu niedostępności pojemności lub błędów algorytmu. Pozwala naukowcom odpalić i zapomnieć o tysiącach zadań szkoleniowych, automatycznie ponawiać je w przypadku przejściowej niepowodzenia i w razie potrzeby otrzymywać powiadomienia o sukcesie lub niepowodzeniu.

Omówienie rozwiązania

Na poniższym schemacie rozwiązania używamy zadań szkoleniowych SageMaker jako podstawowej jednostki naszego rozwiązania. Oznacza to, że zadanie reprezentuje kompleksowe szkolenie modelu ML.

Przepływ pracy na wysokim poziomie tego rozwiązania wygląda następująco:

Naukowcy wywołują API, aby przesłać nowe zadanie do systemu.
Praca jest zarejestrowana w New status w magazynie metadanych.
Harmonogram zadań asynchronicznie pobiera New zadania z magazynu metadanych, analizuje ich dane wejściowe i próbuje uruchomić zadania szkoleniowe SageMaker dla każdego z nich. Ich status zmienia się na Launched or Failed w zależności od sukcesu.
Monitor sprawdza postęp prac w regularnych odstępach czasu i raportuje ich Completed, Failedlub InProgress stan w magazynie metadanych.
Powiadamiacz jest uruchamiany, aby zgłosić Completed i Failed miejsc pracy dla naukowców.

Utrzymywanie historii zleceń w magazynie metadanych pozwala również naszemu zespołowi na prowadzenie analizy trendów i monitorowanie postępów w projekcie.

To rozwiązanie do planowania zadań wykorzystuje luźno powiązane komponenty bezserwerowe oparte na: AWS Lambda, Amazon DynamoDB, Usługa prostego powiadomienia Amazon (Amazon SNS) i Most zdarzeń Amazona. Zapewnia to skalowalność poziomą, umożliwiając naszym naukowcom uruchamianie tysięcy zadań przy minimalnym nakładzie pracy. Poniższy diagram ilustruje architekturę bezserwerową.

Przegląd architektury naszego rozwiązania

W kolejnych sekcjach omówimy bardziej szczegółowo każdą usługę i jej składniki.

DynamoDB jako magazyn metadanych dla uruchomień zadań

Łatwość użycia i skalowalność DynamoDB sprawiły, że naturalnym wyborem stało się utrwalanie metadanych zadań w tabeli DynamoDB. To rozwiązanie przechowuje kilka atrybutów zadań przesłanych przez naukowców, pomagając w ten sposób w śledzeniu postępów i organizacji przepływu pracy. Najważniejsze atrybuty to:

Identyfikator zadania – Unikalny identyfikator pracy. Może to zostać wygenerowane automatycznie lub dostarczone przez naukowca.
Status pracy – Status zlecenia.
JobArgs – Inne argumenty wymagane do utworzenia zadania szkoleniowego, takie jak ścieżka wejściowa w Amazon S3, identyfikator URI obrazu szkoleniowego i inne. Aby uzyskać pełną listę parametrów wymaganych do utworzenia zadania szkoleniowego, zobacz UtwórzSzkolenie.

Lambda dla podstawowej logiki

Używamy trzech na bazie kontenera Funkcje lambda do organizowania przepływu pracy:

Prześlij ofertę pracy – Ta funkcja jest przywoływana przez naukowców, gdy muszą uruchomić nowe miejsca pracy. Dla uproszczenia działa jako API. Możesz również przedrzeć go za pomocą Brama Amazon API, Jeśli potrzebne. Ta funkcja rejestruje zadania w tabeli DynamoDB.
Uruchom zadania – Ta funkcja okresowo pobiera New zadania z tabeli DynamoDB i uruchamia je za pomocą SageMaker UtwórzSzkolenie Komenda. Ponawia próby w przypadku przejściowych awarii, takich jak ResourceLimitExceeded i CapacityError, aby wprowadzić odporność do systemu. Następnie aktualizuje status pracy jako Launched or Failed w zależności od sukcesu.
Monitoruj zadania – Ta funkcja okresowo śledzi postęp pracy za pomocą OpiszSzkoleniaPraca i odpowiednio aktualizuje tabelę DynamoDB. To ankiety Failed zadania z metadanych i ocenia, czy należy je ponownie przesłać lub oznaczyć jako nieudane. Publikuje również powiadomienia dla naukowców, gdy ich praca osiągnie stan terminalny.

EventBridge do planowania

Używamy EventBridge do uruchamiania funkcji Launch Jobs i Monitor Jobs Lambda zgodnie z harmonogramem. Aby uzyskać więcej informacji, zobacz Samouczek: Zaplanuj funkcje AWS Lambda za pomocą EventBridge.

Alternatywnie można użyć Strumienie Amazon DynamoDB dla wyzwalaczy. Aby uzyskać więcej informacji, zobacz Strumienie DynamoDB i wyzwalacze AWS Lambda.

Powiadomienia z Amazon SNS

Nasi naukowcy są powiadomiony e-mailem za pomocą Amazon SNS kiedy ich zadania osiągną stan końcowy (Failed po maksymalnej liczbie ponownych prób), Completedlub Stopped.

Wnioski

W tym poście udostępniliśmy, w jaki sposób Amazon Search zwiększa odporność obciążeń szkoleniowych modelu ML, planując je i ponawiając je w przypadku niedoborów pojemności lub błędów algorytmu. Użyliśmy funkcji Lambda w połączeniu z tabelą DynamoDB jako centralnym magazynem metadanych w celu zorganizowania całego przepływu pracy.

Taki system harmonogramowania pozwala naukowcom zgłaszać swoje prace i o nich zapomnieć. Oszczędza to czas i pozwala skupić się na pisaniu lepszych modeli.

Aby przejść dalej w swoich odkryciach, możesz odwiedzić Niesamowity SageMaker i znaleźć w jednym miejscu wszystkie istotne i aktualne zasoby potrzebne do pracy z SageMaker.

O autorach

Luochao Wanga jest inżynierem oprogramowania w Amazon Search. Koncentruje się na skalowalnych systemach rozproszonych i narzędziach do automatyzacji w chmurze, aby przyspieszyć tempo innowacji naukowych w aplikacjach uczenia maszynowego.

Ishan Bhatt jest inżynierem oprogramowania w zespole Amazon Prime Video. Pracuje głównie w przestrzeni MLOps i ma doświadczenie w budowaniu produktów MLOps przez ostatnie 4 lata przy użyciu Amazon SageMaker.

Abhinandana Patniego jest starszym inżynierem oprogramowania w Amazon Search. Koncentruje się na budowaniu systemów i narzędzi do skalowalnego rozproszonego szkolenia głębokiego uczenia i wnioskowania w czasie rzeczywistym.

Eimana Elnahrawy'ego jest głównym inżynierem oprogramowania w Amazon Search i kieruje pracami nad akceleracją, skalowaniem i automatyzacją uczenia maszynowego. Jej wiedza obejmuje wiele obszarów, w tym uczenie maszynowe, systemy rozproszone i personalizację.

Jak Amazon Search obsługuje wielkoskalowe, odporne projekty uczenia maszynowego za pomocą Amazon SageMaker PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. Aj. Zofia Hamiti jest specjalistą ds. rozwiązań AI / ML w AWS. Pomaga klientom z różnych branż przyspieszyć ich przygodę z AI / ML, pomagając im tworzyć i operacjonalizować kompleksowe rozwiązania uczenia maszynowego.

Dr Romi Datta jest starszym menedżerem ds. zarządzania produktem w zespole Amazon SageMaker odpowiedzialnym za szkolenia, przetwarzanie i magazyn funkcji. Pracuje w AWS od ponad 4 lat, piastując kilka kierowniczych stanowisk zarządzania produktami w SageMaker, S3 i IoT. Przed AWS pracował na różnych stanowiskach związanych z zarządzaniem produktami, inżynierią i kierownictwem operacyjnym w IBM, Texas Instruments i Nvidia. Posiada tytuł magistra i doktora. Doktorat z inżynierii elektrycznej i komputerowej na University of Texas w Austin oraz tytuł MBA na University of Chicago Booth School of Business.

RJ jest inżynierem w zespole Search M5 prowadzącym prace nad budowaniem systemów głębokiego uczenia na dużą skalę do szkolenia i wnioskowania. Poza pracą poznaje różne kuchnie i uprawia sporty rakietowe.

Znak czasu: 13 października 2022 r.14 października 2022 r.

Więcej z Uczenie maszynowe AWS

Hostuj modele transformatorów Hugging Face wykorzystujące technologię Amazon SageMaker Serverless Inference PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Hostuj modele transformatorów Hugging Face przy użyciu wnioskowania bezserwerowego Amazon SageMaker

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1279228

Znak czasu: Kwiecień 25, 2022

Włącz szybsze szkolenie dzięki równoległej bibliotece danych Amazon SageMaker | Usługi internetowe Amazona

Włącz szybsze szkolenie dzięki równoległej bibliotece danych Amazon SageMaker | Usługi internetowe Amazona

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1921534

Znak czasu: Grudnia 5, 2023

Jak BrainPad wspiera wewnętrzne dzielenie się wiedzą z Amazon Kendra | Usługi sieciowe Amazona

Jak BrainPad wspiera wewnętrzne dzielenie się wiedzą z Amazon Kendra | Usługi sieciowe Amazona

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1847902

Znak czasu: Czerwiec 13, 2023

Przenieś modele Amazon SageMaker Autopilot ML z eksperymentów do produkcji, korzystając z Amazon SageMaker Pipelines PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Przenieś modele Amazon SageMaker Autopilot ML z eksperymentów do produkcji za pomocą Amazon SageMaker Pipelines

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1733650

Znak czasu: Listopada 1, 2022

Osiągnij komfort w pojeździe dzięki spersonalizowanemu uczeniu maszynowemu i rozwiązaniu Amazon SageMaker PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Osiągnij komfort w pojeździe dzięki spersonalizowanemu uczeniu maszynowemu i Amazon SageMaker

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1303348

Znak czasu: 11 maja 2022 r.

Amazon Q Business i Amazon Q w QuickSight umożliwiają pracownikom większe oparcie się na danych i podejmowanie lepszych, szybszych decyzji, korzystając z wiedzy firmy | Usługi internetowe Amazona

Amazon Q Business i Amazon Q w QuickSight umożliwiają pracownikom większe oparcie się na danych i podejmowanie lepszych, szybszych decyzji, korzystając z wiedzy firmy | Usługi internetowe Amazona

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1969885

Znak czasu: Kwiecień 30, 2024

Włącz w pełni homomorficzne szyfrowanie z punktami końcowymi Amazon SageMaker w celu bezpiecznego wnioskowania w czasie rzeczywistym

Włącz w pełni homomorficzne szyfrowanie z punktami końcowymi Amazon SageMaker w celu bezpiecznego wnioskowania w czasie rzeczywistym

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1817775

Znak czasu: Mar 23, 2023

Wdrażaj duże modele w Amazon SageMaker za pomocą równoległego wnioskowania modeli DJLServing i DeepSpeed PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wdrażaj duże modele w Amazon SageMaker za pomocą równoległego wnioskowania modeli DJLServing i DeepSpeed

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1658395

Znak czasu: Września 9, 2022

Notatniki ilustracyjne w Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Ilustracyjne notatniki w Amazon SageMaker JumpStart

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1765430

Znak czasu: Grudnia 1, 2022

Skutecznie rozwiązuj problemy z konwergencją rozproszonych szkoleń dzięki Amazon SageMaker Hyperband Automatic Model Tuning | Usługi sieciowe Amazona

Skutecznie rozwiązuj problemy z konwergencją rozproszonych szkoleń dzięki Amazon SageMaker Hyperband Automatic Model Tuning | Usługi sieciowe Amazona

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1859987

Znak czasu: Lipiec 13, 2023

Ogłaszamy zaktualizowane złącze Microsoft OneDrive (V2) dla Amazon Kendra

Ogłaszamy zaktualizowane złącze Microsoft OneDrive (V2) dla Amazon Kendra

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1826691

Znak czasu: Kwiecień 18, 2023

Użyj generatywnej sztucznej inteligencji, aby zwiększyć produktywność agentów poprzez automatyczne podsumowywanie rozmów | Usługi internetowe Amazona

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1910389

Znak czasu: Listopada 6, 2023