Projektowanie generatywnych obciążeń AI pod kątem odporności | Usługi internetowe Amazona

Uczenie maszynowe AWS

Projektowanie generatywnych obciążeń AI pod kątem odporności | Usługi internetowe Amazona

AIZnacznik czasu: 1 lutego 2024 1:17

Opublikowane ponownie przez Plato

Obserwuje: 0

Odporność odgrywa kluczową rolę w rozwoju każdego obciążenia pracą i generatywna sztuczna inteligencja obciążenia nie różnią się. Projektowanie generatywnych obciążeń AI z perspektywy odporności wymaga wyjątkowych rozważań. Zrozumienie odporności i nadanie jej priorytetów ma kluczowe znaczenie, jeśli generatywne obciążenia AI spełniają wymagania dotyczące dostępności organizacyjnej i ciągłości działania. W tym poście omawiamy różne stosy obciążenia generatywnego AI i jakie należy wziąć pod uwagę te kwestie.

Generacyjna sztuczna inteligencja z pełnym stosem

Chociaż wiele emocji wokół generatywnej sztucznej inteligencji skupia się na modelach, kompletne rozwiązanie obejmuje ludzi, umiejętności i narzędzia z kilku dziedzin. Rozważmy następujący obraz, który przedstawia widok AWS na pojawiający się stos aplikacji a16z dla dużych modeli językowych (LLM).

Taksonomia stosu aplikacji LLM na AWS

W porównaniu z bardziej tradycyjnym rozwiązaniem opartym na sztucznej inteligencji i uczeniu maszynowym (ML), generatywne rozwiązanie AI obejmuje obecnie:

Nowe role – Należy wziąć pod uwagę tunerów modeli, a także konstruktorów modeli i integratorów modeli
Nowe narzędzia – Tradycyjny stos MLOps nie obejmuje typów śledzenia eksperymentów lub ich obserwowalności niezbędnych do szybkiego projektowania lub agentów, którzy odwołują się do narzędzi do interakcji z innymi systemami

Rozumowanie agenta

W przeciwieństwie do tradycyjnych modeli sztucznej inteligencji, generacja rozszerzona wyszukiwania (RAG) pozwala na dokładniejsze i kontekstowo istotne odpowiedzi poprzez integrację zewnętrznych źródeł wiedzy. Poniżej przedstawiono kilka uwag dotyczących korzystania z RAG:

Ustawienie odpowiednich limitów czasu jest ważne dla obsługi klienta. Nic nie mówi o złym doświadczeniu użytkownika bardziej niż bycie w środku czatu i rozłączenie.
Upewnij się, że sprawdziłeś dane wejściowe podpowiedzi i rozmiar danych wejściowych podpowiedzi dla przydzielonych limitów znaków zdefiniowanych przez Twój model.
Jeśli wykonujesz szybką inżynierię, powinieneś zachować swoje monity w niezawodnym magazynie danych. To zabezpieczy Twoje podpowiedzi na wypadek przypadkowej utraty lub w ramach ogólnej strategii odzyskiwania po awarii.

Potoki danych

W przypadkach, gdy konieczne jest dostarczenie danych kontekstowych do modelu podstawowego przy użyciu wzorca RAG, potrzebny jest potok danych, który może pozyskać dane źródłowe, przekonwertować je na wektory osadzające i przechowywać wektory osadzające w bazie danych wektorów. Ten potok może być potokiem wsadowym, jeśli wcześniej przygotowujesz dane kontekstowe, lub potokiem o niskim opóźnieniu, jeśli na bieżąco dołączasz nowe dane kontekstowe. W przypadku wsadowym istnieje kilka wyzwań w porównaniu z typowymi potokami danych.

Źródłami danych mogą być dokumenty PDF w systemie plików, dane z systemu oprogramowania jako usługi (SaaS), takiego jak narzędzie CRM, lub dane z istniejącej wiki lub bazy wiedzy. Pozyskiwanie z tych źródeł różni się od typowych źródeł danych, takich jak dane dziennika w pliku Usługa Amazon Simple Storage (Amazon S3) dane zbiorcze lub strukturalne z relacyjnej bazy danych. Poziom równoległości, jaki można osiągnąć, może być ograniczony przez system źródłowy, dlatego należy wziąć pod uwagę ograniczanie przepustowości i zastosować techniki wycofywania. Niektóre systemy źródłowe mogą być kruche, dlatego należy wbudować obsługę błędów i logikę ponawiania prób.

Model osadzania może stanowić wąskie gardło wydajności, niezależnie od tego, czy uruchamiasz go lokalnie w potoku, czy wywołujesz model zewnętrzny. Modele osadzające to modele podstawowe, które działają na procesorach graficznych i nie mają nieograniczonej pojemności. Jeśli model działa lokalnie, musisz przypisać pracę na podstawie wydajności procesora graficznego. Jeśli model działa zewnętrznie, musisz upewnić się, że nie nasycasz modelu zewnętrznego. W obu przypadkach poziom równoległości, jaki można osiągnąć, będzie podyktowany modelem osadzania, a nie ilością procesora i pamięci RAM dostępną w systemie przetwarzania wsadowego.

W przypadku małych opóźnień należy uwzględnić czas potrzebny do wygenerowania wektorów osadzania. Aplikacja wywołująca powinna wywoływać potok asynchronicznie.

Wektorowe bazy danych

Baza danych wektorowych ma dwie funkcje: przechowuje wektory osadzające i uruchamia wyszukiwanie podobieństwa w celu znalezienia najbliższego k dopasowuje się do nowego wektora. Istnieją trzy główne typy wektorowych baz danych:

Dedykowane opcje SaaS, takie jak Pinecone.
Funkcje bazy danych wektorowych wbudowane w inne usługi. Obejmuje to natywne usługi AWS, takie jak Usługa Amazon OpenSearch i Amazonka Aurora.
Opcje w pamięci, których można używać w przypadku danych przejściowych w scenariuszach o małych opóźnieniach.

W tym poście nie omawiamy szczegółowo możliwości wyszukiwania podobieństw. Chociaż są one ważne, stanowią funkcjonalny aspekt systemu i nie wpływają bezpośrednio na odporność. Zamiast tego skupiamy się na aspektach odporności wektorowej bazy danych jako systemu przechowywania:

Utajenie – Czy baza danych wektorowych może dobrze działać przy dużym lub nieprzewidywalnym obciążeniu? Jeśli nie, aplikacja wywołująca musi obsłużyć ograniczenie szybkości, wycofanie i ponowienie próby.
Skalowalność – Ile wektorów może pomieścić system? Jeśli przekroczysz pojemność bazy danych wektorów, będziesz musiał przyjrzeć się fragmentowaniu lub innym rozwiązaniom.
Wysoka dostępność i odzyskiwanie po awarii – Osadzanie wektorów to cenne dane, a ich odtworzenie może być kosztowne. Czy Twoja baza danych wektorowych jest dobrze dostępna w jednym regionie AWS? Czy ma możliwość replikowania danych do innego regionu w celu odzyskiwania po awarii?

Poziom aplikacji

Podczas integracji generatywnych rozwiązań AI należy wziąć pod uwagę trzy wyjątkowe kwestie dotyczące warstwy aplikacji:

Potencjalnie duże opóźnienia – Modele podstawowe często działają na dużych instancjach GPU i mogą mieć skończoną pojemność. Pamiętaj, aby stosować najlepsze praktyki w zakresie ograniczania szybkości, wycofywania i ponawiania prób oraz zrzucania obciążenia. Używaj projektów asynchronicznych, aby duże opóźnienia nie zakłócały głównego interfejsu aplikacji.
Postawa bezpieczeństwa – Jeśli używasz agentów, narzędzi, wtyczek lub innych metod łączenia modelu z innymi systemami, zwróć szczególną uwagę na swój stan bezpieczeństwa. Modele mogą próbować wchodzić w interakcję z tymi systemami w nieoczekiwany sposób. Postępuj zgodnie z normalną praktyką dotyczącą dostępu z najniższymi uprawnieniami, na przykład ograniczając monity przychodzące z innych systemów.
Szybko rozwijające się frameworki – Frameworki open source, takie jak LangChain, szybko ewoluują. Użyj podejścia mikrousług, aby odizolować inne komponenty od mniej dojrzałych platform.

Pojemność

Możemy myśleć o pojemności w dwóch kontekstach: potoki danych modelu wnioskowania i uczenia. Wydajność jest brana pod uwagę, gdy organizacje budują własne rurociągi. Wymagania dotyczące procesora i pamięci to dwa z największych wymagań przy wyborze instancji do uruchamiania obciążeń.

Instancje, które mogą obsługiwać generatywne obciążenia AI, mogą być trudniejsze do uzyskania niż przeciętny typ instancji ogólnego przeznaczenia. Elastyczność instancji może pomóc w planowaniu wydajności i wydajności. W zależności od regionu AWS, w którym uruchamiasz swoje obciążenie, dostępne są różne typy instancji.

W przypadku krytycznych podróży użytkowników organizacje będą chciały rozważyć rezerwację lub wstępną aprowizację typów instancji, aby zapewnić dostępność w razie potrzeby. Ten wzorzec zapewnia statycznie stabilną architekturę, co jest najlepszą praktyką w zakresie odporności. Aby dowiedzieć się więcej na temat stabilności statycznej w filarze niezawodności AWS Well-Architected Framework, zobacz Użyj stabilności statycznej, aby zapobiec zachowaniom bimodalnym.

Obserwowalność

Oprócz zazwyczaj zbieranych wskaźników zasobów, takich jak wykorzystanie procesora i pamięci RAM, należy uważnie monitorować wykorzystanie procesora graficznego, jeśli hostujesz model na Amazon Sage Maker or Elastyczna chmura obliczeniowa Amazon (Amazon EC2). Wykorzystanie procesora graficznego może nieoczekiwanie zmienić się, jeśli zmieni się model podstawowy lub dane wejściowe, a wyczerpanie się pamięci procesora graficznego może spowodować niestabilność systemu.

Wyżej będziesz chciał także śledzić przepływ połączeń w systemie, rejestrując interakcje między agentami i narzędziami. Ponieważ interfejs między agentami i narzędziami jest mniej formalnie zdefiniowany niż kontrakt API, należy monitorować te ślady nie tylko pod kątem wydajności, ale także w celu wychwytywania nowych scenariuszy błędów. Aby monitorować model lub agenta pod kątem wszelkich zagrożeń i zagrożeń bezpieczeństwa, możesz użyć narzędzi takich jak Amazon Guard Obowiązek.

Powinieneś także uchwycić linie bazowe wektorów osadzania, podpowiedzi, kontekstu i danych wyjściowych oraz interakcji między nimi. Jeśli zmieniają się one z biegiem czasu, może to oznaczać, że użytkownicy korzystają z systemu w nowy sposób, że dane referencyjne nie obejmują przestrzeni pytań w ten sam sposób lub że wyniki modelu nagle się zmieniły.

odzyskiwanie po awarii

Posiadanie planu ciągłości działania ze strategią odzyskiwania po awarii jest koniecznością w przypadku każdego obciążenia. Obciążenia generatywnej sztucznej inteligencji nie różnią się od siebie. Zrozumienie trybów awarii, które mają zastosowanie do Twojego obciążenia, pomoże w opracowaniu strategii. Jeśli używasz usług zarządzanych AWS do swojego obciążenia, takich jak Amazońska skała macierzysta i SageMaker, upewnij się, że usługa jest dostępna w regionie AWS odzyskiwania. W chwili pisania tego tekstu te usługi AWS nie obsługują natywnie replikacji danych w regionach AWS, dlatego należy pomyśleć o strategiach zarządzania danymi na potrzeby odzyskiwania po awarii, a także może zaistnieć potrzeba dostrojenia danych w wielu regionach AWS.

Wnioski

W tym poście opisano, jak uwzględnić odporność podczas tworzenia generatywnych rozwiązań AI. Chociaż generatywne zastosowania sztucznej inteligencji mają kilka interesujących niuansów, nadal obowiązują istniejące wzorce odporności i najlepsze praktyki. To tylko kwestia oceny każdej części generatywnej aplikacji AI i zastosowania odpowiednich najlepszych praktyk.

Więcej informacji na temat generatywnej sztucznej inteligencji i jej wykorzystania w usługach AWS można znaleźć w następujących zasobach:

O autorach

Projektowanie generatywnych obciążeń AI pod kątem odporności | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Jennifer Moran jest starszym architektem rozwiązań AWS specjalizującym się w odporności, mieszkającym w Nowym Jorku. Ma różnorodne doświadczenie, pracowała w wielu dyscyplinach technicznych, w tym w tworzeniu oprogramowania, zwinnym przywództwie i DevOps, a także jest orędowniczką kobiet w branży technologicznej. Lubi pomagać klientom w projektowaniu odpornych rozwiązań poprawiających sprężystą postawę i wypowiada się publicznie na wszystkie tematy związane z odpornością.

Randy’ego DeFauwa jest starszym głównym architektem rozwiązań w AWS. Uzyskał tytuł MSEE na Uniwersytecie Michigan, gdzie pracował nad wizją komputerową dla pojazdów autonomicznych. Posiada również tytuł MBA uzyskany na Uniwersytecie Stanowym Kolorado. Randy zajmował różne stanowiska w obszarze technologii, od inżynierii oprogramowania po zarządzanie produktem. Do przestrzeni big data wkroczył w 2013 roku i nadal eksploruje ten obszar. Aktywnie pracuje nad projektami z przestrzeni ML i występował na licznych konferencjach, m.in. Strata i GlueCon.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://aws.amazon.com/blogs/machine-learning/designing-generative-ai-workloads-for-resilience/

Znak czasu: 1 lutego 2024 r.

Więcej z Uczenie maszynowe AWS

Twórz dobrze zaprojektowane rozwiązania IDP z niestandardowym obiektywem – Część 1: Doskonałość operacyjna | Usługi internetowe Amazona

Twórz dobrze zaprojektowane rozwiązania IDP z niestandardowym obiektywem – Część 1: Doskonałość operacyjna | Usługi internetowe Amazona

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1916787

Znak czasu: Listopada 22, 2023

Semantyczne wyszukiwanie obrazów artykułów przy użyciu Amazon Rekognition, modeli podstawowych Amazon SageMaker i usługi Amazon OpenSearch | Usługi internetowe Amazona

Semantyczne wyszukiwanie obrazów artykułów przy użyciu Amazon Rekognition, modeli podstawowych Amazon SageMaker i usługi Amazon OpenSearch | Usługi internetowe Amazona

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1886814

Znak czasu: Września 8, 2023

Jak Amazon Music wykorzystuje SageMaker z NVIDIA do optymalizacji wydajności i kosztów szkolenia ML oraz wnioskowania | Usługi internetowe Amazona

Jak Amazon Music wykorzystuje SageMaker z NVIDIA do optymalizacji wydajności i kosztów szkolenia ML oraz wnioskowania | Usługi internetowe Amazona

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1916113

Znak czasu: Listopada 21, 2023

Twórz wysokowydajne modele ML przy użyciu PyTorch 2.0 na AWS – część 1 | Usługi sieciowe Amazona

Twórz wysokowydajne modele ML przy użyciu PyTorch 2.0 na AWS – część 1 | Usługi sieciowe Amazona

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1844691

Znak czasu: Czerwiec 6, 2023

Zorganizuj swoją podróż do uczenia maszynowego dzięki Amazon SageMaker Experiments i Amazon SageMaker Pipelines PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Zorganizuj swoją podróż do uczenia maszynowego dzięki eksperymentom Amazon SageMaker i Amazon SageMaker Pipelines

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1586874

Znak czasu: Lipiec 21, 2022

Wykrywanie anomalii za pomocą Amazon SageMaker Edge Manager przy użyciu AWS IoT Greengrass V2 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wykrywanie anomalii za pomocą Amazon SageMaker Edge Manager przy użyciu AWS IoT Greengrass V2

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1193882

Znak czasu: Mar 1, 2022

Szkolenie dotyczące skalowania modelu dużego języka (LLM) z Amazon EC2 Trn1 UltraClusters

Szkolenie dotyczące skalowania modelu dużego języka (LLM) z Amazon EC2 Trn1 UltraClusters

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1803591

Znak czasu: Luty 16, 2023

Z łatwością eksploruj dane: korzystaj z SQL i Text-to-SQL w notatnikach Amazon SageMaker Studio JupyterLab | Usługi internetowe Amazona

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1965234

Znak czasu: Kwiecień 16, 2024

Przetrenuj modele ML i zautomatyzuj przewidywania wsadowe w Amazon SageMaker Canvas przy użyciu zaktualizowanych zestawów danych | Usługi sieciowe Amazona

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1845059

Znak czasu: Czerwiec 7, 2023

Zapewnij swoim użytkownikom biznesowym możliwość wydobywania spostrzeżeń z dokumentów firmowych za pomocą Amazon SageMaker Canvas Generative AI | Usługi internetowe Amazona

Zapewnij swoim użytkownikom biznesowym możliwość wydobywania spostrzeżeń z dokumentów firmowych za pomocą Amazon SageMaker Canvas Generative AI | Usługi internetowe Amazona

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1906631

Znak czasu: Październik 26, 2023

Bazy wiedzy dla Amazon Bedrock obsługują teraz niestandardowe monity dla interfejsu API RetrieveAndGenerate i konfigurację maksymalnej liczby pobieranych wyników | Usługi internetowe Amazona

Bazy wiedzy dla Amazon Bedrock obsługują teraz niestandardowe monity dla interfejsu API RetrieveAndGenerate i konfigurację maksymalnej liczby pobieranych wyników | Usługi internetowe Amazona

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1962691

Znak czasu: Kwiecień 9, 2024

Zbuduj oparty na wiadomościach system powiadamiania w czasie rzeczywistym za pomocą Twittera, Amazon SageMaker i Hugging Face PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Zbuduj oparty na wiadomościach system alertów w czasie rzeczywistym za pomocą Twittera, Amazon SageMaker i Hugging Face

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1575530

Znak czasu: Lipiec 15, 2022