Wraz z szybkim przyjęciem generatywnych aplikacji AI istnieje potrzeba, aby aplikacje te reagowały na czas, aby zmniejszyć postrzegane opóźnienia i zwiększyć przepustowość. Modele podstawowe (FM) są często wstępnie szkolone na ogromnych zbiorach danych o parametrach w skali od milionów do miliardów i większej. Duże modele językowe (LLM) to rodzaj FM, który generuje tekst w odpowiedzi na wnioski użytkownika. Wnioskowanie o tych modelach przy różnych konfiguracjach parametrów wnioskowania może prowadzić do niespójnych opóźnień. Niespójność może wynikać z różnej liczby tokenów odpowiedzi oczekiwanych od modelu lub typu akceleratora, w którym wdrażany jest model.
W obu przypadkach, zamiast czekać na pełną odpowiedź, możesz zastosować podejście polegające na przesyłaniu strumieniowych odpowiedzi dla swoich wniosków, które odsyła fragmenty informacji zaraz po ich wygenerowaniu. Zapewnia to interaktywne wrażenia, umożliwiając oglądanie częściowych odpowiedzi przesyłanych strumieniowo w czasie rzeczywistym zamiast opóźnionej pełnej odpowiedzi.
Z oficjalnym ogłoszeniem, że Wnioskowanie w czasie rzeczywistym Amazon SageMaker obsługuje teraz przesyłanie strumieniowe odpowiedzi, możesz teraz w sposób ciągły przesyłać strumieniowo odpowiedzi z wniosków z powrotem do klienta podczas używania Amazon Sage Maker wnioskowanie w czasie rzeczywistym ze strumieniowaniem odpowiedzi. To rozwiązanie pomoże Ci zbudować interaktywne doświadczenia dla różnych generatywnych aplikacji AI, takich jak chatboty, wirtualni asystenci i generatory muzyki. W tym poście pokazano, jak uzyskać szybsze czasy odpowiedzi w postaci czasu do pierwszego bajtu (TTFB) i zmniejszyć ogólne postrzegane opóźnienie podczas wnioskowania o modelach Lamy 2.
Do wdrożenia rozwiązania używamy SageMaker, w pełni zarządzanej usługi umożliwiającej przygotowanie danych oraz budowanie, trenowanie i wdrażanie modeli uczenia maszynowego (ML) dla dowolnego przypadku użycia z w pełni zarządzaną infrastrukturą, narzędziami i przepływami pracy. Więcej informacji na temat różnych opcji wdrażania udostępnianych przez SageMaker można znaleźć w artykule Często zadawane pytania dotyczące hostingu modeli Amazon SageMaker. Zastanówmy się, jak rozwiązać problemy z opóźnieniami, korzystając z wnioskowania w czasie rzeczywistym i przesyłania strumieniowego odpowiedzi.
Omówienie rozwiązania
Ponieważ chcemy zająć się wyżej wymienionymi opóźnieniami związanymi z wnioskowaniem w czasie rzeczywistym za pomocą LLM, najpierw zrozummy, w jaki sposób możemy wykorzystać obsługę strumieniowania odpowiedzi do wnioskowania w czasie rzeczywistym dla Lamy 2. Jednak każdy LLM może skorzystać z obsługi strumieniowania odpowiedzi w czasie rzeczywistym -wnioskowanie czasowe.
Llama 2 to zbiór wstępnie wyszkolonych i dostrojonych generatywnych modeli tekstowych o skali od 7 miliardów do 70 miliardów parametrów. Modele Lamy 2 są modelami autoregresyjnymi z architekturą wyłącznie dekodera. Po wyposażeniu w parametry podpowiedzi i wnioskowania modele Lamy 2 są w stanie generować odpowiedzi tekstowe. Modele te można wykorzystać do tłumaczenia, podsumowań, odpowiadania na pytania i czatowania.
W tym poście wdrażamy model Llama 2 Chat meta-llama/Llama-2-13b-chat-hf
w SageMaker do wnioskowania w czasie rzeczywistym ze strumieniowym przesyłaniem odpowiedzi.
Jeśli chodzi o wdrażanie modeli na punktach końcowych SageMaker, możesz konteneryzować modele przy użyciu wyspecjalizowanych rozwiązań Kontener głębokiego uczenia AWS (DLC) dostępne dla popularnych bibliotek open source. Modele Lamy 2 to modele generowania tekstu; możesz użyć albo Kontenery wnioskowania Hugging Face LLM w SageMaker wspierane przez Hugging Face Wnioskowanie dotyczące generowania tekstu (TGI) lub DLC AWS dla Wnioskowanie z dużego modelu (LMI).
W tym poście wdrażamy model czatu Llama 2 13B przy użyciu DLC na serwerze SageMaker w celu wnioskowania w czasie rzeczywistym obsługiwanego przez instancje G5. Instancje G5 to wysokowydajne instancje oparte na procesorach graficznych do zastosowań intensywnie korzystających z grafiki i wnioskowania ML. Można także użyć obsługiwanych typów instancji p4d, p3, g5 i g4dn z odpowiednimi zmianami zgodnie z konfiguracją instancji.
Wymagania wstępne
Aby wdrożyć to rozwiązanie, powinieneś mieć:
- Konto AWS z AWS Zarządzanie tożsamością i dostępem (IAM) z uprawnieniami do zarządzania zasobami utworzonymi w ramach rozwiązania.
- Jeśli jest to Twoja pierwsza praca z Studio Amazon SageMaker, musisz najpierw utworzyć plik Domena SageMakera.
- Konto Przytulonej Twarzy. Zapisz się wraz ze swoim adresem e-mail, jeśli nie masz jeszcze konta.
- Aby uzyskać bezproblemowy dostęp do modeli dostępnych w Hugging Face, zwłaszcza modeli bramkowanych, takich jak Lama, w celu dostrajania i wnioskowania, powinieneś mieć konto Hugging Face, aby uzyskać token dostępu do odczytu. Po zarejestrowaniu konta Hugging Face, Zaloguj Się odwiedzać https://huggingface.co/settings/tokens aby utworzyć token dostępu do odczytu.
- Dostęp do Lamy 2 przy użyciu tego samego adresu e-mail, którego użyłeś podczas rejestracji w Hugging Face.
- Modele Llama 2 dostępne za pośrednictwem Hugging Face to modele z bramką. Korzystanie z modelu Llama podlega licencji Meta. Aby pobrać wagi modeli i tokenizer, poproś o dostęp do Lamy i zaakceptuj ich licencję.
- Po przyznaniu dostępu (zwykle w ciągu kilku dni) otrzymasz e-mail z potwierdzeniem. W tym przykładzie używamy modelu
Llama-2-13b-chat-hf
, ale powinieneś mieć również dostęp do innych wariantów.
Podejście 1: Przytulanie twarzy TGI
W tej sekcji pokażemy, jak wdrożyć meta-llama/Llama-2-13b-chat-hf
model do punktu końcowego czasu rzeczywistego SageMaker ze strumieniowaniem odpowiedzi za pomocą Hugging Face TGI. W poniższej tabeli przedstawiono specyfikacje tego wdrożenia.
Specyfikacja | wartość |
Pojemnik | Przytulanie twarzy TGI |
Nazwa modelu | meta-llama/Llama-2-13b-chat-hf |
Instancja ML | ml.g5.12xduży |
Wnioskowanie | W czasie rzeczywistym ze strumieniowaniem odpowiedzi |
Wdróż model
Najpierw pobierasz obraz podstawowy dla LLM, który ma zostać wdrożony. Następnie budujesz model na obrazie bazowym. Na koniec wdrażasz model w instancji ML dla SageMaker Hosting, aby móc wnioskować w czasie rzeczywistym.
Przyjrzyjmy się, jak programowo osiągnąć wdrożenie. Dla zwięzłości w tej sekcji omówiono tylko kod pomocny w etapach wdrażania. Pełny kod źródłowy do wdrożenia jest dostępny w notatniku llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.
Pobierz najnowszą wersję DLC Hugging Face LLM obsługiwaną przez TGI w postaci gotowej DLC do SageMakera. Ten obraz służy do wdrażania meta-llama/Llama-2-13b-chat-hf
model w SageMakerze. Zobacz następujący kod:
Zdefiniuj środowisko dla modelu za pomocą parametrów konfiguracyjnych zdefiniowanych w następujący sposób:
zastąpić <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
dla parametru konfiguracyjnego HUGGING_FACE_HUB_TOKEN
z wartością tokena uzyskanego z Twojego profilu Przytulonej Twarzy, zgodnie z opisem w części dotyczącej wymagań wstępnych tego posta. W konfiguracji definiujesz liczbę procesorów graficznych używanych na replikę modelu jako 4 dla SM_NUM_GPUS
. Następnie możesz wdrożyć meta-llama/Llama-2-13b-chat-hf
model na instancji ml.g5.12xlarge wyposażonej w 4 procesory graficzne.
Teraz możesz zbudować instancję HuggingFaceModel
z wyżej wymienioną konfiguracją środowiska:
Na koniec wdróż model, podając argumenty metody wdrażania dostępnej w modelu z różnymi wartościami parametrów, takimi jak endpoint_name
, initial_instance_count
, instance_type
:
Wykonaj wnioskowanie
Dodatek Hugging Face TGI DLC umożliwia strumieniowe przesyłanie odpowiedzi bez konieczności dokonywania jakichkolwiek dostosowań lub zmian w kodzie modelu. Możesz użyć invoke_endpoint_with_response_stream jeśli używasz Boto3 lub InvokeEndpointWithResponseStream podczas programowania przy użyciu pakietu SageMaker Python SDK.
Połączenia InvokeEndpointWithResponseStream
Interfejs API SageMaker umożliwia programistom przesyłanie strumieniowe odpowiedzi z modeli SageMaker, co może pomóc w zwiększeniu zadowolenia klientów poprzez zmniejszenie postrzeganego opóźnienia. Jest to szczególnie ważne w przypadku aplikacji zbudowanych z generatywnych modeli AI, gdzie natychmiastowe przetwarzanie jest ważniejsze niż oczekiwanie na całą odpowiedź.
W tym przykładzie używamy Boto3 do wywnioskowania modelu i korzystania z interfejsu API SageMaker invoke_endpoint_with_response_stream
w sposób następujący:
Argument CustomAttributes
jest ustawiona na wartość accept_eula=false
. Połączenia accept_eula
parametr musi być ustawiony na true
aby pomyślnie uzyskać odpowiedź z modeli Lamy 2. Po pomyślnym wywołaniu za pomocą invoke_endpoint_with_response_stream
, metoda zwróci strumień bajtów odpowiedzi.
Poniższy diagram ilustruje ten przepływ pracy.
Potrzebujesz iteratora, który zapętla strumień bajtów i analizuje je w celu uzyskania czytelnego tekstu. The LineIterator
wdrożenie można znaleźć pod adresem llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Teraz możesz przygotować monit i instrukcje, aby użyć ich jako ładunku podczas wnioskowania o modelu.
Przygotuj podpowiedź i instrukcje
Na tym etapie przygotowujesz monit i instrukcje dla swojego LLM. Aby wyświetlić Lamę 2, powinieneś mieć następujący szablon podpowiedzi:
Tworzysz szablon podpowiedzi zdefiniowany programowo w metodzie build_llama2_prompt
, który jest zgodny z wyżej wymienionym szablonem podpowiedzi. Następnie definiujesz instrukcje zgodnie z przypadkiem użycia. W tym przypadku instruujemy model, aby wygenerował wiadomość e-mail dla kampanii marketingowej zgodnie z opisem w get_instructions
metoda. Kod tych metod znajduje się w pliku llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb zeszyt. Zbuduj instrukcję połączoną z zadaniem do wykonania, jak opisano szczegółowo w user_ask_1
w sposób następujący:
Przekazujemy instrukcje budowania podpowiedzi zgodnie z szablonem podpowiedzi wygenerowanym przez build_llama2_prompt.
Klubujemy parametry wnioskowania wraz z podpowiedzią za pomocą klucza stream
z wartością True
aby utworzyć ostateczny ładunek. Wyślij ładunek do get_realtime_response_stream
, który będzie używany do wywołania punktu końcowego ze strumieniowaniem odpowiedzi:
Wygenerowany tekst z LLM zostanie przesłany strumieniowo do wyjścia, jak pokazano na poniższej animacji.
Podejście 2: LMI z usługą DJL
W tej sekcji pokażemy, jak wdrożyć meta-llama/Llama-2-13b-chat-hf
model do punktu końcowego czasu rzeczywistego SageMaker ze strumieniowaniem odpowiedzi za pomocą LMI z DJL Serving. W poniższej tabeli przedstawiono specyfikacje tego wdrożenia.
Specyfikacja | wartość |
Pojemnik | Obraz kontenera LMI z usługą DJL Serving |
Nazwa modelu | meta-llama/Llama-2-13b-chat-hf |
Instancja ML | ml.g5.12xduży |
Wnioskowanie | W czasie rzeczywistym ze strumieniowaniem odpowiedzi |
Najpierw pobierasz model i przechowujesz go Usługa Amazon Simple Storage (Amazon S3). Następnie określasz identyfikator URI S3, wskazując przedrostek S3 modelu w pliku serving.properties
plik. Następnie pobierasz obraz podstawowy dla LLM, który ma zostać wdrożony. Następnie budujesz model na obrazie bazowym. Na koniec wdrażasz model w instancji ML dla SageMaker Hosting, aby móc wnioskować w czasie rzeczywistym.
Przyjrzyjmy się, jak programowo osiągnąć wyżej wymienione etapy wdrażania. Aby zachować zwięzłość, w tej sekcji szczegółowo opisano tylko kod pomocny w poszczególnych krokach wdrażania. Pełny kod źródłowy tego wdrożenia jest dostępny w notatniku llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.
Pobierz migawkę modelu z Hugging Face i prześlij artefakty modelu na Amazon S3
Spełniając powyższe wymagania wstępne, pobierz model na instancję notebooka SageMaker, a następnie prześlij go do segmentu S3 w celu dalszego wdrożenia:
Pamiętaj, że nawet jeśli nie podasz prawidłowego tokena dostępu, model zostanie pobrany. Jednak po wdrożeniu takiego modelu jego udostępnienie nie powiedzie się. Dlatego zaleca się wymianę <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
dla argumentu token
z wartością tokena uzyskanego z profilu Przytulonej Twarzy, zgodnie z wymaganiami wstępnymi. W tym poście podajemy oficjalną nazwę modelu Lamy 2, zidentyfikowaną w Hugging Face, wraz z wartością meta-llama/Llama-2-13b-chat-hf
. Nieskompresowany model zostanie pobrany do pliku local_model_path
w wyniku uruchomienia powyższego kodu.
Prześlij pliki do Amazon S3 i uzyskaj identyfikator URI, który będzie później używany serving.properties
.
Będziesz pakować meta-llama/Llama-2-13b-chat-hf
model na obrazie kontenera LMI z obsługą DJL przy użyciu konfiguracji określonej przez serving.properties
. Następnie wdrażasz model wraz z artefaktami modelu spakowanymi w obrazie kontenera w instancji SageMaker ML ml.g5.12xlarge. Następnie używasz tej instancji ML dla SageMaker Hosting do wnioskowania w czasie rzeczywistym.
Przygotuj artefakty modelu dla DJL Serving
Przygotuj artefakty modelu, tworząc plik serving.properties
plik konfiguracyjny:
W tym pliku konfiguracyjnym używamy następujących ustawień:
- silnik – Określa silnik wykonawczy, którego ma używać DJL. Możliwe wartości obejmują
Python
,DeepSpeed
,FasterTransformer
,MPI
. W tym przypadku ustawiliśmy to naMPI
. Parallelizacja i wnioskowanie modelu (MPI) ułatwia dzielenie modelu na wszystkie dostępne procesory graficzne, a tym samym przyspiesza wnioskowanie. - opcja.punkt wejścia – Ta opcja określa, z którego modułu obsługi oferowanego przez DJL Serving chcesz skorzystać. Możliwe wartości to
djl_python.huggingface
,djl_python.deepspeed
,djl_python.stable-diffusion
. Używamydjl_python.huggingface
dla Przyspieszenia Przytulania Twarzy. - opcja.tensor_równoległy_stopień – Ta opcja określa liczbę równoległych partycji tensorowych wykonanych w modelu. Możesz ustawić liczbę urządzeń GPU, według których Accelerate musi podzielić model. Ten parametr kontroluje również liczbę procesów roboczych na model, które zostaną uruchomione po uruchomieniu obsługi DJL. Na przykład, jeśli mamy maszynę z 4 procesorami graficznymi i utworzymy cztery partycje, wówczas będziemy mieć jednego pracownika na model do obsługi żądań.
- opcja.low_cpu_mem_usage – Zmniejsza to zużycie pamięci procesora podczas ładowania modeli. Zalecamy ustawienie tej opcji
TRUE
. - opcja.rolling_batch – Umożliwia to przetwarzanie wsadowe na poziomie iteracji przy użyciu jednej z obsługiwanych strategii. Wartości obejmują
auto
,scheduler
,lmi-dist
. Używamylmi-dist
do włączenia ciągłego dozowania dla Lamy 2. - opcja.max_rolling_batch_size – Ogranicza to liczbę jednoczesnych żądań w ciągłej partii. Wartość domyślna to 32.
- opcja.model_id – Powinieneś wymienić
{{model_id}}
z identyfikatorem modelu wstępnie wyszkolonego modelu hostowanego w pliku repozytorium modeli na Hugging Face lub ścieżka S3 do artefaktów modelu.
Więcej opcji konfiguracji można znaleźć w Konfiguracje i ustawienia.
Ponieważ DJL Serving oczekuje, że artefakty modelu zostaną spakowane i sformatowane w pliku .tar, uruchom następujący fragment kodu, aby skompresować i przesłać plik .tar do Amazon S3:
Pobierz najnowszy obraz kontenera LMI za pomocą DJL Serving
Następnie użyj DLC dostępnych w SageMaker dla LMI, aby wdrożyć model. Pobierz identyfikator URI obrazu SageMaker dla pliku djl-deepspeed
kontener programowo przy użyciu następującego kodu:
Możesz użyć powyższego obrazu, aby wdrożyć meta-llama/Llama-2-13b-chat-hf
model w SageMakerze. Teraz możesz przystąpić do tworzenia modelu.
Stwórz model
Możesz utworzyć model, którego kontener jest zbudowany za pomocą inference_image_uri
oraz kod obsługujący model znajdujący się pod adresem URI S3 wskazanym przez s3_code_artifact:
Teraz możesz utworzyć konfigurację modelu ze wszystkimi szczegółami konfiguracji punktu końcowego.
Utwórz konfigurację modelu
Użyj poniższego kodu, aby utworzyć konfigurację modelu dla modelu identyfikowanego przez model_name
:
Konfiguracja modelu jest zdefiniowana dla ProductionVariants
parametr InstanceType
dla instancji ML ml.g5.12xlarge. Podajesz także ModelName
używając tej samej nazwy, której użyłeś do utworzenia modelu we wcześniejszym kroku, ustanawiając w ten sposób relację między modelem a konfiguracją punktu końcowego.
Teraz, gdy zdefiniowałeś model i konfigurację modelu, możesz utworzyć punkt końcowy SageMaker.
Utwórz punkt końcowy SageMaker
Utwórz punkt końcowy, aby wdrożyć model, korzystając z następującego fragmentu kodu:
Postęp wdrażania można wyświetlić, korzystając z następującego fragmentu kodu:
Po pomyślnym wdrożeniu stan punktu końcowego będzie następujący InService
. Teraz, gdy punkt końcowy jest już gotowy, przeprowadźmy wnioskowanie za pomocą przesyłania strumieniowego odpowiedzi.
Wnioskowanie w czasie rzeczywistym ze strumieniowaniem odpowiedzi
Jak omówiliśmy we wcześniejszym podejściu do Hugging Face TGI, możesz użyć tej samej metody get_realtime_response_stream
aby wywołać przesyłanie strumieniowe odpowiedzi z punktu końcowego SageMaker. Kod wnioskowania przy użyciu podejścia LMI znajduje się w pliku llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb zeszyt. The LineIterator
realizacja znajduje się w llama-2-lmi/utils/LineIterator.py. Zauważ, że LineIterator
w przypadku modelu Llama 2 Chat wdrożonego w kontenerze LMI różni się od modelu LineIterator
wspomniane w sekcji Przytulająca Twarz TGI. The LineIterator
zapętla strumień bajtów z modeli Llama 2 Chat wywnioskowany z kontenera LMI djl-deepspeed
wersja 0.25.0. Następująca funkcja pomocnicza przeanalizuje strumień odpowiedzi otrzymany z żądania wnioskowania przesłanego za pośrednictwem metody invoke_endpoint_with_response_stream
OGIEŃ:
Powyższa metoda drukuje strumień danych odczytanych przez metodę LineIterator
w formacie czytelnym dla człowieka.
Przyjrzyjmy się, jak przygotować podpowiedzi i instrukcje, aby wykorzystać je jako ładunek podczas wnioskowania o modelu.
Ponieważ w Hugging Face TGI i LMI odwołujesz się do tego samego modelu, proces przygotowywania podpowiedzi i instrukcji jest taki sam. Dlatego możesz skorzystać z metod get_instructions
i build_llama2_prompt
do wnioskowania.
Połączenia get_instructions
metoda zwraca instrukcje. Utwórz instrukcje połączone z zadaniem do wykonania, jak opisano szczegółowo w user_ask_2
w sposób następujący:
Przekaż instrukcje dotyczące tworzenia podpowiedzi zgodnie z szablonem podpowiedzi wygenerowanym przez build_llama2_prompt:
Łączymy parametry wnioskowania z zachętą do utworzenia ostatecznego ładunku. Następnie wysyłasz ładunek do get_realtime_response_stream,
który służy do wywoływania punktu końcowego ze strumieniowaniem odpowiedzi:
Wygenerowany tekst z LLM zostanie przesłany strumieniowo do wyjścia, jak pokazano na poniższej animacji.
Sprzątać
Aby uniknąć niepotrzebnych opłat, skorzystaj z opcji Konsola zarządzania AWS aby usunąć punkty końcowe i powiązane z nimi zasoby, które zostały utworzone podczas uruchamiania podejść wymienionych w poście. W przypadku obu podejść do wdrażania wykonaj następującą procedurę czyszczenia:
zastąpić <SageMaker_Real-time_Endpoint_Name>
dla zmiennej endpoint_name
z rzeczywistym punktem końcowym.
W przypadku drugiego podejścia przechowywaliśmy model i artefakty kodu na Amazon S3. Możesz wyczyścić wiadro S3, używając następującego kodu:
Wnioski
W tym poście omówiliśmy, jak różna liczba tokenów odpowiedzi lub inny zestaw parametrów wnioskowania może wpłynąć na opóźnienia związane z LLM. Pokazaliśmy, jak rozwiązać problem za pomocą przesyłania strumieniowego odpowiedzi. Następnie zidentyfikowaliśmy dwa podejścia do wdrażania i wnioskowania modeli Llama 2 Chat przy użyciu DLC AWS — LMI i Hugging Face TGI.
Powinieneś teraz zrozumieć znaczenie reakcji przesyłania strumieniowego i tego, jak może ona zmniejszyć postrzegane opóźnienia. Odpowiedź przesyłana strumieniowo może poprawić komfort użytkownika, co w przeciwnym razie spowodowałoby konieczność czekania, aż LLM zbuduje całą odpowiedź. Dodatkowo wdrożenie modeli Llama 2 Chat ze strumieniowaniem odpowiedzi poprawia komfort użytkownika i sprawia, że Twoi klienci są zadowoleni.
Możesz odwołać się do oficjalnych próbek aws amazon-sagemaker-llama2-response-streaming-recipes obejmuje wdrożenie innych wariantów modelu Llama 2.
Referencje
O autorach
Pavan Kumar Rao Navule jest architektem rozwiązań w Amazon Web Services. Współpracuje z niezależnymi dostawcami oprogramowania w Indiach, aby pomóc im wprowadzać innowacje w AWS. Jest autorem książki „Pierwsze kroki z programowaniem w języku V”. Uzyskał tytuł Executive M.Tech w dziedzinie nauki o danych w Indyjskim Instytucie Technologii (IIT) w Hyderabadzie. Uzyskał także tytuł Executive MBA w specjalizacji IT w Indyjskiej Szkole Zarządzania i Administracji Biznesem oraz uzyskał tytuł B.Tech w dziedzinie elektroniki i inżynierii komunikacji w Instytucie Technologii i Nauki Vaagdevi. Pavan jest certyfikowanym architektem rozwiązań AWS i posiada inne certyfikaty, takie jak AWS Certified Machine Learning Specialty, Microsoft Certified Professional (MCP) i Microsoft Certified Technology Specialist (MCTS). Jest także entuzjastą open source. W wolnym czasie uwielbia słuchać wspaniałych, magicznych głosów Sii i Rihanny.
Nienawiść Sudhanshu jest głównym specjalistą AI/ML w AWS i współpracuje z klientami, doradzając im w zakresie MLO i generatywnej AI. Na swoim poprzednim stanowisku przed Amazonem tworzył koncepcje, tworzył i kierował zespołami, które budowały od podstaw platformy sztucznej inteligencji i grywalizacji oparte na otwartym kodzie źródłowym, a następnie z powodzeniem komercjalizował je u ponad 100 klientów. Sudhanshu ma na swoim koncie kilka patentów, napisał dwie książki, kilka artykułów i blogów oraz przedstawił swój punkt widzenia na różnych forach technicznych. Jest czołowym myślicielem i mówcą, działającym w branży od prawie 25 lat. Pracował z klientami z listy Fortune 1000 na całym świecie, a ostatnio z klientami z branży cyfrowej w Indiach.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
- PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
- PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
- Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
- Źródło: https://aws.amazon.com/blogs/machine-learning/inference-llama-2-models-with-real-time-response-streaming-using-amazon-sagemaker/
- :ma
- :Jest
- :Gdzie
- $W GÓRĘ
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 150
- 16
- 19
- 1
- 25
- 32
- 385
- 50
- 7
- 70
- 8
- 9
- a
- zdolność
- Zdolny
- O nas
- przyśpieszyć
- przyspiesza
- akcelerator
- Akceptuj
- dostęp
- Konto
- Osiągać
- w poprzek
- Działania
- rzeczywisty
- do tego
- adres
- administracja
- przyjąć
- Przyjęcie
- Korzyść
- doradzać
- oddziaływać
- Po
- AI
- Modele AI
- AI / ML
- alicja
- Wyrównuje
- Wszystkie kategorie
- Pozwalać
- pozwala
- wzdłuż
- już
- również
- Amazonka
- Amazon Sage Maker
- Amazon Web Services
- an
- i
- animacja
- ogłosił
- Zapowiedź
- każdy
- api
- aplikacje
- podejście
- awanse
- właściwy
- architektoniczny
- architektura
- SĄ
- argument
- argumenty
- AS
- asystenci
- powiązany
- At
- autor
- dostępny
- uniknąć
- AWS
- z powrotem
- baza
- partie
- BE
- bo
- być
- zanim
- pomiędzy
- Poza
- Miliard
- miliardy
- BIN
- blogi
- ciało
- książka
- Książki
- obie
- budować
- Buduje
- wybudowany
- biznes
- ale
- by
- wezwanie
- Kampania
- CAN
- zdolny
- walizka
- certyfikaty
- Dyplomowani
- Zmiany
- Opłaty
- pogawędzić
- nasze chatboty
- kleń
- klient
- klientów
- klub
- kod
- kolekcja
- COM
- połączony
- byliśmy spójni, od początku
- Komunikacja
- równoległy
- systemu
- potwierdzenie
- Pojemnik
- Pojemniki
- ciągły
- bez przerwy
- kontroli
- mógłby
- Para
- kupon
- pokryty
- Okładki
- Stwórz
- stworzony
- tworzy
- Tworzenie
- kredyt
- klient
- Zadowolenie klienta
- Klientów
- dane
- nauka danych
- Dni
- głęboko
- głęboka nauka
- Domyślnie
- określić
- zdefiniowane
- opóźniony
- wykazać
- rozwijać
- wdrażane
- wdrażanie
- Wdrożenie
- szczegółowe
- detale
- deweloperzy
- urządzenia
- różne
- cyfrowy
- omówione
- nie
- pobieranie
- podczas
- Wcześniej
- bądź
- Elektronika
- Umożliwia
- Punkt końcowy
- silnik
- Inżynieria
- entuzjasta
- Cały
- Środowisko
- szczególnie
- ustanowienie
- Parzyste
- przykład
- wykonawczy
- oczekując
- oczekuje
- doświadczenie
- Doświadczenia
- odkryj
- Twarz
- ułatwia
- fałszywy
- szybciej
- filet
- Akta
- finał
- W końcu
- i terminów, a
- pierwszy raz
- następujący
- następujący sposób
- W razie zamówieenia projektu
- Nasz formularz
- format
- Majątek
- Forum
- znaleziono
- Fundacja
- cztery
- Darmowy
- od
- pełny
- w pełni
- funkcjonować
- dalej
- gamification
- bramkowane
- Generować
- wygenerowane
- generujący
- generacja
- generatywny
- generatywna sztuczna inteligencja
- generatory
- otrzymać
- gif
- globus
- Go
- regulowane
- GPU
- GPU
- udzielony
- wspaniały
- Zaoszczędzić
- nienawidzić
- Have
- he
- pomoc
- pomaga
- wysoka wydajność
- wyższy
- jego
- posiada
- hostowane
- Hosting
- W jaki sposób
- How To
- Jednak
- HTML
- http
- HTTPS
- Przytulanie twarzy
- czytelne dla człowieka
- ID
- zidentyfikowane
- tożsamość
- if
- ilustruje
- obraz
- zdjęcia
- Natychmiastowy
- wdrożenia
- realizacja
- importować
- znaczenie
- ważny
- podnieść
- poprawia
- in
- zawierać
- Włącznie z
- Indie
- Hindusi
- wskazany
- przemysł
- Informacja
- Infrastruktura
- wprowadzać innowacje
- wkład
- Wejścia
- wewnątrz
- przykład
- zamiast
- Instytut
- instrukcje
- interaktywne
- Internet
- problemy
- IT
- JEGO
- podróż
- json
- Klawisz
- Kumar
- język
- duży
- Utajenie
- problemy z latencją
- później
- firmy
- uruchomić
- prowadzić
- lider
- nauka
- Doprowadziło
- Długość
- biblioteki
- Licencja
- lubić
- Limity
- Linia
- słuchać
- Lama
- LLM
- załadunek
- usytuowany
- kocha
- maszyna
- uczenie maszynowe
- zrobiony
- robić
- WYKONUJE
- zarządzanie
- zarządzane
- i konserwacjami
- Marketing
- max
- Może..
- MCP
- Pamięć
- wzmiankowany
- Meta
- metoda
- metody
- Microsoft
- miliony
- ML
- MLOps
- model
- modele
- miesięcy
- jeszcze
- większość
- Muzyka
- musi
- Nazwa
- O imieniu
- rodzimy
- prawie
- Potrzebować
- wymagania
- Nowości
- Następny
- noty
- notatnik
- już dziś
- numer
- obiekty
- obserwować
- uzyskać
- uzyskane
- of
- oferowany
- urzędnik
- często
- on
- ONE
- tylko
- koncepcja
- open source
- Option
- Opcje
- or
- Inne
- Inaczej
- wytyczne
- wydajność
- koniec
- ogólny
- pakowane
- opakowania
- Papiery
- Parallel
- parametr
- parametry
- część
- przechodzić
- Patenty
- ścieżka
- dla
- spostrzegany
- wykonać
- wykonywane
- uprawnienia
- Platformy
- plato
- Analiza danych Platona
- PlatoDane
- zwrotnica
- Popularny
- możliwy
- Post
- powered
- poprzedzający
- Przygotować
- przygotowanie
- warunki wstępne
- przedstawione
- poprzedni
- Główny
- wydruki
- Problem
- kontynuować
- wygląda tak
- Obrobiony
- przetwarzanie
- Produkt
- Wprowadzenie produktu
- profesjonalny
- Profil
- Programowanie
- Postęp
- niska zabudowa
- zapewniać
- pod warunkiem,
- zapewnia
- że
- opublikowany
- cele
- Python
- płomień
- pytanie
- nośny
- szybki
- raczej
- Czytaj
- gotowy
- real
- w czasie rzeczywistym
- zrealizować
- otrzymać
- Odebrane
- niedawno
- polecić
- Zalecana
- zmniejszyć
- zmniejsza
- redukcja
- odnosić się
- relacja
- obsługi produkcji rolnej, która zastąpiła
- odpowiedzieć
- składnica
- zażądać
- wywołań
- Zasoby
- Odpowiadać
- odpowiedź
- Odpowiedzi
- dalsze
- powrót
- powraca
- Rola
- rutyna
- run
- bieganie
- działa
- Czas
- sagemaker
- taki sam
- klientów
- Skala
- Szkoła
- nauka
- Sdk
- bezszwowy
- druga
- Sekcja
- widzieć
- wysłać
- wysyła
- służyć
- usługa
- Usługi
- służąc
- zestaw
- w panelu ustawień
- kilka
- Short
- powinien
- pokazać
- pokazał
- pokazane
- Targi
- znak
- Prosty
- Migawka
- skrawek
- rozwiązanie
- Rozwiązania
- wkrótce
- Źródło
- Kod źródłowy
- Głośnik
- specjalista
- wyspecjalizowanym
- Specjalność
- Specyfikacje
- określony
- rozpoczęty
- Rynek
- Ewolucja krok po kroku
- Cel
- Stop
- przechowywanie
- sklep
- przechowywany
- strategie
- strumień
- strumieniowo
- Streaming
- Usługa transmisji strumieniowej
- osiągnąć sukces
- udany
- Z powodzeniem
- taki
- wsparcie
- Utrzymany
- podpory
- stół
- Brać
- Zadanie
- Zespoły
- tech
- Techniczny
- Technologia
- szablon
- XNUMX
- niż
- że
- Połączenia
- ich
- Im
- następnie
- Tam.
- a tym samym
- w związku z tym
- Te
- one
- to
- chociaż?
- myśl
- wydajność
- czas
- czasy
- do
- żeton
- Żetony
- narzędzia
- Pociąg
- Tłumaczenie
- prawdziwy
- Obrócenie
- drugiej
- rodzaj
- typy
- zazwyczaj
- zrozumieć
- niepotrzebny
- aż do
- Stosowanie
- posługiwać się
- przypadek użycia
- używany
- Użytkownik
- Doświadczenie użytkownika
- za pomocą
- ważny
- wartość
- Wartości
- zmienna
- różnorodny
- zmienne
- Naprawiono
- wersja
- przez
- Zobacz i wysłuchaj
- Wirtualny
- Odwiedzić
- GŁOSY
- czekać
- Czekanie
- chcieć
- we
- sieć
- usługi internetowe
- DOBRZE
- były
- jeśli chodzi o komunikację i motywację
- który
- Podczas
- cały
- którego
- będzie
- w
- w ciągu
- bez
- pracował
- pracownik
- pracowników
- workflow
- przepływów pracy
- pracujący
- działa
- by
- napisać
- napisany
- lat
- You
- Twój
- zefirnet