Modele wnioskowania lamy 2 ze strumieniowaniem odpowiedzi w czasie rzeczywistym za pomocą Amazon SageMaker

Opublikowane ponownie przez Plato

Obserwuje: 0

Wraz z szybkim przyjęciem generatywnych aplikacji AI istnieje potrzeba, aby aplikacje te reagowały na czas, aby zmniejszyć postrzegane opóźnienia i zwiększyć przepustowość. Modele podstawowe (FM) są często wstępnie szkolone na ogromnych zbiorach danych o parametrach w skali od milionów do miliardów i większej. Duże modele językowe (LLM) to rodzaj FM, który generuje tekst w odpowiedzi na wnioski użytkownika. Wnioskowanie o tych modelach przy różnych konfiguracjach parametrów wnioskowania może prowadzić do niespójnych opóźnień. Niespójność może wynikać z różnej liczby tokenów odpowiedzi oczekiwanych od modelu lub typu akceleratora, w którym wdrażany jest model.

W obu przypadkach, zamiast czekać na pełną odpowiedź, możesz zastosować podejście polegające na przesyłaniu strumieniowych odpowiedzi dla swoich wniosków, które odsyła fragmenty informacji zaraz po ich wygenerowaniu. Zapewnia to interaktywne wrażenia, umożliwiając oglądanie częściowych odpowiedzi przesyłanych strumieniowo w czasie rzeczywistym zamiast opóźnionej pełnej odpowiedzi.

Z oficjalnym ogłoszeniem, że Wnioskowanie w czasie rzeczywistym Amazon SageMaker obsługuje teraz przesyłanie strumieniowe odpowiedzi, możesz teraz w sposób ciągły przesyłać strumieniowo odpowiedzi z wniosków z powrotem do klienta podczas używania Amazon Sage Maker wnioskowanie w czasie rzeczywistym ze strumieniowaniem odpowiedzi. To rozwiązanie pomoże Ci zbudować interaktywne doświadczenia dla różnych generatywnych aplikacji AI, takich jak chatboty, wirtualni asystenci i generatory muzyki. W tym poście pokazano, jak uzyskać szybsze czasy odpowiedzi w postaci czasu do pierwszego bajtu (TTFB) i zmniejszyć ogólne postrzegane opóźnienie podczas wnioskowania o modelach Lamy 2.

Do wdrożenia rozwiązania używamy SageMaker, w pełni zarządzanej usługi umożliwiającej przygotowanie danych oraz budowanie, trenowanie i wdrażanie modeli uczenia maszynowego (ML) dla dowolnego przypadku użycia z w pełni zarządzaną infrastrukturą, narzędziami i przepływami pracy. Więcej informacji na temat różnych opcji wdrażania udostępnianych przez SageMaker można znaleźć w artykule Często zadawane pytania dotyczące hostingu modeli Amazon SageMaker. Zastanówmy się, jak rozwiązać problemy z opóźnieniami, korzystając z wnioskowania w czasie rzeczywistym i przesyłania strumieniowego odpowiedzi.

Omówienie rozwiązania

Ponieważ chcemy zająć się wyżej wymienionymi opóźnieniami związanymi z wnioskowaniem w czasie rzeczywistym za pomocą LLM, najpierw zrozummy, w jaki sposób możemy wykorzystać obsługę strumieniowania odpowiedzi do wnioskowania w czasie rzeczywistym dla Lamy 2. Jednak każdy LLM może skorzystać z obsługi strumieniowania odpowiedzi w czasie rzeczywistym -wnioskowanie czasowe.

Llama 2 to zbiór wstępnie wyszkolonych i dostrojonych generatywnych modeli tekstowych o skali od 7 miliardów do 70 miliardów parametrów. Modele Lamy 2 są modelami autoregresyjnymi z architekturą wyłącznie dekodera. Po wyposażeniu w parametry podpowiedzi i wnioskowania modele Lamy 2 są w stanie generować odpowiedzi tekstowe. Modele te można wykorzystać do tłumaczenia, podsumowań, odpowiadania na pytania i czatowania.

W tym poście wdrażamy model Llama 2 Chat meta-llama/Llama-2-13b-chat-hf w SageMaker do wnioskowania w czasie rzeczywistym ze strumieniowym przesyłaniem odpowiedzi.

Jeśli chodzi o wdrażanie modeli na punktach końcowych SageMaker, możesz konteneryzować modele przy użyciu wyspecjalizowanych rozwiązań Kontener głębokiego uczenia AWS (DLC) dostępne dla popularnych bibliotek open source. Modele Lamy 2 to modele generowania tekstu; możesz użyć albo Kontenery wnioskowania Hugging Face LLM w SageMaker wspierane przez Hugging Face Wnioskowanie dotyczące generowania tekstu (TGI) lub DLC AWS dla Wnioskowanie z dużego modelu (LMI).

W tym poście wdrażamy model czatu Llama 2 13B przy użyciu DLC na serwerze SageMaker w celu wnioskowania w czasie rzeczywistym obsługiwanego przez instancje G5. Instancje G5 to wysokowydajne instancje oparte na procesorach graficznych do zastosowań intensywnie korzystających z grafiki i wnioskowania ML. Można także użyć obsługiwanych typów instancji p4d, p3, g5 i g4dn z odpowiednimi zmianami zgodnie z konfiguracją instancji.

Wymagania wstępne

Aby wdrożyć to rozwiązanie, powinieneś mieć:

Konto AWS z AWS Zarządzanie tożsamością i dostępem (IAM) z uprawnieniami do zarządzania zasobami utworzonymi w ramach rozwiązania.
Jeśli jest to Twoja pierwsza praca z Studio Amazon SageMaker, musisz najpierw utworzyć plik Domena SageMakera.
Konto Przytulonej Twarzy. Zapisz się wraz ze swoim adresem e-mail, jeśli nie masz jeszcze konta.
- Aby uzyskać bezproblemowy dostęp do modeli dostępnych w Hugging Face, zwłaszcza modeli bramkowanych, takich jak Lama, w celu dostrajania i wnioskowania, powinieneś mieć konto Hugging Face, aby uzyskać token dostępu do odczytu. Po zarejestrowaniu konta Hugging Face, Zaloguj Się odwiedzać https://huggingface.co/settings/tokens aby utworzyć token dostępu do odczytu.
Dostęp do Lamy 2 przy użyciu tego samego adresu e-mail, którego użyłeś podczas rejestracji w Hugging Face.
- Modele Llama 2 dostępne za pośrednictwem Hugging Face to modele z bramką. Korzystanie z modelu Llama podlega licencji Meta. Aby pobrać wagi modeli i tokenizer, poproś o dostęp do Lamy i zaakceptuj ich licencję.
- Po przyznaniu dostępu (zwykle w ciągu kilku dni) otrzymasz e-mail z potwierdzeniem. W tym przykładzie używamy modelu Llama-2-13b-chat-hf, ale powinieneś mieć również dostęp do innych wariantów.

Podejście 1: Przytulanie twarzy TGI

W tej sekcji pokażemy, jak wdrożyć meta-llama/Llama-2-13b-chat-hf model do punktu końcowego czasu rzeczywistego SageMaker ze strumieniowaniem odpowiedzi za pomocą Hugging Face TGI. W poniższej tabeli przedstawiono specyfikacje tego wdrożenia.

Specyfikacja	wartość
Pojemnik	Przytulanie twarzy TGI
Nazwa modelu	meta-llama/Llama-2-13b-chat-hf
Instancja ML	ml.g5.12xduży
Wnioskowanie	W czasie rzeczywistym ze strumieniowaniem odpowiedzi

Wdróż model

Najpierw pobierasz obraz podstawowy dla LLM, który ma zostać wdrożony. Następnie budujesz model na obrazie bazowym. Na koniec wdrażasz model w instancji ML dla SageMaker Hosting, aby móc wnioskować w czasie rzeczywistym.

Przyjrzyjmy się, jak programowo osiągnąć wdrożenie. Dla zwięzłości w tej sekcji omówiono tylko kod pomocny w etapach wdrażania. Pełny kod źródłowy do wdrożenia jest dostępny w notatniku llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

Pobierz najnowszą wersję DLC Hugging Face LLM obsługiwaną przez TGI w postaci gotowej DLC do SageMakera. Ten obraz służy do wdrażania meta-llama/Llama-2-13b-chat-hf model w SageMakerze. Zobacz następujący kod:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

Zdefiniuj środowisko dla modelu za pomocą parametrów konfiguracyjnych zdefiniowanych w następujący sposób:

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

zastąpić <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> dla parametru konfiguracyjnego HUGGING_FACE_HUB_TOKEN z wartością tokena uzyskanego z Twojego profilu Przytulonej Twarzy, zgodnie z opisem w części dotyczącej wymagań wstępnych tego posta. W konfiguracji definiujesz liczbę procesorów graficznych używanych na replikę modelu jako 4 dla SM_NUM_GPUS. Następnie możesz wdrożyć meta-llama/Llama-2-13b-chat-hf model na instancji ml.g5.12xlarge wyposażonej w 4 procesory graficzne.

Teraz możesz zbudować instancję HuggingFaceModel z wyżej wymienioną konfiguracją środowiska:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

Na koniec wdróż model, podając argumenty metody wdrażania dostępnej w modelu z różnymi wartościami parametrów, takimi jak endpoint_name, initial_instance_count, instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

Wykonaj wnioskowanie

Dodatek Hugging Face TGI DLC umożliwia strumieniowe przesyłanie odpowiedzi bez konieczności dokonywania jakichkolwiek dostosowań lub zmian w kodzie modelu. Możesz użyć invoke_endpoint_with_response_stream jeśli używasz Boto3 lub InvokeEndpointWithResponseStream podczas programowania przy użyciu pakietu SageMaker Python SDK.

Połączenia InvokeEndpointWithResponseStream Interfejs API SageMaker umożliwia programistom przesyłanie strumieniowe odpowiedzi z modeli SageMaker, co może pomóc w zwiększeniu zadowolenia klientów poprzez zmniejszenie postrzeganego opóźnienia. Jest to szczególnie ważne w przypadku aplikacji zbudowanych z generatywnych modeli AI, gdzie natychmiastowe przetwarzanie jest ważniejsze niż oczekiwanie na całą odpowiedź.

W tym przykładzie używamy Boto3 do wywnioskowania modelu i korzystania z interfejsu API SageMaker invoke_endpoint_with_response_stream w sposób następujący:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

Argument CustomAttributes jest ustawiona na wartość accept_eula=false. Połączenia accept_eula parametr musi być ustawiony na true aby pomyślnie uzyskać odpowiedź z modeli Lamy 2. Po pomyślnym wywołaniu za pomocą invoke_endpoint_with_response_stream, metoda zwróci strumień bajtów odpowiedzi.

Poniższy diagram ilustruje ten przepływ pracy.

Schemat architektoniczny transmisji strumieniowej HF TGI

Potrzebujesz iteratora, który zapętla strumień bajtów i analizuje je w celu uzyskania czytelnego tekstu. The LineIterator wdrożenie można znaleźć pod adresem llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Teraz możesz przygotować monit i instrukcje, aby użyć ich jako ładunku podczas wnioskowania o modelu.

Przygotuj podpowiedź i instrukcje

Na tym etapie przygotowujesz monit i instrukcje dla swojego LLM. Aby wyświetlić Lamę 2, powinieneś mieć następujący szablon podpowiedzi:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

Tworzysz szablon podpowiedzi zdefiniowany programowo w metodzie build_llama2_prompt, który jest zgodny z wyżej wymienionym szablonem podpowiedzi. Następnie definiujesz instrukcje zgodnie z przypadkiem użycia. W tym przypadku instruujemy model, aby wygenerował wiadomość e-mail dla kampanii marketingowej zgodnie z opisem w get_instructions metoda. Kod tych metod znajduje się w pliku llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb zeszyt. Zbuduj instrukcję połączoną z zadaniem do wykonania, jak opisano szczegółowo w user_ask_1 w sposób następujący:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

Przekazujemy instrukcje budowania podpowiedzi zgodnie z szablonem podpowiedzi wygenerowanym przez build_llama2_prompt.

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

Klubujemy parametry wnioskowania wraz z podpowiedzią za pomocą klucza stream z wartością True aby utworzyć ostateczny ładunek. Wyślij ładunek do get_realtime_response_stream, który będzie używany do wywołania punktu końcowego ze strumieniowaniem odpowiedzi:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Wygenerowany tekst z LLM zostanie przesłany strumieniowo do wyjścia, jak pokazano na poniższej animacji.

Przesyłanie strumieniowe odpowiedzi na czacie Lama 2 13B – HF TGI

Podejście 2: LMI z usługą DJL

W tej sekcji pokażemy, jak wdrożyć meta-llama/Llama-2-13b-chat-hf model do punktu końcowego czasu rzeczywistego SageMaker ze strumieniowaniem odpowiedzi za pomocą LMI z DJL Serving. W poniższej tabeli przedstawiono specyfikacje tego wdrożenia.

Specyfikacja	wartość
Pojemnik	Obraz kontenera LMI z usługą DJL Serving
Nazwa modelu	meta-llama/Llama-2-13b-chat-hf
Instancja ML	ml.g5.12xduży
Wnioskowanie	W czasie rzeczywistym ze strumieniowaniem odpowiedzi

Najpierw pobierasz model i przechowujesz go Usługa Amazon Simple Storage (Amazon S3). Następnie określasz identyfikator URI S3, wskazując przedrostek S3 modelu w pliku serving.properties plik. Następnie pobierasz obraz podstawowy dla LLM, który ma zostać wdrożony. Następnie budujesz model na obrazie bazowym. Na koniec wdrażasz model w instancji ML dla SageMaker Hosting, aby móc wnioskować w czasie rzeczywistym.

Przyjrzyjmy się, jak programowo osiągnąć wyżej wymienione etapy wdrażania. Aby zachować zwięzłość, w tej sekcji szczegółowo opisano tylko kod pomocny w poszczególnych krokach wdrażania. Pełny kod źródłowy tego wdrożenia jest dostępny w notatniku llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

Pobierz migawkę modelu z Hugging Face i prześlij artefakty modelu na Amazon S3

Spełniając powyższe wymagania wstępne, pobierz model na instancję notebooka SageMaker, a następnie prześlij go do segmentu S3 w celu dalszego wdrożenia:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

Pamiętaj, że nawet jeśli nie podasz prawidłowego tokena dostępu, model zostanie pobrany. Jednak po wdrożeniu takiego modelu jego udostępnienie nie powiedzie się. Dlatego zaleca się wymianę <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> dla argumentu token z wartością tokena uzyskanego z profilu Przytulonej Twarzy, zgodnie z wymaganiami wstępnymi. W tym poście podajemy oficjalną nazwę modelu Lamy 2, zidentyfikowaną w Hugging Face, wraz z wartością meta-llama/Llama-2-13b-chat-hf. Nieskompresowany model zostanie pobrany do pliku local_model_path w wyniku uruchomienia powyższego kodu.

Prześlij pliki do Amazon S3 i uzyskaj identyfikator URI, który będzie później używany serving.properties.

Będziesz pakować meta-llama/Llama-2-13b-chat-hf model na obrazie kontenera LMI z obsługą DJL przy użyciu konfiguracji określonej przez serving.properties. Następnie wdrażasz model wraz z artefaktami modelu spakowanymi w obrazie kontenera w instancji SageMaker ML ml.g5.12xlarge. Następnie używasz tej instancji ML dla SageMaker Hosting do wnioskowania w czasie rzeczywistym.

Przygotuj artefakty modelu dla DJL Serving

Przygotuj artefakty modelu, tworząc plik serving.properties plik konfiguracyjny:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

W tym pliku konfiguracyjnym używamy następujących ustawień:

silnik – Określa silnik wykonawczy, którego ma używać DJL. Możliwe wartości obejmują Python, DeepSpeed, FasterTransformer, MPI. W tym przypadku ustawiliśmy to na MPI. Parallelizacja i wnioskowanie modelu (MPI) ułatwia dzielenie modelu na wszystkie dostępne procesory graficzne, a tym samym przyspiesza wnioskowanie.
opcja.punkt wejścia – Ta opcja określa, z którego modułu obsługi oferowanego przez DJL Serving chcesz skorzystać. Możliwe wartości to djl_python.huggingface, djl_python.deepspeed, djl_python.stable-diffusion. Używamy djl_python.huggingface dla Przyspieszenia Przytulania Twarzy.
opcja.tensor_równoległy_stopień – Ta opcja określa liczbę równoległych partycji tensorowych wykonanych w modelu. Możesz ustawić liczbę urządzeń GPU, według których Accelerate musi podzielić model. Ten parametr kontroluje również liczbę procesów roboczych na model, które zostaną uruchomione po uruchomieniu obsługi DJL. Na przykład, jeśli mamy maszynę z 4 procesorami graficznymi i utworzymy cztery partycje, wówczas będziemy mieć jednego pracownika na model do obsługi żądań.
opcja.low_cpu_mem_usage – Zmniejsza to zużycie pamięci procesora podczas ładowania modeli. Zalecamy ustawienie tej opcji TRUE.
opcja.rolling_batch – Umożliwia to przetwarzanie wsadowe na poziomie iteracji przy użyciu jednej z obsługiwanych strategii. Wartości obejmują auto, scheduler, lmi-dist. Używamy lmi-dist do włączenia ciągłego dozowania dla Lamy 2.
opcja.max_rolling_batch_size – Ogranicza to liczbę jednoczesnych żądań w ciągłej partii. Wartość domyślna to 32.
opcja.model_id – Powinieneś wymienić {{model_id}} z identyfikatorem modelu wstępnie wyszkolonego modelu hostowanego w pliku repozytorium modeli na Hugging Face lub ścieżka S3 do artefaktów modelu.

Więcej opcji konfiguracji można znaleźć w Konfiguracje i ustawienia.

Ponieważ DJL Serving oczekuje, że artefakty modelu zostaną spakowane i sformatowane w pliku .tar, uruchom następujący fragment kodu, aby skompresować i przesłać plik .tar do Amazon S3:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

Pobierz najnowszy obraz kontenera LMI za pomocą DJL Serving

Następnie użyj DLC dostępnych w SageMaker dla LMI, aby wdrożyć model. Pobierz identyfikator URI obrazu SageMaker dla pliku djl-deepspeed kontener programowo przy użyciu następującego kodu:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

Możesz użyć powyższego obrazu, aby wdrożyć meta-llama/Llama-2-13b-chat-hf model w SageMakerze. Teraz możesz przystąpić do tworzenia modelu.

Stwórz model

Możesz utworzyć model, którego kontener jest zbudowany za pomocą inference_image_uri oraz kod obsługujący model znajdujący się pod adresem URI S3 wskazanym przez s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

Teraz możesz utworzyć konfigurację modelu ze wszystkimi szczegółami konfiguracji punktu końcowego.

Utwórz konfigurację modelu

Użyj poniższego kodu, aby utworzyć konfigurację modelu dla modelu identyfikowanego przez model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

Konfiguracja modelu jest zdefiniowana dla ProductionVariants parametr InstanceType dla instancji ML ml.g5.12xlarge. Podajesz także ModelName używając tej samej nazwy, której użyłeś do utworzenia modelu we wcześniejszym kroku, ustanawiając w ten sposób relację między modelem a konfiguracją punktu końcowego.

Teraz, gdy zdefiniowałeś model i konfigurację modelu, możesz utworzyć punkt końcowy SageMaker.

Utwórz punkt końcowy SageMaker

Utwórz punkt końcowy, aby wdrożyć model, korzystając z następującego fragmentu kodu:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

Postęp wdrażania można wyświetlić, korzystając z następującego fragmentu kodu:

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

Po pomyślnym wdrożeniu stan punktu końcowego będzie następujący InService. Teraz, gdy punkt końcowy jest już gotowy, przeprowadźmy wnioskowanie za pomocą przesyłania strumieniowego odpowiedzi.

Wnioskowanie w czasie rzeczywistym ze strumieniowaniem odpowiedzi

Jak omówiliśmy we wcześniejszym podejściu do Hugging Face TGI, możesz użyć tej samej metody get_realtime_response_stream aby wywołać przesyłanie strumieniowe odpowiedzi z punktu końcowego SageMaker. Kod wnioskowania przy użyciu podejścia LMI znajduje się w pliku llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb zeszyt. The LineIterator realizacja znajduje się w llama-2-lmi/utils/LineIterator.py. Zauważ, że LineIterator w przypadku modelu Llama 2 Chat wdrożonego w kontenerze LMI różni się od modelu LineIterator wspomniane w sekcji Przytulająca Twarz TGI. The LineIterator zapętla strumień bajtów z modeli Llama 2 Chat wywnioskowany z kontenera LMI djl-deepspeed wersja 0.25.0. Następująca funkcja pomocnicza przeanalizuje strumień odpowiedzi otrzymany z żądania wnioskowania przesłanego za pośrednictwem metody invoke_endpoint_with_response_stream OGIEŃ:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

Powyższa metoda drukuje strumień danych odczytanych przez metodę LineIterator w formacie czytelnym dla człowieka.

Przyjrzyjmy się, jak przygotować podpowiedzi i instrukcje, aby wykorzystać je jako ładunek podczas wnioskowania o modelu.

Ponieważ w Hugging Face TGI i LMI odwołujesz się do tego samego modelu, proces przygotowywania podpowiedzi i instrukcji jest taki sam. Dlatego możesz skorzystać z metod get_instructions i build_llama2_prompt do wnioskowania.

Połączenia get_instructions metoda zwraca instrukcje. Utwórz instrukcje połączone z zadaniem do wykonania, jak opisano szczegółowo w user_ask_2 w sposób następujący:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

Przekaż instrukcje dotyczące tworzenia podpowiedzi zgodnie z szablonem podpowiedzi wygenerowanym przez build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

Łączymy parametry wnioskowania z zachętą do utworzenia ostatecznego ładunku. Następnie wysyłasz ładunek do get_realtime_response_stream, który służy do wywoływania punktu końcowego ze strumieniowaniem odpowiedzi:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Wygenerowany tekst z LLM zostanie przesłany strumieniowo do wyjścia, jak pokazano na poniższej animacji.

Przesyłanie strumieniowe odpowiedzi na czacie Lamy 2 13B – LMI

Sprzątać

Aby uniknąć niepotrzebnych opłat, skorzystaj z opcji Konsola zarządzania AWS aby usunąć punkty końcowe i powiązane z nimi zasoby, które zostały utworzone podczas uruchamiania podejść wymienionych w poście. W przypadku obu podejść do wdrażania wykonaj następującą procedurę czyszczenia:

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

zastąpić <SageMaker_Real-time_Endpoint_Name> dla zmiennej endpoint_name z rzeczywistym punktem końcowym.

W przypadku drugiego podejścia przechowywaliśmy model i artefakty kodu na Amazon S3. Możesz wyczyścić wiadro S3, używając następującego kodu:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

Wnioski

W tym poście omówiliśmy, jak różna liczba tokenów odpowiedzi lub inny zestaw parametrów wnioskowania może wpłynąć na opóźnienia związane z LLM. Pokazaliśmy, jak rozwiązać problem za pomocą przesyłania strumieniowego odpowiedzi. Następnie zidentyfikowaliśmy dwa podejścia do wdrażania i wnioskowania modeli Llama 2 Chat przy użyciu DLC AWS — LMI i Hugging Face TGI.

Powinieneś teraz zrozumieć znaczenie reakcji przesyłania strumieniowego i tego, jak może ona zmniejszyć postrzegane opóźnienia. Odpowiedź przesyłana strumieniowo może poprawić komfort użytkownika, co w przeciwnym razie spowodowałoby konieczność czekania, aż LLM zbuduje całą odpowiedź. Dodatkowo wdrożenie modeli Llama 2 Chat ze strumieniowaniem odpowiedzi poprawia komfort użytkownika i sprawia, że Twoi klienci są zadowoleni.

Możesz odwołać się do oficjalnych próbek aws amazon-sagemaker-llama2-response-streaming-recipes obejmuje wdrożenie innych wariantów modelu Llama 2.

Referencje

O autorach

Pavan Kumar Rao Navule jest architektem rozwiązań w Amazon Web Services. Współpracuje z niezależnymi dostawcami oprogramowania w Indiach, aby pomóc im wprowadzać innowacje w AWS. Jest autorem książki „Pierwsze kroki z programowaniem w języku V”. Uzyskał tytuł Executive M.Tech w dziedzinie nauki o danych w Indyjskim Instytucie Technologii (IIT) w Hyderabadzie. Uzyskał także tytuł Executive MBA w specjalizacji IT w Indyjskiej Szkole Zarządzania i Administracji Biznesem oraz uzyskał tytuł B.Tech w dziedzinie elektroniki i inżynierii komunikacji w Instytucie Technologii i Nauki Vaagdevi. Pavan jest certyfikowanym architektem rozwiązań AWS i posiada inne certyfikaty, takie jak AWS Certified Machine Learning Specialty, Microsoft Certified Professional (MCP) i Microsoft Certified Technology Specialist (MCTS). Jest także entuzjastą open source. W wolnym czasie uwielbia słuchać wspaniałych, magicznych głosów Sii i Rihanny.

Nienawiść Sudhanshu jest głównym specjalistą AI/ML w AWS i współpracuje z klientami, doradzając im w zakresie MLO i generatywnej AI. Na swoim poprzednim stanowisku przed Amazonem tworzył koncepcje, tworzył i kierował zespołami, które budowały od podstaw platformy sztucznej inteligencji i grywalizacji oparte na otwartym kodzie źródłowym, a następnie z powodzeniem komercjalizował je u ponad 100 klientów. Sudhanshu ma na swoim koncie kilka patentów, napisał dwie książki, kilka artykułów i blogów oraz przedstawił swój punkt widzenia na różnych forach technicznych. Jest czołowym myślicielem i mówcą, działającym w branży od prawie 25 lat. Pracował z klientami z listy Fortune 1000 na całym świecie, a ostatnio z klientami z branży cyfrowej w Indiach.