Z przyjemnością informujemy o tym Amazon SageMaker JumpStart może teraz przesyłać strumieniowo odpowiedzi wnioskowania z modelu dużego języka (LLM). Przesyłanie strumieniowe tokenów pozwala zobaczyć dane wyjściowe odpowiedzi modelu w trakcie ich generowania, zamiast czekać, aż LLM zakończą generowanie odpowiedzi, zanim zostaną udostępnione do użycia lub wyświetlenia. Możliwość przesyłania strumieniowego w SageMaker JumpStart może pomóc w tworzeniu aplikacji zapewniających lepszą obsługę użytkownika, tworząc wrażenie małego opóźnienia dla użytkownika końcowego.
W tym poście opisujemy sposób wdrażania i przesyłania strumieniowego odpowiedzi z aplikacji Model Falcona 7B Instruct punkt końcowy.
W chwili pisania tego tekstu następujące LLM dostępne w SageMaker JumpStart obsługują przesyłanie strumieniowe:
- Mistral AI 7B, Mistral AI 7B Instruktaż
- Falcon 180B, Falcon 180B Czat
- Falcon 40B, Falcon 40B Instruktor
- Falcon 7B, Falcon 7B Instruktor
- Rinna japońska instrukcja GPT NeoX 4B PPO
- Rinna japońska instrukcja GPT NeoX 3.6B PPO
Aby sprawdzić aktualizacje na liście modeli obsługujących przesyłanie strumieniowe w SageMaker JumpStart, wyszukaj „huggingface-llm” pod adresem Wbudowane algorytmy ze wstępnie wytrenowaną tabelą modeli.
Pamiętaj, że możesz użyć tzw funkcja przesyłania strumieniowego of Amazon Sage Maker gotowy hosting dla dowolnego modelu wdrożonego przy użyciu kontenera głębokiego uczenia się SageMaker TGI (DLC), jak opisano w Ogłaszamy wprowadzenie nowych kontenerów Hugging Face LLM Inference na Amazon SageMaker.
Modele podstawowe w SageMaker
SageMaker JumpStart zapewnia dostęp do szeregu modeli z popularnych centrów modeli, w tym Hugging Face, PyTorch Hub i TensorFlow Hub, których możesz używać w toku prac programistycznych ML w SageMaker. Ostatnie postępy w uczeniu maszynowym dały początek nowej klasie modeli znanych jako modele fundamentów, które są zazwyczaj szkolone na miliardach parametrów i można je dostosować do szerokiej kategorii przypadków użycia, takich jak podsumowywanie tekstu, generowanie grafiki cyfrowej i tłumaczenie językowe. Ponieważ uczenie tych modeli jest drogie, klienci chcą korzystać z istniejących, wstępnie wytrenowanych modeli podstawowych i dostrajać je w razie potrzeby, zamiast samodzielnie szkolić te modele. SageMaker udostępnia wyselekcjonowaną listę modeli, spośród których możesz wybierać w konsoli SageMaker.
W SageMaker JumpStart można teraz znaleźć modele fundamentów od różnych dostawców modeli, co umożliwia szybkie rozpoczęcie pracy z modelami fundamentów. SageMaker JumpStart oferuje modele podstawowe oparte na różnych zadaniach lub dostawcach modeli, a także umożliwia łatwe przeglądanie charakterystyki modelu i warunków użytkowania. Możesz także wypróbować te modele, korzystając z widżetu testowego interfejsu użytkownika. Jeśli chcesz używać podstawowego modelu na dużą skalę, możesz to zrobić bez opuszczania programu SageMaker, korzystając z gotowych notatników od dostawców modeli. Ponieważ modele są hostowane i wdrażane w AWS, masz pewność, że Twoje dane, niezależnie od tego, czy zostaną użyte do oceny czy wykorzystania modelu na dużą skalę, nie zostaną udostępnione stronom trzecim.
Przesyłanie tokenów
Przesyłanie strumieniowe tokenów umożliwia zwrócenie odpowiedzi na wnioskowanie w trakcie jej generowania przez model. W ten sposób możesz zobaczyć odpowiedź generowaną przyrostowo, zamiast czekać na zakończenie modelu przed dostarczeniem pełnej odpowiedzi. Przesyłanie strumieniowe może pomóc w zapewnieniu lepszej obsługi użytkownika, ponieważ zmniejsza odczuwanie opóźnień przez użytkownika końcowego. Możesz zacząć widzieć dane wyjściowe w miarę ich generowania, dzięki czemu możesz zatrzymać generowanie wcześniej, jeśli nie wyglądają one na przydatne do Twoich celów. Przesyłanie strumieniowe może mieć duże znaczenie, zwłaszcza w przypadku długotrwałych zapytań, ponieważ możesz zacząć widzieć wyniki w miarę ich generowania, co może powodować wrażenie mniejszych opóźnień, mimo że opóźnienie od początku do końca pozostaje takie samo.
W chwili pisania tego tekstu możesz używać przesyłania strumieniowego w SageMaker JumpStart w przypadku modeli korzystających z Hugging Face LLM Wnioskowanie dotyczące generowania tekstu DLC.
Odpowiedź bez parowania | Odpowiedź poprzez transmisję strumieniową |
Omówienie rozwiązania
W tym poście użyliśmy modelu Falcon 7B Instruct, aby zaprezentować możliwości przesyłania strumieniowego SageMaker JumpStart.
Możesz użyć poniższego kodu, aby znaleźć w SageMaker JumpStart inne modele obsługujące przesyłanie strumieniowe:
Otrzymujemy następujące identyfikatory modeli obsługujące streaming:
Wymagania wstępne
Przed uruchomieniem notebooka należy wykonać kilka początkowych kroków konfiguracyjnych. Uruchom następujące polecenia:
Wdróż model
Pierwszym krokiem będzie użycie programu SageMaker JumpStart w celu wdrożenia modelu Falcon 7B Instruct. Pełne instrukcje można znaleźć w Model fundamentowy Falcon 180B firmy TII jest teraz dostępny za pośrednictwem Amazon SageMaker JumpStart. Użyj następującego kodu:
Zapytanie o punkt końcowy i odpowiedź strumienia
Następnie skonstruuj ładunek, za pomocą którego będzie można wywołać wdrożony punkt końcowy. Co ważne, ładunek powinien zawierać parę klucz/wartość "stream": True
. Wskazuje to serwerowi wnioskowania generowania tekstu, aby wygenerował odpowiedź strumieniową.
Przed wysłaniem zapytania do punktu końcowego należy utworzyć iterator, który może przeanalizować odpowiedź strumienia bajtów z punktu końcowego. Dane dla każdego tokenu są dostarczane w odpowiedzi w postaci osobnej linii, więc ten iterator zwraca token za każdym razem, gdy w buforze przesyłania strumieniowego zostanie zidentyfikowana nowa linia. Ten iterator ma minimalistyczną konstrukcję i możesz chcieć dostosować jego zachowanie do swojego przypadku użycia; na przykład, podczas gdy ten iterator zwraca ciągi tokenów, dane wiersza zawierają inne informacje, takie jak prawdopodobieństwa dziennika tokenów, które mogą być interesujące.
Teraz możesz używać Boto3 invoke_endpoint_with_response_stream
API na utworzonym punkcie końcowym i włącz przesyłanie strumieniowe, iterując po pliku TokenIterator
instancja:
Określanie pustego end
parametr do print
funkcja umożliwi strumień wizualny bez wstawianych znaków nowej linii. Daje to następujące dane wyjściowe:
Możesz użyć tego kodu w notatniku lub innych aplikacjach, takich jak Streamlit lub Gradio, aby zobaczyć transmisję strumieniową w akcji i wrażenia, jakie zapewnia ona Twoim klientom.
Sprzątać
Na koniec pamiętaj o oczyszczeniu wdrożonego modelu i punktu końcowego, aby uniknąć ponoszenia dodatkowych kosztów:
Wnioski
W tym poście pokazaliśmy, jak korzystać z nowo uruchomionej funkcji przesyłania strumieniowego w SageMaker JumpStart. Mamy nadzieję, że wykorzystasz możliwość przesyłania strumieniowego tokenów do tworzenia interaktywnych aplikacji wymagających małych opóźnień w celu zapewnienia lepszego doświadczenia użytkownika.
O autorach
Rachna Czadha jest głównym architektem rozwiązań AI/ML w dziale strategicznych klientów w AWS. Rachna jest optymistką wierzącą, że etyczne i odpowiedzialne wykorzystanie sztucznej inteligencji może w przyszłości ulepszyć społeczeństwo i zapewnić dobrobyt gospodarczy i społeczny. W wolnym czasie Rachna lubi spędzać czas z rodziną, wędrować i słuchać muzyki.
dr Kyle Ulrich jest naukowcem z Wbudowane algorytmy Amazon SageMaker zespół. Jego zainteresowania badawcze obejmują skalowalne algorytmy uczenia maszynowego, wizję komputerową, szeregi czasowe, nieparametryczne Bayesa i procesy Gaussa. Jego doktorat uzyskał na Uniwersytecie Duke'a i publikował artykuły w czasopismach NeurIPS, Cell i Neuron.
Dr Ashish Khetan jest starszym naukowcem z wbudowanymi algorytmami Amazon SageMaker i pomaga rozwijać algorytmy uczenia maszynowego. Doktoryzował się na University of Illinois Urbana-Champaign. Jest aktywnym badaczem uczenia maszynowego i wnioskowania statystycznego oraz opublikował wiele artykułów na konferencjach NeurIPS, ICML, ICLR, JMLR, ACL i EMNLP.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
- PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
- PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
- Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
- Źródło: https://aws.amazon.com/blogs/machine-learning/stream-large-language-model-responses-in-amazon-sagemaker-jumpstart/
- :ma
- :Jest
- $W GÓRĘ
- 1
- 10
- 100
- 12
- 13
- 14
- 19
- 7
- 8
- a
- O nas
- dostęp
- Konta
- Działania
- aktywny
- Dodaj
- Dodatkowy
- zaliczki
- Rada
- AI
- AI / ML
- Algorytmy
- pozwala
- również
- Amazonka
- Amazon Sage Maker
- Amazon SageMaker JumpStart
- Amazon Web Services
- an
- i
- Ogłosić
- każdy
- api
- aplikacje
- stosowany
- SĄ
- Sztuka
- AS
- At
- dostępny
- uniknąć
- AWS
- na podstawie
- Bayesian
- BE
- bo
- zanim
- zachowanie
- jest
- uważa,
- Ulepsz Swój
- Duży
- miliardy
- ciało
- Pudełko
- przynieść
- bufor
- budować
- wbudowany
- ale
- by
- CAN
- zdolność
- walizka
- Etui
- Kategoria
- Charakterystyka
- znaków
- ZOBACZ
- Dodaj
- klasa
- kleń
- klient
- kod
- kompletny
- kompleks
- komputer
- Wizja komputerowa
- konferencje
- Konsola
- skonstruować
- zawierać
- Pojemnik
- Pojemniki
- zawiera
- zawartość
- Koszty:
- mógłby
- Stwórz
- stworzony
- Tworzenie
- CSS
- kurator
- Klientów
- dane
- zmniejsza
- głęboko
- głęboka nauka
- rozwijać
- wdrażane
- opisane
- Wnętrze
- zaprojektowany
- projektant
- Ustalać
- rozwijać
- Deweloper
- oprogramowania
- różnica
- różne
- cyfrowy
- Sztuka cyfrowa
- Wyświetlacz
- do
- domena
- Nazwa domeny
- Książę
- uniwersytet książęcy
- każdy
- Wcześnie
- z łatwością
- Gospodarczy
- umożliwiać
- umożliwiając
- koniec końców
- Punkt końcowy
- silniki
- zapewnić
- szczególnie
- etyczny
- oceny
- Parzyste
- przykład
- podniecony
- Przede wszystkim system został opracowany
- drogi
- doświadczenie
- Twarz
- członków Twojej rodziny
- Cecha
- filtry
- Znajdź
- koniec
- i terminów, a
- następujący
- W razie zamówieenia projektu
- Fundacja
- Framework
- od
- pełny
- funkcjonować
- przyszłość
- ogólnie
- Generować
- wygenerowane
- generujący
- generacja
- otrzymać
- dany
- Gole
- got
- poprowadzi
- Have
- he
- pomoc
- pomocny
- pomaga
- jej
- jego
- nadzieję
- hostowane
- Hosting
- W jaki sposób
- How To
- HTML
- HTTPS
- Piasta
- koncentratory
- Przytulanie twarzy
- i
- zidentyfikowane
- ids
- if
- Illinois
- importować
- co ważne
- podnieść
- in
- zawierać
- Włącznie z
- wskazuje
- Informacja
- początkowy
- Wejścia
- zainstalować
- przykład
- zamiast
- instrukcje
- interaktywne
- odsetki
- zainteresowania
- IT
- JEGO
- Japonki
- JAVASCRIPT
- json
- Trzymać
- znany
- Kyle
- język
- duży
- Utajenie
- uruchomić
- uruchomiona
- nauka
- pozostawiając
- lubić
- lubi
- Linia
- Lista
- Słuchanie
- LLM
- log
- poszukuje
- niski
- niższy
- maszyna
- uczenie maszynowe
- zrobiony
- utrzymać
- robić
- wiele
- Może..
- może
- ML
- model
- modele
- Muzyka
- Nazwa
- Potrzebować
- potrzebne
- Nowości
- nowo
- Nie
- notatnik
- już dziś
- of
- Oferty
- on
- Online
- Optymalizacja
- or
- Inne
- na zewnątrz
- wydajność
- Wyjścia
- koniec
- đôi
- Papiery
- parametr
- parametry
- strony
- postrzeganie
- PhD
- plato
- Analiza danych Platona
- PlatoDane
- Popularny
- Post
- Urządzenie prognozujące
- Główny
- wygląda tak
- procesów
- produkuje
- prawidłowo
- dobrobyt
- pod warunkiem,
- dostawca
- dostawców
- zapewnia
- że
- opublikowany
- cel
- cele
- płomień
- zapytania
- szybko
- zasięg
- raczej
- niedawny
- odnosić się
- regularnie
- pamiętać
- wymagany
- Badania naukowe
- badacz
- Zasoby
- odpowiedź
- Odpowiedzi
- odpowiedzialny
- powrót
- powraca
- przeglądu
- Rosnąć
- run
- bieganie
- sagemaker
- taki sam
- skalowalny
- Skala
- Naukowiec
- Szukaj
- Wyszukiwarki
- widzieć
- widzenie
- Szukajcie
- SAMEGO SIEBIE
- senior
- oddzielny
- Serie
- serwer
- Usługi
- ustawienie
- shared
- powinien
- prezentacja
- pokazał
- płynnie
- So
- Obserwuj Nas
- Społeczeństwo
- rozwiązanie
- kilka
- Spędzanie
- początek
- rozpoczęty
- statystyczny
- Ewolucja krok po kroku
- Cel
- Stop
- Strategiczny
- strumień
- Streaming
- taki
- wsparcie
- Wspierający
- Zadanie
- zadania
- zespół
- Szablony
- tensorflow
- REGULAMIN
- test
- XNUMX
- niż
- że
- Połączenia
- Linia
- Im
- sami
- Tam.
- w związku z tym
- Te
- Trzeci
- osoby trzecie
- to
- chociaż?
- Przez
- czas
- Szereg czasowy
- do
- żeton
- Pociąg
- przeszkolony
- Tłumaczenie
- prawdziwy
- Zaufaj
- próbować
- tutoriale
- zazwyczaj
- ui
- uniwersytet
- Aktualizacja
- Nowości
- Stosowanie
- posługiwać się
- przypadek użycia
- używany
- Użytkownik
- Doświadczenie użytkownika
- za pomocą
- wykorzystać
- przez
- wizja
- czekać
- Czekanie
- spacer
- chcieć
- Droga..
- we
- sieć
- usługi internetowe
- Strona internetowa
- jeśli chodzi o komunikację i motywację
- czy
- który
- Podczas
- KIM
- szeroki
- będzie
- w
- w ciągu
- bez
- workflow
- pracujący
- pisanie
- You
- Twój
- zefirnet