Siamo felici di annunciarla JumpStart di Amazon SageMaker ora è possibile trasmettere in streaming risposte di inferenza LLM (Large Language Model). Lo streaming di token consente di visualizzare l'output della risposta del modello mentre viene generato invece di attendere che gli LLM terminino la generazione della risposta prima che venga reso disponibile per l'utilizzo o la visualizzazione. La funzionalità di streaming di SageMaker JumpStart può aiutarti a creare applicazioni con una migliore esperienza utente creando una percezione di bassa latenza per l'utente finale.
In questo post, spieghiamo come distribuire e trasmettere in streaming la risposta da a Modello Falcon 7B istruito punto finale.
Al momento in cui scrivo, i seguenti LLM disponibili in SageMaker JumpStart supportano lo streaming:
- Mistral AI 7B, Mistral AI 7B Istruttore
- Falcon 180B, Chatta Falcon 180B
- Falcon 40B, Falcon 40B Istruttore
- Falcon 7B, Falcon 7B Istruttore
- Rinna giapponese GPT NeoX 4B Istruzioni PPO
- Rinna giapponese GPT NeoX 3.6B Istruzioni PPO
Per verificare la disponibilità di aggiornamenti sull'elenco dei modelli che supportano lo streaming in SageMaker JumpStart, cercare "huggingface-llm" all'indirizzo Algoritmi incorporati con tabella modello pre-addestrata.
Tieni presente che puoi utilizzare il file funzione di streaming of Amazon Sage Maker hosting pronto all'uso per qualsiasi modello distribuito utilizzando SageMaker TGI Deep Learning Container (DLC) come descritto in Annuncio del lancio di nuovi contenitori Hugging Face LLM Inference su Amazon SageMaker.
Modelli di fondazione in SageMaker
SageMaker JumpStart fornisce l'accesso a una gamma di modelli provenienti da hub di modelli popolari, tra cui Hugging Face, PyTorch Hub e TensorFlow Hub, che puoi utilizzare all'interno del flusso di lavoro di sviluppo ML in SageMaker. I recenti progressi nel machine learning hanno dato origine a una nuova classe di modelli noti come modelli di fondazione, che vengono generalmente addestrati su miliardi di parametri e possono essere adattati a un'ampia categoria di casi d'uso, come il riepilogo del testo, la generazione di arte digitale e la traduzione linguistica. Poiché l'addestramento di questi modelli è costoso, i clienti desiderano utilizzare i modelli di base già addestrati esistenti e perfezionarli in base alle necessità, anziché addestrare questi modelli da soli. SageMaker fornisce un elenco curato di modelli tra cui puoi scegliere sulla console SageMaker.
Ora puoi trovare modelli di fondazione di diversi fornitori di modelli all'interno di SageMaker JumpStart, consentendoti di iniziare rapidamente con i modelli di fondazione. SageMaker JumpStart offre modelli di base basati su diverse attività o fornitori di modelli e puoi facilmente esaminare le caratteristiche del modello e i termini di utilizzo. Puoi anche provare questi modelli utilizzando un widget dell'interfaccia utente di prova. Se desideri utilizzare un modello di base su larga scala, puoi farlo senza uscire da SageMaker utilizzando notebook predefiniti dei fornitori di modelli. Poiché i modelli sono ospitati e distribuiti su AWS, hai la certezza che i tuoi dati, utilizzati per la valutazione o per l'utilizzo del modello su larga scala, non verranno condivisi con terze parti.
Streaming di gettoni
Lo streaming di token consente di restituire la risposta di inferenza mentre viene generata dal modello. In questo modo, puoi vedere la risposta generata in modo incrementale anziché attendere il completamento del modello prima di fornire la risposta completa. Lo streaming può contribuire a consentire una migliore esperienza utente perché diminuisce la percezione della latenza per l'utente finale. Puoi iniziare a vedere l'output mentre viene generato e quindi puoi interrompere la generazione in anticipo se l'output non sembra utile per i tuoi scopi. Lo streaming può fare una grande differenza, soprattutto per le query di lunga durata, perché puoi iniziare a vedere gli output man mano che vengono generati, il che può creare una percezione di latenza inferiore anche se la latenza end-to-end rimane la stessa.
Al momento della stesura di questo articolo, puoi utilizzare lo streaming in SageMaker JumpStart per i modelli che utilizzano Hugging Face LLM Inferenza sulla generazione del testo DLC.
Risposta senza vaporizzazione | Risposta con lo streaming |
Panoramica della soluzione
Per questo post, utilizziamo il modello Falcon 7B Instruct per mostrare la funzionalità di streaming JumpStart di SageMaker.
Puoi utilizzare il codice seguente per trovare altri modelli in SageMaker JumpStart che supportano lo streaming:
Otteniamo i seguenti ID modello che supportano lo streaming:
Prerequisiti
Prima di eseguire il notebook, sono necessari alcuni passaggi iniziali per la configurazione. Esegui i seguenti comandi:
Distribuire il modello
Come primo passo, utilizza SageMaker JumpStart per distribuire un modello Falcon 7B Instruct. Per istruzioni complete, fare riferimento a Il modello di fondazione Falcon 180B di TII è ora disponibile tramite Amazon SageMaker JumpStart. Utilizza il seguente codice:
Interrogare l'endpoint e trasmettere la risposta
Successivamente, costruisci un payload con cui richiamare l'endpoint distribuito. È importante sottolineare che il payload deve contenere la coppia chiave/valore "stream": True
. Ciò indica al server di inferenza di generazione del testo di generare una risposta in streaming.
Prima di eseguire una query sull'endpoint, è necessario creare un iteratore in grado di analizzare la risposta del flusso di byte dall'endpoint. I dati per ogni token vengono forniti come una riga separata nella risposta, quindi questo iteratore restituisce un token ogni volta che viene identificata una nuova riga nel buffer di streaming. Questo iteratore è progettato in modo minimo e potresti voler adattare il suo comportamento al tuo caso d'uso; ad esempio, mentre questo iteratore restituisce stringhe di token, i dati della riga contengono altre informazioni, come le probabilità del log dei token, che potrebbero essere interessanti.
Ora puoi usare Boto3 invoke_endpoint_with_response_stream
API sull'endpoint che hai creato e abilita lo streaming eseguendo l'iterazione su a TokenIterator
esempio:
Specificando un vuoto end
parametro per il print
la funzione abiliterà un flusso visivo senza caratteri di nuova riga inseriti. Ciò produce il seguente output:
Puoi utilizzare questo codice in un notebook o in altre applicazioni come Streamlit o Gradio per vedere lo streaming in azione e l'esperienza che offre ai tuoi clienti.
ripulire
Infine, ricorda di ripulire il modello e l'endpoint distribuiti per evitare di incorrere in costi aggiuntivi:
Conclusione
In questo post, ti abbiamo mostrato come utilizzare la funzionalità di streaming appena lanciata in SageMaker JumpStart. Ci auguriamo che utilizzerai la funzionalità di streaming dei token per creare applicazioni interattive che richiedono una bassa latenza per una migliore esperienza utente.
Circa gli autori
Rachna Chada è Principal Solution Architect AI/ML in Strategic Accounts presso AWS. Rachna è un’ottimista che crede che l’uso etico e responsabile dell’intelligenza artificiale possa migliorare la società in futuro e portare prosperità economica e sociale. Nel suo tempo libero, Rachna ama trascorrere del tempo con la sua famiglia, fare escursioni e ascoltare musica.
Dottor Kyle Ulrich è uno scienziato applicato con il Algoritmi integrati di Amazon SageMaker squadra. I suoi interessi di ricerca includono algoritmi di machine learning scalabili, visione artificiale, serie storiche, bayesiani non parametrici e processi gaussiani. Il suo dottorato di ricerca è presso la Duke University e ha pubblicato articoli su NeurIPS, Cell e Neuron.
Dottor Ashish Khetan è un Senior Applied Scientist con algoritmi integrati di Amazon SageMaker e aiuta a sviluppare algoritmi di machine learning. Ha conseguito il dottorato di ricerca presso l'Università dell'Illinois Urbana-Champaign. È un ricercatore attivo nell'apprendimento automatico e nell'inferenza statistica e ha pubblicato numerosi articoli nelle conferenze NeurIPS, ICML, ICLR, JMLR, ACL e EMNLP.
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
- PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
- PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
- Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/stream-large-language-model-responses-in-amazon-sagemaker-jumpstart/
- :ha
- :È
- $ SU
- 1
- 10
- 100
- 12
- 13
- 14
- 19
- 7
- 8
- a
- WRI
- accesso
- conti
- Action
- attivo
- aggiungere
- aggiuntivo
- avanzamenti
- consigli
- AI
- AI / ML
- Algoritmi
- consente
- anche
- Amazon
- Amazon Sage Maker
- JumpStart di Amazon SageMaker
- Amazon Web Services
- an
- ed
- Annunciare
- in qualsiasi
- api
- applicazioni
- applicato
- SONO
- Arte
- AS
- At
- disponibile
- evitare
- AWS
- basato
- bayesiano
- BE
- perché
- prima
- comportamento
- essendo
- crede
- Meglio
- Big
- miliardi
- stile di vita
- Scatola
- portare
- bufferizzare
- costruire
- incassato
- ma
- by
- Materiale
- capacità
- Custodie
- casi
- Categoria
- caratteristiche
- caratteri
- dai un'occhiata
- Scegli
- classe
- cavedano
- cliente
- codice
- completamento di una
- complesso
- computer
- Visione computerizzata
- conferenze
- consolle
- costruire
- contenere
- Contenitore
- Tecnologie Container
- contiene
- contenuto
- Costi
- potuto
- creare
- creato
- Creazione
- CSS
- a cura
- Clienti
- dati
- diminuisce
- deep
- apprendimento profondo
- schierare
- schierato
- descritta
- Design
- progettato
- Designer
- Determinare
- sviluppare
- Costruttori
- Mercato
- differenza
- diverso
- digitale
- Arte digitale
- Dsiplay
- do
- dominio
- Domain Name
- Duca
- Università del Duca
- ogni
- Presto
- facilmente
- Economico
- enable
- consentendo
- da un capo all'altro
- endpoint
- Motori
- garantire
- particolarmente
- etico
- la valutazione
- Anche
- esempio
- eccitato
- esistente
- costoso
- esperienza
- Faccia
- famiglia
- caratteristica
- filtri
- Trovate
- finire
- Nome
- i seguenti
- Nel
- Fondazione
- Contesto
- da
- pieno
- function
- futuro
- generalmente
- generare
- generato
- la generazione di
- ELETTRICA
- ottenere
- dato
- Obiettivi
- ha ottenuto
- guida
- Avere
- he
- Aiuto
- utile
- aiuta
- suo
- il suo
- speranza
- ospitato
- di hosting
- Come
- Tutorial
- HTML
- HTTPS
- Hub
- mozzi
- abbracciare il viso
- i
- identificato
- ids
- if
- Illinois
- importare
- importante
- competenze
- in
- includere
- Compreso
- indica
- informazioni
- inizialmente
- Ingressi
- install
- esempio
- invece
- istruzioni
- interattivo
- interesse
- interessi
- IT
- SUO
- Giapponese
- JavaScript
- json
- mantenere
- conosciuto
- kyle
- Lingua
- grandi
- Latenza
- lanciare
- lanciato
- apprendimento
- partenza
- piace
- piace
- linea
- Lista
- Ascolto
- LLM
- ceppo
- cerca
- Basso
- inferiore
- macchina
- machine learning
- fatto
- mantenere
- make
- molti
- Maggio..
- forza
- ML
- modello
- modelli
- Musica
- Nome
- Bisogno
- di applicazione
- New
- recentemente
- no
- taccuino
- adesso
- of
- Offerte
- on
- online
- OTTIMIZZA
- or
- Altro
- su
- produzione
- uscite
- ancora
- coppia
- documenti
- parametro
- parametri
- parti
- pubblica
- phd
- Platone
- Platone Data Intelligence
- PlatoneDati
- Popolare
- Post
- Predictor
- Direttore
- processi
- i processi
- produce
- propriamente
- prosperità
- purché
- fornitore
- fornitori
- fornisce
- fornitura
- pubblicato
- scopo
- fini
- pytorch
- query
- rapidamente
- gamma
- piuttosto
- recente
- riferimento
- regolarmente
- ricorda
- necessario
- riparazioni
- ricercatore
- Risorse
- risposta
- risposte
- responsabile
- ritorno
- problemi
- recensioni
- Aumento
- Correre
- running
- sagemaker
- stesso
- scalabile
- Scala
- Scienziato
- Cerca
- Motori di ricerca
- vedere
- vedendo
- Cercare
- AUTO
- anziano
- separato
- Serie
- server
- Servizi
- flessibile.
- condiviso
- dovrebbero
- vetrina
- ha mostrato
- liscio
- So
- Social
- Società
- soluzione
- alcuni
- Spendere
- inizia a
- iniziato
- statistiche
- step
- Passi
- Fermare
- Strategico
- ruscello
- Streaming
- tale
- supporto
- Supporto
- Task
- task
- team
- modelli
- tensorflow
- condizioni
- test
- testo
- di
- che
- Il
- La linea
- Li
- si
- Là.
- perciò
- Strumenti Bowman per analizzare le seguenti finiture:
- Terza
- terzi
- questo
- anche se?
- Attraverso
- tempo
- Serie storiche
- a
- token
- Treni
- allenato
- Traduzione
- vero
- Affidati ad
- prova
- esercitazioni
- tipicamente
- ui
- Università
- Aggiornanento
- Aggiornamenti
- Impiego
- uso
- caso d'uso
- utilizzato
- Utente
- Esperienza da Utente
- utilizzando
- utilizzare
- via
- visione
- aspettare
- In attesa
- camminare
- volere
- Modo..
- we
- sito web
- servizi web
- Sito web
- quando
- se
- quale
- while
- OMS
- largo
- volere
- con
- entro
- senza
- flusso di lavoro
- lavoro
- scrittura
- Tu
- Trasferimento da aeroporto a Sharm
- zefiro