Crea un'applicazione di riepilogo dei documenti HCLS con Falcon utilizzando Amazon SageMaker JumpStart

Ripubblicato da Platone

Seguaci: 0

I clienti del settore sanitario e delle scienze della vita (HCLS) stanno adottando l’intelligenza artificiale generativa come strumento per ottenere di più dai propri dati. I casi d'uso includono il riepilogo dei documenti per aiutare i lettori a concentrarsi sui punti chiave di un documento e la trasformazione del testo non strutturato in formati standardizzati per evidenziare attributi importanti. Con formati di dati unici e rigorosi requisiti normativi, i clienti sono alla ricerca di scelte per selezionare il modello più performante ed economico, nonché della capacità di eseguire la personalizzazione necessaria (ottimizzazione) per adattarla al proprio caso d'uso aziendale. In questo post ti guideremo attraverso la distribuzione di un modello LLM (Large Language Model) Falcon utilizzando JumpStart di Amazon SageMaker e utilizzare il modello per riassumere documenti lunghi con LangChain e Python.

Panoramica della soluzione

Amazon Sage Maker si basa sull'esperienza ventennale di Amazon nello sviluppo di applicazioni ML reali, tra cui consigli sui prodotti, personalizzazione, acquisti intelligenti, robotica e dispositivi ad assistenza vocale. SageMaker è un servizio gestito idoneo all'HIPAA che fornisce strumenti che consentono a data scientist, ingegneri ML e analisti aziendali di innovare con il ML. All'interno di SageMaker c'è Amazon Sage Maker Studio, un ambiente di sviluppo integrato (IDE) creato appositamente per flussi di lavoro ML collaborativi che, a loro volta, contengono un'ampia varietà di soluzioni di avvio rapido e modelli ML preaddestrati in un hub integrato chiamato SageMaker JumpStart. Con SageMaker JumpStart puoi utilizzare modelli preaddestrati, come Falcon LLM, con notebook di esempio predefiniti e supporto SDK per sperimentare e distribuire questi potenti modelli di trasformatori. Puoi utilizzare SageMaker Studio e SageMaker JumpStart per distribuire ed eseguire query sul tuo modello generativo nel tuo account AWS.

Puoi anche assicurarti che i dati del payload dell'inferenza non lascino il tuo VPC. Puoi eseguire il provisioning di modelli come endpoint a tenant singolo e distribuirli con l'isolamento della rete. Inoltre, puoi curare e gestire l'insieme selezionato di modelli che soddisfano i tuoi requisiti di sicurezza utilizzando la funzionalità di hub di modelli privati all'interno di SageMaker JumpStart e archiviando lì i modelli approvati. SageMaker è nell'ambito di applicazione HIPAABAA, SOC123e HITRUST QCS.

Il Falco LLM è un modello linguistico di grandi dimensioni, formato dai ricercatori del Technology Innovation Institute (TII) su oltre 1 trilione di token utilizzando AWS. Falcon ha molte varianti diverse, con i suoi due costituenti principali Falcon 40B e Falcon 7B, composti rispettivamente da 40 miliardi e 7 miliardi di parametri, con versioni ottimizzate addestrate per compiti specifici, come seguire le istruzioni. Falcon esegue bene una varietà di attività, tra cui il riepilogo del testo, l'analisi dei sentimenti, la risposta alle domande e la conversazione. Questo post fornisce una procedura dettagliata che puoi seguire per distribuire Falcon LLM nel tuo account AWS, utilizzando un'istanza notebook gestita tramite SageMaker JumpStart per sperimentare il riepilogo del testo.

L'hub del modello SageMaker JumpStart include notebook completi per distribuire ed eseguire query su ciascun modello. Al momento della stesura di questo articolo, sono disponibili sei versioni di Falcon nell'hub modello SageMaker JumpStart: Falcon 40B Instruct BF16, Falcon 40B BF16, Falcon 180B BF16, Falcon 180B Chat BF16, Falcon 7B Instruct BF16 e Falcon 7B BF16. Questo post utilizza il modello Falcon 7B Instruct.

Nelle sezioni seguenti, mostriamo come iniziare con il riepilogo dei documenti distribuendo Falcon 7B su SageMaker Jumpstart.

Prerequisiti

Per questo tutorial avrai bisogno di un account AWS con un dominio SageMaker. Se non disponi già di un dominio SageMaker, fai riferimento a Integrazione nel dominio Amazon SageMaker per crearne uno.

Distribuisci Falcon 7B utilizzando SageMaker JumpStart

Per distribuire il tuo modello, completa i seguenti passaggi:

Passa al tuo ambiente SageMaker Studio dalla console SageMaker.
All'interno dell'IDE, sotto SageMaker JumpStart nel pannello di navigazione, scegli Modelli, taccuini, soluzioni.
Distribuisci il modello Falcon 7B Instruct su un endpoint per l'inferenza.

Questo aprirà la scheda modello per il modello Falcon 7B Instruct BF16. In questa pagina puoi trovare il Schierare or Treni opzioni e collegamenti per aprire i taccuini di esempio in SageMaker Studio. Questo post utilizzerà il notebook di esempio di SageMaker JumpStart per distribuire il modello.

Scegli Apra il taccuino.

Esegui le prime quattro celle del notebook per distribuire l'endpoint Falcon 7B Instruct.

Puoi visualizzare i modelli JumpStart distribuiti sul file Asset JumpStart lanciati .

Nel riquadro di navigazione, sotto SageMaker Jumpstartscegli Asset JumpStart lanciati.
Scegliere il Endpoint del modello scheda per visualizzare lo stato dell'endpoint.

Con l'endpoint Falcon LLM distribuito, sei pronto per eseguire query sul modello.

Esegui la tua prima query

Per eseguire una query, completare i seguenti passaggi:

Sulla Compila il menù, scegliere New ed Taccuino per aprire un nuovo blocco note.

Puoi anche scaricare il taccuino completato qui.

Seleziona l'immagine, il kernel e il tipo di istanza quando richiesto. Per questo post scegliamo l'immagine Data Science 3.0, il kernel Python 3 e l'istanza ml.t3.medium.

Importa i moduli Boto3 e JSON inserendo le seguenti due righe nella prima cella:

import json
import boto3

Rassegna Stampa MAIUSC + INVIO per far funzionare la cella.
Successivamente, puoi definire una funzione che chiamerà il tuo endpoint. Questa funzione prende un payload del dizionario e lo utilizza per richiamare il client runtime SageMaker. Quindi deserializza la risposta e stampa l'input e il testo generato.

newline, bold, unbold = 'n', '33[1m', '33[0m'
endpoint_name = 'ENDPOINT_NAME' def query_endpoint(payload): client = boto3.client('runtime.sagemaker') response = client.invoke_endpoint(EndpointName=endpoint_name, ContentType='application/json', Body=json.dumps(payload).encode('utf-8')) model_predictions = json.loads(response['Body'].read()) generated_text = model_predictions[0]['generated_text'] print ( f"Input Text: {payload['inputs']}{newline}" f"Generated Text: {bold}{generated_text}{unbold}{newline}")

Il payload include il prompt come input, insieme ai parametri di inferenza che verranno passati al modello.

Puoi utilizzare questi parametri con la richiesta per ottimizzare l'output del modello per il tuo caso d'uso:

payload = { "inputs": "Girafatron is obsessed with giraffes, the most glorious animal on the face of this Earth. Giraftron believes all other animals are irrelevant when compared to the glorious majesty of the giraffe.nDaniel: Hello, Girafatron!nGirafatron:", "parameters":{ "max_new_tokens": 50, "return_full_text": False, "do_sample": True, "top_k":10 }
}

Interrogazione con una richiesta di riepilogo

Questo post utilizza un documento di ricerca di esempio per dimostrare il riepilogo. Il file di testo di esempio riguarda il riepilogo automatico del testo nella letteratura biomedica. Completa i seguenti passaggi:

Scaricare il PDF e copiare il testo in un file denominato document.txt.
In SageMaker Studio, scegli l'icona di caricamento e carica il file nella tua istanza di SageMaker Studio.

Caricamento del file su SageMaker Studio

Fuori dagli schemi, Falcon LLM fornisce supporto per il riepilogo del testo.

Creiamo una funzione che utilizzi tecniche di ingegneria rapida per riepilogare document.txt:

def summarize(text_to_summarize): summarization_prompt = """Process the following text and then perform the instructions that follow: {text_to_summarize} Provide a short summary of the preceeding text. Summary:""" payload = { "inputs": summarization_prompt, "parameters":{ "max_new_tokens": 150, "return_full_text": False, "do_sample": True, "top_k":10 } } response = query_endpoint(payload) print(response) with open("document.txt") as f: text_to_summarize = f.read() summarize(text_to_summarize)

Noterai che per i documenti più lunghi viene visualizzato un errore: Falcon, insieme a tutti gli altri LLM, ha un limite al numero di token passati come input. Possiamo aggirare questo limite utilizzando le funzionalità di riepilogo avanzate di LangChain, che consentono di passare un input molto più grande a LLM.

Importa ed esegui una catena di riepilogo

LangChain è una libreria software open source che consente a sviluppatori e data scientist di creare, ottimizzare e distribuire rapidamente applicazioni generative personalizzate senza gestire complesse interazioni ML, comunemente utilizzata per astrarre molti dei casi d'uso comuni per modelli linguistici di intelligenza artificiale generativa in pochi righe di codice. Il supporto di LangChain per i servizi AWS include il supporto per gli endpoint SageMaker.

LangChain fornisce un'interfaccia accessibile ai LLM. Le sue funzionalità includono strumenti per la creazione di modelli tempestivi e il concatenamento di prompt. Queste catene possono essere utilizzate per riassumere documenti di testo più lunghi di quanto supportato dal modello linguistico in una singola chiamata. È possibile utilizzare una strategia di riduzione della mappa per riepilogare documenti lunghi suddividendoli in parti gestibili, riassumendoli e combinandoli (e riepilogando nuovamente, se necessario).

Installiamo LangChain per iniziare:

%pip install langchain

Importa i moduli pertinenti e suddividi il lungo documento in blocchi:

import langchain
from langchain import SagemakerEndpoint, PromptTemplate
from langchain.llms.sagemaker_endpoint import LLMContentHandler
from langchain.chains.summarize import load_summarize_chain
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.docstore.document import Document text_splitter = RecursiveCharacterTextSplitter( chunk_size = 500, chunk_overlap = 20, separators = [" "], length_function = len )
input_documents = text_splitter.create_documents([text_to_summarize])

Per far funzionare LangChain in modo efficace con Falcon, è necessario definire le classi di gestione del contenuto predefinite per input e output validi:

class ContentHandlerTextSummarization(LLMContentHandler): content_type = "application/json" accepts = "application/json" def transform_input(self, prompt: str, model_kwargs={}) -> bytes: input_str = json.dumps({"inputs": prompt, **model_kwargs}) return input_str.encode("utf-8") def transform_output(self, output: bytes) -> json: response_json = json.loads(output.read().decode("utf-8")) generated_text = response_json[0]['generated_text'] return generated_text.split("summary:")[-1] content_handler = ContentHandlerTextSummarization()

È possibile definire prompt personalizzati come PromptTemplate oggetti, il veicolo principale per la richiesta con LangChain, per l'approccio di riepilogo con riduzione della mappa. Questo è un passaggio facoltativo perché i prompt di mappatura e combinazione vengono forniti per impostazione predefinita se i parametri all'interno della chiamata per caricare la catena di riepilogo (load_summarize_chain) non sono definiti.

map_prompt = """Write a concise summary of this text in a few complete sentences: {text} Concise summary:""" map_prompt_template = PromptTemplate( template=map_prompt, input_variables=["text"] ) combine_prompt = """Combine all these following summaries and generate a final summary of them in a few complete sentences: {text} Final summary:""" combine_prompt_template = PromptTemplate( template=combine_prompt, input_variables=["text"] )

LangChain supporta LLM ospitati su endpoint di inferenza SageMaker, quindi invece di utilizzare l'SDK AWS Python, puoi inizializzare la connessione tramite LangChain per una maggiore accessibilità:

summary_model = SagemakerEndpoint( endpoint_name = endpoint_name, region_name= "us-east-1", model_kwargs= {}, content_handler=content_handler )

Infine, puoi caricare una catena di riepilogo ed eseguire un riepilogo sui documenti di input utilizzando il seguente codice:

summary_chain = load_summarize_chain(llm=summary_model, chain_type="map_reduce", map_prompt=map_prompt_template, combine_prompt=combine_prompt_template, verbose=True ) summary = summary_chain({"input_documents": input_documents, 'token_max': 700}, return_only_outputs=True)
print(summary["output_text"])

Perché il verbose parametro è impostato su True, vedrai tutti gli output intermedi dell'approccio map-reduce. Ciò è utile per seguire la sequenza degli eventi per arrivare ad un riepilogo finale. Con questo approccio di riduzione della mappa, puoi riepilogare in modo efficace i documenti molto più a lungo di quanto normalmente consentito dal limite massimo di token di input del modello.

ripulire

Dopo aver finito di utilizzare l'endpoint di inferenza, è importante eliminarlo per evitare di incorrere in costi inutili attraverso le seguenti righe di codice:

client = boto3.client('runtime.sagemaker')
client.delete_endpoint(EndpointName=endpoint_name)

Utilizzo di altri modelli di fondazione in SageMaker JumpStart

L'utilizzo di altri modelli di base disponibili in SageMaker JumpStart per il riepilogo dei documenti richiede un sovraccarico minimo per la configurazione e la distribuzione. Gli LLM variano occasionalmente in base alla struttura dei formati di input e output e, man mano che nuovi modelli e soluzioni predefinite vengono aggiunti a SageMaker JumpStart, a seconda dell'implementazione dell'attività, potrebbe essere necessario apportare le seguenti modifiche al codice:

Se stai eseguendo il riepilogo tramite il file summarize() (il metodo senza utilizzare LangChain), potrebbe essere necessario modificare la struttura JSON del file payload parametro, nonché la gestione della variabile di risposta nel file query_endpoint() function
Se stai eseguendo il riepilogo tramite LangChain's load_summarize_chain() metodo, potrebbe essere necessario modificare il file ContentHandlerTextSummarization classe, in particolare il transform_input() ed transform_output() funzioni, per gestire correttamente il carico utile previsto da LLM e l'output restituito da LLM

I modelli di base variano non solo in fattori quali la velocità e la qualità dell'inferenza, ma anche nei formati di input e output. Fare riferimento alla pagina delle informazioni pertinenti del LLM sugli input e output previsti.

Conclusione

Il modello Falcon 7B Instruct è disponibile sull'hub del modello SageMaker JumpStart e funziona su una serie di casi d'uso. Questo post ha dimostrato come distribuire il tuo endpoint Falcon LLM nel tuo ambiente utilizzando SageMaker JumpStart ed eseguire i tuoi primi esperimenti da SageMaker Studio, consentendoti di prototipare rapidamente i tuoi modelli e passare senza problemi a un ambiente di produzione. Con Falcon e LangChain puoi riassumere in modo efficace documenti di lunga durata nel settore sanitario e delle scienze della vita su larga scala.

Per ulteriori informazioni sull'utilizzo dell'intelligenza artificiale generativa su AWS, fare riferimento a Annuncio di nuovi strumenti per creare con l'IA generativa su AWS. Puoi iniziare a sperimentare e creare prove di concetto di riepilogo dei documenti per le tue applicazioni GenAI orientate all'assistenza sanitaria e alle scienze della vita utilizzando il metodo descritto in questo post. Quando Roccia Amazzonica è generalmente disponibile, pubblicheremo un post di follow-up che mostra come implementare il riepilogo dei documenti utilizzando Amazon Bedrock e LangChain.

Informazioni sugli autori

Create an HCLS document summarization application with Falcon using Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. John Kitaoka è un Solutions Architect presso Amazon Web Services. John aiuta i clienti a progettare e ottimizzare i carichi di lavoro AI/ML su AWS per aiutarli a raggiungere i propri obiettivi aziendali.

Create an HCLS document summarization application with Falcon using Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Josh Famestad è un Solutions Architect presso Amazon Web Services. Josh lavora con clienti del settore pubblico per creare ed eseguire approcci basati sul cloud per soddisfare le priorità aziendali.