Distribuisci modelli linguistici di grandi dimensioni per un caso d'uso di tecnologia sanitaria su Amazon SageMaker

Ripubblicato da Platone

Seguaci: 0

In 2021, l' L’industria farmaceutica ha generato entrate per 550 miliardi di dollari negli Stati Uniti. Le aziende farmaceutiche vendono una varietà di farmaci diversi, spesso nuovi, sul mercato, dove a volte possono verificarsi eventi avversi non intenzionali ma gravi.

Questi eventi possono essere segnalati ovunque, dagli ospedali o a casa, e devono essere monitorati in modo responsabile ed efficiente. L’elaborazione manuale tradizionale degli eventi avversi è resa complessa dalla crescente quantità di dati sanitari e dai costi. Complessivamente, si prevede che il costo delle attività di farmacovigilanza per l'intero settore sanitario sarà di 384 miliardi di dollari entro il 2022. Per supportare attività generali di farmacovigilanza, i nostri clienti farmaceutici desiderano utilizzare la potenza dell'apprendimento automatico (ML) per automatizzare il rilevamento degli eventi avversi da varie fonti di dati , come feed di social media, telefonate, e-mail e note scritte a mano, e attivano le azioni appropriate.

In questo post mostriamo come sviluppare una soluzione basata sul machine learning utilizzando Amazon Sage Maker per rilevare eventi avversi utilizzando il set di dati sulle reazioni avverse ai farmaci disponibile al pubblico su Hugging Face. In questa soluzione, perfezioniamo una varietà di modelli su Hugging Face che sono stati pre-addestrati su dati medici e utilizziamo il modello BioBERT, che è stato pre-addestrato su Set di dati pubblicato e offre il meglio di quelli provati.

Abbiamo implementato la soluzione utilizzando il file Kit di sviluppo cloud AWS (CDK AWS). Tuttavia, non tratteremo le specifiche della creazione della soluzione in questo post. Per ulteriori informazioni sull'implementazione di questa soluzione, fare riferimento a Crea un sistema per rilevare gli eventi avversi in tempo reale utilizzando Amazon SageMaker e Amazon QuickSight.

Questo post approfondisce diverse aree chiave, fornendo un'esplorazione completa dei seguenti argomenti:

Le sfide relative ai dati incontrate da AWS Professional Services
Il panorama e l'applicazione dei modelli linguistici di grandi dimensioni (LLM):
- Trasformatori, BERT e GPT
- Abbracciare il viso
La soluzione LLM ottimizzata e i suoi componenti:
- Preparazione dei dati
- Allenamento modello

Sfida sui dati

La distorsione dei dati è spesso un problema quando si elaborano attività di classificazione. Idealmente ti piacerebbe avere un set di dati bilanciato e questo caso d'uso non fa eccezione.

Affrontiamo questo disallineamento con IA generativa modelli (Falcon-7B e Falcon-40B), a cui è stato richiesto di generare campioni di eventi sulla base di cinque esempi tratti dal set di formazione per aumentare la diversità semantica e aumentare la dimensione del campione degli eventi avversi etichettati. Per noi è vantaggioso utilizzare i modelli Falcon qui perché, a differenza di alcuni LLM su Hugging Face, Falcon ti fornisce il set di dati di addestramento che utilizzano, quindi puoi essere sicuro che nessuno dei tuoi esempi di set di test sia contenuto nel set di addestramento Falcon ed evitare dati contaminazione.

L’altra sfida relativa ai dati per i clienti del settore sanitario sono i requisiti di conformità HIPAA. Per soddisfare questi requisiti è necessario incorporare nella soluzione la crittografia dei dati inattivi e in transito.

Trasformatori, BERT e GPT

L'architettura del trasformatore è un'architettura di rete neurale utilizzata per attività di elaborazione del linguaggio naturale (NLP). È stato introdotto per la prima volta nel documento "L'attenzione è tutto ciò di cui hai bisogno" di Vaswani et al. (2017). L'architettura del trasformatore si basa sul meccanismo dell'attenzione, che consente al modello di apprendere le dipendenze a lungo raggio tra le parole. I trasformatori, come spiegato nel documento originale, sono costituiti da due componenti principali: l'encoder e il decoder. Il codificatore prende la sequenza di input come input e produce una sequenza di stati nascosti. Il decodificatore quindi prende questi stati nascosti come input e produce la sequenza di output. Il meccanismo di attenzione viene utilizzato sia nel codificatore che nel decodificatore. Il meccanismo di attenzione consente al modello di prestare attenzione a parole specifiche nella sequenza di input durante la generazione della sequenza di output. Ciò consente al modello di apprendere le dipendenze a lungo raggio tra le parole, il che è essenziale per molte attività di PNL, come la traduzione automatica e il riepilogo del testo.

Una delle architetture dei trasformatori più popolari e utili, Bidirection Encoder Representations from Transformers (BERT), è un modello di rappresentazione del linguaggio che è stato introdotto in 2018. BERT viene addestrato su sequenze in cui alcune parole di una frase sono mascherate e deve compilare quelle parole tenendo conto sia delle parole prima che di quelle successive alle parole mascherate. BERT può essere ottimizzato per una varietà di attività di PNL, tra cui la risposta alle domande, l'inferenza del linguaggio naturale e l'analisi del sentiment.

L'altra popolare architettura di trasformatori che ha preso d'assalto il mondo è il Generative Pre-trained Transformer (GPT). Il primo modello GPT è stato introdotto nel 2018 da OpenAI. Funziona essendo addestrato a prevedere rigorosamente la parola successiva in una sequenza, consapevole solo del contesto prima della parola. I modelli GPT vengono addestrati su un enorme set di dati di testo e codice e possono essere ottimizzati per una serie di attività NLP, tra cui la generazione di testo, la risposta alle domande e il riepilogo.

In generale, BERT è migliore nei compiti che richiedono una comprensione più profonda del contesto delle parole, mentre GPT è più adatto per attività che richiedono la generazione di testo.

Abbracciare il viso

Hugging Face è una società di intelligenza artificiale specializzata in PNL. Fornisce una piattaforma con strumenti e risorse che consentono agli sviluppatori di creare, addestrare e distribuire modelli ML incentrati su attività di PNL. Una delle offerte chiave di Hugging Face è la sua libreria, Trasformatori, che include modelli preaddestrati che possono essere ottimizzati per varie attività linguistiche come la classificazione del testo, la traduzione, il riepilogo e la risposta alle domande.

Hugging Face si integra perfettamente con SageMaker, un servizio completamente gestito che consente a sviluppatori e data scientist di creare, addestrare e distribuire modelli ML su larga scala. Questa sinergia avvantaggia gli utenti fornendo un'infrastruttura solida e scalabile per gestire le attività di PNL con i modelli all'avanguardia offerti da Hugging Face, combinati con i servizi ML potenti e flessibili di AWS. Puoi anche accedere ai modelli Hugging Face direttamente da JumpStart di Amazon SageMaker, rendendo conveniente iniziare con soluzioni predefinite.

Panoramica della soluzione

Abbiamo utilizzato la libreria Hugging Face Transformers per ottimizzare i modelli di trasformatori su SageMaker per l'attività di classificazione degli eventi avversi. Il lavoro di training viene creato utilizzando lo stimatore SageMaker PyTorch. SageMaker JumpStart dispone anche di alcune integrazioni complementari con Hugging Face che ne semplificano l'implementazione. In questa sezione vengono descritti i passaggi principali coinvolti nella preparazione dei dati e nell'addestramento del modello.

Preparazione dei dati

Abbiamo utilizzato i dati sulle reazioni avverse ai farmaci (ade_corpus_v2) all'interno del set di dati Hugging Face con una suddivisione allenamento/test 80/20. La struttura dei dati richiesta per l'addestramento e l'inferenza del nostro modello ha due colonne:

Una colonna per il contenuto di testo come dati di input del modello.
Un'altra colonna per la classe dell'etichetta. Abbiamo due possibili classi per un testo: Not_AE ed Adverse_Event.

Formazione e sperimentazione del modello

Per esplorare in modo efficiente lo spazio dei possibili modelli Hugging Face per ottimizzare i nostri dati combinati di eventi avversi, abbiamo costruito un lavoro di ottimizzazione degli iperparametri SageMaker (HPO) e passato diversi modelli Hugging Face come iperparametri, insieme ad altri importanti iperparametri come la dimensione del batch di addestramento, la lunghezza della sequenza, i modelli e la velocità di apprendimento. I processi di formazione hanno utilizzato un'istanza ml.p3dn.24xlarge e hanno richiesto in media 30 minuti per processo con quel tipo di istanza. Le metriche di allenamento sono state acquisite tramite il Esperimenti Amazon SageMaker strumento e ogni lavoro di formazione ha attraversato 10 epoche.

Specifichiamo quanto segue nel nostro codice:

Dimensioni del batch di formazione – Numero di campioni elaborati insieme prima dell'aggiornamento dei pesi del modello
Lunghezza della sequenza – Lunghezza massima della sequenza di input che BERT può elaborare
Tasso di apprendimento – La velocità con cui il modello aggiorna i suoi pesi durante l'allenamento
Modelli – Modelli preaddestrati di Hugging Face

# we use the Hyperparameter Tuner
from sagemaker.tuner import IntegerParameter,ContinuousParameter, CategoricalParameter
tuning_job_name = 'ade-hpo'
# Define exploration boundaries
hyperparameter_ranges = { 'learning_rate': ContinuousParameter(5e-6,5e-4), 'max_seq_length': CategoricalParameter(['16', '32', '64', '128', '256']), 'train_batch_size': CategoricalParameter(['16', '32', '64', '128', '256']), 'model_name': CategoricalParameter(["emilyalsentzer/Bio_ClinicalBERT", "dmis-lab/biobert-base-cased-v1.2", "monologg/biobert_v1.1_pubmed", "pritamdeka/BioBert-PubMed200kRCT", "saidhr20/pubmed-biobert-text-classification" ])
} # create Optimizer
Optimizer = sagemaker.tuner.HyperparameterTuner( estimator=bert_estimator, hyperparameter_ranges=hyperparameter_ranges, base_tuning_job_name=tuning_job_name, objective_type='Maximize', objective_metric_name='f1', metric_definitions=[ {'Name': 'f1', 'Regex': "f1: ([0-9.]+).*$"}], max_jobs=40, max_parallel_jobs=4,
) Optimizer.fit({'training': inputs_data}, wait=False)

Risultati

Il modello che ha funzionato meglio nel nostro caso d'uso è stato il monologg/biobert_v1.1_pubmed modello ospitato su Hugging Face, che è una versione dell'architettura BERT che è stata pre-addestrata sul set di dati Pubmed, che comprende 19,717 pubblicazioni scientifiche. Il pre-addestramento del BERT su questo set di dati fornisce a questo modello competenze extra quando si tratta di identificare il contesto attorno a termini scientifici di natura medica. Ciò migliora le prestazioni del modello per l'attività di rilevamento degli eventi avversi perché è stato pre-addestrato sulla sintassi specifica dal punto di vista medico che viene spesso visualizzata nel nostro set di dati.

La tabella seguente riassume i nostri parametri di valutazione.

Modello	Precisione	Richiamo	F1
Base BERT	0.87	0.95	0.91
BioBert	0.89	0.95	0.92
BioBERT con HPO	0.89	0.96	0.929
BioBERT con HPO ed evento avverso generato sinteticamente	0.90	0.96	0.933

Sebbene si tratti di miglioramenti relativamente piccoli e incrementali rispetto al modello BERT di base, ciò dimostra comunque alcune strategie praticabili per migliorare le prestazioni del modello attraverso questi metodi. La generazione di dati sintetici con Falcon sembra avere molte promesse e potenzialità di miglioramento delle prestazioni, soprattutto perché questi modelli di intelligenza artificiale generativa migliorano nel tempo.

ripulire

Per evitare di incorrere in addebiti futuri, elimina tutte le risorse create come il modello e gli endpoint del modello che hai creato con il seguente codice:

# Delete resources
model_predictor.delete_model()
model_predictor.delete_endpoint()

Conclusione

Molte aziende farmaceutiche oggi vorrebbero automatizzare il processo di identificazione degli eventi avversi dalle interazioni con i clienti in modo sistematico per contribuire a migliorare la sicurezza e i risultati dei clienti. Come abbiamo mostrato in questo post, il LLM BioBERT ottimizzato con eventi avversi generati sinteticamente aggiunti ai dati classifica gli eventi avversi con punteggi F1 elevati e può essere utilizzato per creare una soluzione conforme a HIPAA per i nostri clienti.

Come sempre, AWS accoglie con favore il tuo feedback. Per favore lascia i tuoi pensieri e domande nella sezione commenti.

Circa gli autori

Distribuisci modelli linguistici di grandi dimensioni per un caso d'uso nel campo della tecnologia sanitaria su Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Zack Peterson è un data scientist presso AWS Professional Services. Da molti anni fornisce soluzioni di machine learning ai clienti e ha un master in Economia.

Distribuisci modelli linguistici di grandi dimensioni per un caso d'uso nel campo della tecnologia sanitaria su Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Dottor Adewale Akinfaderin è un data scientist senior nel settore sanitario e delle scienze della vita presso AWS. La sua esperienza riguarda metodi AI/ML riproducibili ed end-to-end, implementazioni pratiche e assistenza ai clienti del settore sanitario globale nella formulazione e nello sviluppo di soluzioni scalabili a problemi interdisciplinari. Ha due lauree in Fisica e un dottorato in Ingegneria.

Distribuisci modelli linguistici di grandi dimensioni per un caso d'uso nel campo della tecnologia sanitaria su Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Ekta Walia Bhullar, PhD, è un consulente senior di IA/ML presso la business unit dei servizi professionali di AWS Healthcare and Life Sciences (HCLS). Ha una vasta esperienza nell'applicazione dell'intelligenza artificiale/ML nel settore sanitario, in particolare in radiologia. Al di fuori del lavoro, quando non si parla di intelligenza artificiale in radiologia, le piace correre e fare escursioni.

Distribuisci modelli linguistici di grandi dimensioni per un caso d'uso nel campo della tecnologia sanitaria su Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. L'uomo Han è un manager senior di data science e machine learning presso AWS Professional Services con sede a San Diego, California. Ha un dottorato in ingegneria presso la Northwestern University e ha diversi anni di esperienza come consulente gestionale fornendo consulenza a clienti nei settori manifatturiero, servizi finanziari ed energia. Oggi lavora con passione con clienti chiave provenienti da una varietà di settori verticali per sviluppare e implementare soluzioni ML e IA generativa su AWS.