Razmestite velike jezikovne modele za primer uporabe Healthtech na Amazon SageMaker

Ponovno objavil Platon

Spremljevalci: 0

V 2021, farmacevtska industrija je v ZDA ustvarila 550 milijard dolarjev prihodkov. Farmacevtska podjetja na trgu prodajajo različna, pogosto nova zdravila, pri katerih lahko včasih pride do nenamernih, a resnih neželenih učinkov.

O teh dogodkih je mogoče poročati kjer koli, iz bolnišnic ali doma, zato jih je treba odgovorno in učinkovito spremljati. Tradicionalna ročna obdelava neželenih dogodkov je zaradi vedno večje količine zdravstvenih podatkov in stroškov otežena. Na splošno je predvidenih 384 milijard USD kot strošek dejavnosti farmakovigilance za celotno zdravstveno industrijo do leta 2022. Za podporo splošnih dejavnosti farmakovigilance želijo naše farmacevtske stranke uporabiti moč strojnega učenja (ML) za avtomatizacijo odkrivanja neželenih dogodkov iz različnih virov podatkov. , kot so viri družbenih medijev, telefonski klici, e-poštna sporočila in ročno napisani zapiski, ter sproži ustrezna dejanja.

V tej objavi prikazujemo, kako razviti rešitev, ki jo poganja ML, z uporabo Amazon SageMaker za odkrivanje neželenih dogodkov z uporabo javno dostopnega nabora podatkov o neželenih učinkih zdravil na Hugging Face. V tej rešitvi natančno prilagodimo različne modele na Hugging Face, ki so bili vnaprej usposobljeni na podlagi medicinskih podatkov, in uporabljamo model BioBERT, ki je bil vnaprej usposobljen na Objavljen nabor podatkov in deluje najbolje od preizkušenih.

Rešitev smo implementirali z uporabo Komplet za razvoj oblaka AWS (AWS CDK). Vendar pa v tem prispevku ne obravnavamo posebnosti gradnje rešitve. Za več informacij o izvajanju te rešitve glejte Zgradite sistem za lovljenje neželenih dogodkov v realnem času z uporabo Amazon SageMaker in Amazon QuickSight.

Ta objava obravnava več ključnih področij in zagotavlja celovito raziskavo naslednjih tem:

Podatkovni izzivi, s katerimi se sooča AWS Professional Services
Pokrajina in uporaba velikih jezikovnih modelov (LLM):
- Transformers, BERT in GPT
- Objemni obraz
Natančno prilagojena rešitev LLM in njene komponente:
- Priprava podatkov
- Usposabljanje za modele

Podatkovni izziv

Izkrivljenost podatkov je pogosto težava pri načrtovanju klasifikacijskih nalog. Idealno bi bilo, da bi imeli uravnotežen nabor podatkov in ta primer uporabe ni izjema.

To izkrivljenost obravnavamo z generativni AI modelov (Falcon-7B in Falcon-40B), ki so bili pozvani k generiranju vzorcev dogodkov na podlagi petih primerov iz učnega nabora, da bi povečali semantično raznolikost in povečali velikost vzorca označenih neželenih dogodkov. Za nas je koristno, da tukaj uporabljamo modele Falcon, ker vam Falcon v nasprotju z nekaterimi LLM-ji na Hugging Face ponuja nabor podatkov o usposabljanju, ki ga uporabljajo, tako da ste lahko prepričani, da noben od vaših primerov testnega niza ni vključen v nabor za usposabljanje Falcon in se izognete podatkom kontaminacija.

Drugi podatkovni izziv za uporabnike zdravstvenega varstva so zahteve skladnosti s predpisi HIPAA. Za izpolnitev teh zahtev je treba v rešitev vključiti šifriranje v mirovanju in med prenosom.

Transformers, BERT in GPT

Transformatorska arhitektura je arhitektura nevronske mreže, ki se uporablja za naloge obdelave naravnega jezika (NLP). Prvič je bil predstavljen v časopisu "Pozor je vse, kar potrebujete" avtorja Vaswani et al. (2017). Arhitektura transformatorja temelji na mehanizmu pozornosti, ki omogoča modelu, da se nauči dolgoročnih odvisnosti med besedami. Transformatorji, kot je navedeno v izvirnem dokumentu, so sestavljeni iz dveh glavnih komponent: kodirnika in dekoderja. Kodirnik vzame vhodno zaporedje kot vhod in ustvari zaporedje skritih stanj. Dekoder nato vzame ta skrita stanja kot vhod in ustvari izhodno zaporedje. Mehanizem pozornosti se uporablja tako v kodirniku kot v dekoderju. Mehanizem pozornosti omogoča modelu, da se pri ustvarjanju izhodnega zaporedja posveti določenim besedam v vhodnem zaporedju. To omogoča modelu, da se nauči dolgoročnih odvisnosti med besedami, kar je bistveno za številne naloge NLP, kot sta strojno prevajanje in povzemanje besedila.

Ena izmed bolj priljubljenih in uporabnih transformatorskih arhitektur, Bidirectional Encoder Representations from Transformers (BERT), je model jezikovne predstavitve, ki je bil uveden v 2018. BERT je usposobljen za zaporedja, kjer so nekatere besede v stavku zamaskirane, in mora te besede izpolniti ob upoštevanju besed pred in za zamaskiranimi besedami. BERT je mogoče natančno nastaviti za različne naloge NLP, vključno z odgovarjanjem na vprašanja, sklepanjem o naravnem jeziku in analizo čustev.

Druga priljubljena transformatorska arhitektura, ki je prevzela svet, je Generative Pre-trained Transformer (GPT). Prvi model GPT je bil leta 2018 predstavil OpenAI. Deluje tako, da je usposobljen za natančno predvidevanje naslednje besede v zaporedju, pri čemer se zaveda le konteksta pred besedo. Modeli GPT so usposobljeni na ogromnem naboru podatkov besedila in kode in jih je mogoče natančno prilagoditi za vrsto NLP nalog, vključno z ustvarjanjem besedila, odgovarjanjem na vprašanja in povzemanjem.

Na splošno je BERT boljši pri nalogah, ki zahtevajo globlje razumevanje konteksta besed, medtem ko GPT je bolj primeren za naloge, ki zahtevajo ustvarjanje besedila.

Objemni obraz

Hugging Face je podjetje za umetno inteligenco, ki je specializirano za NLP. Zagotavlja platformo z orodji in viri, ki razvijalcem omogočajo gradnjo, usposabljanje in uvajanje modelov ML, osredotočenih na naloge NLP. Ena ključnih ponudb Hugging Face je njegova knjižnica, transformatorji, ki vključuje vnaprej usposobljene modele, ki jih je mogoče natančno nastaviti za različne jezikovne naloge, kot so razvrščanje besedil, prevajanje, povzemanje in odgovarjanje na vprašanja.

Hugging Face se brezhibno integrira s SageMakerjem, ki je popolnoma upravljana storitev, ki razvijalcem in podatkovnim znanstvenikom omogoča izdelavo, usposabljanje in uvajanje modelov ML v velikem obsegu. Ta sinergija koristi uporabnikom, saj zagotavlja robustno in razširljivo infrastrukturo za reševanje nalog NLP z najsodobnejšimi modeli, ki jih ponuja Hugging Face, v kombinaciji z zmogljivimi in prilagodljivimi storitvami ML iz AWS. Do modelov Hugging Face lahko dostopate tudi neposredno iz Amazon SageMaker JumpStart, zaradi česar je priročno začeti z vnaprej pripravljenimi rešitvami.

Pregled rešitev

Uporabili smo knjižnico Hugging Face Transformers za natančno nastavitev modelov transformatorjev v SageMakerju za nalogo klasifikacije neželenih dogodkov. Usposabljanje je zgrajeno z uporabo ocenjevalca SageMaker PyTorch. SageMaker JumpStart ima tudi nekaj komplementarnih integracij z Hugging Face, ki omogoča enostavno implementacijo. V tem razdelku opisujemo glavne korake pri pripravi podatkov in usposabljanju modela.

Priprava podatkov

Uporabili smo podatke o neželenih učinkih zdravil (ade_corpus_v2) v naboru podatkov Hugging Face z razdelitvijo vadba/test 80/20. Zahtevana podatkovna struktura za naše usposabljanje modela in sklepanje ima dva stolpca:

En stolpec za besedilno vsebino kot vhodne podatke modela.
Še en stolpec za razred oznake. Za besedilo imamo dva možna razreda: Not_AE in Adverse_Event.

Usposabljanje modelov in eksperimentiranje

Da bi učinkovito raziskali prostor možnih modelov objemajočih se obrazov za natančno nastavitev naših združenih podatkov o neželenih dogodkih, smo izdelali opravilo za optimizacijo hiperparametrov (HPO) SageMaker in posredovali različne modele objemajočih se obrazov kot hiperparameter, skupaj z drugimi pomembnimi hiperparametri kot so velikost vadbene serije, dolžina zaporedja, modeli in stopnja učenja. Opravila usposabljanja so uporabljala primerek ml.p3dn.24xlarge in so v povprečju trajala 30 minut na opravilo s to vrsto primerka. Meritve usposabljanja so bile zajete, čeprav Eksperimenti Amazon SageMaker orodje, vsako usposabljanje pa je potekalo skozi 10 obdobij.

V naši kodi določimo naslednje:

Velikost serije za usposabljanje – Število vzorcev, ki so obdelani skupaj, preden se posodobijo uteži modela
Dolžina zaporedja – Največja dolžina vhodnega zaporedja, ki ga lahko obdela BERT
Stopnja učenja – Kako hitro model posodablja svoje uteži med vadbo
Modeli – Predtrenirani modeli Hugging Face

# we use the Hyperparameter Tuner
from sagemaker.tuner import IntegerParameter,ContinuousParameter, CategoricalParameter
tuning_job_name = 'ade-hpo'
# Define exploration boundaries
hyperparameter_ranges = { 'learning_rate': ContinuousParameter(5e-6,5e-4), 'max_seq_length': CategoricalParameter(['16', '32', '64', '128', '256']), 'train_batch_size': CategoricalParameter(['16', '32', '64', '128', '256']), 'model_name': CategoricalParameter(["emilyalsentzer/Bio_ClinicalBERT", "dmis-lab/biobert-base-cased-v1.2", "monologg/biobert_v1.1_pubmed", "pritamdeka/BioBert-PubMed200kRCT", "saidhr20/pubmed-biobert-text-classification" ])
} # create Optimizer
Optimizer = sagemaker.tuner.HyperparameterTuner( estimator=bert_estimator, hyperparameter_ranges=hyperparameter_ranges, base_tuning_job_name=tuning_job_name, objective_type='Maximize', objective_metric_name='f1', metric_definitions=[ {'Name': 'f1', 'Regex': "f1: ([0-9.]+).*$"}], max_jobs=40, max_parallel_jobs=4,
) Optimizer.fit({'training': inputs_data}, wait=False)

Rezultati

Model, ki se je najbolje izkazal v našem primeru uporabe, je bil monologg/biobert_v1.1_pubmed model gostuje na Hugging Face, ki je različica arhitekture BERT, ki je bila vnaprej usposobljena na naboru podatkov Pubmed, ki je sestavljen iz 19,717 znanstvenih publikacij. Predhodno usposabljanje BERT na tem naboru podatkov daje temu modelu dodatno strokovno znanje, ko gre za prepoznavanje konteksta okoli medicinsko povezanih znanstvenih izrazov. To poveča zmogljivost modela za nalogo odkrivanja neželenih dogodkov, ker je bil predhodno usposobljen za medicinsko specifično sintakso, ki se pogosto pojavlja v našem naboru podatkov.

Naslednja tabela povzema naše meritve ocenjevanja.

Model	Precision	Recall	F1
Podstavek BERT	0.87	0.95	0.91
BioBert	0.89	0.95	0.92
BioBERT s HPO	0.89	0.96	0.929
BioBERT s HPO in sintetično ustvarjenim neželenim dogodkom	0.90	0.96	0.933

Čeprav so to razmeroma majhne in postopne izboljšave v primerjavi z osnovnim modelom BERT, to kljub temu kaže nekaj izvedljivih strategij za izboljšanje učinkovitosti modela s temi metodami. Zdi se, da ustvarjanje sintetičnih podatkov s Falconom veliko obeta in ima potencial za izboljšave zmogljivosti, zlasti ker se ti generativni modeli AI sčasoma izboljšujejo.

Čiščenje

Da se izognete prihodnjim stroškom, izbrišite vse ustvarjene vire, kot je model, in končne točke modela, ki ste jih ustvarili z naslednjo kodo:

# Delete resources
model_predictor.delete_model()
model_predictor.delete_endpoint()

zaključek

Številna farmacevtska podjetja bi rada danes sistematično avtomatizirala postopek prepoznavanja neželenih dogodkov iz interakcij s strankami, da bi pomagala izboljšati varnost in rezultate strank. Kot smo pokazali v tej objavi, natančno nastavljen LLM BioBERT s sintetično ustvarjenimi neželenimi dogodki, dodanimi podatki, razvršča neželene dogodke z visokimi rezultati F1 in se lahko uporabi za izdelavo rešitve, skladne s HIPAA, za naše stranke.

Kot vedno AWS pozdravlja vaše povratne informacije. Svoje misli in vprašanja pustite v razdelku za komentarje.

O avtorjih

Razmestite velike jezikovne modele za primer uporabe zdravstvene tehnologije na Amazon SageMaker | Spletne storitve Amazon PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Zack Peterson je podatkovni znanstvenik v AWS Professional Services. Že vrsto let se ukvarja z zagotavljanjem rešitev strojnega učenja strankam in ima magisterij iz ekonomije.

Razmestite velike jezikovne modele za primer uporabe zdravstvene tehnologije na Amazon SageMaker | Spletne storitve Amazon PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Dr. Adewale Akinfaderin je višji podatkovni znanstvenik na področju zdravstva in znanosti o življenju pri AWS. Njegovo strokovno znanje je na področju ponovljivih in celovitih metod AI/ML, praktičnih implementacij in pomoči globalnim strankam zdravstvenega varstva pri oblikovanju in razvoju razširljivih rešitev za interdisciplinarne probleme. Ima dve diplomi iz fizike in doktorat iz tehnike.

Razmestite velike jezikovne modele za primer uporabe zdravstvene tehnologije na Amazon SageMaker | Spletne storitve Amazon PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Ekta Walia Bhullar, PhD, je višji svetovalec za umetno inteligenco/ML v poslovni enoti AWS Healthcare and Life Sciences (HCLS) Professional Services. Ima bogate izkušnje z uporabo AI/ML na področju zdravstva, zlasti v radiologiji. Izven službe, ko ne razpravlja o AI v radiologiji, rada teče in planinari.

Razmestite velike jezikovne modele za primer uporabe zdravstvene tehnologije na Amazon SageMaker | Spletne storitve Amazon PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Han Man je višji vodja podatkovne znanosti in strojnega učenja pri AWS Professional Services s sedežem v San Diegu v Kaliforniji. Ima doktorat iz inženiringa na univerzi Northwestern in ima večletne izkušnje kot svetovalec za upravljanje pri svetovanju strankam v proizvodnji, finančnih storitvah in energetiki. Danes strastno sodeluje s ključnimi strankami iz različnih industrijskih vertikal pri razvoju in implementaciji ML in generativnih rešitev AI na AWS.