V 2021, farmacevtska industrija je v ZDA ustvarila 550 milijard dolarjev prihodkov. Farmacevtska podjetja na trgu prodajajo različna, pogosto nova zdravila, pri katerih lahko včasih pride do nenamernih, a resnih neželenih učinkov.
O teh dogodkih je mogoče poročati kjer koli, iz bolnišnic ali doma, zato jih je treba odgovorno in učinkovito spremljati. Tradicionalna ročna obdelava neželenih dogodkov je zaradi vedno večje količine zdravstvenih podatkov in stroškov otežena. Na splošno je predvidenih 384 milijard USD kot strošek dejavnosti farmakovigilance za celotno zdravstveno industrijo do leta 2022. Za podporo splošnih dejavnosti farmakovigilance želijo naše farmacevtske stranke uporabiti moč strojnega učenja (ML) za avtomatizacijo odkrivanja neželenih dogodkov iz različnih virov podatkov. , kot so viri družbenih medijev, telefonski klici, e-poštna sporočila in ročno napisani zapiski, ter sproži ustrezna dejanja.
V tej objavi prikazujemo, kako razviti rešitev, ki jo poganja ML, z uporabo Amazon SageMaker za odkrivanje neželenih dogodkov z uporabo javno dostopnega nabora podatkov o neželenih učinkih zdravil na Hugging Face. V tej rešitvi natančno prilagodimo različne modele na Hugging Face, ki so bili vnaprej usposobljeni na podlagi medicinskih podatkov, in uporabljamo model BioBERT, ki je bil vnaprej usposobljen na Objavljen nabor podatkov in deluje najbolje od preizkušenih.
Rešitev smo implementirali z uporabo Komplet za razvoj oblaka AWS (AWS CDK). Vendar pa v tem prispevku ne obravnavamo posebnosti gradnje rešitve. Za več informacij o izvajanju te rešitve glejte Zgradite sistem za lovljenje neželenih dogodkov v realnem času z uporabo Amazon SageMaker in Amazon QuickSight.
Ta objava obravnava več ključnih področij in zagotavlja celovito raziskavo naslednjih tem:
- Podatkovni izzivi, s katerimi se sooča AWS Professional Services
- Pokrajina in uporaba velikih jezikovnih modelov (LLM):
- Transformers, BERT in GPT
- Objemni obraz
- Natančno prilagojena rešitev LLM in njene komponente:
- Priprava podatkov
- Usposabljanje za modele
Podatkovni izziv
Izkrivljenost podatkov je pogosto težava pri načrtovanju klasifikacijskih nalog. Idealno bi bilo, da bi imeli uravnotežen nabor podatkov in ta primer uporabe ni izjema.
To izkrivljenost obravnavamo z generativni AI modelov (Falcon-7B in Falcon-40B), ki so bili pozvani k generiranju vzorcev dogodkov na podlagi petih primerov iz učnega nabora, da bi povečali semantično raznolikost in povečali velikost vzorca označenih neželenih dogodkov. Za nas je koristno, da tukaj uporabljamo modele Falcon, ker vam Falcon v nasprotju z nekaterimi LLM-ji na Hugging Face ponuja nabor podatkov o usposabljanju, ki ga uporabljajo, tako da ste lahko prepričani, da noben od vaših primerov testnega niza ni vključen v nabor za usposabljanje Falcon in se izognete podatkom kontaminacija.
Drugi podatkovni izziv za uporabnike zdravstvenega varstva so zahteve skladnosti s predpisi HIPAA. Za izpolnitev teh zahtev je treba v rešitev vključiti šifriranje v mirovanju in med prenosom.
Transformers, BERT in GPT
Transformatorska arhitektura je arhitektura nevronske mreže, ki se uporablja za naloge obdelave naravnega jezika (NLP). Prvič je bil predstavljen v časopisu "Pozor je vse, kar potrebujete" avtorja Vaswani et al. (2017). Arhitektura transformatorja temelji na mehanizmu pozornosti, ki omogoča modelu, da se nauči dolgoročnih odvisnosti med besedami. Transformatorji, kot je navedeno v izvirnem dokumentu, so sestavljeni iz dveh glavnih komponent: kodirnika in dekoderja. Kodirnik vzame vhodno zaporedje kot vhod in ustvari zaporedje skritih stanj. Dekoder nato vzame ta skrita stanja kot vhod in ustvari izhodno zaporedje. Mehanizem pozornosti se uporablja tako v kodirniku kot v dekoderju. Mehanizem pozornosti omogoča modelu, da se pri ustvarjanju izhodnega zaporedja posveti določenim besedam v vhodnem zaporedju. To omogoča modelu, da se nauči dolgoročnih odvisnosti med besedami, kar je bistveno za številne naloge NLP, kot sta strojno prevajanje in povzemanje besedila.
Ena izmed bolj priljubljenih in uporabnih transformatorskih arhitektur, Bidirectional Encoder Representations from Transformers (BERT), je model jezikovne predstavitve, ki je bil uveden v 2018. BERT je usposobljen za zaporedja, kjer so nekatere besede v stavku zamaskirane, in mora te besede izpolniti ob upoštevanju besed pred in za zamaskiranimi besedami. BERT je mogoče natančno nastaviti za različne naloge NLP, vključno z odgovarjanjem na vprašanja, sklepanjem o naravnem jeziku in analizo čustev.
Druga priljubljena transformatorska arhitektura, ki je prevzela svet, je Generative Pre-trained Transformer (GPT). Prvi model GPT je bil leta 2018 predstavil OpenAI. Deluje tako, da je usposobljen za natančno predvidevanje naslednje besede v zaporedju, pri čemer se zaveda le konteksta pred besedo. Modeli GPT so usposobljeni na ogromnem naboru podatkov besedila in kode in jih je mogoče natančno prilagoditi za vrsto NLP nalog, vključno z ustvarjanjem besedila, odgovarjanjem na vprašanja in povzemanjem.
Na splošno je BERT boljši pri nalogah, ki zahtevajo globlje razumevanje konteksta besed, medtem ko GPT je bolj primeren za naloge, ki zahtevajo ustvarjanje besedila.
Objemni obraz
Hugging Face je podjetje za umetno inteligenco, ki je specializirano za NLP. Zagotavlja platformo z orodji in viri, ki razvijalcem omogočajo gradnjo, usposabljanje in uvajanje modelov ML, osredotočenih na naloge NLP. Ena ključnih ponudb Hugging Face je njegova knjižnica, transformatorji, ki vključuje vnaprej usposobljene modele, ki jih je mogoče natančno nastaviti za različne jezikovne naloge, kot so razvrščanje besedil, prevajanje, povzemanje in odgovarjanje na vprašanja.
Hugging Face se brezhibno integrira s SageMakerjem, ki je popolnoma upravljana storitev, ki razvijalcem in podatkovnim znanstvenikom omogoča izdelavo, usposabljanje in uvajanje modelov ML v velikem obsegu. Ta sinergija koristi uporabnikom, saj zagotavlja robustno in razširljivo infrastrukturo za reševanje nalog NLP z najsodobnejšimi modeli, ki jih ponuja Hugging Face, v kombinaciji z zmogljivimi in prilagodljivimi storitvami ML iz AWS. Do modelov Hugging Face lahko dostopate tudi neposredno iz Amazon SageMaker JumpStart, zaradi česar je priročno začeti z vnaprej pripravljenimi rešitvami.
Pregled rešitev
Uporabili smo knjižnico Hugging Face Transformers za natančno nastavitev modelov transformatorjev v SageMakerju za nalogo klasifikacije neželenih dogodkov. Usposabljanje je zgrajeno z uporabo ocenjevalca SageMaker PyTorch. SageMaker JumpStart ima tudi nekaj komplementarnih integracij z Hugging Face, ki omogoča enostavno implementacijo. V tem razdelku opisujemo glavne korake pri pripravi podatkov in usposabljanju modela.
Priprava podatkov
Uporabili smo podatke o neželenih učinkih zdravil (ade_corpus_v2) v naboru podatkov Hugging Face z razdelitvijo vadba/test 80/20. Zahtevana podatkovna struktura za naše usposabljanje modela in sklepanje ima dva stolpca:
- En stolpec za besedilno vsebino kot vhodne podatke modela.
- Še en stolpec za razred oznake. Za besedilo imamo dva možna razreda:
Not_AE
inAdverse_Event
.
Usposabljanje modelov in eksperimentiranje
Da bi učinkovito raziskali prostor možnih modelov objemajočih se obrazov za natančno nastavitev naših združenih podatkov o neželenih dogodkih, smo izdelali opravilo za optimizacijo hiperparametrov (HPO) SageMaker in posredovali različne modele objemajočih se obrazov kot hiperparameter, skupaj z drugimi pomembnimi hiperparametri kot so velikost vadbene serije, dolžina zaporedja, modeli in stopnja učenja. Opravila usposabljanja so uporabljala primerek ml.p3dn.24xlarge in so v povprečju trajala 30 minut na opravilo s to vrsto primerka. Meritve usposabljanja so bile zajete, čeprav Eksperimenti Amazon SageMaker orodje, vsako usposabljanje pa je potekalo skozi 10 obdobij.
V naši kodi določimo naslednje:
- Velikost serije za usposabljanje – Število vzorcev, ki so obdelani skupaj, preden se posodobijo uteži modela
- Dolžina zaporedja – Največja dolžina vhodnega zaporedja, ki ga lahko obdela BERT
- Stopnja učenja – Kako hitro model posodablja svoje uteži med vadbo
- Modeli – Predtrenirani modeli Hugging Face
Rezultati
Model, ki se je najbolje izkazal v našem primeru uporabe, je bil monologg/biobert_v1.1_pubmed
model gostuje na Hugging Face, ki je različica arhitekture BERT, ki je bila vnaprej usposobljena na naboru podatkov Pubmed, ki je sestavljen iz 19,717 znanstvenih publikacij. Predhodno usposabljanje BERT na tem naboru podatkov daje temu modelu dodatno strokovno znanje, ko gre za prepoznavanje konteksta okoli medicinsko povezanih znanstvenih izrazov. To poveča zmogljivost modela za nalogo odkrivanja neželenih dogodkov, ker je bil predhodno usposobljen za medicinsko specifično sintakso, ki se pogosto pojavlja v našem naboru podatkov.
Naslednja tabela povzema naše meritve ocenjevanja.
Model | Precision | Recall | F1 |
Podstavek BERT | 0.87 | 0.95 | 0.91 |
BioBert | 0.89 | 0.95 | 0.92 |
BioBERT s HPO | 0.89 | 0.96 | 0.929 |
BioBERT s HPO in sintetično ustvarjenim neželenim dogodkom | 0.90 | 0.96 | 0.933 |
Čeprav so to razmeroma majhne in postopne izboljšave v primerjavi z osnovnim modelom BERT, to kljub temu kaže nekaj izvedljivih strategij za izboljšanje učinkovitosti modela s temi metodami. Zdi se, da ustvarjanje sintetičnih podatkov s Falconom veliko obeta in ima potencial za izboljšave zmogljivosti, zlasti ker se ti generativni modeli AI sčasoma izboljšujejo.
Čiščenje
Da se izognete prihodnjim stroškom, izbrišite vse ustvarjene vire, kot je model, in končne točke modela, ki ste jih ustvarili z naslednjo kodo:
zaključek
Številna farmacevtska podjetja bi rada danes sistematično avtomatizirala postopek prepoznavanja neželenih dogodkov iz interakcij s strankami, da bi pomagala izboljšati varnost in rezultate strank. Kot smo pokazali v tej objavi, natančno nastavljen LLM BioBERT s sintetično ustvarjenimi neželenimi dogodki, dodanimi podatki, razvršča neželene dogodke z visokimi rezultati F1 in se lahko uporabi za izdelavo rešitve, skladne s HIPAA, za naše stranke.
Kot vedno AWS pozdravlja vaše povratne informacije. Svoje misli in vprašanja pustite v razdelku za komentarje.
O avtorjih
Zack Peterson je podatkovni znanstvenik v AWS Professional Services. Že vrsto let se ukvarja z zagotavljanjem rešitev strojnega učenja strankam in ima magisterij iz ekonomije.
Dr. Adewale Akinfaderin je višji podatkovni znanstvenik na področju zdravstva in znanosti o življenju pri AWS. Njegovo strokovno znanje je na področju ponovljivih in celovitih metod AI/ML, praktičnih implementacij in pomoči globalnim strankam zdravstvenega varstva pri oblikovanju in razvoju razširljivih rešitev za interdisciplinarne probleme. Ima dve diplomi iz fizike in doktorat iz tehnike.
Ekta Walia Bhullar, PhD, je višji svetovalec za umetno inteligenco/ML v poslovni enoti AWS Healthcare and Life Sciences (HCLS) Professional Services. Ima bogate izkušnje z uporabo AI/ML na področju zdravstva, zlasti v radiologiji. Izven službe, ko ne razpravlja o AI v radiologiji, rada teče in planinari.
Han Man je višji vodja podatkovne znanosti in strojnega učenja pri AWS Professional Services s sedežem v San Diegu v Kaliforniji. Ima doktorat iz inženiringa na univerzi Northwestern in ima večletne izkušnje kot svetovalec za upravljanje pri svetovanju strankam v proizvodnji, finančnih storitvah in energetiki. Danes strastno sodeluje s ključnimi strankami iz različnih industrijskih vertikal pri razvoju in implementaciji ML in generativnih rešitev AI na AWS.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/deploy-large-language-models-for-a-healthtech-use-case-on-amazon-sagemaker/
- :ima
- : je
- :ne
- :kje
- $GOR
- 1
- 10
- 100
- 16
- 19
- 2017
- 2018
- 2021
- 2022
- 30
- 32
- 7
- a
- dostop
- Račun
- ACM
- dejavnosti
- dejavnosti
- dodano
- Naslov
- ugoden
- škodljive
- svetovanje
- po
- AI
- AI modeli
- AI / ML
- AL
- vsi
- omogoča
- skupaj
- Prav tako
- vedno
- Amazon
- Amazon SageMaker
- Amazon Web Services
- znesek
- an
- Analiza
- in
- odgovor
- kaj
- kjerkoli
- uporaba
- primerno
- Arhitektura
- arhitekture
- SE
- območja
- okoli
- umetni
- Umetna inteligenca
- AS
- At
- pričakuje
- pozornosti
- avtomatizirati
- Na voljo
- povprečno
- izogniti
- zaveda
- AWS
- Strokovne storitve AWS
- uravnotežen
- baza
- temeljijo
- BE
- ker
- bilo
- pred
- počutje
- Prednosti
- BEST
- Boljše
- med
- dvosmerno
- Billion
- povečuje
- tako
- Meje
- izgradnjo
- Building
- zgrajena
- poslovni
- vendar
- by
- CA
- poziva
- CAN
- Zajeto
- primeru
- izziv
- izzivi
- izziv
- Stroški
- razred
- razredi
- Razvrstitev
- stranke
- Cloud
- Koda
- Stolpec
- Stolpci
- kombinirani
- prihaja
- prihajajo
- komentarji
- Podjetja
- podjetje
- dopolnilni
- skladnost
- deli
- celovito
- vsebuje
- zgrajeno
- svetovalec
- vseboval
- vsebina
- ozadje
- Priročen
- strošek
- stroški
- pokrov
- ustvarjajo
- ustvaril
- stranka
- Stranke, ki so
- datum
- Priprava podatkov
- znanost o podatkih
- podatkovni znanstvenik
- Struktura podatkov
- globlje
- opredeliti
- Stopnja
- dostavo
- poglablja
- dokazuje,
- odvisnosti
- razporedi
- opisati
- Odkrivanje
- Razvoj
- Razvijalci
- Razvoj
- Diego
- drugačen
- neposredno
- razpravljali
- raznolikost
- domena
- dont
- drog
- Droge
- med
- E&T
- vsak
- Economics
- učinkovito
- e-pošta
- omogočajo
- omogoča
- šifriranje
- konec koncev
- energija
- Inženiring
- epohe
- zlasti
- bistvena
- Ocena
- Event
- dogodki
- Primeri
- izjema
- izkušnje
- strokovno znanje
- raziskovanje
- raziskuje
- obsežen
- Obširne izkušnje
- dodatna
- f1
- Obraz
- povratne informacije
- izpolnite
- finančna
- finančne storitve
- prva
- pet
- prilagodljiv
- osredotočena
- po
- za
- iz
- v celoti
- Prihodnost
- splošno
- ustvarjajo
- ustvarila
- ustvarjajo
- generacija
- generativno
- Generativna AI
- dobili
- daje
- Globalno
- diplomiral
- ročaj
- roke
- Imajo
- he
- Zdravje
- zdravstveno varstvo
- zdravstvena industrija
- HealthTech
- pomoč
- pomoč
- tukaj
- skrita
- visoka
- Pohod
- njegov
- držite
- Domov
- bolnišnice
- gostila
- Kako
- Kako
- Vendar
- HTTPS
- Optimizacija hiperparametra
- idealno
- identifikacijo
- izvajati
- Izvajanje
- izvedbe
- izvajali
- uvoz
- Pomembno
- izboljšanje
- Izboljšave
- in
- vključuje
- Vključno
- Vključena
- Povečajte
- narašča
- inkrementalno
- Industrija
- Podatki
- Infrastruktura
- vhod
- primer
- Integrira
- integracije
- Intelligence
- interakcije
- v
- Uvedeno
- vključeni
- IT
- ITS
- Job
- Delovna mesta
- jpg
- Ključne
- Ključna področja
- label
- grda
- Pokrajina
- jezik
- velika
- UČITE
- učenje
- pustite
- dolžina
- Knjižnica
- življenje
- Life Sciences
- kot
- všeč mi je
- LLM
- Sklop
- stroj
- strojno učenje
- je
- Glavne
- velika
- IZDELA
- Izdelava
- moški
- upravlja
- upravljanje
- upravitelj
- Navodilo
- proizvodnja
- več
- Tržna
- ogromen
- poveljnika
- Povečajte
- največja
- Mehanizem
- mediji
- medicinski
- medicinske podatke
- Srečati
- Metode
- Meritve
- Minute
- ML
- Model
- modeli
- spremljati
- več
- morajo
- Ime
- naravna
- Obdelava Natural Language
- mreža
- Živčne
- nevronska mreža
- Kljub temu
- Naslednja
- nlp
- št
- Noben
- Opombe
- roman
- Številka
- pojavijo
- of
- Ponudbe
- Ponudbe
- pogosto
- on
- ONE
- samo
- optimizacija
- or
- Da
- izvirno
- Ostalo
- naši
- ven
- rezultatov
- izhod
- zunaj
- več
- Splošni
- prevladujoč
- Papir
- opravil
- za
- performance
- opravljeno
- opravlja
- Farmacevtska
- Dr.
- telefon
- telefonski klici
- Fizika
- platforma
- platon
- Platonova podatkovna inteligenca
- PlatoData
- prosim
- Popular
- mogoče
- Prispevek
- potencial
- moč
- močan
- Praktično
- napovedati
- Priprava
- problem
- Težave
- Postopek
- Predelano
- obravnavati
- proizvaja
- strokovni
- napovedane
- Obljuba
- zagotavlja
- zagotavljanje
- publikacije
- javno
- pitorha
- vprašanje
- vprašanja
- hitro
- območje
- Oceniti
- reakcija
- v realnem času
- glejte
- regularni izraz
- povezane
- relativno
- Prijavljeno
- zastopanje
- zahteva
- obvezna
- Zahteve
- viri
- odgovorno
- REST
- robusten
- Run
- Varnost
- sagemaker
- Vzorec
- San
- San Diego
- razširljive
- Lestvica
- Znanost
- ZNANOSTI
- znanstveno
- Znanstvenik
- Znanstveniki
- brez težav
- Oddelek
- Zdi se,
- prodaja
- pomensko
- višji
- stavek
- sentiment
- Zaporedje
- resno
- Storitev
- Storitve
- nastavite
- več
- je
- Prikaži
- je pokazala,
- Razstave
- Velikosti
- nagniti
- majhna
- So
- socialna
- družbeni mediji
- Rešitev
- rešitve
- nekaj
- Včasih
- Viri
- Vesolje
- specializirano
- specifična
- posebnosti
- po delih
- Začetek
- state-of-the-art
- Države
- Koraki
- Storm
- naravnost
- strategije
- Struktura
- taka
- podpora
- Preverite
- sinergija
- sintaksa
- sintetična
- sintetični podatki
- sintetično
- sistem
- miza
- sprejeti
- meni
- ob
- Naloga
- Naloge
- Pogoji
- Test
- besedilo
- Razvrstitev besedil
- da
- O
- svet
- njihove
- POTEM
- te
- jih
- ta
- tisti,
- čeprav?
- skozi
- čas
- do
- danes
- skupaj
- vzel
- orodje
- orodja
- Teme
- tradicionalna
- Vlak
- usposobljeni
- usposabljanje
- transformator
- transformatorji
- tranzit
- prevod
- Poskušal
- sprožijo
- dva
- tip
- razumevanje
- Enota
- univerza
- za razliko od
- posodobitve
- us
- uporaba
- primeru uporabe
- Rabljeni
- koristno
- Uporabniki
- uporabo
- raznolikost
- različnih
- različica
- vertikale
- preživetja
- želeli
- je
- način..
- we
- web
- spletne storitve
- Pozdravlja
- so bili
- kdaj
- medtem ko
- ki
- z
- v
- beseda
- besede
- delo
- deluje
- deluje
- svet
- bi
- let
- Vi
- Vaša rutina za
- zefirnet