A 2021, a A gyógyszeripar 550 milliárd dollár bevételt termelt az Egyesült Államokban. A gyógyszeripari cégek különféle, gyakran újszerű gyógyszereket forgalmaznak a piacon, ahol néha nem szándékos, de súlyos mellékhatások léphetnek fel.
Ezek az események bárhonnan jelenthetők, akár kórházból, akár otthonról, és felelősségteljesen és hatékonyan kell ellenőrizni őket. A nemkívánatos események hagyományos kézi feldolgozását az egészségügyi adatok és költségek növekvő mennyisége nehezíti. Összességében 384 milliárd dollárra becsülik a farmakovigilanciai tevékenységek költségét az egészségügyi ágazat egészére 2022-ig. Az átfogó farmakovigilanciai tevékenységek támogatása érdekében gyógyszeripari ügyfeleink a gépi tanulás (ML) erejét szeretnék felhasználni a különböző adatforrásokból származó nemkívánatos események észlelésének automatizálására. , mint például a közösségi média hírcsatornái, telefonhívások, e-mailek és kézzel írt feljegyzések, és megfelelő műveleteket indíthatnak el.
Ebben a bejegyzésben bemutatjuk, hogyan lehet ML-vezérelt megoldást fejleszteni Amazon SageMaker a nemkívánatos események kimutatására a nyilvánosan elérhető, az ölelő arcra vonatkozó mellékhatások adatkészlete segítségével. Ebben a megoldásban számos olyan modellt finomhangolunk a Hugging Face-en, amelyeket előzetesen orvosi adatok alapján képeztek ki, és a BioBERT modellt használjuk, amelyet az Közzétett adatkészlet és a legjobbat teljesíti a kipróbáltak közül.
A megoldást a AWS Cloud Development Kit (AWS CDK). Ebben a bejegyzésben azonban nem térünk ki a megoldás felépítésének sajátosságaira. A megoldás megvalósításával kapcsolatos további információkért lásd: Készítsen rendszert a nemkívánatos események valós idejű észlelésére az Amazon SageMaker és az Amazon QuickSight segítségével.
Ez a bejegyzés több kulcsfontosságú területet érint, átfogó feltárást biztosítva a következő témákban:
- Az AWS Professional Services által tapasztalt adatszolgáltatási kihívások
- A nagy nyelvi modellek (LLM) tájképe és alkalmazása:
- Transformers, BERT és GPT
- Átölelő arc
- A finomhangolt LLM megoldás és összetevői:
- Adatok előkészítése
- Modellképzés
Adatok kihívás
Az adatok torzulása gyakran jelent problémát az osztályozási feladatok kidolgozásakor. Ideális esetben kiegyensúlyozott adatkészletet szeretne, és ez a használati eset sem kivétel.
Ezt a torzítást ezzel kezeljük generatív AI modellek (Falcon-7B és Falcon-40B), amelyeket arra kértek, hogy a képzési halmazból öt példa alapján eseménymintákat hozzanak létre, hogy növeljék a szemantikai diverzitást és növeljék a jelölt nemkívánatos események mintaméretét. Előnyös számunkra, ha itt Falcon modelleket használunk, mert ellentétben néhány Hugging Face LLM-vel, a Falcon megadja az általuk használt edzési adatkészletet, így biztos lehet benne, hogy egyik tesztkészlet-példája sem szerepel a Falcon tréningkészletben, és elkerülheti az adatokat. szennyeződés.
Az egészségügyi ügyfelek számára a másik adatszolgáltatási kihívás a HIPAA-megfelelési követelmények. A nyugalmi és átviteli titkosítást be kell építeni a megoldásba, hogy megfeleljen ezeknek a követelményeknek.
Transformers, BERT és GPT
A transzformátor architektúra egy neurális hálózati architektúra, amelyet természetes nyelvi feldolgozási (NLP) feladatokhoz használnak. Az újságban mutatták be először “Csak a figyelem kell” Vaswani et al. (2017). A transzformátor architektúrája a figyelemmechanizmuson alapul, amely lehetővé teszi a modell számára, hogy megtanulja a szavak közötti hosszú távú függőséget. A transzformátorok, ahogyan az eredeti papíron is szerepel, két fő összetevőből állnak: a kódolóból és a dekódolóból. A kódoló a bemeneti szekvenciát bemenetként veszi, és rejtett állapotok sorozatát állítja elő. A dekóder ezután ezeket a rejtett állapotokat veszi be bemenetként, és előállítja a kimeneti sorozatot. A figyelemmechanizmust mind a kódoló, mind a dekódoló használja. A figyelemmechanizmus lehetővé teszi a modell számára, hogy a kimeneti sorozat létrehozásakor a bemeneti szekvencia meghatározott szavaira figyeljen. Ez lehetővé teszi a modell számára, hogy megtanulja a szavak közötti hosszú távú függőséget, ami számos NLP-feladathoz elengedhetetlen, mint például a gépi fordítás és a szövegösszegzés.
A transzformátor architektúrák közül az egyik legnépszerűbb és hasznosabb, a Bidirectional Encoder Representations from Transformers (BERT) egy olyan nyelvi reprezentációs modell, amely bevezetett az 2018-ban. A BERT olyan szekvenciákra van kiképezve, ahol a mondat egyes szavai el vannak takarva, és ezeket a szavakat a maszkolt szavak előtti és utáni szavak figyelembevételével kell kitöltenie. A BERT számos NLP-feladatra finomhangolható, ideértve a kérdések megválaszolását, a természetes nyelvi következtetéseket és a hangulatelemzést.
A másik népszerű transzformátor-architektúra, amely megdöntötte a világot, a Generative Pre-train Transformer (GPT). Az első GPT modell az volt 2018-ban vezette be az OpenAI. Úgy működik, hogy megtanítják szigorúan megjósolni a sorozat következő szóját, csak a szó előtti kontextus tudatában. A GPT-modellek hatalmas szöveg- és kódadatkészletre vannak kiképezve, és számos NLP-feladathoz finomhangolhatók, beleértve a szöveggenerálást, a kérdések megválaszolását és az összegzést.
Általában a BERT jobban teljesít a szavak kontextusának mélyebb megértését igénylő feladatokban, míg A GPT jobban megfelel a szöveg generálását igénylő feladatokhoz.
Átölelő arc
A Hugging Face egy mesterséges intelligencia cég, amely az NLP-re szakosodott. Olyan eszközöket és erőforrásokat tartalmazó platformot biztosít, amelyek lehetővé teszik a fejlesztők számára az NLP-feladatokra összpontosító ML-modellek építését, betanítását és üzembe helyezését. A Hugging Face egyik legfontosabb kínálata a könyvtár, transzformerek, amely előre betanított modelleket tartalmaz, amelyek finomhangolhatók különféle nyelvi feladatokra, például szövegosztályozásra, fordításra, összegzésre és kérdésmegválaszolásra.
A Hugging Face zökkenőmentesen integrálható a SageMakerrel, amely egy teljesen felügyelt szolgáltatás, amely lehetővé teszi a fejlesztők és adattudósok számára, hogy nagyszabásúan építsenek, képezzenek és telepítsenek ML modelleket. Ez a szinergia a felhasználók számára előnyös, mivel robusztus és méretezhető infrastruktúrát biztosít az NLP-feladatok kezeléséhez a Hugging Face által kínált legmodernebb modellekkel, valamint az AWS hatékony és rugalmas ML-szolgáltatásaival. Közvetlenül a Hugging Face modellekhez is hozzáférhet Amazon SageMaker JumpStart, ami kényelmessé teszi az előre elkészített megoldásokkal való kezdést.
Megoldás áttekintése
A Hugging Face Transformers könyvtárat használtuk a transzformátormodellek finomhangolására a SageMakeren a nemkívánatos események osztályozási feladatához. A képzési feladat a SageMaker PyTorch becslő segítségével készült. A SageMaker JumpStart néhány kiegészítő integrációt is tartalmaz a Hugging Face-hez, amelyek egyszerűvé teszik a megvalósítást. Ebben a részben az adat-előkészítés és a modellképzés főbb lépéseit ismertetjük.
Adatok előkészítése
A mellékhatásokra vonatkozó adatokat használtuk (ade_corpus_v2). A modelltanításhoz és következtetésünkhöz szükséges adatstruktúra két oszlopból áll:
- Egy oszlop a szöveges tartalomhoz modell bemeneti adatként.
- Egy másik oszlop a címkeosztályhoz. Két lehetséges osztályunk van egy szöveghez:
Not_AE
és aAdverse_Event
.
Modellképzés és kísérletezés
Annak érdekében, hogy hatékonyan feltárhassuk a lehetséges Hugging Face modellek terét, hogy finomhangolhassuk a nemkívánatos eseményekre vonatkozó kombinált adatainkat, elkészítettünk egy SageMaker hiperparaméter-optimalizálási (HPO) feladatot, és hiperparaméterként adtuk át a különböző Hugging Face modelleket, más fontos hiperparaméterekkel együtt. például a betanítási köteg mérete, a sorozat hossza, a modellek és a tanulási sebesség. A betanítási feladatok egy ml.p3dn.24xlarge példányt használtak, és átlagosan 30 percet vett igénybe feladatonként ezzel a példánytípussal. A képzési mutatókat rögzítették ugyan a Amazon SageMaker kísérletek eszközt, és minden képzési feladat 10 korszakon keresztül futott át.
Kódunkban a következőket adjuk meg:
- Képzési tétel mérete – A modellsúlyok frissítése előtt együtt feldolgozott minták száma
- A szekvencia hossza – A BERT által feldolgozható bemeneti sorozat maximális hossza
- Tanulási arány – Milyen gyorsan frissíti a modell a súlyait edzés közben
- Modellek – Hugging Face előképzett modellek
Eredmények
Használati esetünkben a legjobban teljesítő modell a monologg/biobert_v1.1_pubmed
a Hugging Face-en tárolt modell, amely a BERT architektúra egy olyan változata, amelyet a 19,717 XNUMX tudományos publikációból álló Pubmed adatkészletre előzetesen betanítottak. A BERT erre az adatkészletre vonatkozó előzetes képzése extra szakértelmet ad ennek a modellnek az orvosi vonatkozású tudományos kifejezések kontextusának meghatározásához. Ez növeli a modell teljesítményét a nemkívánatos események észlelése során, mivel előzetesen betanították az adatkészletünkben gyakran megjelenő, orvosilag specifikus szintaxisra.
Az alábbi táblázat összefoglalja értékelési mutatóinkat.
Modell | Pontosság | visszahívás | F1 |
BERT alap | 0.87 | 0.95 | 0.91 |
BioBert | 0.89 | 0.95 | 0.92 |
BioBERT a HPO-val | 0.89 | 0.96 | 0.929 |
BioBERT HPO-val és szintetikusan generált nemkívánatos esemény | 0.90 | 0.96 | 0.933 |
Bár ezek viszonylag kis és fokozatos fejlesztések az alap BERT-modellhez képest, ez mégis néhány életképes stratégiát mutat be a modell teljesítményének e módszerekkel történő javítására. Úgy tűnik, hogy a Falconnal végzett szintetikus adatgenerálás sok ígéretet és teljesítményjavítási lehetőséget rejt magában, különösen mivel ezek a generatív AI-modellek idővel egyre jobbak lesznek.
Tisztítsuk meg
A jövőbeni költségek elkerülése érdekében törölje a létrehozott erőforrásokat, például a következő kóddal létrehozott modellt és modellvégpontokat:
Következtetés
Napjainkban sok gyógyszergyártó cég szeretné automatizálni a nemkívánatos események vevői interakcióiból történő azonosításának folyamatát szisztematikus módon, hogy javítsa az ügyfelek biztonságát és az eredményeket. Amint azt ebben a bejegyzésben bemutattuk, a finomhangolt LLM BioBERT szintetikusan generált nemkívánatos eseményekkel az adatokhoz hozzáadva a nemkívánatos eseményeket magas F1 pontszámmal osztályozza, és felhasználható HIPAA-kompatibilis megoldás kialakítására ügyfeleink számára.
Mint mindig, az AWS szívesen fogadja visszajelzését. Kérjük, hagyja meg gondolatait és kérdéseit a megjegyzés rovatban.
A szerzőkről
Zack Peterson az AWS Professional Services adattudósa. Évek óta foglalkozik gépi tanulási megoldások ügyfeleinek szállításával, és közgazdász mesterfokozatot szerzett.
Dr. Adewale Akinfaderin az AWS egészségügyi és élettudományi vezető adattudósa. Szakértelme reprodukálható és teljes körű AI/ML módszerek, gyakorlati megvalósítások, valamint a globális egészségügyi ügyfelek segítése interdiszciplináris problémák skálázható megoldásainak megfogalmazásában és fejlesztésében. Két fizikából és egy mérnöki doktori fokozattal rendelkezik.
Ekta Walia Bhullar, PhD, vezető AI/ML tanácsadó az AWS Healthcare and Life Sciences (HCLS) Professional Services üzletágánál. Nagy tapasztalattal rendelkezik az AI/ML egészségügyi területen belüli alkalmazása terén, különösen a radiológiában. Munkán kívül, amikor nem a radiológiában beszél MI-ről, szeret futni és túrázni.
Han ember az AWS Professional Services vezető adattudományi és gépi tanulási menedzsere San Diego-ban, Kaliforniában. A Northwestern Egyetemen szerzett mérnöki PhD fokozatot, és több éves vezetési tanácsadói tapasztalattal rendelkezik, aki a gyártás, a pénzügyi szolgáltatások és az energia területén nyújt tanácsot ügyfeleknek. Napjainkban szenvedélyesen dolgozik kulcsfontosságú ügyfelekkel az iparág különböző területeiről, hogy ML és generatív mesterséges intelligencia megoldásokat fejlesszen és implementáljon az AWS-en.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/deploy-large-language-models-for-a-healthtech-use-case-on-amazon-sagemaker/
- :van
- :is
- :nem
- :ahol
- $ UP
- 1
- 10
- 100
- 16
- 19
- 2017
- 2018
- 2021
- 2022
- 30
- 32
- 7
- a
- hozzáférés
- Fiók
- ACM
- cselekvések
- tevékenységek
- hozzáadott
- cím
- előnyös
- kedvezőtlen
- tanácsadás
- Után
- AI
- AI modellek
- AI / ML
- AL
- Minden termék
- lehetővé teszi, hogy
- mentén
- Is
- mindig
- amazon
- Amazon SageMaker
- Az Amazon Web Services
- összeg
- an
- elemzés
- és a
- üzenetrögzítő
- bármilyen
- bárhol
- Alkalmazás
- megfelelő
- építészet
- architektúrák
- VANNAK
- területek
- körül
- mesterséges
- mesterséges intelligencia
- AS
- At
- részt vesz
- figyelem
- automatizált
- elérhető
- átlagos
- elkerülése érdekében
- tudatában van
- AWS
- AWS professzionális szolgáltatások
- kiegyensúlyozott
- bázis
- alapján
- BE
- mert
- óta
- előtt
- hogy
- Előnyök
- BEST
- Jobb
- között
- kétirányú
- Billió
- növeli
- mindkét
- határait
- épít
- Épület
- épült
- üzleti
- de
- by
- CA
- kéri
- TUD
- rögzített
- eset
- kihívás
- kihívások
- kihívást
- díjak
- osztály
- osztályok
- besorolás
- ügyfél részére
- felhő
- kód
- Oszlop
- Oszlopok
- kombinált
- jön
- érkező
- Hozzászólások
- Companies
- vállalat
- kiegészítő
- teljesítés
- alkatrészek
- átfogó
- áll
- szerkesztett
- szaktanácsadó
- tartalmazott
- tartalom
- kontextus
- Kényelmes
- Költség
- kiadások
- terjed
- teremt
- készítette
- vevő
- Ügyfelek
- dátum
- Adatok előkészítése
- adat-tudomány
- adattudós
- Adatszerkezet
- mélyebb
- meghatározott
- Fok
- átadó
- elmélyül
- mutatja
- függőségek
- telepíteni
- leírni
- Érzékelés
- Fejleszt
- fejlesztők
- Fejlesztés
- Diego
- különböző
- közvetlenül
- megbeszélése
- Sokféleség
- domain
- ne
- gyógyszer
- Kábítószer
- alatt
- E&T
- minden
- Közgazdaságtan
- eredményesen
- e-mailek
- lehetővé
- lehetővé teszi
- titkosítás
- végtől végig
- energia
- Mérnöki
- korszakok
- különösen
- alapvető
- értékelés
- esemény
- események
- példák
- kivétel
- tapasztalat
- szakvélemény
- kutatás
- feltárása
- kiterjedt
- Átfogó tapasztalat
- külön-
- f1
- Arc
- Visszacsatolás
- kitöltése
- pénzügyi
- pénzügyi szolgáltatások
- vezetéknév
- öt
- rugalmas
- összpontosított
- következő
- A
- ból ből
- teljesen
- jövő
- általános
- generál
- generált
- generáló
- generáció
- nemző
- Generatív AI
- kap
- ad
- Globális
- diplomás
- fogantyú
- kezek
- Legyen
- he
- Egészség
- egészségügyi
- egészségügyi ágazat
- HealthTech
- segít
- segít
- itt
- Rejtett
- Magas
- Túra
- övé
- tart
- Kezdőlap
- kórházak
- házigazdája
- Hogyan
- How To
- azonban
- HTTPS
- Hiperparaméter optimalizálás
- ideálisan
- azonosító
- végre
- végrehajtás
- megvalósítások
- végre
- importál
- fontos
- javul
- fejlesztések
- in
- magában foglalja a
- Beleértve
- Bejegyzett
- Növelje
- növekvő
- járulékos
- ipar
- információ
- Infrastruktúra
- bemenet
- példa
- integrál
- integrációk
- Intelligencia
- kölcsönhatások
- bele
- Bevezetett
- részt
- IT
- ITS
- Munka
- Állások
- jpg
- Kulcs
- Kulcsterületek
- Címke
- csúnya
- táj
- nyelv
- nagy
- TANUL
- tanulás
- Szabadság
- Hossz
- könyvtár
- élet
- Life Sciences
- mint
- Kedvencek
- LLM
- Sok
- gép
- gépi tanulás
- készült
- Fő
- fontos
- KÉSZÍT
- Gyártás
- férfi
- sikerült
- vezetés
- menedzser
- kézikönyv
- gyártási
- sok
- piacára
- tömeges
- mester
- Maximize
- maximális
- mechanizmus
- Média
- orvosi
- orvosi adatok
- Találkozik
- mód
- Metrics
- Perc
- ML
- modell
- modellek
- ellenőrizni
- több
- kell
- név
- Természetes
- Természetes nyelvi feldolgozás
- hálózat
- ideg-
- neurális hálózat
- Mindazonáltal
- következő
- NLP
- nem
- Egyik sem
- Megjegyzések
- regény
- szám
- előfordul
- of
- Ajánlat
- Ajánlatok
- gyakran
- on
- ONE
- csak
- optimalizálás
- or
- érdekében
- eredeti
- Más
- mi
- ki
- eredmények
- teljesítmény
- kívül
- felett
- átfogó
- átfogó
- Papír
- Elmúlt
- mert
- teljesítmény
- teljesített
- Előadja
- Gyógyszeripari
- phd
- telefon
- telefonhívások
- Fizika
- emelvény
- Plató
- Platón adatintelligencia
- PlatoData
- kérem
- Népszerű
- lehetséges
- állás
- potenciális
- hatalom
- erős
- Gyakorlati
- előre
- előkészítés
- Probléma
- problémák
- folyamat
- Feldolgozott
- feldolgozás
- termel
- szakmai
- tervezett
- ígéret
- biztosít
- amely
- kiadványok
- nyilvánosan
- pytorch
- kérdés
- Kérdések
- gyorsan
- hatótávolság
- Arány
- reakció
- real-time
- utal
- regex
- összefüggő
- viszonylag
- Számolt
- képviselet
- szükség
- kötelező
- követelmények
- Tudástár
- felelősségteljesen
- REST
- erős
- futás
- Biztonság
- sagemaker
- minta
- San
- San Diego
- skálázható
- Skála
- Tudomány
- TUDOMÁNYOK
- tudományos
- Tudós
- tudósok
- zökkenőmentesen
- Rész
- Úgy tűnik,
- elad
- szemantikus
- idősebb
- mondat
- érzés
- Sorozat
- súlyos
- szolgáltatás
- Szolgáltatások
- készlet
- számos
- ő
- előadás
- kimutatta,
- Műsorok
- Méret
- ferdeség
- kicsi
- So
- Közösség
- Közösségi média
- megoldások
- Megoldások
- néhány
- néha
- Források
- Hely
- specializálódott
- különleges
- sajátosságait
- osztott
- kezdet
- csúcs-
- Államok
- Lépései
- vihar
- egyértelmű
- stratégiák
- struktúra
- ilyen
- támogatás
- biztos
- szinergia
- szintaxis
- szintetikus
- szintetikus adatok
- szintetikusan
- rendszer
- táblázat
- meghozott
- tart
- bevétel
- Feladat
- feladatok
- feltételek
- teszt
- szöveg
- Szöveg osztályozása
- hogy
- A
- a világ
- azok
- akkor
- Ezek
- ők
- ezt
- azok
- bár?
- Keresztül
- idő
- nak nek
- Ma
- együtt
- vett
- szerszám
- szerszámok
- Témakörök
- hagyományos
- Vonat
- kiképzett
- Képzések
- transzformátor
- transzformerek
- tranzit
- Fordítás
- kipróbált
- kiváltó
- kettő
- típus
- megértés
- egység
- egyetemi
- nem úgy mint
- Frissítés
- us
- használ
- használati eset
- használt
- hasznos
- Felhasználók
- segítségével
- fajta
- különféle
- változat
- függőlegesek
- életképes
- akar
- volt
- Út..
- we
- háló
- webes szolgáltatások
- Üdvözli
- voltak
- amikor
- mivel
- ami
- val vel
- belül
- szó
- szavak
- Munka
- dolgozó
- művek
- világ
- lenne
- év
- te
- A te
- zephyrnet