In 2021, lääketeollisuus tuotti USA:ssa 550 miljardia dollaria. Lääkeyritykset myyvät markkinoilla erilaisia, usein uusia lääkkeitä, joissa voi joskus tapahtua tahattomia, mutta vakavia haittavaikutuksia.
Näistä tapahtumista voidaan raportoida missä tahansa, sairaaloista tai kotona, ja niitä on seurattava vastuullisesti ja tehokkaasti. Perinteistä manuaalista haittatapahtumien käsittelyä haastaa kasvava terveystiedon määrä ja kustannukset. Kaiken kaikkiaan 384 miljardin dollarin ennustetaan aiheuttavan lääketurvatoiminnan kustannuksia koko terveydenhuoltoalalle vuoteen 2022 mennessä. Tukeakseen kattavaa lääketurvatoimintaa lääkeasiakkaamme haluavat käyttää koneoppimisen (ML) voimaa automatisoidakseen haittatapahtumien havaitsemisen eri tietolähteistä. , kuten sosiaalisen median syötteet, puhelut, sähköpostit ja käsinkirjoitetut muistiinpanot, ja käynnistää asianmukaisia toimia.
Tässä postauksessa näytämme kuinka kehittää ML-pohjainen ratkaisu käyttämällä Amazon Sage Maker haittatapahtumien havaitsemiseen käyttämällä julkisesti saatavilla olevaa Haitta-kasvojen haittavaikutustietoaineistoa. Tässä ratkaisussa hienosäädämme erilaisia Hugging Facen malleja, jotka on esikoulutettu lääketieteellisillä tiedoilla, ja käytämme BioBERT-mallia, joka on esikoulutettu Julkaistu tietojoukko ja tekee parhaansa kokeiluista.
Totesimme ratkaisun käyttämällä AWS Cloud Development Kit (AWS CDK). Emme kuitenkaan kata ratkaisun rakentamisen yksityiskohtia tässä viestissä. Lisätietoja tämän ratkaisun käyttöönotosta on kohdassa Rakenna järjestelmä haittatapahtumien havaitsemiseksi reaaliajassa Amazon SageMakerin ja Amazon QuickSightin avulla.
Tämä viesti käsittelee useita avainalueita ja tarjoaa kattavan selvityksen seuraavista aiheista:
- AWS Professional Services -palvelun kohtaamat datahaasteet
- Suurten kielimallien (LLM) maisema ja sovellus:
- Transformers, BERT ja GPT
- Halaaminen kasvot
- Hienosäädetty LLM-ratkaisu ja sen komponentit:
- Tietojen valmistelu
- Malliharjoittelu
Datan haaste
Tietojen vinoutuma on usein ongelma luokittelutehtäviä laadittaessa. Ihannetapauksessa haluat tasapainoisen tietojoukon, eikä tämä käyttötapa ole poikkeus.
Käsittelemme tämän vinouman kanssa generatiivinen tekoäly mallit (Falcon-7B ja Falcon-40B), joita kehotettiin luomaan tapahtumanäytteitä koulutusjoukon viiden esimerkin perusteella lisäämään semanttista monimuotoisuutta ja kasvattamaan merkittyjen haittatapahtumien otoskokoa. Meille on edullista käyttää Falcon-malleja tässä, koska toisin kuin jotkut Hugging Facen LLM:t, Falcon antaa sinulle heidän käyttämänsä harjoitustietojoukon, joten voit olla varma, että mikään testisarjaesimerkeistäsi ei sisälly Falcon-harjoitussarjaan ja vältä dataa. saastuminen.
Toinen terveydenhuollon asiakkaiden datahaaste on HIPAA-vaatimustenmukaisuus. Salaus lepotilassa ja siirron aikana on sisällytettävä ratkaisuun näiden vaatimusten täyttämiseksi.
Transformers, BERT ja GPT
Muuntaja-arkkitehtuuri on hermoverkkoarkkitehtuuri, jota käytetään luonnollisen kielen käsittelyyn (NLP). Se esiteltiin ensimmäisen kerran lehdessä “Huomio on kaikki mitä tarvitset” kirjoittaneet Vaswani et ai. (2017). Muuntaja-arkkitehtuuri perustuu huomiomekanismiin, jonka avulla malli oppii pitkän kantaman riippuvuuksia sanojen välillä. Alkuperäisessä paperissa esitetyt muuntajat koostuvat kahdesta pääkomponentista: kooderista ja dekooderista. Enkooderi ottaa syötesekvenssin syötteenä ja tuottaa sekvenssin piilotettuja tiloja. Dekooderi ottaa sitten nämä piilotetut tilat tulona ja tuottaa tulossekvenssin. Huomiomekanismia käytetään sekä kooderissa että dekooderissa. Huomiomekanismi sallii mallin huomioida tiettyjä sanoja syöttösekvenssissä luodessaan tulossekvenssiä. Tämä antaa mallille mahdollisuuden oppia pitkän kantaman riippuvuuksia sanojen välillä, mikä on olennaista monissa NLP-tehtävissä, kuten konekäännöksessä ja tekstin yhteenvedossa.
Yksi suosituimmista ja hyödyllisimmistä muuntajaarkkitehtuureista, Bidirectional Encoder Representations from Transformers (BERT), on kieliesitysmalli, joka käyttöön 2018: ssä. BERT on koulutettu sekvensseihin, joissa osa lauseen sanoista on peitetty, ja sen on täytettävä nämä sanat ottaen huomioon sekä sanat ennen ja jälkeen naamioituja sanoja. BERT:tä voidaan hienosäätää erilaisiin NLP-tehtäviin, mukaan lukien kysymyksiin vastaaminen, luonnollisen kielen päättely ja tunteiden analysointi.
Toinen suosittu muuntajaarkkitehtuuri, joka on vallannut maailman myrskyn, on Generatiivinen esikoulutettu muuntaja (GPT). Ensimmäinen GPT-malli oli OpenAI esitteli vuonna 2018. Se toimii siten, että se on opetettu ennustamaan tiukasti peräkkäin seuraava sana, vain tietoinen kontekstista ennen sanaa. GPT-mallit on koulutettu valtavan tekstin ja koodin tietojoukkoon, ja niitä voidaan hienosäätää erilaisiin NLP-tehtäviin, mukaan lukien tekstin luominen, kysymyksiin vastaaminen ja yhteenveto.
Yleensä BERT on parempi tehtävissä, jotka vaativat syvempää ymmärtämistä sanojen kontekstista, kun taas GPT sopii paremmin tehtäviin, jotka vaativat tekstin luomista.
Halaaminen kasvot
Hugging Face on tekoälyyritys, joka on erikoistunut NLP:hen. Se tarjoaa alustan työkaluilla ja resursseilla, joiden avulla kehittäjät voivat rakentaa, kouluttaa ja ottaa käyttöön NLP-tehtäviin keskittyviä ML-malleja. Yksi Hugging Facen tärkeimmistä tarjouksista on sen kirjasto, Muuntajat, joka sisältää valmiiksi koulutettuja malleja, joita voidaan hienosäätää erilaisiin kielitehtäviin, kuten tekstin luokitteluun, kääntämiseen, yhteenvetoon ja kysymyksiin vastaamiseen.
Hugging Face integroituu saumattomasti SageMakeriin, joka on täysin hallittu palvelu, jonka avulla kehittäjät ja datatieteilijät voivat rakentaa, kouluttaa ja ottaa käyttöön ML-malleja mittakaavassa. Tämä synergia hyödyttää käyttäjiä tarjoamalla vankan ja skaalautuvan infrastruktuurin NLP-tehtävien hoitamiseen Hugging Facen tarjoamien huippuluokan mallien ja AWS:n tehokkaiden ja joustavien ML-palvelujen avulla. Voit myös käyttää Hugging Face -malleja suoraan osoitteesta Amazon SageMaker JumpStart, joten on kätevää aloittaa valmiilla ratkaisuilla.
Ratkaisun yleiskatsaus
Käytimme Hugging Face Transformers -kirjastoa SageMakerin muuntajamallien hienosäätämiseen haittatapahtumien luokittelua varten. Harjoitustyö on rakennettu SageMaker PyTorch -estimaattorilla. SageMaker JumpStartissa on myös joitain toisiaan täydentäviä integraatioita Hugging Facen kanssa, mikä tekee käytöstä yksinkertaisen. Tässä osiossa kuvataan tärkeimmät tiedon valmisteluun ja mallikoulutukseen liittyvät vaiheet.
Tietojen valmistelu
Käytimme haittavaikutustietoja (ade_corpus_v2) Hugging Face -tietojoukossa 80/20 harjoitus/testi-jakaumalla. Mallikoulutuksemme ja päättelymme vaadittavassa tietorakenteessa on kaksi saraketta:
- Yksi sarake tekstisisällölle mallin syöttötietona.
- Toinen sarake tarraluokalle. Meillä on kaksi mahdollista tekstiluokkaa:
Not_AE
jaAdverse_Event
.
Mallikoulutusta ja kokeilua
Tutkiaksemme tehokkaasti mahdollisten Hugging Face -mallien tilaa ja hienosäätääksemme yhdistettyjä haittatapahtumia koskevia tietojamme, rakensimme SageMaker-hyperparametrien optimointityön (HPO) ja lähdimme eri Hugging Face -malleihin hyperparametrina muiden tärkeiden hyperparametrien ohella. kuten opetuserän koko, sekvenssin pituus, mallit ja oppimisnopeus. Koulutustyöt käyttivät ml.p3dn.24xlarge-instanssia ja veivät keskimäärin 30 minuuttia per työ tällä ilmentymätyypillä. Harjoittelumittarit kerättiin kuitenkin Amazon SageMaker -kokeilut työkalu, ja jokainen koulutustyö kesti 10 aikakauden.
Määritämme koodissamme seuraavat tiedot:
- Koulutuserän koko – Yhdessä käsiteltyjen näytteiden määrä ennen mallin painojen päivittämistä
- Sekvenssin pituus – Syötesekvenssin enimmäispituus, jonka BERT voi käsitellä
- Oppimisnopeus – Kuinka nopeasti malli päivittää painonsa harjoituksen aikana
- Mallit – Hugging Face esikoulutetut mallit
tulokset
Käyttötapauksessamme parhaiten toiminut malli oli monologg/biobert_v1.1_pubmed
mallia isännöi Hugging Face, joka on versio BERT-arkkitehtuurista, joka on esikoulutettu Pubmed-tietojoukolle, joka koostuu 19,717 XNUMX tieteellisestä julkaisusta. Esikoulutus BERT:lle tästä tietojoukosta antaa tälle mallille lisäosaamista, kun se tulee tunnistamaan lääketieteellisiin tieteellisiin termeihin liittyvää kontekstia. Tämä parantaa mallin suorituskykyä haittatapahtumien havaitsemistehtävässä, koska se on esikoulutettu lääketieteellisesti spesifiseen syntaksiin, joka näkyy usein tietojoukossamme.
Seuraavassa taulukossa on yhteenveto arviointimittareistamme.
Malli | Tarkkuus | Palauttaa mieleen | F1 |
Base BERT | 0.87 | 0.95 | 0.91 |
BioBert | 0.89 | 0.95 | 0.92 |
BioBERT ja HPO | 0.89 | 0.96 | 0.929 |
BioBERT HPO:lla ja synteettisesti tuotettu haittatapahtuma | 0.90 | 0.96 | 0.933 |
Vaikka nämä ovat suhteellisen pieniä ja asteittaisia parannuksia BERT-perusmalliin verrattuna, tämä osoittaa kuitenkin joitain toteuttamiskelpoisia strategioita mallin suorituskyvyn parantamiseksi näiden menetelmien avulla. Synteettisellä tietojen luomisella Falconin kanssa näyttää olevan paljon lupauksia ja mahdollisuuksia suorituskyvyn parantamiseen, varsinkin kun nämä generatiiviset tekoälymallit paranevat ajan myötä.
Puhdistaa
Vältä tulevia maksuja poistamalla luodut resurssit, kuten malli ja mallin päätepisteet, jotka loit seuraavalla koodilla:
Yhteenveto
Monet lääkeyritykset haluaisivat nykyään automatisoida haitallisten tapahtumien tunnistamisprosessin asiakasvuorovaikutuksestaan systemaattisesti parantaakseen asiakkaiden turvallisuutta ja tuloksia. Kuten tässä viestissä osoitimme, hienosäädetty LLM BioBERT, johon on lisätty synteettisesti luotuja haittatapahtumia, luokittelee haittatapahtumat korkeilla F1-pisteillä ja sitä voidaan käyttää HIPAA-yhteensopivan ratkaisun rakentamiseen asiakkaillemme.
Kuten aina, AWS ottaa palautetta vastaan. Jätä ajatuksesi ja kysymyksesi kommenttiosioon.
Tietoja kirjoittajista
Zack Peterson on datatutkija AWS Professional Services -palvelussa. Hän on toimittanut koneoppimisratkaisuja asiakkaille useiden vuosien ajan ja hänellä on kauppatieteiden maisterin tutkinto.
Tohtori Adewale Akinfaderin on AWS:n terveydenhuollon ja biotieteiden vanhempi datatutkija. Hänen asiantuntemuksensa on toistettavissa ja kokonaisvaltaisissa AI/ML-menetelmissä, käytännön toteutuksissa sekä globaalien terveydenhuollon asiakkaiden auttaminen muotoilemaan ja kehittämään skaalautuvia ratkaisuja monitieteisiin ongelmiin. Hänellä on kaksi korkeakoulututkintoa fysiikasta ja tohtorin tutkinto tekniikasta.
Ekta Walia Bhullar, PhD, on vanhempi AI/ML-konsultti AWS Healthcare and Life Sciences (HCLS) Professional Services -liiketoimintayksikössä. Hänellä on laaja kokemus AI/ML:n soveltamisesta terveydenhuollon alalla, erityisesti radiologiassa. Työn ulkopuolella, kun hän ei keskustele tekoälystä radiologiassa, hän tykkää juosta ja vaeltaa.
Han mies on Senior Data Science & Machine Learning Manager AWS Professional Services -palvelussa San Diegossa, Kaliforniassa. Hän on koulutukseltaan tekniikan tohtori Northwestern Universitystä ja hänellä on usean vuoden kokemus liikkeenjohdon konsulttina, joka neuvoo asiakkaita valmistuksessa, rahoituspalveluissa ja energia-alalla. Nykyään hän työskentelee intohimoisesti avainasiakkaiden kanssa eri toimialoilla kehittääkseen ja toteuttaakseen ML- ja generatiivisia tekoälyratkaisuja AWS:ssä.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/deploy-large-language-models-for-a-healthtech-use-case-on-amazon-sagemaker/
- :on
- :On
- :ei
- :missä
- $ YLÖS
- 1
- 10
- 100
- 16
- 19
- 2017
- 2018
- 2021
- 2022
- 30
- 32
- 7
- a
- pääsy
- Tili
- ACM
- toimet
- toiminta
- lisä-
- osoite
- edullinen
- haitallinen
- neuvoo
- Jälkeen
- AI
- AI-mallit
- AI / ML
- AL
- Kaikki
- mahdollistaa
- pitkin
- Myös
- aina
- Amazon
- Amazon Sage Maker
- Amazon Web Services
- määrä
- an
- analyysi
- ja
- puhelinvastaaja
- Kaikki
- kaikkialla
- Hakemus
- sopiva
- arkkitehtuuri
- arkkitehtuurit
- OVAT
- alueet
- noin
- keinotekoinen
- tekoäly
- AS
- At
- käydä
- huomio
- automatisoida
- saatavissa
- keskimäärin
- välttää
- tietoinen
- AWS
- AWS-asiantuntijapalvelut
- tasapainoinen
- pohja
- perustua
- BE
- koska
- ollut
- ennen
- ovat
- Hyödyt
- PARAS
- Paremmin
- välillä
- kaksisuuntainen
- Miljardi
- boosteja
- sekä
- rajat
- rakentaa
- Rakentaminen
- rakennettu
- liiketoiminta
- mutta
- by
- CA
- Puhelut
- CAN
- kiinni
- tapaus
- haaste
- haasteet
- haastava
- maksut
- luokka
- luokat
- luokittelu
- asiakkaat
- pilvi
- koodi
- Sarake
- Pylväät
- yhdistetty
- tulee
- tuleva
- kommentit
- Yritykset
- yritys
- täydentävä
- noudattaminen
- osat
- kattava
- muodostuu
- rakennettava
- konsultti
- sisälsi
- pitoisuus
- tausta
- Mukava
- Hinta
- kustannukset
- kattaa
- luoda
- luotu
- asiakas
- Asiakkaat
- tiedot
- Tietojen valmistelu
- tietojenkäsittely
- tietojen tutkija
- Tietorakenne
- syvempää
- määritellä
- Aste
- tuottaa
- Delves
- osoittaa
- riippuvuudet
- sijoittaa
- kuvata
- Detection
- kehittää
- kehittäjille
- Kehitys
- Diego
- eri
- suoraan
- keskustella
- Monimuotoisuus
- verkkotunnuksen
- Dont
- huume
- Huumeet
- aikana
- E&T
- kukin
- Taloustiede
- tehokkaasti
- sähköpostit
- mahdollistaa
- mahdollistaa
- salaus
- päittäin
- energia
- Tekniikka
- aikakausia
- erityisesti
- olennainen
- arviointi
- tapahtuma
- Tapahtumat
- Esimerkit
- poikkeus
- experience
- asiantuntemus
- tutkimus
- tutkia
- laaja
- Kattava kokemus
- lisää
- f1
- Kasvot
- palaute
- täyttää
- taloudellinen
- rahoituspalvelut
- Etunimi
- viisi
- joustava
- keskityttiin
- jälkeen
- varten
- alkaen
- täysin
- tulevaisuutta
- general
- tuottaa
- syntyy
- tuottaa
- sukupolvi
- generatiivinen
- Generatiivinen AI
- saada
- antaa
- Global
- valmistua
- kahva
- käsissä
- Olla
- he
- terveys
- terveydenhuollon
- terveydenhuollon alalla
- Health Tech
- auttaa
- auttaa
- tätä
- kätketty
- Korkea
- Vaellus
- hänen
- pitää
- Etusivu
- sairaalat
- isännöi
- Miten
- Miten
- Kuitenkin
- HTTPS
- Hyperparametrien optimointi
- ihannetapauksessa
- tunnistaminen
- toteuttaa
- täytäntöönpano
- toteutukset
- täytäntöön
- tuoda
- tärkeä
- parantaa
- parannuksia
- in
- sisältää
- Mukaan lukien
- yhdistetty
- Kasvaa
- lisää
- inkrementaalinen
- teollisuus
- tiedot
- Infrastruktuuri
- panos
- esimerkki
- integroi
- integraatiot
- Älykkyys
- vuorovaikutukset
- tulee
- käyttöön
- osallistuva
- IT
- SEN
- Job
- Työpaikat
- jpg
- avain
- Keskeiset alueet
- Merkki
- ruma
- Landschaft
- Kieli
- suuri
- OPPIA
- oppiminen
- jättää
- Pituus
- Kirjasto
- elämä
- Life Sciences
- pitää
- tykkää
- OTK
- Erä
- kone
- koneoppiminen
- tehty
- tärkein
- merkittävä
- TEE
- Tekeminen
- mies
- onnistui
- johto
- johtaja
- manuaalinen
- valmistus
- monet
- markkinat
- massiivinen
- maisterin
- Maksimoida
- maksimi
- mekanismi
- Media
- lääketieteellinen
- lääketieteelliset tiedot
- Tavata
- menetelmät
- Metrics
- minuuttia
- ML
- malli
- mallit
- seurataan
- lisää
- täytyy
- nimi
- Luonnollinen
- Luonnollinen kielen käsittely
- verkko
- hermo-
- neuroverkkomallien
- silti
- seuraava
- NLP
- Nro
- Ei eristetty
- Huomautuksia
- romaani
- numero
- tapahtua
- of
- tarjoukset
- Tarjoukset
- usein
- on
- ONE
- vain
- optimointi
- or
- tilata
- alkuperäinen
- Muut
- meidän
- ulos
- tuloksiin
- ulostulo
- ulkopuolella
- yli
- yleinen
- yleisenä
- Paperi
- Hyväksytty
- varten
- suorituskyky
- suoritettu
- suorittaa
- Lääkealan
- phd
- puhelin
- puheluista
- Fysiikka
- foorumi
- Platon
- Platonin tietotieto
- PlatonData
- Ole hyvä
- Suosittu
- mahdollinen
- Kirje
- mahdollinen
- teho
- voimakas
- Käytännön
- ennustaa
- valmistelu
- Ongelma
- ongelmia
- prosessi
- Käsitelty
- käsittely
- tuottaa
- ammatillinen
- ennustetaan
- lupaus
- tarjoaa
- tarjoamalla
- julkaisut
- julkisesti
- pytorch
- kysymys
- kysymykset
- nopeasti
- alue
- hinta
- reaktio
- reaaliaikainen
- katso
- regex
- liittyvä
- suhteellisesti
- raportoitu
- edustus
- edellyttää
- tarvitaan
- vaatimukset
- Esittelymateriaalit
- vastuullisesti
- REST
- luja
- ajaa
- Turvallisuus
- sagemaker
- näyte
- San
- San Diego
- skaalautuva
- Asteikko
- tiede
- tieteet
- tieteellinen
- Tiedemies
- tutkijat
- saumattomasti
- Osa
- näyttää
- Myydään
- semanttinen
- vanhempi
- tuomita
- näkemys
- Järjestys
- vakava
- palvelu
- Palvelut
- setti
- useat
- hän
- näyttää
- osoittivat
- Näytä
- Koko
- vinossa
- pieni
- So
- sosiaalinen
- sosiaalinen media
- ratkaisu
- Ratkaisumme
- jonkin verran
- joskus
- Lähteet
- Tila
- erikoistunut
- erityinen
- yksityiskohdat
- jakaa
- Alkaa
- huippu-
- Valtiot
- Askeleet
- myrsky
- suora
- strategiat
- rakenne
- niin
- tuki
- varma
- synergia
- syntaksi
- synteettinen
- synteettinen data
- synteettisesti
- järjestelmä
- taulukko
- otettava
- vie
- ottaen
- Tehtävä
- tehtävät
- ehdot
- testi
- teksti
- Tekstiluokitus
- että
- -
- maailma
- heidän
- sitten
- Nämä
- ne
- tätä
- ne
- vaikka?
- Kautta
- aika
- että
- tänään
- yhdessä
- otti
- työkalu
- työkalut
- Aiheet
- perinteinen
- Juna
- koulutettu
- koulutus
- muuntaja
- muuntajat
- kauttakulku
- Kääntäminen
- kokeillut
- laukaista
- kaksi
- tyyppi
- ymmärtäminen
- yksikkö
- yliopisto
- toisin kuin
- Päivitykset
- us
- käyttää
- käyttölaukku
- käytetty
- hyödyllinen
- Käyttäjät
- käyttämällä
- lajike
- eri
- versio
- pystysuunnassa
- kannattava
- haluta
- oli
- Tapa..
- we
- verkko
- verkkopalvelut
- suhtautuu
- olivat
- kun
- taas
- joka
- with
- sisällä
- sana
- sanoja
- Referenssit
- työskentely
- toimii
- maailman-
- olisi
- vuotta
- Voit
- Sinun
- zephyrnet