Rakenna mielenterveyden koneoppimisen riskimalli käyttämällä Amazon SageMaker Data Wrangleria

Julkaissut Platon

seuraajia: 0

Tämän viestin ovat kirjoittaneet Shibangi Saha, Data Scientist, ja Graciela Kravtzov, yksi Equilibrium Pointin perustajista ja teknologiajohtaja.

Monet ihmiset kokevat uusia mielenterveyden sairauksien oireita, kuten stressiä, ahdistusta, masennusta, päihteiden käyttöä ja posttraumaattista stressihäiriötä (PTSD). Mukaan Kaiserin perhesäätiö, noin puolet aikuisista (47 %) valtakunnallisesti on raportoinut kielteisistä mielenterveysvaikutuksista pandemian aikana, mikä on merkittävä kasvu pandemiaa edeltäneestä tasosta. Myös tietyt sukupuolet ja ikäryhmät raportoivat todennäköisimmin stressistä ja huolestuttamisesta, paljon enemmän kuin toiset. Lisäksi muutamat tietyt etniset ryhmät raportoivat todennäköisemmin "merkittävästä vaikutuksesta" mielenterveyteensä kuin toiset.

Useat tutkimukset, mukaan lukien Centers for Disease Control (CDC) -tutkimukset, ovat osoittaneet, että itse ilmoittamat käyttäytymisterveysoireet ovat lisääntyneet huomattavasti. Erään CDC:n raportin mukaan, jossa tutkittiin aikuisia ympäri Yhdysvaltoja kesäkuun 2020 lopulla, 31 % vastaajista ilmoitti ahdistuneisuudesta tai masennuksesta, 13 % ilmoitti aloittaneensa tai lisännyt päihteiden käyttöä, 26 % ilmoitti stressiin liittyvistä oireista ja 11 %. kertoi olleen vakavia itsemurha-ajatuksia viimeisten 30 päivän aikana.

Itseraportoitu tieto on ehdottoman kriittistä mielenterveyshäiriöiden diagnosoinnissa, mutta se voi olla alttiina mielenterveyttä ja mielenterveyshoitoa ympäröivään jatkuvaan leimaamiseen liittyville vaikutuksille. Sen sijaan, että luottaisimme yksinomaan itse ilmoittamiin tietoihin, voimme arvioida ja ennustaa henkistä kärsimystä käyttämällä terveystietoja ja väitetietoja yrittääksemme vastata peruskysymykseen: voimmeko ennustaa, kuka todennäköisesti tarvitsee mielenterveysapua ennen kuin he tarvitsevat sitä? Jos nämä yksilöt voidaan tunnistaa, varhaisen puuttumisen ohjelmia ja resursseja voidaan kehittää ja ottaa käyttöön vastaamaan kaikkiin uusiin tai lisääntyviin taustalla oleviin oireisiin mielenterveyshäiriöiden vaikutusten ja kustannusten lieventämiseksi.

Helpommin sanottu kuin tehty niille, joilla on vaikeuksia hallita ja käsitellä suuria määriä monimutkaisia, aukkoja täynnä olevia vaatimustietoja! Tässä viestissä jaamme kuinka Tasapainopiste IoT käytetty Amazon SageMaker Data Wrangler virtaviivaistaa vaatimustietojen valmistelua mielenterveyskäyttötapauksellemme ja varmistaa samalla tietojen laadun kaikissa prosessin vaiheissa.

Ratkaisun yleiskatsaus

Tietojen valmistelu tai ominaisuuksien suunnittelu on työläs prosessi, joka vaatii kokeneita tietotieteilijöitä ja insinöörejä käyttämään paljon aikaa ja energiaa reseptien laatimiseen eri muunnoksille (vaiheille), joita tarvitaan tietojen saattamiseksi oikeaan muotoonsa. Itse asiassa tutkimukset osoittavat, että tietojen valmistelu koneoppimista (ML) varten vie jopa 80 prosenttia datatieteilijöiden ajasta. Tyypillisesti tiedemiehet ja insinöörit käyttävät erilaisia tietojenkäsittelykehyksiä, kuten Pandasia, PySparkia ja SQL:ää, koodatakseen muunnoksiaan ja luodakseen hajautettuja käsittelytöitä. Data Wranglerin avulla voit automatisoida tämän prosessin. Data Wrangler on osa Amazon SageMaker Studio joka tarjoaa päästä päähän -ratkaisun tietojen tuontiin, valmisteluun, muuntamiseen, esittelyyn ja analysointiin. Voit integroida Data Wranglerin tietovirta olemassa oleviin ML-työnkulkuihisi yksinkertaistaaksesi ja virtaviivaistaaksesi tietojenkäsittelyä ja ominaisuuksien suunnittelua käyttämällä vain vähän tai ei ollenkaan koodausta.

Tässä viestissä käymme läpi vaiheet, joilla alkuperäiset raakatietojoukot muunnetaan ML-valmiiksi ominaisuuksiksi, joita käytetään ennustemallien rakentamiseen seuraavassa vaiheessa. Ensin perehdymme käyttötapauksessamme käytettyjen eri tietojoukkojen luonteeseen ja siihen, kuinka liitimme nämä tietojoukot Data Wranglerin kautta. Liitosten ja tietojoukon yhdistämisen jälkeen kuvailemme tietojoukossa käyttämiämme yksittäisiä muunnoksia, kuten päällekkäisyyden poistamista, puuttuvien arvojen käsittelyä ja mukautettuja kaavoja, ja sen jälkeen, kuinka käytimme sisäänrakennettua pikamallianalyysiä muunnosten nykyisen tilan vahvistamiseen. ennusteita varten.

aineistot

Kokeiluamme varten latasimme ensin potilastiedot käyttäytymisterveysasiakkaaltamme. Nämä tiedot sisältävät seuraavat tiedot:

Vaatimustiedot
Päivystyskäynnillä on merkitystä
Sairaalakäynnit lasketaan
Lääkemääräykset liittyvät mielenterveyteen
Hierarkkinen ehtokoodaus (HCC) laskee mielenterveyteen liittyviä diagnooseja

Tavoitteena oli yhdistää nämä erilliset potilastunnukseen perustuvat aineistot ja hyödyntää dataa mielenterveysdiagnoosin ennustamiseen. Käytimme Data Wrangleria luodaksemme valtavan useiden miljoonien tietorivien tietojoukon, joka on viiden erillisen tietojoukon liitos. Käytimme myös Data Wrangleria useiden muunnosten tekemiseen sarakelaskennan mahdollistamiseksi. Seuraavissa osioissa kuvataan erilaisia soveltamiamme tietojen valmistelumuunnoksia.

Pudota päällekkäiset sarakkeet liitoksen jälkeen

Amazon SageMaker Data Wrangler tarjoaa lukuisia ML-tietomuunnoksia, jotka tehostavat tietojen puhdistamista, muuntamista ja esittelyä. Kun lisäät muunnoksen, se lisää vaiheen tietovirtaan. Jokainen lisäämäsi muunnos muuttaa tietojoukkoasi ja tuottaa uuden tietokehyksen. Kaikki myöhemmät muunnokset koskevat tuloksena olevaa tietokehystä. Data Wrangler sisältää sisäänrakennettuja muunnoksia, joiden avulla voit muuttaa sarakkeita ilman koodia. Voit myös lisätä mukautettuja muunnoksia PySparkin, Pandasin ja PySpark SQL:n avulla. Jotkut muunnokset toimivat paikallaan, kun taas toiset luovat uuden tulossarakkeen tietojoukkoon.

Kokeissamme, koska jokaisen potilastunnuksen liittämisen jälkeen meille jäi päällekkäiset potilastunnussarakkeet. Meidän piti pudottaa nämä sarakkeet. Pudotimme oikeanpuoleisen potilastunnussarakkeen, kuten seuraavassa kuvakaappauksessa näkyy käyttämällä valmiiksi rakennettua Hallitse sarakkeita ->Pudota sarake muunnos säilyttää vain yksi potilastunnussarake (potilastunnus lopullisessa tietojoukossa).

ML8274-image001

Kierrä tietojoukko Pandasin avulla

Väitteet tietojoukot olivat potilastason hätäkäynnin (ER), sairaalahoitoa (IP), reseptimäärät ja diagnoositiedot jo ryhmitelty vastaavien HCC-koodien mukaan (noin 189 koodia). Potilastietokeskuksen rakentamiseksi kokoamme väitteiden HCC-koodit potilaskohtaisesti ja käännämme HCC-koodin riveistä sarakkeisiin. Pandassa käytimme datajoukkoa, laskemme HCC-koodien lukumäärän potilaskohtaisesti ja liityimme sitten potilastunnuksen ensisijaiseen tietojoukkoon. Käytimme mukautettua muunnosvaihtoehtoa Data Wranglerissa ja valitsimme Pythonin (Pandas) valintakehykseksi.

ML8274-image002

Seuraava koodinpätkä näyttää muunnoslogiikan taulukon kääntämiseksi:

# Table is available as variable df
import pandas as pd
import numpy as np table = pd.pivot_table(df, values = 'claim_count', index=['patient_id0'], columns = 'hcc', fill_value=0).reset_index()
df = table

Luo uusia sarakkeita käyttämällä mukautettuja kaavoja

Tutkimme tutkimuskirjallisuutta selvittääksemme, mitkä HCC-koodit ovat deterministisiä mielenterveysdiagnooseissa. Kirjoitimme sitten tämän logiikan käyttämällä mukautettua Data Wrangler -kaavamuunnosa, joka laskee mielenterveysdiagnoosin kohdesarakkeen (MH) Spark SQL -lausekkeen avulla. Lisäsimme sen DataFrame-kehyksen loppuun.

ML8274-image003

Käytimme seuraavaa muunnoslogiikkaa:

# Output: MH
IF (HCC_Code_11 > 0 or HCC_Code_22 > 0 or HCC_Code_23 > 0 or HCC_Code_54 > 0 or HCC_Code_55 > 0 or HCC_Code_57 > 0 or HCC_Code_72 > 0, 1, 0)

Pudota sarakkeita DataFramesta PySparkilla

Kohdesarakkeen (MH) laskemisen jälkeen hylkäsimme kaikki tarpeettomat päällekkäiset sarakkeet. Säilytimme potilastunnuksen ja MH-sarakkeen liittyäksemme ensisijaiseen tietojoukkoon. Tätä helpotti mukautettu SQL-muunnos, joka käyttää PySpark SQL:ää valitsemamme kehyksenä.

ML8274-image005

Käytimme seuraavaa logiikkaa:

/* Table is available as variable df */ select MH, patient_id0 from df

Aloita siirtämällä MH-saraketta

ML-algoritmimme edellyttää, että merkitty syöte on ensimmäisessä sarakkeessa. Siksi siirsimme MH-lasketun sarakkeen DataFrame-kehyksen alkuun ollaksemme valmiita vientiä varten.

ML8274-image006

Täytä tyhjät kohdat 0:lla käyttämällä Pandaa

ML-algoritmimme edellyttää myös, että syöttötiedoissa ei ole tyhjiä kenttiä. Siksi täytimme lopullisen tietojoukon tyhjät kentät nollalla. Voimme tehdä tämän helposti mukautetun muunnoksen (Pandas) avulla Data Wranglerissa.

ML8274-image007

Käytimme seuraavaa logiikkaa:

# Table is available as variable df
df.fillna(0, inplace=True)

Valetaan pylväs kelluvasta pitkäksi

Voit myös jäsentää ja lähettää sarakkeen mihin tahansa uuteen tietotyyppiin helposti Data Wranglerissa. Muistin optimointia varten lisäämme mielenterveysmerkinnän syöttösarakkeen floatiksi.

ML8274-image008

Mallin nopea analyysi: Ominaisuuden tärkeyskaavio

Lopullisen tietojoukon luomisen jälkeen käytimme Data Wranglerin Quick Model -analyysityyppiä tunnistaaksemme nopeasti tietojen epäjohdonmukaisuudet ja sen, oliko mallin tarkkuus odotetulla alueella, vai pitikö meidän jatkaa ominaisuuksien suunnittelua ennen mallin harjoittelua. Malli palautti F1-pisteen 0.901, ja 1 oli korkein. F1-pistemäärä on tapa yhdistää mallin tarkkuus ja muistaminen, ja se määritellään näiden kahden harmoniseksi keskiarvoksi. Tarkastettuamme nämä alustavat positiiviset tulokset, olimme valmiita viemään tiedot ja jatkamaan mallin koulutusta vietyllä tietojoukolla.

ML8274-image009

Vie lopullinen tietojoukko Amazon S3:een Jupyter-muistikirjan kautta

Viimeisenä vaiheena viedä tietojoukko sen nykyisessä muodossa (muunnettu) kohteeseen Amazonin yksinkertainen tallennuspalvelu (Amazon S3) tulevaa käyttöä varten mallikoulutuksessa käytämme Tallenna Amazon S3:een (Jupyter Notebookin kautta) vientivaihtoehto. Tämä muistikirja käynnistää hajautetun ja skaalautuvan Amazon SageMaker -käsittely työ, joka käyttää luotua reseptiä (tietovirtaa) määritettyihin syötteisiin (yleensä suurempiin tietojoukkoon) ja tallentaa tulokset Amazon S3:een. Voit myös viedä muunnetut sarakkeet (ominaisuudet) kohteeseen Amazon SageMaker -ominaisuuskauppa tai vie muunnokset liukuhihnana käyttämällä Amazon SageMaker -putkistottai yksinkertaisesti viedä muunnokset Python-koodina.

Voit viedä tietoja Amazon S3:een kolmella tavalla:

Vie muunnetut tiedot suoraan Amazon S3:een Data Wrangler -käyttöliittymän kautta
Vie muunnokset SageMaker Processing -työnä Jupyter-muistikirjan kautta (kuten teemme tässä viestissä).
Vie muunnokset Amazon S3:een kohdesolmun kautta. Kohdesolmu kertoo Data Wranglerille, minne tiedot tallennetaan, kun olet käsitellyt ne. Kun olet luonut kohdesolmun, luot käsittelytyön tietojen tulostamiseksi.

ML8274-image010

Yhteenveto

Tässä viestissä esittelimme, kuinka Equilibrium Point IoT käyttää Data Wrangleria nopeuttamaan suurten vaatimustietojemme latausprosessia tietojen puhdistamista ja muuntamista varten ML:n valmistelussa. Osoitimme myös, kuinka ominaisuussuunnittelua voidaan sisällyttää räätälöityihin muunnoksiin käyttämällä Pandasia ja PySparkia Data Wranglerissa, jolloin voimme viedä tietoja vaihe vaiheelta (jokaisen liittymisen jälkeen) laadunvarmistustarkoituksiin. Näiden helppokäyttöisten muunnosten soveltaminen Data Wranglerissa lyhensi päästä päähän -tietojen muuntamiseen käytettyä aikaa lähes 50 %. Lisäksi Data Wranglerin Quick Model -analyysiominaisuuden avulla pystyimme helposti vahvistamaan muunnosten tilan, kun käymme läpi tietojen valmistelu- ja ominaisuussuunnitteluprosessin.

Nyt kun olemme valmistaneet tiedot mielenterveysriskien mallintamista varten, aiomme seuraavana askeleena rakentaa ML-mallin käyttämällä SageMakeria ja sen tarjoamia sisäänrakennettuja algoritmeja käyttämällä väittämätietojoukkoamme tunnistamaan jäseniä, joiden pitäisi etsiä mielenterveyttä. ennen kuin he pääsevät siihen pisteeseen, jossa he niitä tarvitsevat. Pysy kanavalla!

Tietoja Tekijät

Shibangi Saha on tietotutkija Equilibrium Pointissa. Hän yhdistää asiantuntemuksensa terveydenhuollon korvausvaatimustiedoista ja koneoppimisesta suunnitellakseen, toteuttaakseen, automatisoidakseen ja dokumentoidakseen terveystietoputkistoja, raportointi- ja analytiikkaprosesseja, jotka tuovat oivalluksia ja toteuttavat parannuksia terveydenhuollon toimitusjärjestelmään. Shibangi suoritti bioinformatiikan maisterin tutkinnon Northeastern University College of Sciencesta ja kandidaatin tutkinnon biologiassa ja tietojenkäsittelytieteessä Khoury College of Computer Science and Information Sciencesista.

Graciela Kravtzov on Equilibrium Pointin perustaja ja teknologiajohtaja. Grace on työskennellyt C-tason / VP:n johtotehtävissä suunnittelu-, operaatio- ja laatuosastolla ja toiminut yritysstrategia- ja tuotekehityskonsulttina terveydenhuolto- ja koulutusaloilla sekä IoT-teollisuudessa. Grace suoritti maisterin tutkinnon sähkömekaniikan insinöörinä Buenos Airesin yliopistosta ja tietojenkäsittelytieteen maisterin tutkinnon Bostonin yliopistosta.

Arunprasath Shankar on tekoälyn ja koneoppimisen (AI / ML) asiantuntijaratkaisuarkkitehti AWS: n kanssa, joka auttaa globaaleja asiakkaita skaalautumaan tekoälyratkaisuihinsa tehokkaasti ja tehokkaasti pilvessä. Vapaa-ajallaan Arun nauttii scifi-elokuvien katsomisesta ja klassisen musiikin kuuntelusta.

Ajai Sharma on vanhempi tuotepäällikkö Amazon SageMakerissa, jossa hän keskittyy SageMaker Data Wrangleriin, visuaaliseen tietojen valmistelutyökaluun datatieteilijöille. Ennen AWS:ää Ajai oli tietotieteen asiantuntija McKinsey and Companyssa, missä hän johti ML-painotteisia toimeksiantoja johtaville rahoitus- ja vakuutusyhtiöille maailmanlaajuisesti. Ajai on intohimoinen datatieteessä ja rakastaa uusimpien algoritmien ja koneoppimistekniikoiden tutkimista.