Looge Amazon SageMaker Data Wrangleri abil vaimse tervise masinõppe riskimudel

Taasavaldanud Platon

järgijaid: 0

Selle postituse on kirjutanud andmeteadlane Shibangi Saha ja Equilibrium Pointi kaasasutaja ja tehnoloogiadirektor Graciela Kravtzov.

Paljud inimesed kogevad uusi vaimuhaiguse sümptomeid, nagu stress, ärevus, depressioon, ainete tarbimine ja traumajärgne stressihäire (PTSD). Vastavalt Kaiseri perefondUmbes pooled täiskasvanutest (47%) üleriigiliselt on teatanud negatiivsetest mõjudest vaimsele tervisele pandeemia ajal, mis on märkimisväärne tõus võrreldes pandeemiaeelse tasemega. Samuti on teatud soo- ja vanuserühmad ühed kõige tõenäolisemad stressist ja murest teatanud, palju kõrgemad kui teised. Lisaks teatavad mõned konkreetsed etnilised rühmad oma vaimse tervise "suurest mõjust" tõenäolisemalt kui teised.

Mitmed uuringud, sealhulgas haiguste tõrje keskuste (CDC) kogutud uuringud, on näidanud enda teatatud käitumuslike tervisesümptomite olulist suurenemist. Ühe CDC raporti kohaselt, milles küsitleti 2020. aasta juuni lõpus USA täiskasvanuid, teatas 31% vastajatest ärevuse või depressiooni sümptomitest, 13% teatas, et on alustanud või suurendanud ainete kasutamist, 26% teatasid stressiga seotud sümptomitest ja 11%. teatas, et tal on viimase 30 päeva jooksul olnud tõsiseid enesetapumõtteid.

Enesest teatatud andmed, kuigi vaimse tervise häirete diagnoosimisel üliolulised, võivad olla seotud vaimse tervise ja vaimse tervise raviga seotud jätkuva häbimärgistamisega. Selle asemel, et tugineda ainult enda esitatud andmetele, saame hinnata ja prognoosida vaimset stressi, kasutades terviseandmete ja nõuete andmeid, et püüda vastata põhiküsimusele: kas saame ennustada, kes tõenäoliselt vajab vaimse tervise abi enne, kui ta seda vajab? Kui neid isikuid on võimalik tuvastada, saab välja töötada varajase sekkumise programme ja ressursse ning kasutada neid, et reageerida uutele või süvenevatele sümptomitele, et leevendada vaimsete häirete mõju ja kulusid.

Lihtsam öelda kui teha neile, kes on hädas suurte keeruliste ja lünklike nõueteandmete haldamise ja töötlemisega! Selles postituses jagame, kuidas Tasakaalupunkt IoT Kasutatud Amazon SageMaker Data Wrangler nõuete andmete ettevalmistamise tõhustamiseks meie vaimse tervise kasutamise juhtumite jaoks, tagades samal ajal andmete kvaliteedi protsessi igas etapis.

Lahenduse ülevaade

Andmete ettevalmistamine või funktsioonide kavandamine on tüütu protsess, mis nõuab kogenud andmeteadlastelt ja inseneridelt palju aega ja energiat, et koostada retseptid erinevateks teisendusteks (sammudeks), mis on vajalikud andmete õigesse vormi viimiseks. Tegelikult näitavad uuringud, et andmete ettevalmistamine masinõppeks (ML) kulutab kuni 80% andmeteadlaste ajast. Tavaliselt kasutavad teadlased ja insenerid erinevaid andmetöötlusraamistikke, nagu Pandas, PySpark ja SQL, et kodeerida oma teisendusi ja luua hajutatud töötlemistöid. Data Wrangleri abil saate seda protsessi automatiseerida. Data Wrangler on osa Amazon SageMaker Studio mis pakub täielikku lahendust andmete importimiseks, ettevalmistamiseks, teisendamiseks, esitlemiseks ja analüüsimiseks. Saate integreerida Data Wrangleri andmevoog oma olemasolevatesse ML-i töövoogudesse, et lihtsustada ja sujuvamaks muuta andmetöötlust ja funktsioonide kavandamist, kasutades vähe kodeerimist või üldse mitte.

Selles postituses käsitleme samme, kuidas muuta algsed toorandmekogumid ML-valmis funktsioonideks, mida kasutada järgmises etapis ennustusmudelite koostamiseks. Esiteks uurime meie kasutusjuhtumi jaoks kasutatud erinevate andmekogumite olemust ja seda, kuidas me need andmekogumid Data Wrangleri kaudu ühendasime. Pärast liitumisi ja andmestiku konsolideerimist kirjeldame üksikuid teisendusi, mida andmestikule rakendasime, nagu dubleerimise eemaldamine, puuduvate väärtuste käsitlemine ja kohandatud valemid, millele järgneb see, kuidas kasutasime teisenduste praeguse oleku kinnitamiseks sisseehitatud kiirmudeli analüüsi. ennustuste jaoks.

Andmekogumid

Katse jaoks laadisime esmalt alla patsiendi andmed oma käitumusliku tervise kliendilt. Need andmed hõlmavad järgmist:

Nõuete andmed
Kiirabi külastus loeb
Loeb statsionaarne visiit
Vaimse tervisega seotud ravimite väljakirjutamise arv
Hierarhiline seisundi kodeerimine (HCC) määrab vaimse tervisega seotud diagnoosid

Eesmärk oli ühendada need patsiendi ID-l põhinevad eraldiseisvad andmekogumid ja kasutada andmeid vaimse tervise diagnoosi ennustamiseks. Kasutasime Data Wranglerit, et luua mitmest miljonist andmereast koosnev tohutu andmekogum, mis on viie eraldiseisva andmestiku liit. Samuti kasutasime Data Wranglerit mitmete teisenduste tegemiseks, et võimaldada veergude arvutamist. Järgmistes jaotistes kirjeldame erinevaid andmete ettevalmistamise teisendusi, mida rakendasime.

Pärast ühendamist kukutage dubleerivad veerud

Amazon SageMaker Data Wrangler pakub arvukalt ML-andmete teisendusi, et lihtsustada teie andmete puhastamist, teisendamist ja esitlemist. Kui lisate teisenduse, lisab see andmevoogu sammu. Iga lisatud teisendus muudab teie andmekogumit ja loob uue andmeraami. Kõik järgnevad teisendused rakenduvad saadud andmekaadrile. Data Wrangler sisaldab sisseehitatud teisendusi, mida saate kasutada veergude teisendamiseks ilma koodita. Saate lisada ka kohandatud teisendusi PySparki, Pandase ja PySpark SQL-i abil. Mõned teisendused töötavad paigas, samas kui teised loovad teie andmekogus uue väljundveeru.

Kuna pärast iga patsiendi ID-ga liitumist jäeti meile katsete jaoks patsiendi ID-veerude duplikaat. Me pidime need veerud maha jätma. Loobusime õigest patsiendi ID veerust, nagu on näidatud järgmisel ekraanipildil, kasutades eelehitatud Veergude haldamine ->Langetage veerg teisendada, et säilitada ainult üks patsiendi ID veerg (patsiendi_id lõplikus andmekogumis).

ML8274-image001

Pöörake andmestikku Pandade abil

Nõuete andmestikud olid patsiendi tasemel erakorralise visiidi (ER), statsionaarse (IP), retseptide loenduse ja diagnoosiandmetega, mis olid juba rühmitatud vastavate HCC koodide järgi (umbes 189 koodi). Patsiendi andmemargi loomiseks koondame nõuete HCC-koodid patsientide kaupa ja pöörame HCC-koodi ridadest veergudesse. Kasutasime Pandasid andmestiku pööramiseks, HCC-koodide arvu loendamiseks patsientide kaupa ja seejärel patsiendi ID esmase andmekogumiga liitumiseks. Kasutasime Data Wrangleri kohandatud teisendussuvandit, valides raamistikuks Pythoni (Pandas).

ML8274-image002

Järgmine koodilõik näitab tabeli pööramiseks kasutatavat teisendusloogikat:

# Table is available as variable df
import pandas as pd
import numpy as np table = pd.pivot_table(df, values = 'claim_count', index=['patient_id0'], columns = 'hcc', fill_value=0).reset_index()
df = table

Looge kohandatud valemite abil uusi veerge

Uurisime teaduskirjandust, et teha kindlaks, millised HCC koodid on vaimse tervise diagnoosides deterministlikud. Seejärel kirjutasime selle loogika, kasutades Data Wrangleri kohandatud valemiteisendust, mis kasutab vaimse tervise diagnostika sihtveeru (MH) arvutamiseks Spark SQL-i avaldist, mille lisasime DataFrame'i lõppu.

ML8274-image003

Kasutasime järgmist teisendusloogikat:

# Output: MH
IF (HCC_Code_11 > 0 or HCC_Code_22 > 0 or HCC_Code_23 > 0 or HCC_Code_54 > 0 or HCC_Code_55 > 0 or HCC_Code_57 > 0 or HCC_Code_72 > 0, 1, 0)

Tõstke PySparki abil veerud DataFrame'ist välja

Pärast sihtmärgi (MH) veeru arvutamist eemaldasime kõik mittevajalikud duplikaatveerud. Säilitasime patsiendi ID ja MH veeru, et liituda meie esmase andmekogumiga. Seda hõlbustas kohandatud SQL-i teisendus, mis kasutab PySpark SQL-i meie valitud raamistikuna.

ML8274-image005

Kasutasime järgmist loogikat:

/* Table is available as variable df */ select MH, patient_id0 from df

Alustamiseks liigutage veergu MH

Meie ML-algoritm nõuab, et märgistatud sisend oleks esimeses veerus. Seetõttu teisaldasime MH arvutatud veeru DataFrame'i algusesse, et olla ekspordiks valmis.

ML8274-image006

Täitke lüngad 0-ga, kasutades Pandasid

Meie ML-algoritm nõuab ka seda, et sisendandmetel ei oleks tühje välju. Seetõttu täitsime lõpliku andmekogumi tühjad väljad nullidega. Saame seda hõlpsalt teha Data Wrangleri kohandatud teisenduse (Pandas) abil.

ML8274-image007

Kasutasime järgmist loogikat:

# Table is available as variable df
df.fillna(0, inplace=True)

Valatud sammas ujukist pikaks

Samuti saate Data Wrangleris hõlpsalt sõeluda ja veeru üle kanda mis tahes uuele andmetüübile. Mälu optimeerimise eesmärgil valime oma vaimse tervise sildi sisestusveeru hõljukina.

ML8274-image008

Mudeli kiiranalüüs: funktsioonide tähtsuse graafik

Pärast lõpliku andmestiku loomist kasutasime Data Wrangleris kiirmudeli analüüsi tüüpi, et kiiresti tuvastada andmete ebakõlad ja kas meie mudeli täpsus oli oodatud vahemikus või kui meil oli vaja jätkata funktsioonide projekteerimist, enne kui kulutasime aega mudeli koolitamiseks. Mudel andis F1 skoori 0.901, kusjuures 1 oli kõrgeim. F1 skoor on viis mudeli täpsuse ja meeldetuletuse kombineerimiseks ning see on määratletud kui nende kahe harmooniline keskmine. Pärast esialgsete positiivsete tulemuste kontrollimist olime valmis andmed eksportima ja eksporditud andmekogumit kasutades mudelikoolitust jätkama.

ML8274-image009

Eksportige lõplik andmestik Jupyteri sülearvuti kaudu Amazon S3-sse

Viimase sammuna eksportige andmestik selle praegusel kujul (teisendatud) Amazoni lihtne salvestusteenus (Amazon S3) edaspidiseks kasutamiseks mudelikoolituses kasutame Salvestage Amazon S3-sse (Jupyteri sülearvuti kaudu) ekspordi võimalus. See märkmik käivitab hajutatud ja skaleeritava Amazon SageMakeri töötlemine töö, mis rakendab loodud retsepti (andmevoogu) määratud sisenditele (tavaliselt suurematele andmekogumitele) ja salvestab tulemused Amazon S3-sse. Samuti saate oma teisendatud veerge (funktsioone) eksportida Amazon SageMakeri funktsioonipood või eksportige teisendused torujuhtmena, kasutades Amazon SageMakeri torujuhtmedvõi lihtsalt eksportige teisendused Pythoni koodina.

Andmete eksportimiseks Amazon S3-sse on teil kolm võimalust.

Eksportige muudetud andmed Data Wrangleri kasutajaliidese kaudu otse Amazon S3-sse
Eksportige teisendused SageMakeri töötlemistööna Jupyteri sülearvuti kaudu (nagu me selle postituse puhul teeme).
Eksportige teisendused sihtsõlme kaudu Amazon S3-sse. Sihtsõlm ütleb Data Wranglerile, kuhu andmed pärast töötlemist salvestada. Pärast sihtsõlme loomist loote andmete väljastamiseks töötlemistöö.

ML8274-image010

Järeldus

Selles postituses näitasime, kuidas Equilibrium Point IoT kasutab Data Wranglerit, et kiirendada suure hulga meie nõuete andmete laadimise protsessi andmete puhastamiseks ja teisendamiseks ML-i ettevalmistamiseks. Samuti näitasime, kuidas lisada funktsioonide projekteerimine kohandatud teisendustega, kasutades Pandast ja PySparki Data Wrangleris, võimaldades meil eksportida andmeid samm-sammult (pärast iga liitumist) kvaliteedi tagamise eesmärgil. Nende lihtsalt kasutatavate teisenduste rakendamine Data Wrangleris vähendas andmete otspunktide teisendamiseks kuluvat aega peaaegu 50%. Lisaks võimaldas Data Wrangleri kiirmudeli analüüsi funktsioon andmete ettevalmistamise ja funktsioonide kavandamise protsessi käigus hõlpsasti teisenduste olekut kinnitada.

Nüüd, kui oleme oma vaimse tervise riskide modelleerimise kasutusjuhtumi jaoks andmed ette valmistanud, plaanime järgmise sammuna luua ML-mudeli, kasutades SageMakerit ja selle pakutavaid sisseehitatud algoritme, kasutades meie nõuete andmestikku, et tuvastada liikmed, kes peaksid vaimset tervist otsima. teenuseid, enne kui nad jõuavad punkti, kus nad seda vajavad. Püsige lainel!

Autoritest

Shibangi Saha on Equilibrium Pointi andmeteadlane. Ta ühendab oma teadmised tervishoiuteenuste maksjate nõuete andmete ja masinõppe vallas, et kavandada, juurutada, automatiseerida ja dokumenteerida terviseandmete torujuhtmeid, aruandlust ja analüütilisi protsesse, mis toovad kaasa tervishoiuteenuste osutamise süsteemi teadmisi ja rakendatavaid täiustusi. Shibangi omandas magistrikraadi bioinformaatikas Northeastern University College of Sciences ja bakalaureusekraadi bioloogias ja arvutiteaduses Khoury arvutiteaduste ja infoteaduste kolledžist.

Graciela Kravtzov on Equilibrium Pointi kaasasutaja ja CTO. Grace on olnud C-tasemel / asepresident juhtivatel kohtadel inseneri-, operatsiooni- ja kvaliteedivaldkonnas ning olnud äristrateegia ja tootearenduse tegevkonsultandina tervishoiu- ja haridussektoris ning asjade Interneti tööstusruumis. Grace omandas magistrikraadi elektromehaanikainseneri erialal Buenos Airese ülikoolist ja magistrikraadi arvutiteaduses Bostoni ülikoolist.

Arunprasath Shankar on tehisintellekti ja masinõppe (AI/ML) spetsialistlahenduste arhitekt koos AWS-iga, mis aitab globaalsetel klientidel oma tehisintellekti ja masinõppe lahendusi pilves tõhusalt skaleerida. Vabal ajal vaatab Arun meelsasti ulmefilme ja kuulab klassikalist muusikat.

Ajai Sharma on Amazon SageMakeri vanemtootejuht, kus ta keskendub SageMaker Data Wranglerile, andmeteadlaste visuaalsele andmete ettevalmistamise tööriistale. Enne AWS-i oli Ajai andmeteaduse ekspert ettevõttes McKinsey and Company, kus ta juhtis ML-le keskendunud ülesandeid juhtivatele finants- ja kindlustusfirmadele kogu maailmas. Ajai on andmeteaduse vastu kirglik ning talle meeldib uurida uusimaid algoritme ja masinõppetehnikaid.