Amazon SageMaker Data Wranglerin ominaisuussuunnittelua terveydenhuollon ja biotieteiden mittakaavassa

Julkaissut Platon

seuraajia: 0

Koneoppiminen (ML) häiritsee monia toimialoja ennennäkemättömällä vauhdilla. Terveydenhuollon ja biotieteiden (HCLS) teollisuus on käynyt läpi nopean kehityksen viime vuosina, ja se on käsittänyt ML:n lukuisissa käyttötapauksissa laadukkaan hoidon tarjoamiseksi ja potilastulosten parantamiseksi.

Tyypillisessä ML-elinkaaressa tietoinsinöörit ja tutkijat viettävät suurimman osan ajastaan tietojen valmisteluun ja ominaisuuksien suunnitteluvaiheisiin ennen kuin edes aloittavat mallinrakennus- ja koulutusprosessin. Työkalu, joka voi alentaa tietojen valmisteluun pääsyn esteitä ja parantaa siten tuottavuutta, on erittäin toivottava pyyntö näille henkilöille. Amazon SageMaker Data Wrangler on AWS:n tarkoitukseen rakentama, jotta se vähentää oppimiskäyrää ja mahdollistaa tietojen valmistelun, puhdistamisen ja ominaisuuksien suunnittelun tehtäviä vähemmällä vaivalla ja ajassa. Se tarjoaa graafisen käyttöliittymän, jossa on monia sisäänrakennettuja toimintoja ja integraatioita muihin AWS-palveluihin, kuten Amazonin yksinkertainen tallennuspalvelu (Amazon S3) ja Amazon SageMaker -ominaisuuskauppa, sekä kumppanitietolähteet, kuten Snowflake ja Databricks.

Tässä viestissä osoitamme, kuinka Data Wrangleria käytetään terveydenhuollon tietojen valmistelemiseen sydämen vajaatoiminnan ennustamiseen tarkoitetun mallin kouluttamiseen, kun otetaan huomioon potilaan demografiset tiedot, aiemmat sairaudet ja laboratoriotestien tuloshistoria.

Ratkaisun yleiskatsaus

Ratkaisu koostuu seuraavista vaiheista:

Hanki terveydenhuollon tietojoukko syötteenä Data Wrangleriin.
Käytä Data Wranglerin sisäänrakennettuja muunnostoimintoja tietojoukon muuntamiseen. Tämä sisältää pudotussarakkeiden, tietojen/ajan ominaisuuksien, tietojoukkojen yhdistämisen, puuttuvien arvojen laskemisen, kategoristen muuttujien koodauksen, numeeristen arvojen skaalauksen, tietojoukon tasapainottamisen ja paljon muuta.
Käytä Data Wranglerin mukautettua muunnostoimintoa (Pandas- tai PySpark-koodi) täydentääksesi lisämuunnoksia, joita tarvitaan sisäänrakennettujen muunnosten lisäksi, ja esitellä Data Wranglerin laajennettavuus. Tämä sisältää suodatinrivejä, tietojen ryhmittelyä, uusien tietokehysten muodostamisen ehtojen perusteella ja paljon muuta.
Käytä Data Wranglerin sisäänrakennettuja visualisointitoimintoja visuaalisen analyysin suorittamiseen. Tämä sisältää kohdevuodon, ominaisuuksien korrelaation, pikamallin ja paljon muuta.
Käytä Data Wranglerin sisäänrakennettuja vientiasetuksia viedäksesi muunnetun tietojoukon Amazon S3:een.
Käynnistä Jupyter-muistikirja käyttääksesi Amazon S3:ssa muunnettua tietojoukkoa syötteenä mallin kouluttamiseen.

Luo tietojoukko

Nyt kun olemme päässeet ML-ongelmalauseeseen, suuntaamme ensin tarvitsemamme tiedon hankkimiseen. Tutkimustutkimuksia mm Sydämen vajaatoiminnan ennuste voi tarjota tietoja, jotka ovat jo hyvässä kunnossa. Usein kohtaamme kuitenkin skenaarioita, joissa tiedot ovat melko sotkuisia ja vaativat yhdistämistä, puhdistamista ja useita muita terveydenhuollon toimialuekohtaisia muutoksia, ennen kuin niitä voidaan käyttää ML-koulutukseen. Haluamme löytää tai luoda tarpeeksi sotkuista dataa ja opastaa sen valmistelun vaiheissa Data Wranglerin avulla. Tätä silmällä pitäen valitsimme Synthean työkaluksi luoda synteettistä dataa, joka sopii tavoitteemme mukaisesti. Synthea on avoimen lähdekoodin synteettinen potilasgeneraattori, joka mallintaa synteettisten potilaiden sairaushistoriaa. Luo tietojoukko suorittamalla seuraavat vaiheet:

Noudata ohjeita kuten pika-aloitus dokumentaatio luomiseen Amazon SageMaker Studio verkkotunnus ja käynnistä Studio.
Tämä on edellytysvaihe. Se on valinnainen, jos Studio on jo määritetty tililläsi.
Kun Studio on käynnistetty, Launcher välilehti, valitse Järjestelmän pääte.
Tämä käynnistää pääteistunnon, joka antaa sinulle komentoriviliittymän, jonka kanssa voit työskennellä.

Asenna Synthea ja luo tietojoukko CSV-muodossa suorittamalla seuraavat komennot käynnistetyssä pääteistunnossa:

$ sudo yum install -y java-1.8.0-openjdk-devel
$ export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk.x86_64
$ export PATH=$JAVA_HOME/bin:$PATH
$ git clone https://github.com/synthetichealth/synthea
$ git checkout v3.0.0
$ cd synthea
$ ./run_synthea --exporter.csv.export=true -p 10000

Toimitamme parametrin, jolla luodaan tietojoukot, joiden populaatiokoko on 10,000 XNUMX. Huomaa, että kokoparametri ilmaisee populaation elossa olevien jäsenten lukumäärän. Lisäksi Synthea luo myös tietoja kuolleista populaation jäsenistä, mikä saattaa lisätä muutaman ylimääräisen datapisteen määritetyn otoskoon päälle.

Odota, kunnes tietojen luominen on valmis. Tämä vaihe kestää yleensä noin tunnin tai vähemmän. Synthea luo useita tietojoukkoja, mukaan lukien patients, medications, allergies, conditions, ja enemmän. Tässä viestissä käytämme kolmea tuloksena olevista tietojoukoista:

potilaat.csv – Tämä tietojoukko on noin 3.2 Mt ja sisältää noin 11,000 25 riviä potilastietoja (XNUMX saraketta, mukaan lukien potilastunnus, syntymäaika, sukupuoli, osoite ja paljon muuta)
ehdot.csv – Tämä tietojoukko on noin 47 megatavua ja sisältää noin 370,000 XNUMX riviä terveydentilatietoja (kuusi saraketta, mukaan lukien potilastunnus, tilan aloituspäivämäärä, tilakoodi ja paljon muuta)
havainnot.csv – Tämä tietojoukko on noin 830 megatavua ja sisältää noin 5 miljoonaa riviä havainnointitietoja (kahdeksan saraketta, mukaan lukien potilastunnus, havaintopäivämäärä, havaintokoodi, arvo ja paljon muuta)

Välillä on yksi-moneen suhde patients ja conditions tietojoukot. Niiden välillä on myös yksi moniin -suhde patients ja observations tietojoukot. Yksityiskohtainen tietosanakirja on kohdassa CSV-tiedoston tietosanakirja.

Jos haluat ladata luodut tietojoukot Amazon S3:n lähdesäilöyn, suorita seuraavat komennot pääteistunnossa:
```
$ cd ./output/csv
$ aws s3 sync . s3://<source bucket name>/
```

Käynnistä Data Wrangler

Valita SageMaker-resurssit Studion navigointisivulla ja Projektit valikosta, valitse Data Wrangler luodaksesi Data Wrangler -tietovirran. Katso yksityiskohtaiset ohjeet Data Wranglerin käynnistämiseen Studiosta Aloita Data Wranglerin käyttö.

Tuo päivämäärät

Tuo tietosi suorittamalla seuraavat vaiheet:

Valita Amazon S3 ja etsi pácienst.csv-tiedosto S3-alustasta.
In Lisätiedot ruutu, valitse Ensin K varten Näytteenotto.
enter 1100 varten Otoskoko.
Esikatseluruudussa Data Wrangler hakee ensimmäiset 100 riviä tietojoukosta ja luettelee ne esikatseluksi.
Valita Tuo.
Data Wrangler valitsee Synthean luomista potilaista (1,100 11,000 riviä) ensimmäiset XNUMX XNUMX potilasta ja tuo tiedot. Otantamenetelmä antaa Data Wranglerille vain käsitellä näytetietoja. Sen avulla voimme kehittää tietovirtaamme pienemmällä tietojoukolla, mikä johtaa nopeampaan käsittelyyn ja lyhyempään palautesilmukaan. Kun olemme luoneet tietovirran, voimme lähettää kehitetyn reseptin a SageMaker-käsittely tehtävä vaakasuoraan koko tai suuremman tietojoukon käsittelyn skaalaamiseksi hajautetusti.
Toista tämä prosessi conditions ja observations aineistot.
1. Varten conditions tietojoukko, syötä 37000 varten Otoskoko, joka on 1/10 Synthean luomista 370,000 XNUMX rivistä.
2. Varten observations tietojoukko, syötä 500000 varten Otoskoko, joka on 1/10 Synthean luomista 5 miljoonasta rivistä.

Sinun pitäisi nähdä kolme tietojoukkoa seuraavan kuvakaappauksen mukaisesti.

Muunna tiedot

Tietojen muuntaminen on prosessi, jossa muutetaan tietojoukon yhden tai useamman sarakkeen rakennetta, arvoa tai muotoa. Prosessin on yleensä kehittänyt tietoinsinööri, ja se voi olla haastavaa ihmisille, joilla on pienempi tietotekniikan osaaminen, tulkita muunnokselle ehdotettu logiikka. Tietojen muuntaminen on osa laajempaa ominaisuussuunnitteluprosessia, ja oikea vaiheiden järjestys on toinen tärkeä kriteeri, joka on pidettävä mielessä tällaisia reseptejä suunniteltaessa.

Data Wrangler on suunniteltu alhaisen koodin työkaluksi, joka vähentää tehokkaan tietojen valmistelun esteitä. Siinä on yli 300 esikonfiguroitua datamuunnosta, joista voit valita kirjoittamatta yhtään koodiriviä. Seuraavissa osioissa näemme, kuinka tuodut tietojoukot muutetaan Data Wranglerissa.

Pudota sarakkeita potilaille.csv

Pudotamme ensin joitakin sarakkeita patients tietojoukko. Redundanttien sarakkeiden pudottaminen poistaa ei-olennaiset tiedot tietojoukosta ja auttaa meitä vähentämään tietojoukon käsittelyyn ja mallin kouluttamiseen tarvittavien laskentaresurssien määrää. Tässä osiossa hylkäämme sarakkeet, kuten SSN tai passinumero, koska näillä sarakkeilla ei ole ennakoivaa arvoa. Toisin sanoen ne eivät auta malliamme ennustamaan sydämen vajaatoimintaa. Tutkimuksemme ei myöskään ole huolissaan muiden sarakkeiden, kuten syntymäkoti- tai hoitokulujen vaikutuksesta potilaan sydämen vajaatoimintaan, joten jätämme nekin pois. Ylimääräiset sarakkeet voidaan tunnistaa myös suorittamalla sisäänrakennettuja analyysejä, kuten kohdevuoto, ominaisuuskorrelaatio, multikollineaarisuus ja paljon muuta, jotka on sisäänrakennettu Data Wrangleriin. Lisätietoja tuetuista analyysityypeistä on kohdassa Analysoi ja visualisoi. Lisäksi voit käyttää Data Quality and Insights -raportti suorittaa automaattisia analyyseja tietojoukoille saadakseen luettelon ylimääräisistä sarakkeista, jotka on poistettava.

Valitse vieressä oleva plusmerkki Tietotyypit potilaille.csv-tietojoukolle ja valitse Lisää muunnos.
Valita Lisää vaihe Ja valitse Hallitse sarakkeita.
varten Muuttaa¸ valitse Pudota sarake.
varten Pudotettavat sarakkeet, valitse seuraavat sarakkeet:
1. SSN
2. DRIVERS
3. PASSPORT
4. PREFIX
5. FIRST
6. LAST
7. SUFFIX
8. MAIDEN
9. RACE
10. ETHNICITY
11. BIRTHPLACE
12. ADDRESS
13. CITY
14. STATE
15. COUNTY
16. ZIP
17. LAT
18. LON
19. HEALTHCARE_EXPENSES
20. HEALTHCARE_COVERAGE
Valita preview tarkistaaksesi muunnetun tietojoukon, ja valitse sitten Lisää.

Sinun pitäisi nähdä vaihe Pudota sarake muunnosluettelossasi.

Esitä päivämäärä/kellonaika potilaiden.csv-tiedostossa

Nyt käytämme Featurize päivämäärä/aika -toimintoa uuden ominaisuuden luomiseen Year mistä BIRTHDATE sarake patients tietojoukko. Käytämme uutta ominaisuutta myöhemmässä vaiheessa laskeaksemme potilaan iän tarkkailuhetkellä.

In muunnokset ruutusi Pudota sarake sivua varten patients tietojoukko, valitse Lisää vaihe.
Valitse Esitä päivämäärä/aika muuttaa.
Valita Pura sarakkeet.
varten Syötä sarakkeet, lisää sarake BIRTHDATE.
valita Vuosi ja poista valinta Kuukausi, Päivä, tunti, Minuutti, Toinen.
Valita preview, valitse sitten Lisää.

Lisää muunnoksia Observations.csv:ssä

Data Wrangler tukee mukautettuja muunnoksia Pythonilla (käyttäjän määrittämät funktiot), PySparkilla, Pandasilla tai PySparkilla (SQL). Voit valita muunnostyypin kunkin vaihtoehdon ja mieltymystesi perusteella. Kolmen viimeksi mainitun vaihtoehdon osalta Data Wrangler paljastaa muuttujan df jotta voit käyttää tietokehystä ja käyttää siihen muutoksia. Katso tarkempi selitys ja esimerkkejä Mukautetut muunnokset. Tässä osiossa lisäämme kolme mukautettua muunnosta observations aineisto.

Lisää muunnos Observations.csv-tiedostoon ja pudota se DESCRIPTION sarake.
Valita preview, valitse sitten Lisää.
In muunnokset ruutu, valitse Lisää vaihe Ja valitse Mukautettu muunnos.
Valitse avattavasta valikosta Python (pandat).

Kirjoita seuraava koodi:

df = df[df["CODE"].isin(['8867-4','8480-6','8462-4','39156-5','777-3'])]

Nämä ovat LONIC-koodeja, jotka vastaavat seuraavia havaintoja, joita olemme kiinnostuneita käyttämään ominaisuuksina sydämen vajaatoiminnan ennustamiseen:

heart rate: 8867-4
systolic blood pressure: 8480-6
diastolic blood pressure: 8462-4
body mass index (BMI): 39156-5
platelets [#/volume] in Blood: 777-3

Valita preview, valitse sitten Lisää.
Lisää muunnos poimittavaksi Year ja Quarter mistä DATE sarake.
Valita preview, valitse sitten Lisää.
Valita Lisää vaihe Ja valitse Mukautettu muunnos.
Valitse avattavasta valikosta Python (PySpark).

Viittä havainnointityyppiä ei välttämättä aina kirjata samalle päivälle. Potilas voi esimerkiksi käydä perhelääkärillään 21. tammikuuta ja saada systolisen verenpaineen, diastolisen verenpaineen, sykkeen ja painoindeksin mitattua ja kirjata. Verihiutaleita sisältävä laboratoriotesti voidaan kuitenkin tehdä myöhemmin helmikuun 2. päivänä. Siksi tietokehyksiä ei aina ole mahdollista yhdistää havaintopäivään mennessä. Tässä yhdistämme datakehykset karkean tarkkuuden perusteella neljännesvuosittain.

Kirjoita seuraava koodi:

from pyspark.sql.functions import col

systolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed("value", "systolic")
                   .filter((col("code") == "8480-6"))
  )

diastolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'diastolic')
                   .filter((col("code") == "8462-4"))
    )

hr_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'hr')
                   .filter((col("code") == "8867-4"))
    )

bmi_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'bmi')
                   .filter((col("code") == "39156-5"))
    )

platelets_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'platelets')
                   .filter((col("code") == "777-3"))
    )

df = (
    systolic_df.join(diastolic_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(hr_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(bmi_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(platelets_df, ["patient", "DATE_year", "DATE_quarter"])
)

Valita preview, valitse sitten Lisää.
Valita Lisää vaihe, valitse sitten Hallitse rivejä.
varten Muuttaa, valitse Pudota kaksoiskappaleet.
Valita preview, valitse sitten Lisää.
Valita Lisää vaihe Ja valitse Mukautettu muunnos.
Valitse avattavasta valikosta Python (pandat).

Kirjoita seuraava koodi ottaaksesi keskiarvon datapisteistä, joilla on sama aika-arvo:

import pandas as pd
df.loc[:, df.columns != 'patient']=df.loc[:, df.columns != 'patient'].apply(pd.to_numeric)
df = df.groupby(['patient','DATE_year','DATE_quarter']).mean().round(0).reset_index()

Valita preview, valitse sitten Lisää.

Liity potilaiden.csv- ja havainnot.csv-sivuille

Tässä vaiheessa esittelemme, kuinka voit tehokkaasti ja helposti suorittaa monimutkaisia liitoksia tietojoukoissa ilman koodin kirjoittamista Data Wranglerin tehokkaan käyttöliittymän kautta. Lisätietoja tuetuista liitostyypeistä on kohdassa Muuta tietoja.

Oikealle Muunna: patients.csv, valitse vieressä oleva plusmerkki Askeleet Ja valitse Liity.
Näet muunnetun patients.csv-tiedoston alla lueteltuna aineistot vasemmanpuoleisessa ruudussa.
Oikealle Muunnos: Observations.csv, Klikkaa Askeleet aloittaaksesi liittymisoperaation.
Muunnettu vaatlus.csv-tiedosto on nyt lueteltu alla aineistot vasemmanpuoleisessa ruudussa.
Valita Configure.
varten Liity tyyppi, valitse Sisempi.
varten Vasen, valitse Id.
varten Oikea, valitse potilas.
Valita preview, valitse sitten Lisää.

Lisää mukautettu muunnos yhdistettyihin tietosarjoihin

Tässä vaiheessa laskemme potilaan iän tarkkailuhetkellä. Pudotamme myös sarakkeet, joita ei enää tarvita.

Valitse vieressä oleva plusmerkki 1. Liity Ja valitse Lisää muunnos.

Lisää mukautettu muunnos Pandasiin:

df['age'] = df['DATE_year'] - df['BIRTHDATE_year']
df = df.drop(columns=['BIRTHDATE','DEATHDATE','BIRTHDATE_year','patient'])

Valita preview, valitse sitten Lisää.

Lisää mukautettuja muunnoksia condition.csv-tiedostoon

Valitse vieressä oleva plusmerkki Muunnos: conditions.csv Ja valitse Lisää muunnos.

Lisää mukautettu muunnos Pandasiin:

df = df[df["CODE"].isin(['84114007', '88805009', '59621000', '44054006', '53741008', '449868002', '49436004'])]
df = df.drop(columns=['DESCRIPTION','ENCOUNTER','STOP'])

Huomautus: Kuten aiemmin osoitimme, voit pudottaa sarakkeita joko käyttämällä mukautettua koodia tai käyttämällä Data Wranglerin tarjoamia sisäänrakennettuja muunnoksia. Data Wranglerin mukautetut muunnokset tarjoavat joustavuutta tuoda oma muunnoslogiikkasi koodinpätkien muodossa tuetuissa kehyksissä. Näitä katkelmia voidaan myöhemmin etsiä ja käyttää tarvittaessa.

Edellisen muunnoksen koodit ovat SNOMED-CT-koodeja, jotka vastaavat seuraavia ehtoja. The heart failure or chronic congestive heart failure tilasta tulee etiketti. Käytämme jäljellä olevia ehtoja sydämen vajaatoiminnan ennustamiseen. Pudotamme myös muutamia sarakkeita, joita ei enää tarvita.

Heart failure: 84114007
Chronic congestive heart failure: 88805009
Hypertension: 59621000
Diabetes: 44054006
Coronary Heart Disease: 53741008
Smokes tobacco daily: 449868002
Atrial Fibrillation: 49436004

Lisätään seuraavaksi mukautettu muunnos PySparkiin:

from pyspark.sql.functions import col, when

heartfailure_df = (
    df.select("patient", "start")
                      .withColumnRenamed("start", "heartfailure")
                   .filter((col("code") == "84114007") | (col("code") == "88805009"))
  )

hypertension_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "hypertension")
                   .filter((col("code") == "59621000"))
  )

diabetes_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "diabetes")
                   .filter((col("code") == "44054006"))
  )

coronary_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "coronary")
                   .filter((col("code") == "53741008"))
  )

smoke_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "smoke")
                   .filter((col("code") == "449868002"))
  )

atrial_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "atrial")
                   .filter((col("code") == "49436004"))
  )

df = (
    heartfailure_df.join(hypertension_df, ["patient"], "leftouter").withColumn("has_hypertension", when(col("hypertension") < col("heartfailure"), 1).otherwise(0))
    .join(diabetes_df, ["patient"], "leftouter").withColumn("has_diabetes", when(col("diabetes") < col("heartfailure"), 1).otherwise(0))
    .join(coronary_df, ["patient"], "leftouter").withColumn("has_coronary", when(col("coronary") < col("heartfailure"), 1).otherwise(0))
    .join(smoke_df, ["patient"], "leftouter").withColumn("has_smoke", when(col("smoke") < col("heartfailure"), 1).otherwise(0))
    .join(atrial_df, ["patient"], "leftouter").withColumn("has_atrial", when(col("atrial") < col("heartfailure"), 1).otherwise(0))
)

Suoritamme vasemman ulomman liitoksen pitääksemme kaikki merkinnät sydämen vajaatoiminnan tietokehyksessä. Uusi kolumni has_xxx lasketaan jokaiselle muulle sairaudelle paitsi sydämen vajaatoiminnalle sairauden alkamispäivämäärän perusteella. Olemme kiinnostuneita vain sairauksista, jotka on kirjattu ennen sydämen vajaatoimintaa, ja käytämme niitä ominaisuuksina sydämen vajaatoiminnan ennustamiseen.

Lisää sisäänrakennettu Hallitse sarakkeita muunnos poistaaksesi tarpeettomat sarakkeet:
1. hypertension
2. diabetes
3. coronary
4. smoke
5. atrial
Ote Year ja Quarter mistä heartfailure sarake.
Tämä vastaa sitä tarkkuutta, jota käytimme aiemmin muunnoksen yhteydessä observations aineisto.
Meillä pitäisi olla yhteensä 6 vaihetta ehtoja.csv:lle.

Liitä ehdot.csv yhdistettyyn tietojoukkoon

Suoritamme nyt uuden liitoksen yhdistääksemme ehtotietojoukon yhdistettyyn patients ja observations aineisto.

Valita Muunna: 1st Join.
Valitse plusmerkki ja valitse Liity.
Valita Askeleet vieressä Muunnos: conditions.csv.
Valita Configure.
varten Liity tyyppi, valitse Vasen ulompi.
varten Vasen, valitse Id.
varten Oikea, valitse potilas.
Valita preview, valitse sitten Lisää.

Lisää muunnoksia yhdistettyihin tietosarjoihin

Nyt kun kaikki kolme tietojoukkoa on yhdistetty, otetaan käyttöön joitain lisämuunnoksia.

Lisää seuraava mukautettu muunnos PySparkissa niin has_heartfailure tulee tarrasarakkeemme:

from pyspark.sql.functions import col, when
df = (
    df.withColumn("has_heartfailure", when(col("heartfailure").isNotNull(), 1).otherwise(0))
)

Lisää seuraava mukautettu muunnos PySparkissa:
```
from pyspark.sql.functions import col

df = (
    df.filter(
      (col("has_heartfailure") == 0) | 
      ((col("has_heartfailure") == 1) & ((col("date_year") <= col("heartfailure_year")) | ((col("date_year") == col("heartfailure_year")) & (col("date_quarter") <= col("heartfailure_quarter")))))
    )
)
```
Olemme kiinnostuneita vain havainnoista, jotka on kirjattu ennen sydämen vajaatoiminnan diagnosointia, ja käytämme niitä sydämen vajaatoiminnan ennustamiseen. Potilaan ottamat lääkkeet voivat vaikuttaa sydämen vajaatoiminnan toteamisen jälkeen tehtyihin havaintoihin, joten haluamme jättää ne pois.
Pudota tarpeettomat sarakkeet, joita ei enää tarvita:
1. Id
2. DATE_year
3. DATE_quarter
4. patient
5. heartfailure
6. heartfailure_year
7. heartfailure_quarter
On analyysi välilehti Analyysityyppi¸ valitse Taulukon yhteenveto.
Nopea selaus yhteenvedon läpi osoittaa, että MARITAL sarakkeesta puuttuu tietoja.
Valitse Päiväys -välilehti ja lisää vaihe.
Valita Kahva puuttuu.
varten Muuttaa, valitse Täyte puuttuu.
varten Syötä sarakkeet, valitse Avioliitto.
varten Täyttöarvo, tulla sisään S.
Strategiamme tässä on olettaa, että potilas on sinkku, jos siviilisäädystä puuttuu arvo. Sinulla voi olla erilainen strategia.
Valita preview, valitse sitten Lisää.
Täytä puuttuva arvo 0:ksi has_hypertension, has_diabetes, has_coronary, has_smoke, has_atrial.

Marital ja Gender ovat kategoriaalisia muuttujia. Data Wranglerissa on sisäänrakennettu toiminto kategoriamuuttujien koodaamiseen.

Lisää askel ja valitse Koodaa kategoria.
varten Muuttaa, valitse Yksi kuuma koodaus.
varten Syötä sarakkeet, valitse Avioliitto.
varten Tulostustyyli, valitse Sarake.
Tämä tulostustyyli tuottaa koodatut arvot erillisiin sarakkeisiin.
Valita preview, valitse sitten Lisää.
Toista nämä vaiheet Sukupuoli sarake.

One-hot-koodaus jakaa avioliiton sarakkeen Marital_M (naimisissa) ja Marital_S (yksittäinen) ja jakaa Sukupuoli-sarakkeen Gender_M (uros) ja Gender_F (Nainen). Koska Marital_M ja Marital_S ovat toisensa poissulkevia (kuten ovat Gender_M ja Gender_F), voimme pudottaa yhden sarakkeen välttääksemme ylimääräisiä ominaisuuksia.

Pudota Marital_S ja Gender_F.

Numeerisilla ominaisuuksilla, kuten systolisella, sykkeellä ja iällä, on eri yksikköstandardit. Lineaariseen regressioon perustuvassa mallissa meidän on ensin normalisoitava nämä numeeriset ominaisuudet. Muutoin joillakin ominaisuuksilla, joilla on korkeammat absoluuttiset arvot, voi olla perusteeton etu verrattuna muihin ominaisuuksiin, joiden absoluuttiset arvot ovat alhaisemmat, ja heikentää mallin suorituskykyä. Data Wranglerissa on sisäänrakennettu Min-max-muunnosskaalaus tietojen normalisoimiseksi. Päätöspuupohjaisessa luokitusmallissa normalisointia ei vaadita. Tutkimuksemme on luokitteluongelma, joten meidän ei tarvitse soveltaa normalisointia. Epätasapainoiset luokat ovat yleinen ongelma luokittelussa. Epätasapaino tapahtuu, kun harjoitustietojoukko sisältää pahasti vinoa luokkajakaumaa. Esimerkiksi kun tietojoukkomme sisältää suhteettoman enemmän potilaita, joilla ei ole sydämen vajaatoimintaa, kuin potilaita, joilla on sydämen vajaatoiminta, se voi aiheuttaa sen, että malli ei ennusta sydämen vajaatoimintaa ja toimii huonosti. Data Wranglerissa on sisäänrakennettu toiminto ongelman ratkaisemiseksi.

Lisää mukautettu muunnos Pandasiin sarakkeiden tietotyypin muuntamiseksi "objekti"-tyypistä numeerisiksi:
```
import pandas as pd
df=df.apply(pd.to_numeric)
```
Valitse analyysi Tab.
varten Analyysityyppi¸ valitse histogrammi.
varten X-akseli, valitse has_heartfarure.
Valita preview.

On selvää, että meillä on epätasapainoinen luokka (enemmän arvopisteitä, jotka on merkitty ei sydämen vajaatoiminnaksi, kuin arvopisteitä, jotka on merkitty sydämen vajaatoiminnaksi).
Mene takaisin Päiväys välilehti. Valita Lisää vaihe Ja valitse Saldotiedot.
varten Kohdesarake, valitse has_heartfarure.
varten Haluttu suhde, tulla sisään 1.
varten Muuttaa, valitse löivät.

SMOTE tulee sanoista Synthetic Minority Over-sampling Technique. Se on tekniikka, jolla luodaan uusia vähemmistöilmentymiä ja lisätään tietojoukkoon luokkatasapainon saavuttamiseksi. Katso tarkemmat tiedot kohdasta SMOTE: Synteettinen vähemmistöjen ylinäytteenottotekniikka.
Valita preview, valitse sitten Lisää.
Toista histogrammianalyysi vaiheessa 20-23. Tuloksena on tasapainoinen luokka.

Visualisoi kohteen vuoto ja ominaisuuksien korrelaatio

Seuraavaksi aiomme suorittaa muutaman visuaalisen analyysin käyttämällä Data Wranglerin monipuolista edistyneiden ML-tuettujen analyysityyppien työkalusarjaa. Ensin tarkastelemme tavoitevuotoa. Tavoitevuoto tapahtuu, kun harjoitustietojoukon tiedot korreloivat voimakkaasti kohdetunnisteen kanssa, mutta ne eivät ole käytettävissä reaalimaailman tiedoissa päättelyhetkellä.

On Analyysi-välilehtiVarten Analyysityyppi¸ valitse Kohdevuoto.
varten Ongelman tyyppi, valitse luokittelu.
varten Kohde, valitse has_heartfarure.
Valita preview.

Analyysin perusteella hr on kohdevuoto. Pudotamme sen seuraavassa vaiheessa. age on merkitty kohdevuodoksi. On järkevää sanoa, että potilaan ikä on saatavilla päättelyaikana, joten pidämme iän ominaisuutena. Systolic ja diastolic on myös merkitty todennäköiseksi kohdevuodoksi. Odotamme saavamme kaksi mittausta päättelyajan aikana, joten säilytämme ne ominaisuuksina.
Valita Lisää lisätäksesi analyysin.

Sitten tarkastellaan ominaisuuksien korrelaatiota. Haluamme valita ominaisuuksia, jotka korreloivat kohteen kanssa, mutta eivät korreloi keskenään.

On Analyysi-välilehtiVarten Analyysityyppi¸ valitse Ominaisuuden korrelaatio.
varten Korrelaatiotyyppi¸ valitse lineaarinen.
Valita preview.

Kerroinpisteet osoittavat vahvoja korrelaatioita seuraavien parien välillä:

systolic ja diastolic
bmi ja age
has_hypertension ja has_heartfailure (etiketti)

Vahvasti korreloivien ominaisuuksien matriiseja on laskennallisesti vaikea kääntää, mikä voi johtaa numeerisesti epävakaisiin arvioihin. Korrelaation lieventämiseksi voimme yksinkertaisesti poistaa yhden parista. Pudotamme diastolic ja bmi ja pidä systolic ja age myöhemmässä vaiheessa.

Pudota diastolinen ja BMI sarakkeet

Lisää muita muunnosvaiheita pudottaaksesi hr, diastolic ja bmi sarakkeita sisäänrakennetun muunnoksen avulla.

Luo Data Quality and Insights -raportti

AWS äskettäin ilmoitti Data Wranglerin uusi Data Quality and Insights Report -ominaisuus. Tämä raportti tarkistaa automaattisesti tietojen laadun ja havaitsee tiedoissasi olevat poikkeavuudet. Tietotieteilijät ja tietosuunnittelijat voivat käyttää tätä työkalua tehokkaasti ja nopeasti soveltaakseen toimialuetietoa ML-mallikoulutuksen tietojoukkojen käsittelyyn. Tämä vaihe on valinnainen. Luo tämä raportti tietojoukostamme suorittamalla seuraavat vaiheet:

On analyysi välilehti Analyysityyppi, valitse Data Quality and Insights -raportti.
varten Kohdesarake, valitse has_heartfarure.
varten Ongelman tyyppivalitse Luokittelu.
Valita luoda.

Muutamassa minuutissa se luo raportin, joka sisältää yhteenvedon, visuaalisia materiaaleja ja suosituksia.

Luo nopea mallianalyysi

Olemme saaneet valmiiksi tietojen valmistelun, siivouksen ja ominaisuussuunnittelun. Data Wranglerissa on sisäänrakennettu toiminto, joka antaa karkean arvion odotetusta ennustetusta laadusta ja tietojoukon ominaisuuksien ennakoivasta tehosta.

On analyysi välilehti Analyysityyppi¸ valitse Nopea malli.
varten Merkki, valitse has_heartfarure.
Valita preview.

Quick Model -analyysimme mukaan voimme nähdä ominaisuuden has_hypertension on korkein ominaisuuden tärkeyspiste kaikista ominaisuuksista.

Vie tiedot ja harjoittele mallia

Viedään nyt muunnetut ML-valmiit ominaisuudet kohde-S3-ämpäriin ja skaalataan koko tähän mennessä luomamme ominaisuussuunnitteluputkisto näytteiden avulla koko tietojoukoksi hajautetusti.

Valitse tietokulun viimeisen ruudun vierestä plusmerkki ja valitse Lisää määränpää.
Valita Amazon S3.
Anna Tietojoukon nimi. Foorumi Amazon S3 sijainti, valitse S3-kauha ja valitse sitten Lisää kohde.
Valita Luo työpaikka käynnistää hajautetun PySpark-käsittelytyön muunnoksen suorittamiseksi ja tietojen tulostamiseksi kohde-S3-ämpäriin.

Tietojoukkojen koosta riippuen tämän vaihtoehdon avulla voimme helposti määrittää klusterin ja skaalata vaakasuuntaisesti ilman koodia. Meidän ei tarvitse huolehtia tietojoukkojen osioista tai klusterin ja Spark-sisäosien hallinnasta. Data Wrangler huolehtii kaikesta tästä automaattisesti.
Valitse vasemmasta ruudusta Seuraavaksi 2. Määritä työ.
Valitse sitten ajaa.

Vaihtoehtoisesti voimme myös viedä muunnetun lähdön S3:een Jupyter Notebookin kautta. Tällä lähestymistavalla Data Wrangler luo automaattisesti Jupyter-muistikirjan, jossa on kaikki koodit, joita tarvitaan käsittelytyön käynnistämiseen, jotta tietovirran vaiheet (luettu näytteen avulla) voidaan soveltaa suurempaan täydelliseen tietojoukkoon ja käyttää muunnettua tietojoukkoa ominaisuuksina pois koulutustyöstä myöhemmin. Muistikirjan koodia voidaan käyttää helposti tekemällä muutoksia tai ilman. Käydään nyt läpi vaiheet, joilla tämä tehdään Data Wranglerin käyttöliittymän kautta.

Valitse datakulun viimeisen vaiheen vierestä plusmerkki ja valitse Vie osoitteeseen.
Valita Amazon S3 (Jupyter Notebookin kautta).
Se avaa automaattisesti uuden välilehden Jupyter-muistikirjan kanssa.
Etsi Jupyter-muistikirjasta solu kohdasta (Valinnainen) Seuraavat vaiheet osio ja muutos run_optional_steps alkaen False että True.
Käytössä olevat valinnaiset vaiheet kannettavassa tietokoneessa suorittavat seuraavat:
- Kouluta malli XGBoostilla
Palaa muistikirjan yläosaan ja ajaa valikosta, valitse Suorita kaikki solut.

Jos käytät luotua muistikirjaa sellaisenaan, se käynnistää SageMaker-käsittelytyön, joka skaalaa käsittelyn kahteen m5.4xlarge-instanssiin käsittelemään koko tietojoukon S3-säilössä. Voit säätää esiintymien määrää ja ilmentymätyyppejä tietojoukon koon ja työn suorittamiseen tarvittavan ajan perusteella.

Odota, kunnes harjoitustyö viimeisestä solusta on valmis. Se luo mallin SageMakerin oletusarvoiseen S3-alueeseen.

Koulutettu malli on valmis käytettäväksi joko reaaliaikaista päättelyä tai erämuunnosta varten. Huomaa, että käytimme synteettistä dataa Data Wranglerin toimintojen esittelyyn ja käsiteltyä dataa harjoitusmallissa. Koska käyttämämme tiedot ovat synteettisiä, koulutetun mallin päätelmiä ei ole tarkoitettu todellisen sairauden diagnosointiin tai lääkäreiden arvioiden korvaamiseen.

Voit myös viedä muunnetun tietojoukon suoraan Amazon S3:een valitsemalla Vie muunnosesikatselusivun yläosassa. Suora vienti -vaihtoehto vie muunnetun näytteen vain, jos näytteenotto oli käytössä tuonnin aikana. Tämä vaihtoehto sopii parhaiten, jos käsittelet pienempiä tietojoukkoja. Muunnetut tiedot voidaan myös syöttää suoraan ominaisuussäilöön. Lisätietoja on kohdassa Amazon SageMaker -ominaisuuskauppa. Tietovirta voidaan myös viedä SageMaker-putkilinjana, joka voidaan ohjata ja ajoittaa tarpeidesi mukaan. Katso lisätietoja Amazon SageMaker -putkistot.

Yhteenveto

Tässä viestissä osoitimme, kuinka Data Wrangleria käytetään terveydenhuollon tietojen käsittelyyn ja skaalautuvien ominaisuuksien suunnitteluun työkaluohjatulla, matalakoodilla. Opimme soveltamaan sisäänrakennettuja muunnoksia ja analyyseja osuvasti missä tahansa tarpeen mukaan. Yhdistämällä ne mukautettuihin muunnoksiin lisätäksemme datan valmistelutyönkulkuamme entistä enemmän joustavuutta. Kävimme myös läpi erilaisia vaihtoehtoja datavirran reseptin skaalaamiseksi hajautettujen käsittelytöiden avulla. Opimme myös, kuinka muunnettua dataa voidaan helposti käyttää sydämen vajaatoiminnan ennustavan mallin kouluttamiseen.

Data Wranglerissa on monia muita ominaisuuksia, joita emme ole käsitelleet tässä viestissä. Tutustu siihen, mikä on mahdollista Valmista ML-tiedot Amazon SageMaker Data Wrangler -sovelluksella ja opi hyödyntämään Data Wrangleria seuraavaa datatieteen tai koneoppimisprojektia varten.

Tietoja Tekijät

Forrest Sun on vanhempi ratkaisuarkkitehti AWS:n julkisen sektorin tiimissä Torontossa, Kanadassa. Hän on työskennellyt terveydenhuolto- ja rahoitusalalla viimeiset kaksi vuosikymmentä. Työn ulkopuolella hän nauttii telttailusta perheensä kanssa.

Monipuolinen ominaisuussuunnittelu terveydenhuoltoon ja biotieteisiin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai. Arunprasath Shankar on tekoälyn ja koneoppimisen (AI / ML) asiantuntijaratkaisuarkkitehti AWS: n kanssa, joka auttaa globaaleja asiakkaita skaalautumaan tekoälyratkaisuihinsa tehokkaasti ja tehokkaasti pilvessä. Vapaa-ajallaan Arun nauttii scifi-elokuvien katsomisesta ja klassisen musiikin kuuntelusta.