Feature Engineering At Scale For Healthcare And Life Sciences With Amazon SageMaker Data Wrangler

Újra kiadta Platón

Követő: 0

A gépi tanulás (ML) számos iparágat tönkretesz példátlan ütemben. Az egészségügy és az élettudományok (HCLS) iparága az elmúlt években gyors fejlődésen ment keresztül, és az ML számos felhasználási esetet felölel a minőségi ellátás biztosítása és a betegek kimenetelének javítása érdekében.

Egy tipikus ML életciklusban az adatmérnökök és tudósok idejük nagy részét az adatok előkészítésével és a jellemzők tervezési lépéseivel töltik, mielőtt elkezdenék a modellépítés és -képzés folyamatát. Egy olyan eszköz megléte, amely csökkentheti az adat-előkészítés belépési korlátait, ezáltal javítva a termelékenységet, nagyon kívánatos ezektől a személyektől. Amazon SageMaker Data Wrangler Az AWS célja, hogy csökkentse a tanulási görbét, és lehetővé tegye az adatkezelők számára az adat-előkészítési, -tisztítási és -tervezési feladatok elvégzését kevesebb erőfeszítés és idő alatt. GUI interfészt kínál számos beépített funkcióval és integrációval más AWS szolgáltatásokkal, mint pl Amazon egyszerű tárolási szolgáltatás (Amazon S3) és Amazon SageMaker Feature Store, valamint a partner adatforrásai, köztük a Snowflake és a Databricks.

Ebben a bejegyzésben bemutatjuk, hogyan használható a Data Wrangler egészségügyi adatok előkészítésére a szívelégtelenség előrejelzésére szolgáló modell képzéséhez, figyelembe véve a páciens demográfiai adatait, korábbi egészségügyi állapotait és laboratóriumi vizsgálati eredményeit.

Megoldás áttekintése

A megoldás a következő lépésekből áll:

Szerezzen be egy egészségügyi adatkészletet a Data Wrangler bemeneteként.
Használja a Data Wrangler beépített átalakítási funkcióit az adatkészlet átalakításához. Ez magában foglalja az oszlopok eldobását, az adatok/idő jellemzőit, az adatkészletek összekapcsolását, a hiányzó értékek beszámítását, a kategorikus változók kódolását, a numerikus értékek skálázását, az adatkészlet kiegyensúlyozását stb.
Használja a Data Wrangler egyedi átalakítási funkcióját (Pandas vagy PySpark kód) a beépített átalakításokon túlmenően szükséges további átalakítások kiegészítésére, és demonstrálja a Data Wrangler bővíthetőségét. Ez magában foglalja a szűrősorokat, az adatok csoportosítását, a feltételek alapján új adatkeretek létrehozását stb.
Használja a Data Wrangler beépített vizualizációs funkcióit a vizuális elemzéshez. Ez magában foglalja a célszivárgást, a funkciók korrelációját, a gyors modellt és még sok mást.
A Data Wrangler beépített exportálási lehetőségeivel exportálhatja az átalakított adatkészletet az Amazon S3-ba.
Indítson el egy Jupyter notebookot, hogy az Amazon S3 átalakított adatkészletét bemenetként használja a modell betanításához.

Adatkészlet létrehozása

Most, hogy megállapodtunk az ML problémafelvetésnél, először is a szükséges adatok beszerzését tűztük ki célul. Kutatási tanulmányok, mint pl Szívelégtelenség előrejelzése olyan adatokat szolgáltathat, amelyek már jó állapotban vannak. Azonban gyakran találkozunk olyan forgatókönyvekkel, amikor az adatok meglehetősen zűrösek, és csatlakozást, tisztítást és számos más, az egészségügyi területre jellemző átalakítást igényelnek, mielőtt felhasználhatók ML képzésre. Olyan adatokat szeretnénk találni vagy előállítani, amelyek elég rendetlenek, és végigvezetjük a Data Wrangler segítségével történő előkészítés lépésein. Ezt szem előtt tartva választottuk a Syntheát olyan eszközként, amellyel szintetikus adatokat generálhatunk, amelyek megfelelnek a célunknak. Synthea egy nyílt forráskódú szintetikus beteggenerátor, amely szintetikus betegek kórtörténetét modellezi. Az adatkészlet létrehozásához hajtsa végre a következő lépéseket:

Kövesse az utasításokat a Gyors indítás dokumentáció létrehozásához egy Amazon SageMaker Studio domain és indítsa el a Studio-t.
Ez egy előfeltétel lépés. Ez nem kötelező, ha a Studio már be van állítva a fiókjában.
A Studio elindítása után a Launcher lapot választani Rendszerterminál.
Ez elindít egy terminál munkamenetet, amely parancssori felületet biztosít a munkavégzéshez.

A Synthea telepítéséhez és az adatkészlet CSV formátumban történő előállításához futtassa a következő parancsokat az elindított terminálmunka során:

$ sudo yum install -y java-1.8.0-openjdk-devel
$ export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk.x86_64
$ export PATH=$JAVA_HOME/bin:$PATH
$ git clone https://github.com/synthetichealth/synthea
$ git checkout v3.0.0
$ cd synthea
$ ./run_synthea --exporter.csv.export=true -p 10000

Megadunk egy paramétert a 10,000 XNUMX-es populációmérettel rendelkező adatkészletek előállításához. Vegye figyelembe, hogy a méret paraméter a populáció élő tagjainak számát jelöli. Ezenkívül a Synthea adatokat is generál a populáció elhalt tagjairól, ami néhány további adatpontot adhat hozzá a megadott mintaméreten felül.

Várja meg, amíg az adatgenerálás befejeződik. Ez a lépés általában körülbelül egy órát vagy kevesebbet vesz igénybe. A Synthea több adatkészletet hoz létre, beleértve patients, medications, allergies, conditions, és több. Ehhez a bejegyzéshez az eredményül kapott adatkészletek közül hármat használunk:

betegek.csv – Ez az adatkészlet körülbelül 3.2 MB, és körülbelül 11,000 25 sornyi betegadatot tartalmaz (XNUMX oszlop, beleértve a páciens azonosítóját, születési dátumát, nemét, címét stb.)
feltételek.csv - Ez az adatkészlet körülbelül 47 MB, és hozzávetőleg 370,000 XNUMX sornyi egészségügyi állapotadatot tartalmaz (hat oszlop, beleértve a betegazonosítót, az állapot kezdési dátumát, az állapotkódot stb.)
megfigyelések.csv - Ez az adatkészlet körülbelül 830 MB, és körülbelül 5 millió megfigyelési adatsort tartalmaz (nyolc oszlop, beleértve a páciens azonosítóját, a megfigyelés dátumát, a megfigyelési kódot, az értéket stb.)

Egy a többhez kapcsolat van a között patients és a conditions adatkészletek. Egy a többhez kapcsolat is van a között patients és a observations adatkészletek. A részletes adatszótárért lásd: CSV fájl adatszótár.

A generált adatkészletek feltöltéséhez az Amazon S3 forrástárolójába, futtassa a következő parancsokat a terminálmunkamenetben:
```
$ cd ./output/csv
$ aws s3 sync . s3://<source bucket name>/
```

Indítsa el a Data Wrangler programot

A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a SageMaker források a Studio navigációs oldalán és a projektek menüben válasszon Data Wrangler Data Wrangler adatfolyam létrehozásához. A Data Wrangler Studio-on belüli elindításának részletes lépéseiért lásd: Ismerkedjen meg a Data Wranglerrel.

Adatok importálása

Az adatok importálásához hajtsa végre a következő lépéseket:

A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Amazon S3 és keresse meg a páciensek.csv fájlt az S3 tárolóban.
A Részletek panelen válassza a lehetőséget Először K mert Mintavétel.
belép 1100 mert Minta nagysága.
Az előnézeti ablaktáblában a Data Wrangler kihúzza az első 100 sort az adatkészletből, és előnézetként felsorolja azokat.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a import.
A Data Wrangler a Synthea által generált összes betegből (1,100 11,000 sor) kiválasztja az első XNUMX beteget, és importálja az adatokat. A mintavételi megközelítés lehetővé teszi, hogy a Data Wrangler csak a mintaadatokat dolgozza fel. Lehetővé teszi, hogy kisebb adatkészlettel fejlesszük adatfolyamunkat, ami gyorsabb feldolgozást és rövidebb visszacsatolási hurkot eredményez. Az adatfolyam létrehozása után a kidolgozott receptet beküldhetjük a SageMaker feldolgozás feladat a teljes vagy nagyobb adatkészlet feldolgozásának elosztott módon történő vízszintes méretezése.
Ismételje meg ezt a folyamatot a conditions és a observations adatkészletek.
1. a conditions adatkészlet, adja meg 37000 mert Minta nagysága, ami a Synthea által generált összes 1 10 sor 370,000/XNUMX-e.
2. a observations adatkészlet, adja meg 500000 mert Minta nagysága, ami a Synthea által generált összes megfigyelés 1 millió sorának 10/5-e.

Három adatkészletet kell látnia, amint az a következő képernyőképen látható.

Alakítsa át az adatokat

Az adatátalakítás az adatkészlet egy vagy több oszlopának szerkezetének, értékének vagy formátumának megváltoztatásának folyamata. A folyamatot általában adatmérnök dolgozza ki, és a kisebb adatmérnöki készségekkel rendelkező emberek számára kihívást jelenthet az átalakításhoz javasolt logika megfejtése. Az adatátalakítás a tágabb jellemzők tervezési folyamatának része, és a lépések helyes sorrendje egy másik fontos kritérium, amelyet szem előtt kell tartani az ilyen receptek kidolgozásakor.

A Data Wranglert úgy tervezték, hogy alacsony kódszámú eszköz legyen, amely csökkenti a belépési akadályokat a hatékony adat-előkészítés érdekében. Több mint 300 előre konfigurált adatátalakítást tartalmaz, amelyek közül egyetlen kódsor megírása nélkül választhat. A következő szakaszokban látni fogjuk, hogyan lehet átalakítani az importált adatkészleteket a Data Wranglerben.

Drop oszlopok betegeknél.csv

Először eldobunk néhány oszlopot a patients adatkészlet. A redundáns oszlopok eldobása eltávolítja a nem releváns információkat az adatkészletből, és segít csökkenteni az adatkészlet feldolgozásához és a modell betanításához szükséges számítási erőforrások mennyiségét. Ebben a részben eldobjuk az olyan oszlopokat, mint az SSN vagy az útlevélszám, a józan ész alapján, hogy ezeknek az oszlopoknak nincs prediktív értéke. Más szóval, nem segítenek a modellünknek a szívelégtelenség előrejelzésében. Tanulmányunk nem foglalkozik más rovatokkal sem, mint például a szülőhely vagy az egészségügyi kiadások hatása a beteg szívelégtelenségére, ezért ezeket is elhagyjuk. A redundáns oszlopok a Data Wranglerbe beépített beépített elemzések futtatásával is azonosíthatók, például célszivárgás, jellemző korreláció, multikollinearitás és egyebek. A támogatott elemzéstípusokkal kapcsolatos további részletekért lásd: Elemezze és vizualizálja. Ezenkívül használhatja a Adatminőségi és betekintési jelentés automatizált elemzések végrehajtása az adatkészleteken, hogy megkapja a kiküszöbölendő redundáns oszlopok listáját.

Válassza ki a mellette lévő pluszjelet Adattípusok a betegek számára.csv adatkészlet és válassza ki Transzformáció hozzáadása.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lépés hozzáadása És válasszon Oszlopok kezelése.
A Átalakításválaszt Dobja el az oszlopot.
A Eldobandó oszlopok, válassza ki a következő oszlopokat:
1. SSN
2. DRIVERS
3. PASSPORT
4. PREFIX
5. FIRST
6. LAST
7. SUFFIX
8. MAIDEN
9. RACE
10. ETHNICITY
11. BIRTHPLACE
12. ADDRESS
13. CITY
14. STATE
15. COUNTY
16. ZIP
17. LAT
18. LON
19. HEALTHCARE_EXPENSES
20. HEALTHCARE_COVERAGE
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview az átalakított adatkészlet megtekintéséhez, majd válassza a lehetőséget hozzáad.

Látnod kell a lépést Dobja el az oszlopot az átalakítások listájában.

Dátum/idő megjelenítése a betegeknél.csv

Most a dátum/idő kiemelése funkciót használjuk az új funkció létrehozásához Year tól BIRTHDATE oszlop a patients adatkészlet. Az új funkciót egy következő lépésben használjuk, hogy kiszámítsuk a páciens korát a megfigyelés időpontjában.

A Átalakítások paneled Dobja el az oszlopot oldal a patients adatkészlet, válassza ki Lépés hozzáadása.
Válassza a Jelölje ki a dátumot/időt átalakítani.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Oszlopok kibontása.
A Beviteli oszlopok, adja hozzá az oszlopot BIRTHDATE.
választ Év és törölje a kijelölést Hónap, Nap, óra, Perc, Második.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.

Transzformációk hozzáadása a megfigyelések.csv-ben

A Data Wrangler támogatja az egyéni átalakításokat Python (felhasználó által definiált függvények), PySpark, Pandas vagy PySpark (SQL) használatával. Az átalakítás típusát az egyes opciók és preferenciák ismerete alapján választhatja ki. Az utóbbi három lehetőségnél a Data Wrangler felfedi a változót df hogy hozzáférjen az adatkerethez és átalakításokat alkalmazzon rajta. Részletes magyarázatért és példákért lásd: Egyedi átalakítások. Ebben a részben három egyéni átalakítást adunk hozzá a observations adatkészlet.

Adjon hozzá egy transzformációt a megfigyelések.csv fájlhoz, és dobja el a DESCRIPTION oszlop.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
A Átalakítások panelen válassza a lehetőséget Lépés hozzáadása És válasszon Egyedi átalakítás.
A legördülő menüben válassza a lehetőséget Python (pandák).

Írja be a következő kódot:

df = df[df["CODE"].isin(['8867-4','8480-6','8462-4','39156-5','777-3'])]

Ezek olyan LONIC kódok, amelyek megfelelnek a következő megfigyeléseknek, amelyeket szívesen használnánk szívelégtelenség előrejelzésére:

heart rate: 8867-4
systolic blood pressure: 8480-6
diastolic blood pressure: 8462-4
body mass index (BMI): 39156-5
platelets [#/volume] in Blood: 777-3

A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
Adjon hozzá egy transzformációt a kivonathoz Year és a Quarter tól DATE oszlop.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lépés hozzáadása És válasszon Egyedi átalakítás.
A legördülő menüben válassza a lehetőséget Python (PySpark).

Előfordulhat, hogy az ötféle megfigyelést nem mindig ugyanazon a napon rögzítik. Például a páciens január 21-én felkeresheti háziorvosát, és megmérheti és rögzítheti szisztolés vérnyomását, diasztolés vérnyomását, pulzusszámát és testtömegindexét. A vérlemezkéket is tartalmazó laboratóriumi vizsgálat azonban egy későbbi időpontban, február 2-án elvégezhető. Ezért nem mindig lehetséges az adatkereteket a megfigyelési dátumig egyesíteni. Itt egyesítjük az adatkereteket durva részletességgel negyedéves alapon.

Írja be a következő kódot:

from pyspark.sql.functions import col

systolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed("value", "systolic")
                   .filter((col("code") == "8480-6"))
  )

diastolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'diastolic')
                   .filter((col("code") == "8462-4"))
    )

hr_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'hr')
                   .filter((col("code") == "8867-4"))
    )

bmi_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'bmi')
                   .filter((col("code") == "39156-5"))
    )

platelets_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'platelets')
                   .filter((col("code") == "777-3"))
    )

df = (
    systolic_df.join(diastolic_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(hr_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(bmi_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(platelets_df, ["patient", "DATE_year", "DATE_quarter"])
)

A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lépés hozzáadása, majd válassza ki Sorok kezelése.
A Átalakítás, választ Dobd el a másolatokat.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lépés hozzáadása És válasszon Egyedi átalakítás.
A legördülő menüben válassza a lehetőséget Python (pandák).

Írja be a következő kódot az azonos időértékkel rendelkező adatpontok átlagának kiszámításához:

import pandas as pd
df.loc[:, df.columns != 'patient']=df.loc[:, df.columns != 'patient'].apply(pd.to_numeric)
df = df.groupby(['patient','DATE_year','DATE_quarter']).mean().round(0).reset_index()

A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.

Csatlakozzon a betegek.csv-hez és a megfigyelésekhez.csv-hez

Ebben a lépésben bemutatjuk, hogyan lehet hatékonyan és egyszerűen végrehajtani összetett illesztéseket adatkészleteken anélkül, hogy kódot kellene írni a Data Wrangler hatékony felhasználói felületén. Ha többet szeretne megtudni a támogatott csatlakozási típusokról, lásd: Adatok átalakítása.

-tól jobbra Átalakítás: betegek.csv, válassza ki a mellette lévő pluszjelet Lépései És válasszon Csatlakozik.
Az átalakított páciensek.csv fájlt az alábbi listában láthatja Datasets a bal oldali ablaktáblában.
-tól jobbra Átalakítás: megfigyelések.csv, kattintson a Lépései a csatlakozási művelet elindításához.
Az átalakított megfigyelések.csv fájl most a listában található Datasets a bal oldali ablaktáblában.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a konfigurálása.
A Csatlakozás típusa, választ Belső.
A Bal, választ Id.
A Jobb, választ beteg.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.

Adjon hozzá egyéni átalakítást az egyesített adatkészletekhez

Ebben a lépésben kiszámítjuk a páciens korát a megfigyelés időpontjában. Eldobjuk azokat az oszlopokat is, amelyekre már nincs szükség.

Válassza ki a mellette lévő pluszjelet 1. Csatlakozás És válasszon Transzformáció hozzáadása.

Egyéni transzformáció hozzáadása a Pandasban:

df['age'] = df['DATE_year'] - df['BIRTHDATE_year']
df = df.drop(columns=['BIRTHDATE','DEATHDATE','BIRTHDATE_year','patient'])

A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.

Egyéni átalakítások hozzáadása a conditions.csv fájlhoz

Válassza ki a mellette lévő pluszjelet Átalakítás: feltételek.csv És válasszon Transzformáció hozzáadása.

Egyéni transzformáció hozzáadása a Pandasban:

df = df[df["CODE"].isin(['84114007', '88805009', '59621000', '44054006', '53741008', '449868002', '49436004'])]
df = df.drop(columns=['DESCRIPTION','ENCOUNTER','STOP'])

Jegyzet: Amint azt korábban bemutattuk, az oszlopokat akár egyéni kóddal, akár a Data Wrangler által biztosított beépített átalakításokkal dobhatja el. A Data Wrangleren belüli egyéni átalakítások rugalmasságot biztosítanak, hogy saját átalakítási logikáját kódrészletek formájában vigye be a támogatott keretrendszerekbe. Ezek a töredékek később megkereshetők és szükség esetén alkalmazhatók.

Az előző transzformációban szereplő kódok SNOMED-CT kódok, amelyek megfelelnek a következő feltételeknek. A heart failure or chronic congestive heart failure állapot lesz a címke. A fennmaradó feltételeket a szívelégtelenség előrejelzésére használjuk. Eldobunk néhány olyan oszlopot is, amelyekre már nincs szükség.

Heart failure: 84114007
Chronic congestive heart failure: 88805009
Hypertension: 59621000
Diabetes: 44054006
Coronary Heart Disease: 53741008
Smokes tobacco daily: 449868002
Atrial Fibrillation: 49436004

Ezután adjunk hozzá egy egyéni átalakítást a PySparkban:

from pyspark.sql.functions import col, when

heartfailure_df = (
    df.select("patient", "start")
                      .withColumnRenamed("start", "heartfailure")
                   .filter((col("code") == "84114007") | (col("code") == "88805009"))
  )

hypertension_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "hypertension")
                   .filter((col("code") == "59621000"))
  )

diabetes_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "diabetes")
                   .filter((col("code") == "44054006"))
  )

coronary_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "coronary")
                   .filter((col("code") == "53741008"))
  )

smoke_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "smoke")
                   .filter((col("code") == "449868002"))
  )

atrial_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "atrial")
                   .filter((col("code") == "49436004"))
  )

df = (
    heartfailure_df.join(hypertension_df, ["patient"], "leftouter").withColumn("has_hypertension", when(col("hypertension") < col("heartfailure"), 1).otherwise(0))
    .join(diabetes_df, ["patient"], "leftouter").withColumn("has_diabetes", when(col("diabetes") < col("heartfailure"), 1).otherwise(0))
    .join(coronary_df, ["patient"], "leftouter").withColumn("has_coronary", when(col("coronary") < col("heartfailure"), 1).otherwise(0))
    .join(smoke_df, ["patient"], "leftouter").withColumn("has_smoke", when(col("smoke") < col("heartfailure"), 1).otherwise(0))
    .join(atrial_df, ["patient"], "leftouter").withColumn("has_atrial", when(col("atrial") < col("heartfailure"), 1).otherwise(0))
)

Bal oldali külső illesztést hajtunk végre, hogy minden bejegyzés megmaradjon a szívelégtelenség adatkeretében. Új oszlop has_xxx a szívelégtelenség kivételével minden egyéb állapotra az állapot kezdő dátuma alapján kerül kiszámításra. Csak azokra az egészségügyi állapotokra vagyunk kíváncsiak, amelyeket a szívelégtelenség előtt rögzítettek, és ezeket használjuk a szívelégtelenség előrejelzésére.

Adjon hozzá egy beépítettet Oszlopok kezelése átalakítja a felesleges oszlopok eldobásához:
1. hypertension
2. diabetes
3. coronary
4. smoke
5. atrial
kivonat Year és a Quarter tól heartfailure oszlop.
Ez megegyezik azzal a részletességgel, amelyet korábban az átalakítás során használtunk observations adatkészlet.
Összesen 6 lépésünk kell a feltételekhez.csv.

Csatlakoztassa a feltételek.csv fájlt az összekapcsolt adatkészlethez

Most egy új összekapcsolást hajtunk végre, hogy a feltételek adatkészletét összekapcsoljuk a csatlakoztatottal patients és a observations adatkészlet.

A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Átalakítás: 1. csatlakozás.
Válassza ki a plusz jelet, és válassza ki Csatlakozik.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lépései mellett Átalakítás: feltételek.csv.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a konfigurálása.
A Csatlakozás típusa, választ Bal külső.
A Bal, választ Id.
A Jobb, választ beteg.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.

Adjon hozzá átalakításokat az egyesített adatkészletekhez

Most, hogy mindhárom adatkészletet összekapcsoltuk, alkalmazzunk néhány további átalakítást.

Adja hozzá a következő egyéni transzformációt a PySparkban úgy has_heartfailure címke oszlopunkká válik:

from pyspark.sql.functions import col, when
df = (
    df.withColumn("has_heartfailure", when(col("heartfailure").isNotNull(), 1).otherwise(0))
)

Adja hozzá a következő egyéni átalakítást a PySparkban:
```
from pyspark.sql.functions import col

df = (
    df.filter(
      (col("has_heartfailure") == 0) | 
      ((col("has_heartfailure") == 1) & ((col("date_year") <= col("heartfailure_year")) | ((col("date_year") == col("heartfailure_year")) & (col("date_quarter") <= col("heartfailure_quarter")))))
    )
)
```
Minket csak a szívelégtelenség diagnosztizálása előtt rögzített megfigyelések érdekelnek, és ezeket a szívelégtelenség előrejelzésére használjuk. A szívelégtelenség diagnosztizálása után végzett megfigyeléseket befolyásolhatja a beteg által szedett gyógyszer, ezért ezeket szeretnénk kizárni.
Dobja el a felesleges oszlopokat, amelyekre már nincs szükség:
1. Id
2. DATE_year
3. DATE_quarter
4. patient
5. heartfailure
6. heartfailure_year
7. heartfailure_quarter
A Elemzés fül, for Elemzés típusaválaszt Táblázat összefoglaló.
Az összefoglaló gyors átvizsgálása azt mutatja, hogy a MARITAL oszlopban hiányoznak az adatok.
Válassza a dátum fület, és adjon hozzá egy lépést.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Fogantyú hiányzik.
A Átalakítás, választ Kitöltés hiányzik.
A Beviteli oszlopok, választ HÁZASSÁGI.
A Kitöltési érték, belép S.
Stratégiánk itt az, hogy feltételezzük, hogy a beteg egyedülálló, ha a családi állapotnak nincs értéke. Lehet más stratégiád is.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
Töltse ki a hiányzó értéket 0-val has_hypertension, has_diabetes, has_coronary, has_smoke, has_atrial.

Marital és a Gender kategoriális változók. A Data Wrangler beépített funkcióval rendelkezik a kategoriális változók kódolására.

Adjon hozzá egy lépést, és válassza ki Kategória kódolása.
A Átalakítás, választ Egyszeri kódolás.
A Beviteli oszlopok, választ HÁZASSÁGI.
A Kimeneti stílus, választ Oszlop.
Ez a kimeneti stílus kódolt értékeket állít elő külön oszlopokban.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
Ismételje meg ezeket a lépéseket a nem oszlop.

Az one-hot kódolás felosztja a házassági oszlopot Marital_M (házas) és Marital_S (egyetlen), és felosztja a Nem oszlopot Gender_M (férfi) és Gender_F (női). Mert Marital_M és a Marital_S kölcsönösen kizárják egymást (akárcsak Gender_M és a Gender_F), eldobhatunk egy oszlopot, hogy elkerüljük a redundáns funkciókat.

Csepp Marital_S és a Gender_F.

A numerikus jellemzők, például a szisztolés, a pulzusszám és az életkor eltérő mértékegységszabványokkal rendelkeznek. Egy lineáris regresszió alapú modellhez először ezeket a numerikus jellemzőket kell normalizálnunk. Ellenkező esetben egyes magasabb abszolút értékű jellemzők jogosulatlan előnnyel rendelkeznek az alacsonyabb abszolút értékű jellemzőkkel szemben, és a modell gyenge teljesítményét eredményezhetik. A Data Wrangler beépített Min-max transzformációs skálázóval rendelkezik az adatok normalizálásához. A döntési fa alapú osztályozási modelleknél nincs szükség normalizálásra. Vizsgálatunk egy osztályozási probléma, így nem kell normalizálást alkalmaznunk. A kiegyensúlyozatlan osztályok gyakori probléma az osztályozásban. Kiegyensúlyozatlanság akkor fordul elő, ha a betanítási adatkészlet erősen torz osztályeloszlást tartalmaz. Például, ha az adatkészletünk aránytalanul több szívelégtelenségben szenvedő beteget tartalmaz, mint szívelégtelenségben szenvedő betegeket, ez azt eredményezheti, hogy a modell a szívelégtelenség előrejelzésére irányul, és gyengén teljesít. A Data Wrangler beépített funkcióval rendelkezik a probléma megoldására.

Adjon hozzá egyéni transzformációt a Pandasban, hogy az oszlopok adattípusát „objektum” típusúról numerikus típusra konvertálja:
```
import pandas as pd
df=df.apply(pd.to_numeric)
```
Válassza a Elemzés Tab.
A Elemzés típusaválaszt hisztogram.
A X tengely, választ szívelégtelensége van.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.

Nyilvánvaló, hogy van egy kiegyensúlyozatlan osztályunk (több adatpont a szívelégtelenségnek nevezett adatpont, mint a szívelégtelenségnek nevezett adatpont).
Menj vissza a dátum fülre. Választ Lépés hozzáadása És válasszon Egyenlegadatok.
A Céloszlop, választ szívelégtelensége van.
A Kívánt arány, belép 1.
A Átalakítás, választ SMOTE.

A SMOTE a Synthetic Minority Over-sampling Technique rövidítése. Ez a technika új kisebbségi példányok létrehozására és az adatkészlethez való hozzáadására az osztályegyensúly elérése érdekében. Részletes információkért lásd: SMOTE: Szintetikus Minority Over-sampling Technique.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
Ismételje meg a hisztogram elemzést a 20-23. lépésben. Az eredmény egy kiegyensúlyozott osztály.

Vizualizálja a célszivárgást és a funkció korrelációját

Ezután néhány vizuális elemzést fogunk végrehajtani a Data Wrangler fejlett, ML által támogatott elemzési típusok gazdag eszközkészletével. Először a célszivárgást nézzük. Célszivárgás akkor fordul elő, ha a betanítási adatkészletben lévő adatok erősen korrelálnak a célcímkével, de nem állnak rendelkezésre valós adatokban a következtetés időpontjában.

A Elemzés lap, A Elemzés típusaválaszt Cél szivárgás.
A Probléma típusa, választ besorolás.
A cél, választ szívelégtelensége van.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.

Az elemzés alapján hr célszerű szivárgás. Egy következő lépésben ejtjük. age célszivárgásnak van megjelölve. Ésszerű azt mondani, hogy a páciens életkora a következtetési idő alatt elérhető lesz, ezért az életkort jellemzőként tartjuk fenn. Systolic és a diastolic szintén valószínű célszivárgásként vannak megjelölve. Arra számítunk, hogy a két mérést a következtetési idő alatt végezzük, ezért megtartjuk őket jellemzőként.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a hozzáad az elemzés hozzáadásához.

Ezután megvizsgáljuk a jellemzők korrelációját. Olyan jellemzőket szeretnénk kiválasztani, amelyek korrelálnak a céllal, de nem korrelálnak egymással.

A Elemzés lap, A Elemzés típusaválaszt Jellemzők korrelációja.
A Correlation Typeválaszt lineáris.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.

Az együttható pontszámok erős korrelációt jeleznek a következő párok között:

systolic és a diastolic
bmi és a age
has_hypertension és a has_heartfailure (címke)

Az erősen korrelált jellemzők esetében a mátrixokat számításilag nehéz invertálni, ami numerikusan instabil becslésekhez vezethet. A korreláció enyhítésére egyszerűen eltávolíthatunk egyet a párból. Leesünk diastolic és a bmi és tartsd systolic és a age egy következő lépésben.

Csökkentse a diasztolés és a BMI oszlopokat

Adjon hozzá további átalakítási lépéseket a hr, diastolic és a bmi oszlopokat a beépített transzformáció segítségével.

Készítse el az Adatminőség és Insights jelentést

AWS nemrég bejelentés a Data Wrangler új Data Quality and Insights Report funkciója. Ez a jelentés automatikusan ellenőrzi az adatok minőségét, és észleli az adatok rendellenességeit. Az adattudósok és adatmérnökök ezzel az eszközzel hatékonyan és gyorsan alkalmazhatják a tartományi ismereteket az ML-modell képzéséhez szükséges adatkészletek feldolgozásához. Ez a lépés nem kötelező. Az adatkészleteinkről szóló jelentés elkészítéséhez hajtsa végre a következő lépéseket:

A Elemzés fül, for Elemzés típusa, választ Adatminőségi és betekintési jelentés.
A Céloszlop, választ szívelégtelensége van.
A Probléma típusaválassza Osztályozás.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Teremt.

Néhány percen belül jelentést készít összefoglalóval, látványelemekkel és javaslatokkal.

Gyors modellelemzés létrehozása

Befejeztük az adat-előkészítést, a tisztítást és a funkciótervezést. A Data Wrangler beépített funkcióval rendelkezik, amely hozzávetőleges becslést ad az adatkészletünkben található funkciók várható várható minőségéről és előrejelző erejéről.

A Elemzés fül, for Elemzés típusaválaszt Gyors modell.
A Címke, választ szívelégtelensége van.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.

Gyors modell elemzésünk szerint láthatjuk a funkciót has_hypertension rendelkezik a legmagasabb fontossági pontszámmal az összes szolgáltatás közül.

Exportálja az adatokat és képezze be a modellt

Most exportáljuk az átalakított ML-ready jellemzőket egy cél S3 tárolóba, és méretezzük a minták felhasználásával eddig létrehozott teljes szolgáltatástervezési folyamatot elosztott módon a teljes adatkészletbe.

Válassza ki a pluszjelet az adatfolyam utolsó mezője mellett, és válassza ki Úticél hozzáadása.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Amazon S3.
Írjon be egy Adatkészlet neve. Fórum Amazon S3 hely, válasszon egy S3 vödröt, majd válasszon Úti cél hozzáadása.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Állás létrehozása elosztott PySpark feldolgozási feladat elindításához az átalakítás végrehajtásához és az adatok a cél S3 tárolóba való kimenetéhez.

Az adatkészletek méretétől függően ez a beállítás lehetővé teszi a fürt egyszerű konfigurálását és vízszintes skálázását kód nélküli módon. Nem kell aggódnunk az adatkészletek particionálása vagy a fürt és a Spark belsők kezelése miatt. Minderről a Data Wrangler automatikusan gondoskodik.
A bal oldali panelen válassza a lehetőséget Ezután 2. Állítsa be a feladatot.
Ezután válasszon futás.

Alternatív megoldásként az átalakított kimenetet S3-ba is exportálhatjuk egy Jupyter Notebookon keresztül. Ezzel a megközelítéssel a Data Wrangler automatikusan létrehoz egy Jupyter-jegyzetfüzetet a feldolgozási feladat elindításához szükséges összes kóddal, hogy az adatfolyam lépéseit (minta felhasználásával létrehozva) alkalmazza a nagyobb teljes adatkészleten, és az átalakított adatkészletet funkcióként használja a feldolgozás elindításához. később kiképzési munkából. A notebook kódja könnyen futtatható változtatásokkal vagy anélkül. Most nézzük meg a Data Wrangler UI-n keresztüli végrehajtásának lépéseit.

Válassza az adatfolyam utolsó lépése melletti pluszjelet, és válassza a lehetőséget Exportálás.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Amazon S3 (a Jupyter Notebookon keresztül).
Automatikusan megnyit egy új lapot a Jupyter notebook segítségével.
A Jupyter jegyzetfüzetben keresse meg a cellát a (Nem kötelező) Következő lépések szakaszt és változtassa meg run_optional_steps ból ből False nak nek True.
A notebook engedélyezett opcionális lépései a következőket hajtják végre:
- Tanítson modellt az XGBoost segítségével
Menjen vissza a jegyzetfüzet tetejére, és a futás menüben válasszon Futtassa az összes cellát.

Ha a generált jegyzetfüzetet úgy használja, ahogy van, az elindít egy SageMaker feldolgozási feladatot, amely két m5.4xlarge példányra méretezi a feldolgozást, hogy feldolgozza a teljes adatkészletet az S3 tárolóban. Beállíthatja a példányok számát és a példánytípusokat az adatkészlet mérete és a feladat befejezéséhez szükséges idő alapján.

Várja meg, amíg az utolsó cellából származó betanítási feladat befejeződik. Modellt hoz létre a SageMaker alapértelmezett S3 tárolójában.

A betanított modell készen áll a telepítésre akár valós idejű következtetéshez, akár kötegelt átalakításhoz. Vegye figyelembe, hogy szintetikus adatokat használtunk a Data Wrangler funkcióinak bemutatására, és feldolgozott adatokat használtunk a betanítási modellhez. Tekintettel arra, hogy az általunk felhasznált adatok szintetikusak, a betanított modellből származó következtetések nem a valós egészségügyi állapot diagnosztizálására vagy az orvosok megítélésének helyettesítésére szolgálnak.

Az átalakított adatkészletet közvetlenül is exportálhatja az Amazon S3-ba, ha kiválasztja Export az átalakítás előnézeti oldalának tetején. A közvetlen exportálási lehetőség csak akkor exportálja az átalakított mintát, ha a mintavétel engedélyezve volt az importálás során. Ez a lehetőség akkor a legalkalmasabb, ha kisebb adatkészletekkel foglalkozik. Az átalakított adatok közvetlenül egy szolgáltatástárolóba is feldolgozhatók. További információkért lásd: Amazon SageMaker Feature Store. Az adatfolyam SageMaker-folyamatként is exportálható, amely az Ön igényei szerint hangszerelhető és ütemezhető. További információkért lásd Amazon SageMaker csővezetékek.

Következtetés

Ebben a bejegyzésben bemutattuk, hogyan használható a Data Wrangler az egészségügyi adatok feldolgozására és a méretezhető funkciók tervezésére eszközvezérelt, alacsony kódú módon. Megtanultuk, hogyan alkalmazzuk a beépített átalakításokat és elemzéseket, ahol szükség van rá, és hogyan kombináljuk ezt az egyéni átalakításokkal, hogy még rugalmasabbá tegyük adat-előkészítési munkafolyamatunkat. Áttekintettük az adatfolyam-receptek elosztott feldolgozási feladatokon keresztüli méretezésének különböző lehetőségeit is. Azt is megtudtuk, hogy az átalakított adatok hogyan használhatók fel egyszerűen a szívelégtelenség előrejelzésére szolgáló modell képzésére.

A Data Wranglerben sok más funkció is található, amelyekre ebben a bejegyzésben nem tértünk ki. Fedezze fel, mi lehetséges Készítsen ML adatokat az Amazon SageMaker Data Wrangler segítségével és megtudhatja, hogyan használhatja fel a Data Wranglert következő adattudományi vagy gépi tanulási projektjéhez.

A szerzőkről

Forrest Sun Senior Solution Architect az AWS Public Sector csapatánál Torontóban, Kanadában. Az elmúlt két évtizedben az egészségügyben és a pénzügyi szektorban dolgozott. A munkán kívül szívesen táboroz a családjával.

Az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével nagyszabású szolgáltatástervezés az egészségügy és az élettudományok számára. Függőleges keresés. Ai. Arunprasath Shankar a mesterséges intelligencia és a gépi tanulás (AI/ML) specialistája az AWS-vel, segít a globális ügyfeleknek mesterséges intelligencia-megoldásaik hatékony és eredményes felhőben történő méretezésében. Szabadidejében Arun szívesen néz sci-fi filmeket és hallgat klasszikus zenét.