A gépi tanulás (ML) számos iparágat tönkretesz példátlan ütemben. Az egészségügy és az élettudományok (HCLS) iparága az elmúlt években gyors fejlődésen ment keresztül, és az ML számos felhasználási esetet felölel a minőségi ellátás biztosítása és a betegek kimenetelének javítása érdekében.
Egy tipikus ML életciklusban az adatmérnökök és tudósok idejük nagy részét az adatok előkészítésével és a jellemzők tervezési lépéseivel töltik, mielőtt elkezdenék a modellépítés és -képzés folyamatát. Egy olyan eszköz megléte, amely csökkentheti az adat-előkészítés belépési korlátait, ezáltal javítva a termelékenységet, nagyon kívánatos ezektől a személyektől. Amazon SageMaker Data Wrangler Az AWS célja, hogy csökkentse a tanulási görbét, és lehetővé tegye az adatkezelők számára az adat-előkészítési, -tisztítási és -tervezési feladatok elvégzését kevesebb erőfeszítés és idő alatt. GUI interfészt kínál számos beépített funkcióval és integrációval más AWS szolgáltatásokkal, mint pl Amazon egyszerű tárolási szolgáltatás (Amazon S3) és Amazon SageMaker Feature Store, valamint a partner adatforrásai, köztük a Snowflake és a Databricks.
Ebben a bejegyzésben bemutatjuk, hogyan használható a Data Wrangler egészségügyi adatok előkészítésére a szívelégtelenség előrejelzésére szolgáló modell képzéséhez, figyelembe véve a páciens demográfiai adatait, korábbi egészségügyi állapotait és laboratóriumi vizsgálati eredményeit.
Megoldás áttekintése
A megoldás a következő lépésekből áll:
- Szerezzen be egy egészségügyi adatkészletet a Data Wrangler bemeneteként.
- Használja a Data Wrangler beépített átalakítási funkcióit az adatkészlet átalakításához. Ez magában foglalja az oszlopok eldobását, az adatok/idő jellemzőit, az adatkészletek összekapcsolását, a hiányzó értékek beszámítását, a kategorikus változók kódolását, a numerikus értékek skálázását, az adatkészlet kiegyensúlyozását stb.
- Használja a Data Wrangler egyedi átalakítási funkcióját (Pandas vagy PySpark kód) a beépített átalakításokon túlmenően szükséges további átalakítások kiegészítésére, és demonstrálja a Data Wrangler bővíthetőségét. Ez magában foglalja a szűrősorokat, az adatok csoportosítását, a feltételek alapján új adatkeretek létrehozását stb.
- Használja a Data Wrangler beépített vizualizációs funkcióit a vizuális elemzéshez. Ez magában foglalja a célszivárgást, a funkciók korrelációját, a gyors modellt és még sok mást.
- A Data Wrangler beépített exportálási lehetőségeivel exportálhatja az átalakított adatkészletet az Amazon S3-ba.
- Indítson el egy Jupyter notebookot, hogy az Amazon S3 átalakított adatkészletét bemenetként használja a modell betanításához.
Adatkészlet létrehozása
Most, hogy megállapodtunk az ML problémafelvetésnél, először is a szükséges adatok beszerzését tűztük ki célul. Kutatási tanulmányok, mint pl Szívelégtelenség előrejelzése olyan adatokat szolgáltathat, amelyek már jó állapotban vannak. Azonban gyakran találkozunk olyan forgatókönyvekkel, amikor az adatok meglehetősen zűrösek, és csatlakozást, tisztítást és számos más, az egészségügyi területre jellemző átalakítást igényelnek, mielőtt felhasználhatók ML képzésre. Olyan adatokat szeretnénk találni vagy előállítani, amelyek elég rendetlenek, és végigvezetjük a Data Wrangler segítségével történő előkészítés lépésein. Ezt szem előtt tartva választottuk a Syntheát olyan eszközként, amellyel szintetikus adatokat generálhatunk, amelyek megfelelnek a célunknak. Synthea egy nyílt forráskódú szintetikus beteggenerátor, amely szintetikus betegek kórtörténetét modellezi. Az adatkészlet létrehozásához hajtsa végre a következő lépéseket:
- Kövesse az utasításokat a Gyors indítás dokumentáció létrehozásához egy Amazon SageMaker Studio domain és indítsa el a Studio-t.
Ez egy előfeltétel lépés. Ez nem kötelező, ha a Studio már be van állítva a fiókjában. - A Studio elindítása után a Launcher lapot választani Rendszerterminál.
Ez elindít egy terminál munkamenetet, amely parancssori felületet biztosít a munkavégzéshez. - A Synthea telepítéséhez és az adatkészlet CSV formátumban történő előállításához futtassa a következő parancsokat az elindított terminálmunka során:
Megadunk egy paramétert a 10,000 XNUMX-es populációmérettel rendelkező adatkészletek előállításához. Vegye figyelembe, hogy a méret paraméter a populáció élő tagjainak számát jelöli. Ezenkívül a Synthea adatokat is generál a populáció elhalt tagjairól, ami néhány további adatpontot adhat hozzá a megadott mintaméreten felül.
Várja meg, amíg az adatgenerálás befejeződik. Ez a lépés általában körülbelül egy órát vagy kevesebbet vesz igénybe. A Synthea több adatkészletet hoz létre, beleértve patients
, medications
, allergies
, conditions
, és több. Ehhez a bejegyzéshez az eredményül kapott adatkészletek közül hármat használunk:
- betegek.csv – Ez az adatkészlet körülbelül 3.2 MB, és körülbelül 11,000 25 sornyi betegadatot tartalmaz (XNUMX oszlop, beleértve a páciens azonosítóját, születési dátumát, nemét, címét stb.)
- feltételek.csv - Ez az adatkészlet körülbelül 47 MB, és hozzávetőleg 370,000 XNUMX sornyi egészségügyi állapotadatot tartalmaz (hat oszlop, beleértve a betegazonosítót, az állapot kezdési dátumát, az állapotkódot stb.)
- megfigyelések.csv - Ez az adatkészlet körülbelül 830 MB, és körülbelül 5 millió megfigyelési adatsort tartalmaz (nyolc oszlop, beleértve a páciens azonosítóját, a megfigyelés dátumát, a megfigyelési kódot, az értéket stb.)
Egy a többhez kapcsolat van a között patients
és a conditions
adatkészletek. Egy a többhez kapcsolat is van a között patients
és a observations
adatkészletek. A részletes adatszótárért lásd: CSV fájl adatszótár.
- A generált adatkészletek feltöltéséhez az Amazon S3 forrástárolójába, futtassa a következő parancsokat a terminálmunkamenetben:
Indítsa el a Data Wrangler programot
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a SageMaker források a Studio navigációs oldalán és a projektek menüben válasszon Data Wrangler Data Wrangler adatfolyam létrehozásához. A Data Wrangler Studio-on belüli elindításának részletes lépéseiért lásd: Ismerkedjen meg a Data Wranglerrel.
Adatok importálása
Az adatok importálásához hajtsa végre a következő lépéseket:
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Amazon S3 és keresse meg a páciensek.csv fájlt az S3 tárolóban.
- A Részletek panelen válassza a lehetőséget Először K mert Mintavétel.
- belép
1100
mert Minta nagysága.
Az előnézeti ablaktáblában a Data Wrangler kihúzza az első 100 sort az adatkészletből, és előnézetként felsorolja azokat. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a import.
A Data Wrangler a Synthea által generált összes betegből (1,100 11,000 sor) kiválasztja az első XNUMX beteget, és importálja az adatokat. A mintavételi megközelítés lehetővé teszi, hogy a Data Wrangler csak a mintaadatokat dolgozza fel. Lehetővé teszi, hogy kisebb adatkészlettel fejlesszük adatfolyamunkat, ami gyorsabb feldolgozást és rövidebb visszacsatolási hurkot eredményez. Az adatfolyam létrehozása után a kidolgozott receptet beküldhetjük a SageMaker feldolgozás feladat a teljes vagy nagyobb adatkészlet feldolgozásának elosztott módon történő vízszintes méretezése. - Ismételje meg ezt a folyamatot a
conditions
és aobservations
adatkészletek.- a
conditions
adatkészlet, adja meg37000
mert Minta nagysága, ami a Synthea által generált összes 1 10 sor 370,000/XNUMX-e. - a
observations
adatkészlet, adja meg500000
mert Minta nagysága, ami a Synthea által generált összes megfigyelés 1 millió sorának 10/5-e.
- a
Három adatkészletet kell látnia, amint az a következő képernyőképen látható.
Alakítsa át az adatokat
Az adatátalakítás az adatkészlet egy vagy több oszlopának szerkezetének, értékének vagy formátumának megváltoztatásának folyamata. A folyamatot általában adatmérnök dolgozza ki, és a kisebb adatmérnöki készségekkel rendelkező emberek számára kihívást jelenthet az átalakításhoz javasolt logika megfejtése. Az adatátalakítás a tágabb jellemzők tervezési folyamatának része, és a lépések helyes sorrendje egy másik fontos kritérium, amelyet szem előtt kell tartani az ilyen receptek kidolgozásakor.
A Data Wranglert úgy tervezték, hogy alacsony kódszámú eszköz legyen, amely csökkenti a belépési akadályokat a hatékony adat-előkészítés érdekében. Több mint 300 előre konfigurált adatátalakítást tartalmaz, amelyek közül egyetlen kódsor megírása nélkül választhat. A következő szakaszokban látni fogjuk, hogyan lehet átalakítani az importált adatkészleteket a Data Wranglerben.
Drop oszlopok betegeknél.csv
Először eldobunk néhány oszlopot a patients
adatkészlet. A redundáns oszlopok eldobása eltávolítja a nem releváns információkat az adatkészletből, és segít csökkenteni az adatkészlet feldolgozásához és a modell betanításához szükséges számítási erőforrások mennyiségét. Ebben a részben eldobjuk az olyan oszlopokat, mint az SSN vagy az útlevélszám, a józan ész alapján, hogy ezeknek az oszlopoknak nincs prediktív értéke. Más szóval, nem segítenek a modellünknek a szívelégtelenség előrejelzésében. Tanulmányunk nem foglalkozik más rovatokkal sem, mint például a szülőhely vagy az egészségügyi kiadások hatása a beteg szívelégtelenségére, ezért ezeket is elhagyjuk. A redundáns oszlopok a Data Wranglerbe beépített beépített elemzések futtatásával is azonosíthatók, például célszivárgás, jellemző korreláció, multikollinearitás és egyebek. A támogatott elemzéstípusokkal kapcsolatos további részletekért lásd: Elemezze és vizualizálja. Ezenkívül használhatja a Adatminőségi és betekintési jelentés automatizált elemzések végrehajtása az adatkészleteken, hogy megkapja a kiküszöbölendő redundáns oszlopok listáját.
- Válassza ki a mellette lévő pluszjelet Adattípusok a betegek számára.csv adatkészlet és válassza ki Transzformáció hozzáadása.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lépés hozzáadása És válasszon Oszlopok kezelése.
- A Átalakításválaszt Dobja el az oszlopot.
- A Eldobandó oszlopok, válassza ki a következő oszlopokat:
SSN
DRIVERS
PASSPORT
PREFIX
FIRST
LAST
SUFFIX
MAIDEN
RACE
ETHNICITY
BIRTHPLACE
ADDRESS
CITY
STATE
COUNTY
ZIP
LAT
LON
HEALTHCARE_EXPENSES
HEALTHCARE_COVERAGE
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview az átalakított adatkészlet megtekintéséhez, majd válassza a lehetőséget hozzáad.
Látnod kell a lépést Dobja el az oszlopot az átalakítások listájában.
Dátum/idő megjelenítése a betegeknél.csv
Most a dátum/idő kiemelése funkciót használjuk az új funkció létrehozásához Year
tól BIRTHDATE
oszlop a patients
adatkészlet. Az új funkciót egy következő lépésben használjuk, hogy kiszámítsuk a páciens korát a megfigyelés időpontjában.
- A Átalakítások paneled Dobja el az oszlopot oldal a
patients
adatkészlet, válassza ki Lépés hozzáadása. - Válassza a Jelölje ki a dátumot/időt átalakítani.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Oszlopok kibontása.
- A Beviteli oszlopok, adja hozzá az oszlopot
BIRTHDATE
. - választ Év és törölje a kijelölést Hónap, Nap, óra, Perc, Második.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
Transzformációk hozzáadása a megfigyelések.csv-ben
A Data Wrangler támogatja az egyéni átalakításokat Python (felhasználó által definiált függvények), PySpark, Pandas vagy PySpark (SQL) használatával. Az átalakítás típusát az egyes opciók és preferenciák ismerete alapján választhatja ki. Az utóbbi három lehetőségnél a Data Wrangler felfedi a változót df
hogy hozzáférjen az adatkerethez és átalakításokat alkalmazzon rajta. Részletes magyarázatért és példákért lásd: Egyedi átalakítások. Ebben a részben három egyéni átalakítást adunk hozzá a observations
adatkészlet.
- Adjon hozzá egy transzformációt a megfigyelések.csv fájlhoz, és dobja el a
DESCRIPTION
oszlop. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
- A Átalakítások panelen válassza a lehetőséget Lépés hozzáadása És válasszon Egyedi átalakítás.
- A legördülő menüben válassza a lehetőséget Python (pandák).
- Írja be a következő kódot:
Ezek olyan LONIC kódok, amelyek megfelelnek a következő megfigyeléseknek, amelyeket szívesen használnánk szívelégtelenség előrejelzésére:
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
- Adjon hozzá egy transzformációt a kivonathoz
Year
és aQuarter
tólDATE
oszlop. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lépés hozzáadása És válasszon Egyedi átalakítás.
- A legördülő menüben válassza a lehetőséget Python (PySpark).
Előfordulhat, hogy az ötféle megfigyelést nem mindig ugyanazon a napon rögzítik. Például a páciens január 21-én felkeresheti háziorvosát, és megmérheti és rögzítheti szisztolés vérnyomását, diasztolés vérnyomását, pulzusszámát és testtömegindexét. A vérlemezkéket is tartalmazó laboratóriumi vizsgálat azonban egy későbbi időpontban, február 2-án elvégezhető. Ezért nem mindig lehetséges az adatkereteket a megfigyelési dátumig egyesíteni. Itt egyesítjük az adatkereteket durva részletességgel negyedéves alapon. - Írja be a következő kódot:
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lépés hozzáadása, majd válassza ki Sorok kezelése.
- A Átalakítás, választ Dobd el a másolatokat.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lépés hozzáadása És válasszon Egyedi átalakítás.
- A legördülő menüben válassza a lehetőséget Python (pandák).
- Írja be a következő kódot az azonos időértékkel rendelkező adatpontok átlagának kiszámításához:
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
Csatlakozzon a betegek.csv-hez és a megfigyelésekhez.csv-hez
Ebben a lépésben bemutatjuk, hogyan lehet hatékonyan és egyszerűen végrehajtani összetett illesztéseket adatkészleteken anélkül, hogy kódot kellene írni a Data Wrangler hatékony felhasználói felületén. Ha többet szeretne megtudni a támogatott csatlakozási típusokról, lásd: Adatok átalakítása.
- -tól jobbra Átalakítás: betegek.csv, válassza ki a mellette lévő pluszjelet Lépései És válasszon Csatlakozik.
Az átalakított páciensek.csv fájlt az alábbi listában láthatja Datasets a bal oldali ablaktáblában. - -tól jobbra Átalakítás: megfigyelések.csv, kattintson a Lépései a csatlakozási művelet elindításához.
Az átalakított megfigyelések.csv fájl most a listában található Datasets a bal oldali ablaktáblában. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a konfigurálása.
- A Csatlakozás típusa, választ Belső.
- A Bal, választ Id.
- A Jobb, választ beteg.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
Adjon hozzá egyéni átalakítást az egyesített adatkészletekhez
Ebben a lépésben kiszámítjuk a páciens korát a megfigyelés időpontjában. Eldobjuk azokat az oszlopokat is, amelyekre már nincs szükség.
- Válassza ki a mellette lévő pluszjelet 1. Csatlakozás És válasszon Transzformáció hozzáadása.
- Egyéni transzformáció hozzáadása a Pandasban:
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
Egyéni átalakítások hozzáadása a conditions.csv fájlhoz
- Válassza ki a mellette lévő pluszjelet Átalakítás: feltételek.csv És válasszon Transzformáció hozzáadása.
- Egyéni transzformáció hozzáadása a Pandasban:
Jegyzet: Amint azt korábban bemutattuk, az oszlopokat akár egyéni kóddal, akár a Data Wrangler által biztosított beépített átalakításokkal dobhatja el. A Data Wrangleren belüli egyéni átalakítások rugalmasságot biztosítanak, hogy saját átalakítási logikáját kódrészletek formájában vigye be a támogatott keretrendszerekbe. Ezek a töredékek később megkereshetők és szükség esetén alkalmazhatók.
Az előző transzformációban szereplő kódok SNOMED-CT kódok, amelyek megfelelnek a következő feltételeknek. A heart failure
or chronic congestive heart failure
állapot lesz a címke. A fennmaradó feltételeket a szívelégtelenség előrejelzésére használjuk. Eldobunk néhány olyan oszlopot is, amelyekre már nincs szükség.
- Ezután adjunk hozzá egy egyéni átalakítást a PySparkban:
Bal oldali külső illesztést hajtunk végre, hogy minden bejegyzés megmaradjon a szívelégtelenség adatkeretében. Új oszlop
has_xxx
a szívelégtelenség kivételével minden egyéb állapotra az állapot kezdő dátuma alapján kerül kiszámításra. Csak azokra az egészségügyi állapotokra vagyunk kíváncsiak, amelyeket a szívelégtelenség előtt rögzítettek, és ezeket használjuk a szívelégtelenség előrejelzésére. - Adjon hozzá egy beépítettet Oszlopok kezelése átalakítja a felesleges oszlopok eldobásához:
hypertension
diabetes
coronary
smoke
atrial
- kivonat
Year
és aQuarter
tólheartfailure
oszlop.
Ez megegyezik azzal a részletességgel, amelyet korábban az átalakítás során használtunkobservations
adatkészlet. - Összesen 6 lépésünk kell a feltételekhez.csv.
Csatlakoztassa a feltételek.csv fájlt az összekapcsolt adatkészlethez
Most egy új összekapcsolást hajtunk végre, hogy a feltételek adatkészletét összekapcsoljuk a csatlakoztatottal patients
és a observations
adatkészlet.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Átalakítás: 1. csatlakozás.
- Válassza ki a plusz jelet, és válassza ki Csatlakozik.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lépései mellett Átalakítás: feltételek.csv.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a konfigurálása.
- A Csatlakozás típusa, választ Bal külső.
- A Bal, választ Id.
- A Jobb, választ beteg.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
Adjon hozzá átalakításokat az egyesített adatkészletekhez
Most, hogy mindhárom adatkészletet összekapcsoltuk, alkalmazzunk néhány további átalakítást.
- Adja hozzá a következő egyéni transzformációt a PySparkban úgy
has_heartfailure
címke oszlopunkká válik: - Adja hozzá a következő egyéni átalakítást a PySparkban:
- Dobja el a felesleges oszlopokat, amelyekre már nincs szükség:
Id
DATE_year
DATE_quarter
patient
heartfailure
heartfailure_year
heartfailure_quarter
- A Elemzés fül, for Elemzés típusaválaszt Táblázat összefoglaló.
Az összefoglaló gyors átvizsgálása azt mutatja, hogy aMARITAL
oszlopban hiányoznak az adatok. - Válassza a dátum fület, és adjon hozzá egy lépést.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Fogantyú hiányzik.
- A Átalakítás, választ Kitöltés hiányzik.
- A Beviteli oszlopok, választ HÁZASSÁGI.
- A Kitöltési érték, belép
S
.
Stratégiánk itt az, hogy feltételezzük, hogy a beteg egyedülálló, ha a családi állapotnak nincs értéke. Lehet más stratégiád is. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
- Töltse ki a hiányzó értéket 0-val
has_hypertension
,has_diabetes
,has_coronary
,has_smoke
,has_atrial
.
Marital
és a Gender
kategoriális változók. A Data Wrangler beépített funkcióval rendelkezik a kategoriális változók kódolására.
- Adjon hozzá egy lépést, és válassza ki Kategória kódolása.
- A Átalakítás, választ Egyszeri kódolás.
- A Beviteli oszlopok, választ HÁZASSÁGI.
- A Kimeneti stílus, választ Oszlop.
Ez a kimeneti stílus kódolt értékeket állít elő külön oszlopokban. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
- Ismételje meg ezeket a lépéseket a nem oszlop.
Az one-hot kódolás felosztja a házassági oszlopot Marital_M
(házas) és Marital_S
(egyetlen), és felosztja a Nem oszlopot Gender_M
(férfi) és Gender_F
(női). Mert Marital_M
és a Marital_S
kölcsönösen kizárják egymást (akárcsak Gender_M
és a Gender_F
), eldobhatunk egy oszlopot, hogy elkerüljük a redundáns funkciókat.
- Csepp
Marital_S
és aGender_F
.
A numerikus jellemzők, például a szisztolés, a pulzusszám és az életkor eltérő mértékegységszabványokkal rendelkeznek. Egy lineáris regresszió alapú modellhez először ezeket a numerikus jellemzőket kell normalizálnunk. Ellenkező esetben egyes magasabb abszolút értékű jellemzők jogosulatlan előnnyel rendelkeznek az alacsonyabb abszolút értékű jellemzőkkel szemben, és a modell gyenge teljesítményét eredményezhetik. A Data Wrangler beépített Min-max transzformációs skálázóval rendelkezik az adatok normalizálásához. A döntési fa alapú osztályozási modelleknél nincs szükség normalizálásra. Vizsgálatunk egy osztályozási probléma, így nem kell normalizálást alkalmaznunk. A kiegyensúlyozatlan osztályok gyakori probléma az osztályozásban. Kiegyensúlyozatlanság akkor fordul elő, ha a betanítási adatkészlet erősen torz osztályeloszlást tartalmaz. Például, ha az adatkészletünk aránytalanul több szívelégtelenségben szenvedő beteget tartalmaz, mint szívelégtelenségben szenvedő betegeket, ez azt eredményezheti, hogy a modell a szívelégtelenség előrejelzésére irányul, és gyengén teljesít. A Data Wrangler beépített funkcióval rendelkezik a probléma megoldására.
- Adjon hozzá egyéni transzformációt a Pandasban, hogy az oszlopok adattípusát „objektum” típusúról numerikus típusra konvertálja:
- Válassza a Elemzés Tab.
- A Elemzés típusaválaszt hisztogram.
- A X tengely, választ szívelégtelensége van.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.
Nyilvánvaló, hogy van egy kiegyensúlyozatlan osztályunk (több adatpont a szívelégtelenségnek nevezett adatpont, mint a szívelégtelenségnek nevezett adatpont). - Menj vissza a dátum fülre. Választ Lépés hozzáadása És válasszon Egyenlegadatok.
- A Céloszlop, választ szívelégtelensége van.
- A Kívánt arány, belép
1
. - A Átalakítás, választ SMOTE.
A SMOTE a Synthetic Minority Over-sampling Technique rövidítése. Ez a technika új kisebbségi példányok létrehozására és az adatkészlethez való hozzáadására az osztályegyensúly elérése érdekében. Részletes információkért lásd: SMOTE: Szintetikus Minority Over-sampling Technique. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
- Ismételje meg a hisztogram elemzést a 20-23. lépésben. Az eredmény egy kiegyensúlyozott osztály.
Vizualizálja a célszivárgást és a funkció korrelációját
Ezután néhány vizuális elemzést fogunk végrehajtani a Data Wrangler fejlett, ML által támogatott elemzési típusok gazdag eszközkészletével. Először a célszivárgást nézzük. Célszivárgás akkor fordul elő, ha a betanítási adatkészletben lévő adatok erősen korrelálnak a célcímkével, de nem állnak rendelkezésre valós adatokban a következtetés időpontjában.
- A Elemzés lap, A Elemzés típusaválaszt Cél szivárgás.
- A Probléma típusa, választ besorolás.
- A cél, választ szívelégtelensége van.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.
Az elemzés alapjánhr
célszerű szivárgás. Egy következő lépésben ejtjük.age
célszivárgásnak van megjelölve. Ésszerű azt mondani, hogy a páciens életkora a következtetési idő alatt elérhető lesz, ezért az életkort jellemzőként tartjuk fenn.Systolic
és adiastolic
szintén valószínű célszivárgásként vannak megjelölve. Arra számítunk, hogy a két mérést a következtetési idő alatt végezzük, ezért megtartjuk őket jellemzőként. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a hozzáad az elemzés hozzáadásához.
Ezután megvizsgáljuk a jellemzők korrelációját. Olyan jellemzőket szeretnénk kiválasztani, amelyek korrelálnak a céllal, de nem korrelálnak egymással.
- A Elemzés lap, A Elemzés típusaválaszt Jellemzők korrelációja.
- A Correlation Typeválaszt lineáris.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.
Az együttható pontszámok erős korrelációt jeleznek a következő párok között:
systolic
és adiastolic
bmi
és aage
has_hypertension
és ahas_heartfailure
(címke)
Az erősen korrelált jellemzők esetében a mátrixokat számításilag nehéz invertálni, ami numerikusan instabil becslésekhez vezethet. A korreláció enyhítésére egyszerűen eltávolíthatunk egyet a párból. Leesünk diastolic
és a bmi
és tartsd systolic
és a age
egy következő lépésben.
Csökkentse a diasztolés és a BMI oszlopokat
Adjon hozzá további átalakítási lépéseket a hr
, diastolic
és a bmi
oszlopokat a beépített transzformáció segítségével.
Készítse el az Adatminőség és Insights jelentést
AWS nemrég bejelentés a Data Wrangler új Data Quality and Insights Report funkciója. Ez a jelentés automatikusan ellenőrzi az adatok minőségét, és észleli az adatok rendellenességeit. Az adattudósok és adatmérnökök ezzel az eszközzel hatékonyan és gyorsan alkalmazhatják a tartományi ismereteket az ML-modell képzéséhez szükséges adatkészletek feldolgozásához. Ez a lépés nem kötelező. Az adatkészleteinkről szóló jelentés elkészítéséhez hajtsa végre a következő lépéseket:
- A Elemzés fül, for Elemzés típusa, választ Adatminőségi és betekintési jelentés.
- A Céloszlop, választ szívelégtelensége van.
- A Probléma típusaválassza Osztályozás.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Teremt.
Néhány percen belül jelentést készít összefoglalóval, látványelemekkel és javaslatokkal.
Gyors modellelemzés létrehozása
Befejeztük az adat-előkészítést, a tisztítást és a funkciótervezést. A Data Wrangler beépített funkcióval rendelkezik, amely hozzávetőleges becslést ad az adatkészletünkben található funkciók várható várható minőségéről és előrejelző erejéről.
- A Elemzés fül, for Elemzés típusaválaszt Gyors modell.
- A Címke, választ szívelégtelensége van.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.
Gyors modell elemzésünk szerint láthatjuk a funkciót has_hypertension
rendelkezik a legmagasabb fontossági pontszámmal az összes szolgáltatás közül.
Exportálja az adatokat és képezze be a modellt
Most exportáljuk az átalakított ML-ready jellemzőket egy cél S3 tárolóba, és méretezzük a minták felhasználásával eddig létrehozott teljes szolgáltatástervezési folyamatot elosztott módon a teljes adatkészletbe.
- Válassza ki a pluszjelet az adatfolyam utolsó mezője mellett, és válassza ki Úticél hozzáadása.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Amazon S3.
- Írjon be egy Adatkészlet neve. Fórum Amazon S3 hely, válasszon egy S3 vödröt, majd válasszon Úti cél hozzáadása.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Állás létrehozása elosztott PySpark feldolgozási feladat elindításához az átalakítás végrehajtásához és az adatok a cél S3 tárolóba való kimenetéhez.
Az adatkészletek méretétől függően ez a beállítás lehetővé teszi a fürt egyszerű konfigurálását és vízszintes skálázását kód nélküli módon. Nem kell aggódnunk az adatkészletek particionálása vagy a fürt és a Spark belsők kezelése miatt. Minderről a Data Wrangler automatikusan gondoskodik. - A bal oldali panelen válassza a lehetőséget Ezután 2. Állítsa be a feladatot.
- Ezután válasszon futás.
Alternatív megoldásként az átalakított kimenetet S3-ba is exportálhatjuk egy Jupyter Notebookon keresztül. Ezzel a megközelítéssel a Data Wrangler automatikusan létrehoz egy Jupyter-jegyzetfüzetet a feldolgozási feladat elindításához szükséges összes kóddal, hogy az adatfolyam lépéseit (minta felhasználásával létrehozva) alkalmazza a nagyobb teljes adatkészleten, és az átalakított adatkészletet funkcióként használja a feldolgozás elindításához. később kiképzési munkából. A notebook kódja könnyen futtatható változtatásokkal vagy anélkül. Most nézzük meg a Data Wrangler UI-n keresztüli végrehajtásának lépéseit.
- Válassza az adatfolyam utolsó lépése melletti pluszjelet, és válassza a lehetőséget Exportálás.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Amazon S3 (a Jupyter Notebookon keresztül).
- Automatikusan megnyit egy új lapot a Jupyter notebook segítségével.
- A Jupyter jegyzetfüzetben keresse meg a cellát a (Nem kötelező) Következő lépések szakaszt és változtassa meg
run_optional_steps
ból bőlFalse
nak nekTrue
.
A notebook engedélyezett opcionális lépései a következőket hajtják végre: - Menjen vissza a jegyzetfüzet tetejére, és a futás menüben válasszon Futtassa az összes cellát.
Ha a generált jegyzetfüzetet úgy használja, ahogy van, az elindít egy SageMaker feldolgozási feladatot, amely két m5.4xlarge példányra méretezi a feldolgozást, hogy feldolgozza a teljes adatkészletet az S3 tárolóban. Beállíthatja a példányok számát és a példánytípusokat az adatkészlet mérete és a feladat befejezéséhez szükséges idő alapján.
Várja meg, amíg az utolsó cellából származó betanítási feladat befejeződik. Modellt hoz létre a SageMaker alapértelmezett S3 tárolójában.
A betanított modell készen áll a telepítésre akár valós idejű következtetéshez, akár kötegelt átalakításhoz. Vegye figyelembe, hogy szintetikus adatokat használtunk a Data Wrangler funkcióinak bemutatására, és feldolgozott adatokat használtunk a betanítási modellhez. Tekintettel arra, hogy az általunk felhasznált adatok szintetikusak, a betanított modellből származó következtetések nem a valós egészségügyi állapot diagnosztizálására vagy az orvosok megítélésének helyettesítésére szolgálnak.
Az átalakított adatkészletet közvetlenül is exportálhatja az Amazon S3-ba, ha kiválasztja Export az átalakítás előnézeti oldalának tetején. A közvetlen exportálási lehetőség csak akkor exportálja az átalakított mintát, ha a mintavétel engedélyezve volt az importálás során. Ez a lehetőség akkor a legalkalmasabb, ha kisebb adatkészletekkel foglalkozik. Az átalakított adatok közvetlenül egy szolgáltatástárolóba is feldolgozhatók. További információkért lásd: Amazon SageMaker Feature Store. Az adatfolyam SageMaker-folyamatként is exportálható, amely az Ön igényei szerint hangszerelhető és ütemezhető. További információkért lásd Amazon SageMaker csővezetékek.
Következtetés
Ebben a bejegyzésben bemutattuk, hogyan használható a Data Wrangler az egészségügyi adatok feldolgozására és a méretezhető funkciók tervezésére eszközvezérelt, alacsony kódú módon. Megtanultuk, hogyan alkalmazzuk a beépített átalakításokat és elemzéseket, ahol szükség van rá, és hogyan kombináljuk ezt az egyéni átalakításokkal, hogy még rugalmasabbá tegyük adat-előkészítési munkafolyamatunkat. Áttekintettük az adatfolyam-receptek elosztott feldolgozási feladatokon keresztüli méretezésének különböző lehetőségeit is. Azt is megtudtuk, hogy az átalakított adatok hogyan használhatók fel egyszerűen a szívelégtelenség előrejelzésére szolgáló modell képzésére.
A Data Wranglerben sok más funkció is található, amelyekre ebben a bejegyzésben nem tértünk ki. Fedezze fel, mi lehetséges Készítsen ML adatokat az Amazon SageMaker Data Wrangler segítségével és megtudhatja, hogyan használhatja fel a Data Wranglert következő adattudományi vagy gépi tanulási projektjéhez.
A szerzőkről
Forrest Sun Senior Solution Architect az AWS Public Sector csapatánál Torontóban, Kanadában. Az elmúlt két évtizedben az egészségügyben és a pénzügyi szektorban dolgozott. A munkán kívül szívesen táboroz a családjával.
Arunprasath Shankar a mesterséges intelligencia és a gépi tanulás (AI/ML) specialistája az AWS-vel, segít a globális ügyfeleknek mesterséges intelligencia-megoldásaik hatékony és eredményes felhőben történő méretezésében. Szabadidejében Arun szívesen néz sci-fi filmeket és hallgat klasszikus zenét.
- AI
- ai művészet
- ai art generátor
- van egy robotod
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- mesterséges intelligencia
- mesterséges intelligencia tanúsítás
- mesterséges intelligencia a bankszektorban
- mesterséges intelligencia robot
- mesterséges intelligencia robotok
- mesterséges intelligencia szoftver
- AWS gépi tanulás
- blockchain
- blokklánc konferencia ai
- coingenius
- társalgási mesterséges intelligencia
- kriptokonferencia ai
- dall's
- mély tanulás
- google azt
- gépi tanulás
- Plató
- plato ai
- Platón adatintelligencia
- Platón játék
- PlatoData
- platogaming
- skála ai
- szintaxis
- zephyrnet