Inżynieria funkcji na dużą skalę dla opieki zdrowotnej i nauk przyrodniczych dzięki Amazon SageMaker Data Wrangler

Opublikowane ponownie przez Plato

Obserwuje: 0

Uczenie maszynowe (ML) rewolucjonizuje wiele branż w niespotykanym dotąd tempie. Branża opieki zdrowotnej i nauk przyrodniczych (HCLS) przechodzi w ostatnich latach szybką ewolucję, obejmując ML w wielu przypadkach zastosowań w celu zapewnienia wysokiej jakości opieki i poprawy wyników leczenia pacjentów.

W typowym cyklu życia ML inżynierowie danych i naukowcy spędzają większość czasu na przygotowaniu danych i krokach inżynierii funkcji, zanim jeszcze rozpoczną proces budowania i szkolenia modelu. Posiadanie narzędzia, które może obniżyć barierę wejścia w celu przygotowania danych, a tym samym poprawić produktywność, jest wysoce pożądaną prośbą dla tych osób. Pogromca danych Amazon SageMaker jest celem stworzonym przez AWS, aby skrócić krzywą uczenia się i umożliwić specjalistom ds. danych przygotowanie danych, czyszczenie i zadania inżynierskie przy mniejszym wysiłku i czasie. Oferuje interfejs GUI z wieloma wbudowanymi funkcjami i integracjami z innymi usługami AWS, takimi jak Usługa Amazon Simple Storage (Amazon S3) i Sklep funkcji Amazon SageMaker, a także źródła danych partnerów, w tym Snowflake i Databricks.

W tym poście pokazujemy, jak używać Data Wranglera do przygotowywania danych dotyczących opieki zdrowotnej do trenowania modelu do przewidywania niewydolności serca, biorąc pod uwagę dane demograficzne pacjenta, wcześniejsze schorzenia i historię wyników testów laboratoryjnych.

Omówienie rozwiązania

Rozwiązanie składa się z następujących kroków:

Uzyskaj zbiór danych opieki zdrowotnej jako dane wejściowe do aplikacji Data Wrangler.
Użyj wbudowanych funkcji transformacji Data Wranglera, aby przekształcić zestaw danych. Obejmuje to upuszczanie kolumn, wyróżnianie danych/czasu, łączenie zestawów danych, przypisywanie brakujących wartości, kodowanie zmiennych kategorialnych, skalowanie wartości liczbowych, równoważenie zestawu danych i wiele innych.
Użyj niestandardowej funkcji transformacji Data Wrangler (kod Pandas lub PySpark), aby uzupełnić dodatkowe transformacje wymagane poza transformacjami wbudowanymi i zademonstrować rozszerzalność Data Wrangler. Obejmuje to filtrowanie wierszy, grupowanie danych, tworzenie nowych ramek danych na podstawie warunków i nie tylko.
Użyj wbudowanych funkcji wizualizacji Data Wrangler, aby przeprowadzić analizę wizualną. Obejmuje to wyciek docelowy, korelację funkcji, szybki model i inne.
Użyj wbudowanych opcji eksportu Data Wranglera, aby wyeksportować przekształcony zestaw danych do Amazon S3.
Uruchom notatnik Jupyter, aby użyć przekształconego zestawu danych w Amazon S3 jako danych wejściowych do trenowania modelu.

Wygeneruj zbiór danych

Teraz, gdy zdecydowaliśmy się na stwierdzenie problemu z ML, najpierw skupiliśmy się na pozyskiwaniu potrzebnych nam danych. Badania naukowe, takie jak Przewidywanie niewydolności serca może dostarczyć dane, które są już w dobrym stanie. Jednak często spotykamy się ze scenariuszami, w których dane są dość niechlujne i wymagają łączenia, czyszczenia i kilku innych przekształceń, które są bardzo specyficzne dla domeny opieki zdrowotnej, zanim będą mogły zostać użyte do szkolenia ML. Chcemy znaleźć lub wygenerować dane, które są wystarczająco niechlujne, i przeprowadzić Cię przez etapy ich przygotowania za pomocą Data Wrangler. Mając to na uwadze, wybraliśmy Synthea jako narzędzie do generowania syntetycznych danych, które pasują do naszego celu. Syntea to generator pacjentów syntetycznych typu open source, który modeluje historię medyczną pacjentów syntetycznych. Aby wygenerować zbiór danych, wykonaj następujące czynności:

Postępuj zgodnie z instrukcjami zgodnie z szybki start dokumentacja do stworzenia Studio Amazon SageMaker domenę i uruchom Studio.
Jest to warunek wstępny. Jest to opcjonalne, jeśli Studio jest już skonfigurowane na Twoim koncie.
Po uruchomieniu programu Studio na wyrzutnia kartę, wybierz Terminal systemowy.
Spowoduje to uruchomienie sesji terminala, która zapewnia interfejs wiersza poleceń do pracy.

Aby zainstalować Synthea i wygenerować zestaw danych w formacie CSV, uruchom następujące polecenia w uruchomionej sesji terminala:

$ sudo yum install -y java-1.8.0-openjdk-devel
$ export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk.x86_64
$ export PATH=$JAVA_HOME/bin:$PATH
$ git clone https://github.com/synthetichealth/synthea
$ git checkout v3.0.0
$ cd synthea
$ ./run_synthea --exporter.csv.export=true -p 10000

Dostarczamy parametr do generowania zestawów danych o wielkości populacji 10,000 XNUMX. Zwróć uwagę, że parametr rozmiaru oznacza liczbę żywych członków populacji. Ponadto Synthea generuje również dane dla zmarłych członków populacji, co może dodać kilka dodatkowych punktów danych do określonej wielkości próbki.

Poczekaj, aż generowanie danych zostanie zakończone. Ten krok zwykle zajmuje około godziny lub mniej. Synthea generuje wiele zestawów danych, w tym patients, medications, allergies, conditions, i więcej. W tym poście używamy trzech wynikowych zestawów danych:

pacjenci.csv – Ten zestaw danych ma około 3.2 MB i zawiera około 11,000 25 wierszy danych pacjenta (XNUMX kolumn, w tym identyfikator pacjenta, data urodzenia, płeć, adres i inne)
warunki.csv – Ten zestaw danych ma około 47 MB i zawiera około 370,000 XNUMX wierszy danych o stanie zdrowia (sześć kolumn, w tym identyfikator pacjenta, data rozpoczęcia stanu, kod stanu i inne)
obserwacje.csv – Ten zestaw danych ma około 830 MB i zawiera około 5 milionów wierszy danych z obserwacji (osiem kolumn, w tym identyfikator pacjenta, data obserwacji, kod obserwacji, wartość i inne)

Istnieje relacja jeden-do-wielu między patients i conditions zbiory danych. Istnieje również relacja jeden-do-wielu między patients i observations zbiory danych. Aby zapoznać się ze szczegółowym słownikiem danych, zobacz Słownik danych plików CSV.

Aby przesłać wygenerowane zbiory danych do zasobnika źródłowego w Amazon S3, uruchom następujące polecenia w sesji terminala:
```
$ cd ./output/csv
$ aws s3 sync . s3://<source bucket name>/
```

Uruchom Data Wranglera

Dodaj Zasoby SageMaker na stronie nawigacyjnej w Studio i na Projekty menu, wybierz Poskramiacz danych aby utworzyć przepływ danych Data Wrangler. Szczegółowe instrukcje uruchamiania aplikacji Data Wrangler z poziomu Studio znajdują się w Zacznij korzystać z Data Wranglera.

Importuj daty

Aby zaimportować swoje dane, wykonaj następujące czynności:

Dodaj Amazon S3 i zlokalizuj plik patient.csv w zasobniku S3.
W Szczegóły okienko, wybierz Pierwszy K dla Próbowanie.
Wchodzę 1100 dla Wielkość próbki.
W okienku podglądu Poskramiacz danych pobiera pierwsze 100 wierszy z zestawu danych i wyświetla je jako podgląd.
Dodaj import.
Data Wrangler wybiera pierwszych 1,100 pacjentów spośród wszystkich pacjentów (11,000 XNUMX wierszy) wygenerowanych przez Synthea i importuje dane. Podejście próbkowania pozwala Data Wrangler przetwarzać tylko dane próbki. Umożliwia nam rozwijanie naszego przepływu danych przy użyciu mniejszego zestawu danych, co skutkuje szybszym przetwarzaniem i krótszą pętlą sprzężenia zwrotnego. Po utworzeniu przepływu danych możemy przesłać opracowaną recepturę do Przetwarzanie SageMakera zadanie poziomego skalowania przetwarzania pełnego lub większego zestawu danych w sposób rozproszony.
Powtórz ten proces dla conditions i observations zestawy danych.
1. Dla conditions zbiór danych, wprowadź 37000 dla Wielkość próbki, co stanowi 1/10 łącznej liczby 370,000 XNUMX wierszy wygenerowanych przez Synthea.
2. Dla observations zbiór danych, wprowadź 500000 dla Wielkość próbki, co stanowi 1/10 wszystkich obserwacji 5 milionów wierszy wygenerowanych przez Synthea.

Powinieneś zobaczyć trzy zestawy danych, jak pokazano na poniższym zrzucie ekranu.

Przekształć dane

Transformacja danych to proces zmiany struktury, wartości lub formatu co najmniej jednej kolumny w zestawie danych. Proces jest zwykle opracowywany przez inżyniera danych i może być trudnym wyzwaniem dla osób z mniejszymi umiejętnościami w zakresie inżynierii danych, aby rozszyfrować logikę proponowaną dla transformacji. Transformacja danych jest częścią szerszego procesu inżynierii cech, a właściwa kolejność kroków jest kolejnym ważnym kryterium, o którym należy pamiętać podczas opracowywania takich receptur.

Data Wrangler został zaprojektowany jako narzędzie o niskim kodzie, zmniejszające barierę wejścia w celu skutecznego przygotowania danych. Zawiera ponad 300 wstępnie skonfigurowanych transformacji danych, z których możesz wybierać bez pisania ani jednej linii kodu. W kolejnych sekcjach zobaczymy, jak przekształcić importowane zestawy danych w Data Wrangler.

Upuść kolumny w pacjentach.csv

Najpierw upuszczamy kilka kolumn z patients zbiór danych. Usunięcie nadmiarowych kolumn usuwa nieistotne informacje z zestawu danych i pomaga nam zmniejszyć ilość zasobów obliczeniowych wymaganych do przetworzenia zestawu danych i trenowania modelu. W tej sekcji usuwamy kolumny, takie jak SSN lub numer paszportu, kierując się zdrowym rozsądkiem, że te kolumny nie mają wartości predykcyjnej. Innymi słowy, nie pomagają naszemu modelowi przewidywać niewydolności serca. Nasze badanie nie dotyczy również wpływu innych kolumn, takich jak miejsce urodzenia czy wydatki na opiekę zdrowotną na niewydolność serca pacjenta, dlatego też je odrzucamy. Nadmiarowe kolumny można również zidentyfikować, uruchamiając wbudowane analizy, takie jak wyciek docelowy, korelacja funkcji, współliniowość i inne, które są wbudowane w Data Wrangler. Aby uzyskać więcej informacji na temat obsługiwanych typów analiz, zobacz Analizuj i wizualizuj. Dodatkowo możesz użyć Raport dotyczący jakości danych i statystyk do wykonywania automatycznych analiz na zestawach danych w celu uzyskania listy nadmiarowych kolumn do wyeliminowania.

Wybierz znak plus obok Typy danych dla zbioru danych patient.csv i wybierz Dodaj transformację.
Dodaj Dodaj krok i wybierz Zarządzaj kolumnami.
W razie zamówieenia projektu Przekształcać¸ wybierz Upuść kolumnę.
W razie zamówieenia projektu Kolumny do upuszczenia, wybierz następujące kolumny:
1. SSN
2. DRIVERS
3. PASSPORT
4. PREFIX
5. FIRST
6. LAST
7. SUFFIX
8. MAIDEN
9. RACE
10. ETHNICITY
11. BIRTHPLACE
12. ADDRESS
13. CITY
14. STATE
15. COUNTY
16. ZIP
17. LAT
18. LON
19. HEALTHCARE_EXPENSES
20. HEALTHCARE_COVERAGE
Dodaj Podgląd aby przejrzeć przekształcony zbiór danych, a następnie wybierz Dodaj.

Powinieneś zobaczyć krok Upuść kolumnę na twojej liście przekształceń.

Wybierz datę/godzinę w pacjentach.csv

Teraz używamy funkcji Featurize date/time, aby wygenerować nową funkcję Year z BIRTHDATE kolumna w patients zbiór danych. Korzystamy z nowej funkcji w kolejnym kroku, aby obliczyć wiek pacjenta w momencie, gdy ma miejsce obserwacja.

W Przekształca się okienko twojego Upuść kolumnę strona dla patients zbiór danych, wybierz Dodaj krok.
Wybierz Wyróżnij datę/godzinę przekształcać.
Dodaj Wyodrębnij kolumny.
W razie zamówieenia projektu Kolumny wejściowe, dodaj kolumnę BIRTHDATE.
Wybierz Rok i odznacz Miesiąc, Dzień, godzina, Minuta, Po drugie.
Dodaj Podgląd, A następnie wybierz Dodaj.

Dodaj transformacje w obserwacjach.csv

Data Wrangler obsługuje niestandardowe przekształcenia przy użyciu języka Python (funkcje zdefiniowane przez użytkownika), PySpark, Pandas lub PySpark (SQL). Możesz wybrać typ transformacji na podstawie znajomości każdej opcji i preferencji. W przypadku trzech ostatnich opcji Data Wrangler ujawnia zmienną df aby uzyskać dostęp do ramki danych i zastosować na niej przekształcenia. Aby uzyskać szczegółowe wyjaśnienie i przykłady, zobacz Transformacje niestandardowe. W tej sekcji dodamy trzy niestandardowe transformacje do observations zestaw danych.

Dodaj transformację do obserwacje.csv i upuść DESCRIPTION Kolumna.
Dodaj Podgląd, A następnie wybierz Dodaj.
W Przekształca się okienko, wybierz Dodaj krok i wybierz Transformacja niestandardowa.
Z menu rozwijanego wybierz Python (pandy).

Wpisz następujący kod:

df = df[df["CODE"].isin(['8867-4','8480-6','8462-4','39156-5','777-3'])]

Są to kody LONIC, które odpowiadają następującym obserwacjom, które chcemy wykorzystać jako funkcje do przewidywania niewydolności serca:

heart rate: 8867-4
systolic blood pressure: 8480-6
diastolic blood pressure: 8462-4
body mass index (BMI): 39156-5
platelets [#/volume] in Blood: 777-3

Dodaj Podgląd, A następnie wybierz Dodaj.
Dodaj transformację do wyodrębnienia Year i Quarter z DATE Kolumna.
Dodaj Podgląd, A następnie wybierz Dodaj.
Dodaj Dodaj krok i wybierz Transformacja niestandardowa.
Z menu rozwijanego wybierz Python (PySpark).

Pięć rodzajów obserwacji nie zawsze może być rejestrowanych w tym samym dniu. Na przykład, pacjent może odwiedzić swojego lekarza rodzinnego 21 stycznia i zmierzyć i zarejestrować jego skurczowe ciśnienie krwi, rozkurczowe ciśnienie krwi, tętno i wskaźnik masy ciała. Jednak test laboratoryjny, który obejmuje płytki krwi, można wykonać później, 2 lutego. Dlatego nie zawsze można połączyć ramki danych przed datą obserwacji. Tutaj łączymy ramki danych na grubej granulacji na podstawie kwartału.

Wpisz następujący kod:

from pyspark.sql.functions import col

systolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed("value", "systolic")
                   .filter((col("code") == "8480-6"))
  )

diastolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'diastolic')
                   .filter((col("code") == "8462-4"))
    )

hr_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'hr')
                   .filter((col("code") == "8867-4"))
    )

bmi_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'bmi')
                   .filter((col("code") == "39156-5"))
    )

platelets_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'platelets')
                   .filter((col("code") == "777-3"))
    )

df = (
    systolic_df.join(diastolic_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(hr_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(bmi_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(platelets_df, ["patient", "DATE_year", "DATE_quarter"])
)

Dodaj Podgląd, A następnie wybierz Dodaj.
Dodaj Dodaj krok, A następnie wybierz Zarządzaj wierszami.
W razie zamówieenia projektu Przekształcaćwybierz Upuść duplikaty.
Dodaj Podgląd, A następnie wybierz Dodaj.
Dodaj Dodaj krok i wybierz Transformacja niestandardowa.
Z menu rozwijanego wybierz Python (pandy).

Wprowadź następujący kod, aby pobrać średnią punktów danych o tej samej wartości czasu:

import pandas as pd
df.loc[:, df.columns != 'patient']=df.loc[:, df.columns != 'patient'].apply(pd.to_numeric)
df = df.groupby(['patient','DATE_year','DATE_quarter']).mean().round(0).reset_index()

Dodaj Podgląd, A następnie wybierz Dodaj.

Dołącz do pacjentów.csv i obserwacje.csv

W tym kroku pokażemy, jak skutecznie i łatwo wykonywać złożone sprzężenia w zestawach danych bez pisania kodu za pomocą zaawansowanego interfejsu użytkownika Data Wrangler. Aby dowiedzieć się więcej o obsługiwanych typach złączeń, zapoznaj się z Przekształć dane.

Na prawo od Przekształć: pacjenci.csv, wybierz znak plus obok Cel i wybierz Dołącz do rejestru.
Możesz zobaczyć przekształcony plik patient.csv wymieniony poniżej Zbiory danych w lewym okienku.
Na prawo od Przekształcenie: obserwacje.csv, Kliknij na Cel aby zainicjować operację łączenia.
Przekształcony plik obserwacje.csv znajduje się teraz na liście Zbiory danych w lewym okienku.
Dodaj Konfigurowanie.
W razie zamówieenia projektu Typ połączeniawybierz Wewnętrzny.
W razie zamówieenia projektu Lewawybierz Id.
W razie zamówieenia projektu Prawawybierz pacjent.
Dodaj Podgląd, A następnie wybierz Dodaj.

Dodaj niestandardową transformację do połączonych zbiorów danych

W tym kroku obliczamy wiek pacjenta w momencie obserwacji. Usuwamy również kolumny, które nie są już potrzebne.

Wybierz znak plus obok Pierwsze dołączenie i wybierz Dodaj transformację.

Dodaj niestandardową transformację w Pandas:

df['age'] = df['DATE_year'] - df['BIRTHDATE_year']
df = df.drop(columns=['BIRTHDATE','DEATHDATE','BIRTHDATE_year','patient'])

Dodaj Podgląd, A następnie wybierz Dodaj.

Dodaj niestandardowe przekształcenia do Conditions.csv

Wybierz znak plus obok Przekształcenie: warunki.csv i wybierz Dodaj transformację.

Dodaj niestandardową transformację w Pandas:

df = df[df["CODE"].isin(['84114007', '88805009', '59621000', '44054006', '53741008', '449868002', '49436004'])]
df = df.drop(columns=['DESCRIPTION','ENCOUNTER','STOP'])

Uwaga: Jak pokazaliśmy wcześniej, kolumny można usuwać za pomocą niestandardowego kodu lub wbudowanych przekształceń dostarczanych przez Data Wrangler. Niestandardowe transformacje w Data Wrangler zapewniają elastyczność w zakresie wprowadzania własnej logiki transformacji w postaci fragmentów kodu w obsługiwanych platformach. Te fragmenty można później przeszukiwać i stosować w razie potrzeby.

Kody w poprzedniej transformacji są kodami SNOMED-CT, które odpowiadają następującym warunkom. The heart failure or chronic congestive heart failure warunek staje się etykietą. Pozostałe warunki wykorzystujemy jako cechy do przewidywania niewydolności serca. Upuszczamy również kilka kolumn, które nie są już potrzebne.

Heart failure: 84114007
Chronic congestive heart failure: 88805009
Hypertension: 59621000
Diabetes: 44054006
Coronary Heart Disease: 53741008
Smokes tobacco daily: 449868002
Atrial Fibrillation: 49436004

Następnie dodajmy niestandardową transformację w PySpark:

from pyspark.sql.functions import col, when

heartfailure_df = (
    df.select("patient", "start")
                      .withColumnRenamed("start", "heartfailure")
                   .filter((col("code") == "84114007") | (col("code") == "88805009"))
  )

hypertension_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "hypertension")
                   .filter((col("code") == "59621000"))
  )

diabetes_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "diabetes")
                   .filter((col("code") == "44054006"))
  )

coronary_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "coronary")
                   .filter((col("code") == "53741008"))
  )

smoke_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "smoke")
                   .filter((col("code") == "449868002"))
  )

atrial_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "atrial")
                   .filter((col("code") == "49436004"))
  )

df = (
    heartfailure_df.join(hypertension_df, ["patient"], "leftouter").withColumn("has_hypertension", when(col("hypertension") < col("heartfailure"), 1).otherwise(0))
    .join(diabetes_df, ["patient"], "leftouter").withColumn("has_diabetes", when(col("diabetes") < col("heartfailure"), 1).otherwise(0))
    .join(coronary_df, ["patient"], "leftouter").withColumn("has_coronary", when(col("coronary") < col("heartfailure"), 1).otherwise(0))
    .join(smoke_df, ["patient"], "leftouter").withColumn("has_smoke", when(col("smoke") < col("heartfailure"), 1).otherwise(0))
    .join(atrial_df, ["patient"], "leftouter").withColumn("has_atrial", when(col("atrial") < col("heartfailure"), 1).otherwise(0))
)

Wykonujemy lewe sprzężenie zewnętrzne, aby zachować wszystkie wpisy w ramce danych o niewydolności serca. Nowa kolumna has_xxx jest obliczana dla każdego stanu innego niż niewydolność serca na podstawie daty rozpoczęcia stanu. Interesują nas tylko schorzenia, które zostały zarejestrowane przed niewydolnością serca i wykorzystujemy je jako cechy do przewidywania niewydolności serca.

Dodaj wbudowany Zarządzaj kolumnami transformacja, aby usunąć zbędne kolumny, które nie są już potrzebne:
1. hypertension
2. diabetes
3. coronary
4. smoke
5. atrial
Wyciąg Year i Quarter z heartfailure Kolumna.
Odpowiada to szczegółowości, której używaliśmy wcześniej podczas przekształcania observations zestaw danych.
Powinniśmy mieć łącznie 6 kroków dla Conditions.csv.

Dołącz Conditions.csv do połączonego zbioru danych

Teraz wykonujemy nowe połączenie, aby dołączyć zestaw danych warunków do połączonego patients i observations zestaw danych.

Dodaj Transformacja: pierwsze połączenie.
Wybierz znak plus i wybierz Dołącz do rejestru.
Dodaj Cel obok Przekształcenie: warunki.csv.
Dodaj Konfigurowanie.
W razie zamówieenia projektu Typ połączeniawybierz Lewa zewnętrzna.
W razie zamówieenia projektu Lewawybierz Id.
W razie zamówieenia projektu Prawawybierz pacjent.
Dodaj Podgląd, A następnie wybierz Dodaj.

Dodaj transformacje do połączonych zbiorów danych

Teraz, gdy wszystkie trzy zestawy danych są już połączone, zastosujmy dodatkowe przekształcenia.

Dodaj następującą niestandardową transformację w PySpark, więc has_heartfailure staje się naszą kolumną etykiet:

from pyspark.sql.functions import col, when
df = (
    df.withColumn("has_heartfailure", when(col("heartfailure").isNotNull(), 1).otherwise(0))
)

Dodaj następującą niestandardową transformację w PySpark:
```
from pyspark.sql.functions import col

df = (
    df.filter(
      (col("has_heartfailure") == 0) | 
      ((col("has_heartfailure") == 1) & ((col("date_year") <= col("heartfailure_year")) | ((col("date_year") == col("heartfailure_year")) & (col("date_quarter") <= col("heartfailure_quarter")))))
    )
)
```
Interesują nas tylko obserwacje zarejestrowane przed zdiagnozowaniem stanu niewydolności serca i wykorzystujemy je jako cechy do przewidywania niewydolności serca. Na obserwacje poczynione po zdiagnozowaniu niewydolności serca może mieć wpływ przyjmowany przez pacjenta lek, dlatego chcemy je wykluczyć.
Usuń zbędne kolumny, które nie są już potrzebne:
1. Id
2. DATE_year
3. DATE_quarter
4. patient
5. heartfailure
6. heartfailure_year
7. heartfailure_quarter
Na Analiza tab, dla Typ analizy¸ wybierz Podsumowanie tabeli.
Szybkie przeglądanie podsumowania pokazuje, że MARITAL kolumna zawiera brakujące dane.
Wybierz Dane i dodaj krok.
Dodaj Brak uchwytu.
W razie zamówieenia projektu Przekształcaćwybierz Brak wypełnienia.
W razie zamówieenia projektu Kolumny wejściowewybierz MAŁŻEŃSKI.
W razie zamówieenia projektu Wypełnij wartość, wchodzić S.
Naszą strategią jest tutaj założenie, że pacjent jest samotny, jeśli stan cywilny ma brakującą wartość. Możesz mieć inną strategię.
Dodaj Podgląd, A następnie wybierz Dodaj.
Uzupełnij brakującą wartość jako 0 dla has_hypertension, has_diabetes, has_coronary, has_smoke, has_atrial.

Marital i Gender są zmiennymi kategorialnymi. Data Wrangler ma wbudowaną funkcję do kodowania zmiennych kategorialnych.

Dodaj krok i wybierz Zakoduj kategorię.
W razie zamówieenia projektu Przekształcaćwybierz Kodowanie na gorąco.
W razie zamówieenia projektu Kolumny wejściowewybierz MAŁŻEŃSKI.
W razie zamówieenia projektu Styl wyjściowywybierz Kolumna.
Ten styl wyjściowy generuje zakodowane wartości w osobnych kolumnach.
Dodaj Podgląd, A następnie wybierz Dodaj.
Powtórz te kroki dla Płeć Kolumna.

Kodowanie „one-hot” dzieli kolumnę małżeńską na Marital_M (żonaty) i Marital_S (pojedyncze) i dzieli kolumnę Płeć na Gender_M (mężczyzna) i Gender_F (kobieta). Dlatego Marital_M i Marital_S wykluczają się wzajemnie (jak Gender_M i Gender_F), możemy usunąć jedną kolumnę, aby uniknąć zbędnych funkcji.

Spadek Marital_S i Gender_F.

Cechy liczbowe, takie jak skurcz, tętno i wiek, mają różne standardy jednostek. W przypadku modelu opartego na regresji liniowej musimy najpierw znormalizować te cechy liczbowe. W przeciwnym razie niektóre cechy o wyższych wartościach bezwzględnych mogą mieć nieuzasadnioną przewagę nad innymi cechami o niższych wartościach bezwzględnych i skutkować słabą wydajnością modelu. Data Wrangler ma wbudowany skaler transformacji min-maks, który normalizuje dane. W przypadku modelu klasyfikacji opartego na drzewie decyzyjnym normalizacja nie jest wymagana. Nasze badanie jest problemem klasyfikacyjnym, więc nie musimy stosować normalizacji. Klasy niezrównoważone są częstym problemem w klasyfikacji. Brak równowagi występuje, gdy treningowy zestaw danych zawiera mocno wypaczony rozkład klas. Na przykład, gdy nasz zbiór danych zawiera nieproporcjonalnie więcej pacjentów bez niewydolności serca niż pacjentów z niewydolnością serca, może to spowodować, że model będzie skłaniał się do przewidywania braku niewydolności serca i słabych wyników. Data Wrangler ma wbudowaną funkcję rozwiązania problemu.

Dodaj niestandardową transformację w Pandas, aby przekonwertować typ danych kolumn z typu „obiektowego” na typ liczbowy:
```
import pandas as pd
df=df.apply(pd.to_numeric)
```
Wybierz Analiza patka.
W razie zamówieenia projektu Typ analizy¸ wybierz Histogram.
W razie zamówieenia projektu Oś Xwybierz ma_zawał serca.
Dodaj Podgląd.

Jest oczywiste, że mamy niezrównoważoną klasę (więcej punktów danych oznaczonych jako brak niewydolności serca niż punktów danych oznaczonych jako niewydolność serca).
Wróć do Dane patka. Wybierać Dodaj krok i wybierz Dane salda.
W razie zamówieenia projektu Kolumna docelowawybierz ma_zawał serca.
W razie zamówieenia projektu Pożądany stosunek, wchodzić 1.
W razie zamówieenia projektu Przekształcaćwybierz GŁADKIE.

SMOTE to skrót od Synthetic Minority Oversampling Technique. Jest to technika tworzenia nowych instancji mniejszościowych i dodawania do zbioru danych w celu osiągnięcia równowagi klas. Aby uzyskać szczegółowe informacje, zobacz SMOTE: Technika nadpróbkowania mniejszości syntetycznej.
Dodaj Podgląd, A następnie wybierz Dodaj.
Powtórz analizę histogramu w krokach 20-23. Rezultatem jest zrównoważona klasa.

Wizualizuj wyciek celu i korelację funkcji

Następnie przeprowadzimy kilka analiz wizualnych, korzystając z bogatego zestawu narzędzi Data Wrangler z zaawansowanymi typami analizy wspieranymi przez ML. Najpierw przyjrzymy się wyciekowi docelowemu. Przeciek wartości docelowych występuje, gdy dane w uczącym zestawie danych są silnie skorelowane z etykietą docelową, ale nie są dostępne w danych rzeczywistych w czasie wnioskowania.

Na Zakładka Analiza, Dla Typ analizy¸ wybierz Wyciek docelowy.
W razie zamówieenia projektu Rodzaj problemuwybierz klasyfikacja.
W razie zamówieenia projektu celwybierz ma_zawał serca.
Dodaj Podgląd.

Na podstawie analizy hr jest docelowym wyciekiem. Porzucimy to w kolejnym kroku. age jest oznaczony jako docelowy wyciek. Rozsądne jest stwierdzenie, że wiek pacjenta będzie dostępny w czasie wnioskowania, więc zachowujemy wiek jako cechę. Systolic i diastolic są również oznaczane jako prawdopodobny wyciek docelowy. Spodziewamy się, że te dwa pomiary będziemy mieć w czasie wnioskowania, więc zachowujemy je jako cechy.
Dodaj Dodaj dodać analizę.

Następnie przyjrzymy się korelacji cech. Chcemy wybrać cechy, które są skorelowane z celem, ale nie są skorelowane między sobą.

Na Zakładka Analiza, Dla Typ analizy¸ wybierz Korelacja funkcji.
W razie zamówieenia projektu Typ korelacji¸ wybierz liniowy.
Dodaj Podgląd.

Wyniki współczynników wskazują na silne korelacje między następującymi parami:

systolic i diastolic
bmi i age
has_hypertension i has_heartfailure (etykieta)

W przypadku cech, które są silnie skorelowane, macierze są trudne obliczeniowo do odwrócenia, co może prowadzić do liczbowo niestabilnych oszacowań. Aby złagodzić korelację, możemy po prostu usunąć jeden z pary. Zrzucamy diastolic i bmi i zachowaj systolic i age w kolejnym kroku.

Upuść kolumny rozkurczowe i bmi

Dodaj dodatkowe kroki transformacji, aby upuścić hr, diastolic i bmi kolumny za pomocą wbudowanej transformacji.

Wygeneruj raport dotyczący jakości danych i statystyk

AWS ostatnio ogłosił nową funkcję Data Quality and Insights Report w aplikacji Data Wrangler. Ten raport automatycznie weryfikuje jakość danych i wykrywa nieprawidłowości w danych. Analitycy danych i inżynierowie danych mogą używać tego narzędzia do wydajnego i szybkiego zastosowania wiedzy o domenie do przetwarzania zestawów danych na potrzeby uczenia modelu ML. Ten krok jest opcjonalny. Aby wygenerować ten raport w naszych zbiorach danych, wykonaj następujące czynności:

Na Analiza tab, dla Typ analizywybierz Raport dotyczący jakości danych i statystyk.
W razie zamówieenia projektu Kolumna docelowawybierz ma_zawał serca.
W razie zamówieenia projektu Typ problemu, Wybierz Klasyfikacja.
Dodaj Stwórz.

W ciągu kilku minut generuje raport z podsumowaniem, wizualizacjami i rekomendacjami.

Wygeneruj szybką analizę modelu

Zakończyliśmy przygotowywanie danych, czyszczenie i inżynierię funkcji. Data Wrangler ma wbudowaną funkcję, która zapewnia przybliżone oszacowanie oczekiwanej przewidywanej jakości i mocy predykcyjnej funkcji w naszym zbiorze danych.

Na Analiza tab, dla Typ analizy¸ wybierz Szybki Model.
W razie zamówieenia projektu Etykietawybierz ma_zawał serca.
Dodaj Podgląd.

Zgodnie z naszą analizą szybkiego modelu widzimy tę funkcję has_hypertension ma najwyższy wynik ważności funkcji spośród wszystkich funkcji.

Eksportuj dane i trenuj model

Teraz wyeksportujmy przekształcone funkcje gotowe do ML do docelowego zasobnika S3 i przeskalujmy cały proces inżynierii funkcji, który do tej pory stworzyliśmy, używając próbek do całego zestawu danych w sposób rozproszony.

Wybierz znak plus obok ostatniego pola w przepływie danych i wybierz Dodaj miejsce docelowe.
Dodaj Amazon S3.
Wpisz Nazwa zestawu danych. Forum Lokalizacja Amazon S3, wybierz wiadro S3, a następnie wybierz Dodaj miejsce docelowe.
Dodaj Utwórz pracę do uruchomienia rozproszonego zadania przetwarzania PySpark w celu wykonania transformacji i wyprowadzenia danych do docelowego zasobnika S3.

W zależności od rozmiaru zestawów danych ta opcja pozwala nam łatwo skonfigurować klaster i skalować w poziomie bez użycia kodu. Nie musimy się martwić o partycjonowanie zestawów danych ani zarządzanie klastrem i elementami wewnętrznymi platformy Spark. Tym wszystkim automatycznie zajmuje się za nas Data Wrangler.
W lewym okienku wybierz Następnie 2. Skonfiguruj zadanie.
Następnie wybierz run.

Alternatywnie możemy również wyeksportować przekształcone wyjście do S3 za pomocą notebooka Jupyter. Dzięki takiemu podejściu Data Wrangler automatycznie generuje notatnik Jupyter z całym kodem potrzebnym do uruchomienia zadania przetwarzania w celu zastosowania kroków przepływu danych (utworzonych przy użyciu próbki) na większym pełnym zestawie danych i wykorzystania przekształconego zestawu danych jako funkcji do uruchomienia. z pracy szkoleniowej później. Kod notatnika można łatwo uruchomić z wprowadzaniem zmian lub bez nich. Przejdźmy teraz przez kroki, jak to zrobić za pomocą interfejsu użytkownika Data Wrangler.

Wybierz znak plus obok ostatniego kroku w przepływie danych i wybierz Eksportować do.
Dodaj Amazon S3 (przez notatnik Jupyter).
Automatycznie otwiera nową kartę z notatnikiem Jupyter.
W notatniku Jupyter zlokalizuj komórkę w (Opcjonalnie) Następne kroki sekcja i zmiana run_optional_steps od False do True.
Włączone opcjonalne kroki w notebooku wykonują następujące czynności:
- Trenuj model za pomocą XGBoost
Wróć na górę notatnika i na run menu, wybierz Uruchom wszystkie komórki.

Jeśli używasz wygenerowanego notatnika w takim stanie, w jakim jest, uruchamia on zadanie przetwarzania SageMaker, które skaluje przetwarzanie w dwóch instancjach m5.4xlarge w celu przetworzenia pełnego zestawu danych w zasobniku S3. Możesz dostosować liczbę instancji i typy instancji na podstawie rozmiaru zbioru danych i czasu potrzebnego do wykonania zadania.

Poczekaj, aż zadanie szkoleniowe z ostatniej komórki zostanie zakończone. Generuje model w domyślnym zasobniku SageMaker S3.

Wyszkolony model jest gotowy do wdrożenia na potrzeby wnioskowania w czasie rzeczywistym lub transformacji wsadowej. Zwróć uwagę, że użyliśmy danych syntetycznych do zademonstrowania funkcjonalności w Data Wranglerze i wykorzystaliśmy przetworzone dane do modelu szkoleniowego. Biorąc pod uwagę, że dane, których użyliśmy, są syntetyczne, wynik wnioskowania z wytrenowanego modelu nie jest przeznaczony do diagnozowania stanu medycznego w świecie rzeczywistym lub zastępowania osądu lekarzy.

Możesz również bezpośrednio wyeksportować przekształcony zestaw danych do Amazon S3, wybierając Export na górze strony podglądu transformacji. Opcja eksportu bezpośredniego eksportuje tylko przekształconą próbkę, jeśli podczas importu włączono próbkowanie. Ta opcja najlepiej nadaje się, jeśli masz do czynienia z mniejszymi zestawami danych. Przekształcone dane mogą być również pozyskiwane bezpośrednio do magazynu funkcji. Aby uzyskać więcej informacji, zobacz Sklep funkcji Amazon SageMaker. Przepływ danych można również wyeksportować jako potok SageMaker, który można aranżować i planować zgodnie z wymaganiami. Aby uzyskać więcej informacji, zobacz Rurociągi Amazon SageMaker.

Wnioski

W tym poście pokazaliśmy, jak używać Data Wranglera do przetwarzania danych dotyczących opieki zdrowotnej i wykonywania skalowalnej inżynierii funkcji w sposób oparty na narzędziach i niskokodowy. Nauczyliśmy się, jak stosować wbudowane przekształcenia i analizy tam, gdzie jest to potrzebne, łącząc je z niestandardowymi przekształceniami, aby dodać jeszcze większą elastyczność do naszego przepływu pracy przygotowywania danych. Przejrzeliśmy również różne opcje skalowania receptury przepływu danych za pomocą zadań przetwarzania rozproszonego. Dowiedzieliśmy się również, w jaki sposób przekształcone dane można łatwo wykorzystać do trenowania modelu do przewidywania niewydolności serca.

Istnieje wiele innych funkcji w Data Wranglerze, których nie omówiliśmy w tym poście. Zobacz, co jest możliwe w Przygotuj dane ML za pomocą Amazon SageMaker Data Wrangler i dowiedz się, jak wykorzystać Data Wrangler do następnego projektu z dziedziny nauki o danych lub uczenia maszynowego.

O autorach

Las Sun jest starszym architektem rozwiązań w zespole AWS Public Sector w Toronto w Kanadzie. Przez ostatnie dwie dekady pracował w branży medycznej i finansowej. Poza pracą lubi biwakować z rodziną.

Inżynieria funkcji na dużą skalę dla opieki zdrowotnej i nauk przyrodniczych dzięki Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Arunprasath Shankar jest specjalistą ds. rozwiązań w zakresie sztucznej inteligencji i uczenia maszynowego (AI / ML) w AWS, pomagając globalnym klientom skutecznie i wydajnie skalować rozwiązania AI w chmurze. W wolnym czasie Arun lubi oglądać filmy science fiction i słuchać muzyki klasycznej.