Zbuduj przepływ pracy zarządzania ryzykiem uczenia maszynowego w Amazon SageMaker bez kodu

Opublikowane ponownie przez Plato

Obserwuje: 0

Od czasu globalnego kryzysu finansowego zarządzanie ryzykiem odgrywa główną rolę w kształtowaniu procesów decyzyjnych w bankach, w tym przewidywaniu stanu kredytu dla potencjalnych klientów. Jest to często ćwiczenie wymagające dużej ilości danych, które wymaga uczenia maszynowego (ML). Jednak nie wszystkie organizacje dysponują zasobami i wiedzą fachową w zakresie analizy danych, aby zbudować przepływ pracy w zarządzaniu ryzykiem ML.

Amazon Sage Maker to w pełni zarządzana platforma ML, która umożliwia inżynierom danych i analitykom biznesowym szybkie i łatwe tworzenie, szkolenie i wdrażanie modeli ML. Inżynierowie danych i analitycy biznesowi mogą współpracować, korzystając z możliwości programu SageMaker bez/z małą ilością kodu. Inżynierowie danych mogą używać Pogromca danych Amazon SageMaker do szybkiego agregowania i przygotowywania danych do budowy modelu bez pisania kodu. Następnie analitycy biznesowi mogą korzystać z wizualnego interfejsu typu „wskaż i kliknij” Płótno Amazon SageMaker do samodzielnego generowania dokładnych prognoz ML.

W tym poście pokazujemy, jak łatwo inżynierowie danych i analitycy biznesowi współpracują przy tworzeniu przepływu pracy ML obejmującego przygotowanie danych, budowanie modelu i wnioskowanie bez pisania kodu.

Omówienie rozwiązania

Chociaż opracowywanie ML jest procesem złożonym i iteracyjnym, można uogólnić przepływ pracy ML na etapy przygotowania danych, opracowywania modelu i wdrażania modelu.

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Data Wrangler i Canvas abstrahują od złożoności przygotowywania danych i opracowywania modeli, dzięki czemu możesz skupić się na dostarczaniu wartości swojej firmie poprzez wyciąganie wniosków z danych, nie będąc ekspertem w tworzeniu kodu. Poniższy diagram architektury przedstawia składniki w rozwiązaniu bez kodu/niski kod.

Usługa Amazon Simple Storage (Amazon S3) działa jako nasze repozytorium danych dla surowych danych, danych inżynieryjnych i artefaktów modeli. Możesz również wybrać import danych z Amazonka Przesunięcie ku czerwieni, Amazonka Atena, Databricks i Snowflake.

Jako analitycy danych używamy Data Wranglera do eksploracyjnej analizy danych i inżynierii funkcji. Chociaż Canvas może uruchamiać zadania inżynierii funkcji, inżynieria funkcji zwykle wymaga pewnej wiedzy statystycznej i dziedzinowej, aby wzbogacić zestaw danych do odpowiedniej formy do opracowania modelu. Dlatego powierzamy tę odpowiedzialność inżynierom danych, aby mogli przekształcać dane bez pisania kodu w Data Wrangler.

Po przygotowaniu danych przekazujemy obowiązki związane z budowaniem modelu analitykom danych, którzy mogą używać Canvas do trenowania modelu bez konieczności pisania kodu.

Na koniec wykonujemy prognozy pojedyncze i wsadowe bezpośrednio w kanwie z wynikowego modelu bez konieczności samodzielnego wdrażania punktów końcowych modelu.

Przegląd zbioru danych

Korzystamy z funkcji SageMaker, aby przewidzieć stan pożyczki przy użyciu zmodyfikowanej wersji Lending Club publicznie dostępny zbiór danych do analizy kredytów. Zbiór danych zawiera dane dotyczące pożyczek udzielonych w latach 2007–2011. Kolumny opisujące pożyczkę i pożyczkobiorcę to nasze cechy. Kolumna stan_pożyczki jest zmienną docelową, którą staramy się przewidzieć.

Aby zademonstrować w Data Wranglerze, podzieliliśmy zbiór danych na dwa pliki CSV: część pierwsza i część druga. Usunęliśmy niektóre kolumny z oryginalnego zbioru danych Klubu pożyczkowego, aby uprościć demo. Nasz zestaw danych zawiera ponad 37,000 21 wierszy i XNUMX kolumn funkcji, jak opisano w poniższej tabeli.

Nazwa kolumny	Opis
`loan_status`	Aktualny stan pożyczki (zmienna docelowa).
`loan_amount`	Podana kwota pożyczki, o którą wnioskował pożyczkobiorca. Jeśli dział kredytowy zmniejszy kwotę pożyczki, zostanie to odzwierciedlone w tej wartości.
`funded_amount_by_investors`	Całkowita kwota zaangażowana przez inwestorów na tę pożyczkę w tym czasie.
`term`	Liczba spłat pożyczki. Wartości podane są w miesiącach i mogą wynosić 36 lub 60.
`interest_rate`	Oprocentowanie pożyczki.
`installment`	Miesięczna płatność należna od pożyczkobiorcy w przypadku powstania pożyczki.
`grade`	Klasa kredytowa LC.
`sub_grade`	Podklasa kredytu LC.
`employment_length`	Długość zatrudnienia w latach. Możliwe wartości mieszczą się w zakresie od 0 do 10, gdzie 0 oznacza mniej niż jeden rok, a 10 oznacza dziesięć lub więcej lat.
`home_ownership`	Stan posiadania domu podany przez pożyczkobiorcę podczas rejestracji. Nasze wartości to WYNAJEM, WŁASNE, HIPOTECZNE i INNE.
`annual_income`	Zgłoszony przez siebie roczny dochód dostarczony przez pożyczkobiorcę podczas rejestracji.
`verification_status`	Wskazuje, czy dochód został zweryfikowany przez LC.
`issued_amount`	Miesiąc, w którym pożyczka została sfinansowana.
`purpose`	Kategoria podana przez pożyczkobiorcę we wniosku o pożyczkę.
`dti`	Wskaźnik obliczony na podstawie łącznych miesięcznych spłat zadłużenia pożyczkobiorcy od całkowitych zobowiązań dłużnych, z wyłączeniem kredytu hipotecznego i żądanej pożyczki akredytywy, podzielonej przez miesięczny dochód kredytobiorcy zgłaszany przez samego kredytobiorcę.
`earliest_credit_line`	Miesiąc otwarcia najwcześniej zgłoszonej linii kredytowej kredytobiorcy.
`inquiries_last_6_months`	Liczba zapytań w ciągu ostatnich 6 miesięcy (z wyłączeniem zapytań dotyczących samochodów i kredytów hipotecznych).
`open_credit_lines`	Liczba otwartych linii kredytowych w pliku kredytowym kredytobiorcy.
`derogatory_public_records`	Liczba uwłaczających rejestrów publicznych.
`revolving_line_utilization_rate`	Wskaźnik wykorzystania linii odnawialnej lub kwota kredytu, z którego korzysta pożyczkobiorca w stosunku do wszystkich dostępnych kredytów odnawialnych.
`total_credit_lines`	Łączna liczba linii kredytowych znajdujących się obecnie w pliku kredytowym kredytobiorcy.

Używamy tego zbioru danych do przygotowania danych i szkolenia modeli.

Wymagania wstępne

Wykonaj następujące wymagane kroki:

Prześlij oba pliki pożyczki do wybranego wiadra S3.
Upewnij się, że masz niezbędne uprawnienia. Aby uzyskać więcej informacji, zobacz Zacznij korzystać z Data Wranglera.
Skonfiguruj domenę SageMaker skonfigurowaną do korzystania z aplikacji Data Wrangler. Aby uzyskać instrukcje, zobacz Na pokładzie do domeny Amazon SageMaker.

Importuj dane

Utwórz nowy przepływ danych Data Wrangler z Interfejs użytkownika Amazon SageMaker Studio.

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Importuj dane z Amazon S3, wybierając pliki CSV z zasobnika S3, w którym umieściłeś swój zbiór danych. Po zaimportowaniu obu plików możesz zobaczyć dwa oddzielne przepływy pracy w Przepływ danych widok.

Podczas importowania danych w przepływie Data Wrangler można wybrać kilka opcji próbkowania. Próbkowanie może pomóc, gdy masz zestaw danych, który jest zbyt duży, aby przygotować go interaktywnie, lub gdy chcesz zachować proporcję rzadkich zdarzeń w próbkowanym zestawie danych. Ponieważ nasz zbiór danych jest mały, nie używamy próbkowania.

Przygotuj dane

W naszym przypadku użycia mamy dwa zestawy danych ze wspólną kolumną: id. Jako pierwszy krok w przygotowaniu danych chcemy połączyć te pliki, łącząc je. Aby uzyskać instrukcje, zobacz Przekształć dane.

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Używamy Dołącz do rejestru krok transformacji danych i użyj Wewnętrzny typ dołączenia na id Kolumna.

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

W wyniku naszej transformacji złączeń Data Wrangler tworzy dwie dodatkowe kolumny: id_0 i id_1. Jednak te kolumny są niepotrzebne do celów budowania modelu. Usuwamy te nadmiarowe kolumny za pomocą Zarządzaj kolumnami krok transformacji.

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Zaimportowaliśmy nasze zbiory danych, połączyliśmy je i usunęliśmy niepotrzebne kolumny. Jesteśmy teraz gotowi do wzbogacenia naszych danych poprzez inżynierię funkcji i przygotowania do budowy modelu.

Wykonaj inżynierię funkcji

Do przygotowania danych wykorzystaliśmy Data Wrangler. Możesz także użyć Funkcja raportu jakości danych i statystyk w Data Wrangler, aby zweryfikować jakość danych i wykryć nieprawidłowości w danych. Analitycy danych często muszą korzystać z tych szczegółowych informacji, aby skutecznie zastosować odpowiednią wiedzę domenową do funkcji inżynierskich. W tym poście zakładamy, że zakończyliśmy te oceny jakości i możemy przejść do inżynierii funkcji.

W tym kroku stosujemy kilka przekształceń do kolumn liczbowych, kategorialnych i tekstowych.

Najpierw normalizujemy stopę procentową, aby skalować wartości w zakresie 0–1. Robimy to za pomocą Proces numeryczny przekształć, aby przeskalować interest_rate kolumna za pomocą skalera min-max. Celem normalizacji (lub standaryzacji) jest wyeliminowanie błędu systematycznego z naszego modelu. Zmienne mierzone w różnych skalach nie będą w równym stopniu przyczyniać się do procesu uczenia się modelu. Dlatego funkcja transformacji, taka jak przekształcenie skalowania min-maks, pomaga normalizować funkcje.

Aby przekonwertować zmienną kategorialną na wartość liczbową, używamy kodowania one-hot. Wybieramy Koduj kategorycznie przekształć, a następnie wybierz Kodowanie na gorąco. Kodowanie „one-hot” poprawia zdolność predykcyjną modelu ML. Ten proces przekształca wartość kategoryczną w nową cechę, przypisując jej wartość binarną 1 lub 0. Jako prosty przykład, jeśli masz jedną kolumnę, która zawiera albo wartość yes or no, kodowanie one-hot przekształci tę kolumnę w dwie kolumny: a Yes kolumna i No kolumna. Wartość tak miałaby 1 w Yes kolumna i 0 w No kolumna. Kodowanie „one-hot” sprawia, że nasze dane są bardziej przydatne, ponieważ wartości liczbowe mogą łatwiej określać prawdopodobieństwo naszych prognoz.

Na koniec oferujemy employer_title kolumna, aby przekształcić wartości ciągu w wektor liczbowy. Stosujemy Policz wektoryzator oraz standardowy tokenizer w ramach Wektoryzuj przekształcać. Tokenizacja rozkłada zdanie lub serię tekstu na słowa, podczas gdy wektoryzator konwertuje dane tekstowe do postaci do odczytu maszynowego. Te słowa są reprezentowane jako wektory.

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Po ukończeniu wszystkich etapów inżynierii funkcji możemy wyeksportować dane i przesłać wyniki do naszego wiadra S3. Alternatywnie możesz wyeksportować swój przepływ jako kod Pythona lub notatnik Jupyter, aby utworzyć potok z widokiem za pomocą Rurociągi Amazon SageMaker. Rozważ to, jeśli chcesz uruchomić etapy inżynierii funkcji na dużą skalę lub jako część potoku ML.

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Możemy teraz użyć pliku wyjściowego Data Wrangler jako danych wejściowych dla kanwy. Odwołujemy się do tego jako do zestawu danych w Canvas, aby zbudować nasz model ML.

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

W naszym przypadku wyeksportowaliśmy przygotowany zestaw danych do domyślnego zasobnika Studio za pomocą output prefiks. Odwołujemy się do tej lokalizacji zestawu danych podczas ładowania danych do kanwy w celu późniejszego budowania modelu.

Twórz i trenuj swój model ML z Canvas

W konsoli SageMaker uruchom aplikację Canvas. Aby zbudować model ML z danych przygotowanych w poprzedniej sekcji, wykonujemy następujące kroki:

Zaimportuj przygotowany zestaw danych do Canvas z zasobnika S3.

Odwołujemy się do tej samej ścieżki S3, do której wyeksportowaliśmy wyniki Data Wranglera z poprzedniej sekcji.

Utwórz nowy model w Canvas i nazwij go loan_prediction_model.
Wybierz zaimportowany zestaw danych i dodaj go do obiektu modelu.

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Aby Canvas zbudował model, musimy wybrać kolumnę docelową.

Ponieważ naszym celem jest przewidzenie prawdopodobieństwa zdolności pożyczkodawcy do spłaty pożyczki, wybieramy loan_status Kolumna.

Canvas automatycznie identyfikuje typ opisu problemu z ML. W chwili pisania tego tekstu Canvas obsługuje problemy z regresją, klasyfikacją i prognozowaniem szeregów czasowych. Możesz określić typ problemu lub sprawić, by Canvas automatycznie wywnioskował problem z Twoich danych.

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wybierz opcję rozpoczęcia procesu budowania modelu: Szybka budowa or Wersja standardowa.

Połączenia Szybka budowa opcja wykorzystuje zestaw danych do trenowania modelu w ciągu 2–15 minut. Jest to przydatne podczas eksperymentowania z nowym zestawem danych, aby określić, czy posiadany zestaw danych będzie wystarczający do prognozowania. Używamy tej opcji w tym poście.

Połączenia Wersja standardowa opcja wybiera dokładność zamiast szybkości i wykorzystuje około 250 kandydatów na model do trenowania modelu. Proces trwa zwykle 1–2 godziny.

Po zbudowaniu modelu możesz przejrzeć wyniki modelu. Canvas szacuje, że Twój model jest w stanie przewidzieć właściwy wynik w 82.9% przypadków. Twoje własne wyniki mogą się różnić ze względu na zmienność modeli szkoleniowych.

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Ponadto możesz zagłębić się w szczegółową analizę modelu, aby dowiedzieć się więcej o modelu.

Ważność funkcji reprezentuje szacowaną ważność każdej funkcji w przewidywaniu kolumny docelowej. W tym przypadku kolumna linii kredytowej ma największy wpływ na przewidywanie, czy klient spłaci kwotę pożyczki, a następnie stopę procentową i roczny dochód.

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Macierz pomyłek w Zaawansowane metryki sekcja zawiera informacje dla użytkowników, którzy chcą lepiej zrozumieć wydajność swojego modelu.

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Przed wdrożeniem modelu dla obciążeń produkcyjnych użyj kanwy do przetestowania modelu. Canvas zarządza naszym punktem końcowym modelu i pozwala nam dokonywać prognoz bezpośrednio w interfejsie użytkownika Canvas.

Dodaj Przewiduj i przeanalizuj ustalenia dotyczące Przewidywanie partii or Pojedyncza prognoza patka.

W poniższym przykładzie dokonujemy pojedynczej prognozy, modyfikując wartości, aby przewidzieć naszą zmienną docelową loan_status w czasie rzeczywistym

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Możemy również wybrać większy zbiór danych i zlecić Canvas generowanie prognoz zbiorczych w naszym imieniu.

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wnioski

Kompleksowe uczenie maszynowe jest złożone i powtarzalne, często obejmuje wiele osób, technologii i procesów. Data Wrangler i Canvas umożliwiają współpracę między zespołami bez konieczności pisania przez te zespoły kodu.

Inżynier danych może łatwo przygotować dane za pomocą Data Wranglera bez pisania kodu i przekazać przygotowany zestaw danych analitykowi biznesowemu. Analityk biznesowy może następnie łatwo zbudować dokładne modele ML za pomocą zaledwie kilku kliknięć za pomocą Canvas i uzyskać dokładne prognozy w czasie rzeczywistym lub wsadowo.

Zacznij korzystać z Data Wranglera korzystanie z tych narzędzi bez konieczności zarządzania infrastrukturą. Możesz skonfigurować płótno szybko i od razu zacznij tworzyć modele ML, aby wesprzeć Twoje potrzeby biznesowe.

O autorach

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Piotr Chung jest architektem rozwiązań dla AWS i pasjonuje się pomaganiem klientom w odkrywaniu wniosków z ich danych. Tworzył rozwiązania pomagające organizacjom w podejmowaniu decyzji opartych na danych zarówno w sektorze publicznym, jak i prywatnym. Posiada wszystkie certyfikaty AWS oraz dwa certyfikaty GCP.

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Meenakshisundaram Tandavarayan jest starszym specjalistą AI/ML z AWS. Pomaga zaawansowanym technologicznie klientom strategicznym w ich podróży związanej z AI i ML. Jego pasją jest sztuczna inteligencja oparta na danych.

Zbuduj przepływ pracy uczenia maszynowego zarządzania ryzykiem w Amazon SageMaker bez kodu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Dana Fergusona jest architektem rozwiązań w AWS z siedzibą w Nowym Jorku, USA. Jako ekspert ds. usług uczenia maszynowego, Dan pracuje nad wspieraniem klientów w ich drodze do efektywnej, efektywnej i zrównoważonej integracji przepływów pracy ML.

Znak czasu: 19 maja 2022 r.

Znak czasu: 4 maja 2022 r.

Zbuduj przepływ pracy uczenia maszynowego do zarządzania ryzykiem w Amazon SageMaker bez kodu

Opublikowane ponownie przez Plato

Omówienie rozwiązania

Przegląd zbioru danych

Wymagania wstępne

Importuj dane

Przygotuj dane

Wykonaj inżynierię funkcji

Twórz i trenuj swój model ML z Canvas

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Promuj odkrywanie i ponowne wykorzystywanie funkcji w całej organizacji za pomocą sklepu Amazon SageMaker Feature Store i jego funkcji metadanych na poziomie funkcji

Zmniejsz koszty wnioskowania Amazon SageMaker dzięki AWS Graviton

Wdrażaj i zarządzaj potokami uczenia maszynowego za pomocą Terraform za pomocą Amazon SageMaker

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto