Przygotowanie danych to kluczowy etap w każdym przepływie pracy związanym z uczeniem maszynowym (ML), choć często wiąże się z żmudnymi i czasochłonnymi zadaniami. Płótno Amazon SageMaker obsługuje teraz kompleksowe możliwości przygotowywania danych obsługiwane przez Pogromca danych Amazon SageMaker. Dzięki tej integracji SageMaker Canvas zapewnia klientom kompleksową przestrzeń roboczą niewymagającą stosowania kodu, umożliwiającą przygotowywanie danych, budowanie i wykorzystywanie uczenia maszynowego oraz modeli podstawowych w celu skrócenia czasu od uzyskania danych do wniosków biznesowych. Możesz teraz łatwo odkrywać i agregować dane z ponad 50 źródeł danych oraz eksplorować i przygotowywać dane, korzystając z ponad 300 wbudowanych analiz i transformacji w interfejsie wizualnym SageMaker Canvas. Zobaczysz także większą wydajność transformacji i analiz oraz interfejs języka naturalnego do eksplorowania i przekształcania danych na potrzeby uczenia maszynowego.
W tym poście przeprowadzimy Cię przez proces przygotowania danych do kompleksowego budowania modelu w SageMaker Canvas.
Omówienie rozwiązania
W naszym przypadku przyjmujemy rolę specjalisty ds. danych w firmie świadczącej usługi finansowe. Wykorzystujemy dwa przykładowe zbiory danych do zbudowania modelu ML, który przewiduje, czy pożyczka zostanie w pełni spłacona przez pożyczkobiorcę, co jest kluczowe w zarządzaniu ryzykiem kredytowym. Środowisko SageMaker Canvas niewymagające kodu pozwala nam szybko przygotowywać dane, projektować funkcje, trenować model uczenia maszynowego i wdrażać model w ramach kompleksowego przepływu pracy, bez konieczności kodowania.
Wymagania wstępne
Aby postępować zgodnie z tym przewodnikiem, upewnij się, że wdrożono wymagania wstępne opisane w sekcji
- Uruchom Amazon SageMaker Canvas. Jeśli jesteś już użytkownikiem SageMaker Canvas, upewnij się, że tak zaloguj się i zaloguj się ponownie, aby móc korzystać z tej nowej funkcji.
- Aby zaimportować dane z Snowflake, wykonaj kroki z Skonfiguruj OAuth dla Snowflake.
Przygotuj interaktywne dane
Po zakończeniu konfiguracji możemy teraz utworzyć przepływ danych, aby umożliwić interaktywne przygotowanie danych. Przepływ danych zapewnia wbudowane transformacje i wizualizacje w czasie rzeczywistym w celu uporządkowania danych. Wykonaj następujące kroki:
- Utwórz nowy przepływ danych, korzystając z jednej z następujących metod:
- Dodaj Poskramiacz danych, Przepływy danych, A następnie wybierz Stwórz.
- Wybierz zbiór danych SageMaker Canvas i wybierz Utwórz przepływ danych.
- Dodaj Importuj daty nastepnie: Tabelaryczny z rozwijanej listy.
- Możesz importować dane bezpośrednio poprzez ponad 50 łączników danych, takich jak Usługa Amazon Simple Storage (Amazonka S3), Amazonka Atena, Amazonka Przesunięcie ku czerwieni, Płatek śniegu i Salesforce. W tym przewodniku omówimy importowanie danych bezpośrednio z Snowflake.
Alternatywnie możesz przesłać ten sam zestaw danych z komputera lokalnego. Możesz pobrać zbiór danych pożyczki-część-1.csv i pożyczki-część-2.csv.
- Na stronie Importuj dane wybierz z listy Płatek śniegu i wybierz Dodaj połączenie.
- Wprowadź nazwę połączenia, wybierz OAuth opcję z listy rozwijanej metody uwierzytelniania. Wpisz swój identyfikator konta okta i wybierz Dodaj połączenie.
- Zostaniesz przekierowany do ekranu logowania Okta, gdzie możesz wprowadzić dane uwierzytelniające Okta w celu uwierzytelnienia. Po pomyślnym uwierzytelnieniu zostaniesz przekierowany na stronę przepływu danych.
- Przeglądaj, aby zlokalizować zbiór danych pożyczkowych z bazy danych Snowflake
Wybierz dwa zestawy danych kredytów, przeciągając je i upuszczając z lewej strony ekranu do prawej. Obydwa zbiory danych zostaną połączone i pojawi się symbol łączenia z czerwonym wykrzyknikiem. Kliknij na to, a następnie wybierz dla obu zestawów danych id klucz. Pozostaw typ połączenia jako Wewnętrzny. To powinno wyglądać tak:
- Dodaj Zapisz i zamknij.
- Dodaj Utwórz zbiór danych. Nadaj nazwę zbiorowi danych.
- Przejdź do przepływu danych, zobaczysz następujące informacje.
- Aby szybko zapoznać się z danymi pożyczki, wybierz Uzyskaj wgląd w dane I wybierz opcję
loan_status
kolumna docelowa i Klasyfikacja typ problemu.
Wygenerowany plik Raport dotyczący jakości i analiz danych zapewnia kluczowe statystyki, wizualizacje i analizy ważności funkcji.
- Przejrzyj ostrzeżenia dotyczące problemów z jakością danych i niezrównoważonych klas, aby zrozumieć i ulepszyć zbiór danych.
W przypadku zbioru danych w tym przypadku użycia należy spodziewać się ostrzeżenia o wysokim priorytecie „Bardzo niski wynik szybkiego modelu” i bardzo niskiej skuteczności modelu w klasach mniejszości (odpłatnych i bieżących), wskazujących na potrzebę oczyszczenia i zrównoważenia danych. Odnosić się do Dokumentacja canvas aby dowiedzieć się więcej o raporcie analizy danych.
Dzięki ponad 300 wbudowanym transformacjom obsługiwanym przez SageMaker Data Wrangler, SageMaker Canvas umożliwia szybkie przetwarzanie danych pożyczki. Możesz kliknąć Dodaj kroki przeglądaj lub szukaj odpowiednich przekształceń. W przypadku tego zestawu danych użyj Brakuje upuszczenia i Obsługuj wartości odstające aby wyczyścić dane, a następnie zastosuj Jedno-gorące kodowanie, i Wektoryzacja tekstu do tworzenia funkcji dla ML.
Czat w celu przygotowania danych to nowa funkcja języka naturalnego, która umożliwia intuicyjną analizę danych poprzez opisywanie żądań prostym językiem angielskim. Na przykład możesz uzyskać statystyki i analizę korelacji cech danych kredytowych za pomocą naturalnych wyrażeń. SageMaker Canvas rozumie i realizuje działania poprzez interakcje konwersacyjne, przenosząc przygotowanie danych na wyższy poziom.
Możemy użyć Czat w celu przygotowania danych i wbudowana transformacja w celu zrównoważenia danych pożyczki.
- Najpierw wprowadź następujące instrukcje:
replace “charged off” and “current” in loan_status with “default”
Czat w celu przygotowania danych generuje kod łączący dwie klasy mniejszości w jedną default
class.
- Wybierz wbudowany GŁADKIE transform, aby wygenerować dane syntetyczne dla klasy domyślnej.
Teraz masz zrównoważoną kolumnę docelową.
- Po oczyszczeniu i przetworzeniu danych pożyczki zregeneruj plik Raport dotyczący jakości i analiz danych w celu przeglądu ulepszeń.
Ostrzeżenie o wysokim priorytecie zniknęło, wskazując lepszą jakość danych. W razie potrzeby możesz dodać dalsze przekształcenia, aby poprawić jakość danych na potrzeby uczenia modeli.
Skaluj i automatyzuj przetwarzanie danych
Aby zautomatyzować przygotowywanie danych, możesz uruchomić lub zaplanować cały przepływ pracy jako rozproszone zadanie przetwarzania platformy Spark w celu przetworzenia całego zestawu danych lub dowolnych nowych zestawów danych na dużą skalę.
- W ramach przepływu danych dodaj węzeł docelowy Amazon S3.
- Uruchom zadanie przetwarzania SageMaker, wybierając Utwórz pracę.
- Skonfiguruj zadanie przetwarzania i wybierz Stwórz, umożliwiając przepływ setek GB danych bez próbkowania.
Przepływy danych można włączyć do kompleksowych potoków MLOps, aby zautomatyzować cykl życia uczenia maszynowego. Przepływy danych mogą być przesyłane do notatników SageMaker Studio jako etap przetwarzania danych w potoku SageMaker lub w celu wdrożenia potoku wnioskowania SageMaker. Umożliwia to automatyzację przepływu od przygotowania danych do szkolenia i hostingu SageMaker.
Zbuduj i wdróż model w SageMaker Canvas
Po przygotowaniu danych możemy bezproblemowo wyeksportować ostateczny zestaw danych do SageMaker Canvas w celu zbudowania, wyszkolenia i wdrożenia modelu przewidywania spłaty pożyczki.
- Dodaj Utwórz model w ostatnim węźle przepływu danych lub w panelu węzłów.
Spowoduje to wyeksportowanie zestawu danych i uruchomienie procesu tworzenia modelu z przewodnikiem.
- Nazwij wyeksportowany zbiór danych i wybierz Export.
- Dodaj Utwórz model z powiadomienia.
- Nazwij model, wybierz Analiza predykcyjnai wybierz Stwórz.
Spowoduje to przekierowanie do strony budowania modelu.
- Kontynuuj budowanie modelu w programie SageMaker Canvas, wybierając docelową kolumnę i typ modelu, a następnie dokonaj wyboru Szybka budowa or Wersja standardowa.
Aby dowiedzieć się więcej na temat budowania modelu, zobacz Zbudować model.
Po zakończeniu uczenia można użyć modelu do przewidywania nowych danych lub ich wdrażania. Odnosić się do Wdrażaj modele ML wbudowane w Amazon SageMaker Canvas w punktach końcowych Amazon SageMaker w czasie rzeczywistym aby dowiedzieć się więcej o wdrażaniu modelu z SageMaker Canvas.
Wnioski
W tym poście zademonstrowaliśmy kompleksowe możliwości SageMaker Canvas, wcielając się w rolę specjalisty ds. danych finansowych przygotowującego dane w celu przewidywania spłaty kredytu, obsługiwanego przez SageMaker Data Wrangler. Interaktywne przygotowanie danych umożliwiło szybkie czyszczenie, przekształcanie i analizowanie danych kredytowych w celu opracowania funkcji informacyjnych. Usuwając złożoność kodowania, SageMaker Canvas umożliwił nam szybką iterację w celu stworzenia wysokiej jakości zestawu danych szkoleniowych. Ten przyspieszony przepływ pracy prowadzi bezpośrednio do tworzenia, szkolenia i wdrażania wydajnego modelu uczenia maszynowego, który ma wpływ na działalność biznesową. Dzięki kompleksowemu przygotowaniu danych i ujednoliconemu doświadczeniu, od danych po spostrzeżenia, SageMaker Canvas umożliwia poprawę wyników uczenia maszynowego. Aby uzyskać więcej informacji na temat przyspieszania podróży od danych do wniosków biznesowych, zobacz Dzień zanurzenia w płótnie SageMaker i Podręcznik użytkownika AWS.
O autorach
Dr Changsha Mam jest specjalistą AI/ML w AWS. Jest technologem z tytułem doktora informatyki, tytułem magistra psychologii edukacji oraz wieloletnim doświadczeniem w dziedzinie analityki danych i niezależnego doradztwa w zakresie AI/ML. Jej pasją jest badanie podejść metodologicznych do inteligencji maszyn i ludzi. Poza pracą uwielbia wędrować, gotować, polować na żywność i spędzać czas z przyjaciółmi i rodziną.
Ajjay Govindaram jest starszym architektem rozwiązań w AWS. Pracuje ze strategicznymi klientami, którzy wykorzystują AI/ML do rozwiązywania złożonych problemów biznesowych. Jego doświadczenie polega na zapewnianiu wskazówek technicznych oraz pomocy projektowej w przypadku wdrożeń aplikacji AI/ML na niewielką lub dużą skalę. Jego wiedza obejmuje architekturę aplikacji, big data, analitykę i uczenie maszynowe. Lubi słuchać muzyki podczas odpoczynku, przebywania na świeżym powietrzu i spędzania czasu z najbliższymi.
Huong Nguyen jest starszym menedżerem produktu w AWS. Kieruje przygotowaniem danych ML dla SageMaker Canvas i SageMaker Data Wrangler, mając 15 lat doświadczenia w tworzeniu produktów zorientowanych na klienta i opartych na danych.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
- PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
- PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
- Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
- Źródło: https://aws.amazon.com/blogs/machine-learning/accelerate-data-preparation-for-ml-with-comprehensive-data-preparation-capabilities-and-a-natural-language-interface-in-amazon-sagemaker-canvas/
- :ma
- :Jest
- $W GÓRĘ
- 100
- 12
- 13
- 14
- 15 roku
- 15%
- 50
- 7
- 8
- a
- Zdolny
- O nas
- przyśpieszyć
- przyśpieszony
- Konto
- działania
- Dodaj
- agregat
- AI / ML
- dozwolony
- pozwala
- wzdłuż
- już
- również
- Amazonka
- Amazon Sage Maker
- Płótno Amazon SageMaker
- Amazon Web Services
- an
- analizuje
- analiza
- analityka
- Analizując
- i
- każdy
- zjawić się
- Zastosowanie
- awanse
- architektura
- SĄ
- AS
- Wsparcie
- At
- uwierzytelniać
- Uwierzytelnianie
- zautomatyzować
- automatyzacja
- AWS
- z powrotem
- Bilans
- zrównoważony
- BE
- Duży
- Big Data
- pożyczający
- obie
- budować
- Budowanie
- wybudowany
- wbudowany
- biznes
- by
- CAN
- Może uzyskać
- brezentowy
- możliwości
- zdolność
- walizka
- naładowany
- Dodaj
- Wybierając
- klasa
- Klasy
- kleń
- Sprzątanie
- kliknij
- kod
- Kodowanie
- Kolumna
- sukcesy firma
- kompletny
- kompleks
- złożoności
- wszechstronny
- komputer
- Computer Science
- Skontaktuj się
- połączenie
- consulting
- konwersacyjny
- Korelacja
- pokrywa
- Stwórz
- tworzenie
- Listy uwierzytelniające
- kredyt
- istotny
- Aktualny
- Klientów
- dane
- analiza danych
- Przygotowywanie danych
- analiza danych
- nauka danych
- sterowane danymi
- zbiory danych
- Domyślnie
- Stopień
- wykazać
- rozwijać
- wdrażanie
- wdrożenia
- Opisujące
- Wnętrze
- miejsce przeznaczenia
- szczegółowe
- kierunek
- bezpośrednio
- odkryj
- dystrybuowane
- na dół
- pobieranie
- Spadek
- Rzut
- z łatwością
- Edukacja
- skuteczność
- upoważnia
- umożliwiać
- włączony
- Umożliwia
- umożliwiając
- koniec końców
- inżynier
- Angielski
- wzmacniać
- zapewnić
- Wchodzę
- Cały
- Środowisko
- przykład
- oczekiwać
- doświadczenie
- doświadczać
- odkryj
- eksport
- eksport
- rodzin
- szybciej
- Cecha
- Korzyści
- finał
- budżetowy
- dane finansowe
- usługi finansowe
- firma świadcząca usługi finansowe
- pływ
- Przepływy
- obserwuj
- następujący
- jedzenie
- W razie zamówieenia projektu
- Fundamenty
- świeży
- przyjaciele
- od
- w pełni
- funkcjonować
- dalej
- Generować
- wygenerowane
- generuje
- otrzymać
- Dać
- prowadzony
- Have
- he
- Wysoki
- wysokiej jakości
- jego
- Hosting
- W jaki sposób
- How To
- HTML
- http
- HTTPS
- człowiek
- ludzka inteligencja
- Setki
- Łowiectwo
- ID
- if
- niezrównoważony
- zanurzenie
- Rezultat
- realizowane
- importować
- znaczenie
- importowanie
- podnieść
- ulepszony
- ulepszenia
- in
- Rejestrowy
- niezależny
- Informacja
- informacyjny
- wgląd
- spostrzeżenia
- instrukcje
- integracja
- Inteligencja
- Interakcje
- interaktywne
- Interfejs
- najnowszych
- intuicyjny
- problemy
- IT
- JEGO
- Praca
- przystąpić
- Podróże
- jpg
- Klawisz
- wiedza
- język
- na dużą skalę
- Nazwisko
- uruchamia
- prowadzący
- Wyprowadzenia
- UCZYĆ SIĘ
- nauka
- Pozostawiać
- lewo
- poziom
- leży
- wifecycwe
- lubić
- Lista
- Słuchanie
- pożyczka
- Kredyty
- miejscowy
- log
- Zaloguj Się
- Popatrz
- wygląda jak
- "kochanym"
- kocha
- niski
- maszyna
- uczenie maszynowe
- robić
- kierownik
- zarządzający
- znak
- mistrzowski
- Łączyć
- metoda
- metody
- mniejszość
- ML
- MLOps
- model
- modele
- skromny
- jeszcze
- Muzyka
- Nazwa
- Naturalny
- Potrzebować
- potrzebne
- Nowości
- Następny
- węzeł
- węzły
- powiadomienie
- już dziś
- przysięgać
- of
- poza
- często
- OK
- on
- ONE
- te
- Option
- or
- ludzkiej,
- wyniki
- na zewnątrz
- zewnętrzne
- koniec
- strona
- chleb
- namiętny
- płatność
- jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,
- PhD
- Zwroty
- rurociąg
- Równina
- plato
- Analiza danych Platona
- PlatoDane
- Post
- powered
- przewidzieć
- przepowiednia
- Prognozy
- przygotowanie
- Przygotować
- przygotowanie
- warunki wstępne
- priorytet
- Problem
- problemy
- wygląda tak
- przetwarzanie
- Produkt
- product manager
- Produkty
- profesjonalny
- zapewnia
- że
- Psychologia
- jakość
- szybko
- zakresy
- szybko
- w czasie rzeczywistym
- Czerwony
- przekierowanie
- odnosić się
- usuwanie
- raport
- wywołań
- spoczynkowy
- przeglądu
- prawo
- Ryzyko
- Rola
- run
- działa
- sagemaker
- Wnioskowanie SageMakera
- sprzedawca
- taki sam
- Skala
- rozkład
- nauka
- Ekran
- płynnie
- Szukaj
- widzieć
- wybierać
- senior
- Usługi
- firma usługowa
- ustawienie
- ona
- powinien
- bok
- Prosty
- Rozwiązania
- ROZWIĄZANIA
- Źródła
- Iskra
- specjalista
- Spędzanie
- statystyka
- Ewolucja krok po kroku
- Cel
- przechowywanie
- Strategiczny
- studio
- udany
- taki
- podpory
- pewnie
- symbol
- syntetyczny
- dane syntetyczne
- biorąc
- cel
- zadania
- Techniczny
- technolog
- że
- Połączenia
- Im
- następnie
- to
- Przez
- czas
- czasochłonne
- do
- Pociąg
- Trening
- Przekształcać
- przemiany
- transformatorowy
- transformacje
- drugiej
- rodzaj
- zrozumieć
- rozumie
- Ujednolicony
- us
- posługiwać się
- przypadek użycia
- Użytkownik
- za pomocą
- początku.
- wizualny
- spacer
- solucja
- ostrzeżenie
- we
- sieć
- usługi internetowe
- DOBRZE
- czy
- który
- Podczas
- KIM
- cały
- będzie
- w
- bez
- Praca
- workflow
- działa
- warsztaty
- by
- lat
- jeszcze
- You
- Twój
- zefirnet