Pogromca danych Amazon SageMaker to specjalnie zaprojektowane narzędzie do agregacji i przygotowywania danych do uczenia maszynowego (ML). Umożliwia korzystanie z interfejsu wizualnego w celu uzyskania dostępu do danych i wykonywania eksploracyjnej analizy danych (EDA) oraz inżynierii funkcji. Funkcja EDA zawiera wbudowane funkcje analizy danych dla wykresów (takich jak wykres punktowy lub histogram) oraz funkcje analizy modelu, które pozwalają zaoszczędzić czas, takie jak ważność funkcji, wyciek celu i wyjaśnialność modelu. Funkcja inżynierii funkcji ma ponad 300 wbudowanych przekształceń i umożliwia wykonywanie niestandardowych przekształceń przy użyciu środowiska uruchomieniowego Python, PySpark lub Spark SQL.
W przypadku niestandardowych wizualizacji i przekształceń Data Wrangler udostępnia teraz przykładowe fragmenty kodu dla typowych typów wizualizacji i przekształceń. W tym poście pokazujemy, jak używać tych fragmentów kodu do szybkiego uruchomienia EDA w Data Wrangler.
Omówienie rozwiązania
W chwili pisania tego tekstu możesz importować zestawy danych do Data Wranglera z Usługa Amazon Simple Storage (Amazonka S3), Amazonka Atena, Amazonka Przesunięcie ku czerwieni, Databricks i Snowflake. W tym poście używamy Amazon S3 do przechowywania Amazon 2014 recenzja zbioru danych. Oto próbka zbioru danych:
W tym poście wykonujemy EDA przy użyciu trzech kolumn:asin
, reviewTime
, overall
— które mapują odpowiednio identyfikator produktu, datę recenzji i ogólny wynik recenzji. Używamy tych danych do wizualizacji dynamiki liczby recenzji na przestrzeni miesięcy i lat.
Korzystanie z przykładowego fragmentu kodu dla EDA w Data Wrangler
Aby rozpocząć wykonywanie EDA w aplikacji Data Wrangler, wykonaj następujące czynności:
- Pobierz Zbiór danych recenzji muzyki cyfrowej JSON i prześlij go do Amazon S3.
Używamy tego jako surowego zbioru danych dla EDA. - Otwarte Studio Amazon SageMaker i utwórz nowy przepływ Data Wrangler i zaimportuj zestaw danych z Amazon S3.
Ten zbiór danych ma dziewięć kolumn, ale używamy tylko trzech:
asin
,reviewTime
,overall
. Musimy odrzucić pozostałe sześć kolumn. - Utwórz niestandardową transformację i wybierz Python (PySpark).
- Rozszerzać Wyszukaj przykładowe fragmenty i wybierz Usuń wszystkie kolumny z wyjątkiem kilku.
- Wprowadź dostarczony fragment kodu do niestandardowego przekształcenia i postępuj zgodnie z instrukcjami, aby zmodyfikować kod.
Teraz, gdy mamy już wszystkie potrzebne kolumny, przefiltrujmy dane, aby zachować tylko recenzje z okresu 2000–2020.
- Użyj Filtruj znacznik czasu poza zakresem fragment do usunięcia danych sprzed 2000 r. i po 2020 r.:
Następnie wyodrębniamy rok i miesiąc z kolumny reviewTime.
- Użyj Wyróżnij datę/godzinę przekształcać.
- W razie zamówieenia projektu Wyodrębnij kolumnywybierz rok i miesiąc.
Następnie chcemy zagregować liczbę recenzji według roku i miesiąca, które utworzyliśmy w poprzednim kroku.
- Użyj Oblicz statystyki w grupach skrawek:
- Zmień nazwę agregacji poprzedniego kroku z
count(overall)
doreviews_num
wybierając Zarządzaj kolumnami oraz Zmień nazwę kolumny przekształcać.
Na koniec chcemy stworzyć mapę popularności, aby zwizualizować rozkład recenzji według roku i miesiąca. - Na karcie analizy wybierz Wizualizacja niestandardowa.
- Rozszerzać Wyszukaj fragment i wybierz Mapa ciepła w menu rozwijanym.
- Wprowadź dostarczony fragment do niestandardowej wizualizacji:
Otrzymujemy następującą wizualizację.
Jeśli chcesz jeszcze bardziej ulepszyć mapę popularności, możesz podzielić dane tak, aby wyświetlały się tylko recenzje sprzed 2011 roku. Trudno je zidentyfikować na mapie, którą właśnie stworzyliśmy, ze względu na dużą liczbę recenzji od 2012 roku. - Dodaj jeden wiersz kodu do niestandardowej wizualizacji:
Otrzymujemy następującą mapę cieplną.
Teraz mapa cieplna w bardziej widoczny sposób odzwierciedla recenzje sprzed 2011 r.: możemy zaobserwować efekty sezonowe (koniec roku przynosi więcej zakupów, a co za tym idzie więcej recenzji) i możemy zidentyfikować anomalne miesiące, takie jak październik 2003 i marzec 2005. Warto to zbadać dalej aby ustalić przyczynę tych anomalii.
Wnioski
Data Wrangler to specjalnie zaprojektowane narzędzie do agregacji i przygotowywania danych dla ML. W tym poście pokazaliśmy, jak wykonać EDA i szybko przekształcić dane za pomocą fragmentów kodu dostarczonych przez Data Wrangler. Musisz tylko znaleźć fragment, wpisać kod i dostosować parametry do swojego zbioru danych. Możesz kontynuować iterację skryptu, aby tworzyć bardziej złożone wizualizacje i przekształcenia.
Aby dowiedzieć się więcej o Data Wranglerze, przejdź do Twórz i używaj przepływu danych Wrangler.
O autorach
Nikita Iwkin jest naukowcem stosowanym, Amazon SageMaker Data Wrangler.
Haidera Naqviego jest Architektem Rozwiązań w AWS. Posiada bogate doświadczenie w tworzeniu oprogramowania i architekturze korporacyjnej. Koncentruje się na umożliwieniu klientom osiągania wyników biznesowych z AWS. Mieszka w Nowym Jorku.
Harish Rajagopalan jest starszym architektem rozwiązań w Amazon Web Services. Harish współpracuje z klientami korporacyjnymi i pomaga im w podróży do chmury.
Jamesa Wu jest starszym specjalistą AI/ML SA w AWS. Współpracuje z klientami, aby przyspieszyć ich podróż do chmury i przyspieszyć realizację ich wartości biznesowej. Oprócz tego James jest również pasjonatem opracowywania i skalowania dużych rozwiązań AI/ML w różnych domenach. Przed dołączeniem do AWS kierował wielobranżowym zespołem ds. technologii innowacji z inżynierami ML i programistami dla czołowej globalnej firmy w branży rynkowej i reklamowej.
- Coinsmart. Najlepsza w Europie giełda bitcoinów i kryptowalut.
- Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. DARMOWY DOSTĘP.
- CryptoJastrząb. Radar Altcoin. Bezpłatna wersja próbna.
- Źródło: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- O nas
- przyśpieszyć
- dostęp
- Osiągać
- w poprzek
- dodatek
- Reklama
- Wszystkie kategorie
- pozwala
- Amazonka
- Amazon Web Services
- analiza
- stosowany
- architektura
- dostępny
- AWS
- Oś
- bo
- zanim
- pomiędzy
- wbudowany
- biznes
- możliwości
- Spowodować
- Wykresy
- Dodaj
- Chmura
- kod
- Kolumna
- wspólny
- kompletny
- kompleks
- kontynuować
- kontroli
- Stwórz
- stworzony
- zwyczaj
- Klientów
- dane
- analiza danych
- wykazać
- wykazać
- Ustalać
- deweloperzy
- rozwijanie
- oprogramowania
- 分配
- domeny
- na dół
- Spadek
- dynamika
- ruchomości
- umożliwiając
- Inżynieria
- Inżynierowie
- Wchodzę
- Enterprise
- przykład
- Z wyjątkiem
- doświadczenie
- rozległy
- szybciej
- Cecha
- W końcu
- Firma
- i terminów, a
- pływ
- koncentruje
- obserwuj
- następujący
- od
- funkcjonować
- Funkcje
- dalej
- Globalne
- wspaniały
- Grupy
- mający
- pomocny
- pomaga
- W jaki sposób
- How To
- HTTPS
- zidentyfikować
- znaczenie
- przemysł
- Innowacja
- Interfejs
- IT
- podróż
- Trzymać
- duży
- UCZYĆ SIĘ
- nauka
- Doprowadziło
- Linia
- Lista
- maszyna
- uczenie maszynowe
- mapa
- March
- rynek
- Mecz
- ML
- model
- Miesiąc
- miesięcy
- jeszcze
- Muzyka
- Nazwy
- I Love New York
- numer
- Inne
- ogólny
- namiętny
- wykonywania
- gra
- Przygotować
- poprzedni
- Produkt
- zapewniać
- pod warunkiem,
- zapewnia
- zakup
- zakupy
- ilościowy
- szybko
- Surowy
- dokumentacja
- odzwierciedla
- przeglądu
- Recenzje
- skalowaniem
- Naukowiec
- Usługi
- Prosty
- ponieważ
- SIX
- Tworzenie
- rozwoju oprogramowania
- Rozwiązania
- specjalista
- początek
- statystyka
- przechowywanie
- sklep
- cel
- zespół
- Technologia
- Połączenia
- w związku z tym
- trzy
- czas
- narzędzie
- Top
- Przekształcać
- przemiany
- typy
- posługiwać się
- wartość
- różnorodny
- wyobrażanie sobie
- kłęby
- sieć
- usługi internetowe
- KIM
- wspaniale
- działa
- wartość
- pisanie
- X
- rok
- lat
- Twój