Pogromca danych Amazon SageMaker skraca czas agregowania i przygotowywania danych do uczenia maszynowego (ML) z tygodni do minut. Dzięki Data Wrangler możesz wybierać dane i wysyłać zapytania za pomocą zaledwie kilku kliknięć, szybko przekształcać dane za pomocą ponad 300 wbudowanych transformacji danych oraz analizować dane dzięki wbudowanym wizualizacjom bez konieczności pisania kodu.
Dodatkowo możesz tworzyć niestandardowe transformacje unikalne dla Twoich wymagań. Transformacje niestandardowe umożliwiają pisanie niestandardowych transformacji przy użyciu PySpark, Pandas lub SQL.
Data Wrangler obsługuje teraz niestandardowe Funkcja zdefiniowana przez użytkownika Pandy (UDF) transformacja, która może wydajnie przetwarzać duże zestawy danych. Możesz wybrać jeden z dwóch niestandardowych trybów Pandas UDF: Pandas i Python. Oba tryby zapewniają wydajne rozwiązanie do przetwarzania zbiorów danych, a wybrany tryb zależy od Twoich preferencji.
W tym poście pokazujemy, jak korzystać z nowej transformacji UDF Pandy w obu trybach.
Omówienie rozwiązania
W chwili pisania tego tekstu możesz importować zestawy danych do Data Wranglera z Usługa Amazon Simple Storage (Amazonka S3), Amazonka Atena, Amazonka Przesunięcie ku czerwieni, Databricks i Snowflake. W tym poście używamy Amazon S3 do przechowywania 2014 Zbiór danych recenzji Amazon.
Dane mają kolumnę o nazwie reviewText
zawierające tekst wygenerowany przez użytkownika. Tekst zawiera również kilka zatrzymać słowa, które są popularnymi słowami, które nie dostarczają wielu informacji, np. „a”, „an” i „the”. Usuwanie słów stop jest częstym etapem przetwarzania wstępnego w potokach przetwarzania języka naturalnego (NLP). Możemy stworzyć niestandardową funkcję, aby usunąć słowa stopu z recenzji.
Utwórz niestandardową transformację Pandas UDF
Przyjrzyjmy się procesowi tworzenia dwóch niestandardowych transformacji Pandas UDF Data Wrangler przy użyciu trybów Pandas i Python.
- Pobierz Zbiór danych recenzji muzyki cyfrowej i prześlij go do Amazon S3.
- Otwarte Studio Amazon SageMaker i utwórz nowy przepływ Data Wrangler.
- Pod Importuj datywybierz Amazon S3 i przejdź do lokalizacji zestawu danych.
- W razie zamówieenia projektu Typ plikuwybierz jsonl.
W tabeli powinien zostać wyświetlony podgląd danych.
- Dodaj import kontynuować.
- Po zaimportowaniu danych wybierz znak plus obok Typy danych i wybierz Dodaj transformację.
- Dodaj Transformacja niestandardowa.
- W menu rozwijanym Python (funkcja zdefiniowana przez użytkownika).
Teraz tworzymy naszą niestandardową transformację, aby usunąć słowa stopu.
- Określ kolumnę wejściową, kolumnę wyjściową, typ zwracany i tryb.
W poniższym przykładzie zastosowano tryb Pandy. Oznacza to, że funkcja powinna akceptować i zwracać serię Pand o tej samej długości. Możesz myśleć o serii Pand jako o kolumnie w tabeli lub kawałku kolumny. Jest to najbardziej wydajny tryb UDF Pandy, ponieważ Pandy mogą wektoryzować operacje na partiach wartości, a nie pojedynczo. The pd.Series
wskazówki dotyczące typu są wymagane w trybie Pandy.
Jeśli wolisz używać czystego języka Python w przeciwieństwie do interfejsu API Pandas, tryb Python umożliwia określenie funkcji w czystym języku Python, która akceptuje pojedynczy argument i zwraca pojedynczą wartość. Poniższy przykład jest odpowiednikiem poprzedniego kodu Pandy pod względem danych wyjściowych. Wskazówki dotyczące typów nie są wymagane w trybie Python.
- Dodaj Dodaj aby dodać niestandardową transformację.
Wnioski
Data Wrangler ma ponad 300 wbudowanych przekształceń, a ponadto możesz dodawać niestandardowe przekształcenia, które są unikalne dla Twoich wymagań. W tym poście pokazaliśmy, jak przetwarzać zestawy danych za pomocą nowej niestandardowej transformacji UDF Pandas Data Wrangler, używając zarówno trybów Pandas, jak i Python. Możesz użyć dowolnego trybu w zależności od swoich preferencji. Aby dowiedzieć się więcej o Data Wranglerze, przejdź do Twórz i używaj przepływu danych Wrangler.
O autorach
Ben Harris jest inżynierem oprogramowania z doświadczeniem w projektowaniu, wdrażaniu i utrzymywaniu skalowalnych potoków danych oraz rozwiązań uczenia maszynowego w różnych domenach. Ben zbudował między innymi systemy gromadzenia i etykietowania danych, klasyfikacji obrazów i tekstu, modelowania sekwencyjnego, osadzania i grupowania.
Haidera Naqviego jest Architektem Rozwiązań w AWS. Posiada bogate doświadczenie w tworzeniu oprogramowania i architekturze korporacyjnej. Koncentruje się na umożliwieniu klientom osiągania wyników biznesowych z AWS. Mieszka w Nowym Jorku.
Vishal Srivastava jest Technical Account Manager w AWS. Z doświadczeniem w tworzeniu oprogramowania i analityki, pracuje głównie z sektorem usług finansowych i cyfrowymi klientami biznesowymi oraz wspiera ich podróż do chmury. W wolnym czasie uwielbia podróżować z rodziną.
- Coinsmart. Najlepsza w Europie giełda bitcoinów i kryptowalut.
- Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. DARMOWY DOSTĘP.
- CryptoJastrząb. Radar Altcoin. Bezpłatna wersja próbna.
- Źródło: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- O nas
- Konto
- w poprzek
- Amazonka
- wśród
- analityka
- api
- architektura
- dostępny
- AWS
- tło
- wbudowany
- biznes
- Dodaj
- klasyfikacja
- Chmura
- kod
- kolekcja
- Kolumna
- wspólny
- zawiera
- Stwórz
- Tworzenie
- zwyczaj
- Klientów
- dane
- wykazać
- wykazać
- zależy
- wdrażanie
- projektowanie
- oprogramowania
- cyfrowy
- domeny
- wydajny
- skutecznie
- umożliwiając
- inżynier
- Enterprise
- przykład
- doświadczenie
- rozległy
- członków Twojej rodziny
- budżetowy
- usługi finansowe
- pływ
- koncentruje
- następujący
- Darmowy
- funkcjonować
- W jaki sposób
- How To
- HTTPS
- obraz
- Informacja
- wkład
- IT
- Łączy
- etykietowanie
- język
- duży
- UCZYĆ SIĘ
- nauka
- lokalizacja
- maszyna
- uczenie maszynowe
- kierownik
- Mecz
- ML
- jeszcze
- większość
- Muzyka
- Naturalny
- I Love New York
- operacje
- Przygotować
- Podgląd
- wygląda tak
- przetwarzanie
- zapewniać
- Szybki
- szybko
- wymagany
- wymagania
- powrót
- powraca
- Recenzje
- skalowalny
- sektor
- Serie
- Usługi
- Prosty
- Tworzenie
- rozwoju oprogramowania
- Software Engineer
- rozwiązanie
- Rozwiązania
- obowiązuje
- przechowywanie
- sklep
- podpory
- systemy
- Techniczny
- Przez
- czas
- żeton
- Żetony
- Przekształcać
- podróżować
- zrozumieć
- wyjątkowy
- posługiwać się
- wartość
- różnorodność
- bez
- słowa
- działa
- pisanie