Importuj dane z wielu kont Amazon Redshift w Amazon SageMaker Data Wrangler do eksploracyjnej analizy danych i przygotowania danych

Opublikowane ponownie przez Plato

Obserwuje: 0

Organizacje zmierzające w kierunku kultury opartej na danych wykorzystują dane i uczenie maszynowe (ML) w podejmowaniu decyzji. Aby podejmować decyzje oparte na ML na podstawie danych, potrzebujesz danych dostępnych, dostępnych, czystych i w odpowiednim formacie do trenowania modeli ML. Organizacje z architekturą wielokontową chcą uniknąć sytuacji, w których muszą wydobywać dane z jednego konta i ładować je na inne w celu przygotowania danych. Ręczne tworzenie i utrzymywanie różnych zadań wyodrębniania, przekształcania i ładowania (ETL) na różnych kontach zwiększa złożoność i koszty oraz utrudnia utrzymanie najlepszych praktyk w zakresie zarządzania, zgodności i zabezpieczeń w celu zapewnienia bezpieczeństwa danych.

Amazonka Przesunięcie ku czerwieni to szybka, w pełni zarządzana hurtownia danych w chmurze. Funkcja udostępniania danych między kontami Amazon Redshift zapewnia prosty i bezpieczny sposób udostępniania świeżych, kompletnych i spójnych danych w hurtowni danych Amazon Redshift dowolnej liczbie interesariuszy na różnych kontach AWS. Pogromca danych Amazon SageMaker jest zdolnością Amazon Sage Maker dzięki temu naukowcy i inżynierowie zajmujący się danymi mogą szybciej przygotowywać dane do aplikacji ML za pomocą interfejsu wizualnego. Data Wrangler umożliwia eksplorację i przekształcanie danych pod kątem ML, łącząc się z udziałami danych Amazon Redshift.

W tym poście omówimy konfigurowanie integracji między kontami za pomocą udostępniania danych Amazon Redshift i przygotowywanie danych za pomocą Data Wrangler.

Omówienie rozwiązania

Zaczynamy od dwóch kont AWS: konta producenta z hurtownią danych Amazon Redshift oraz konta konsumenta dla przypadków użycia SageMaker ML. W tym poście używamy bankowy zbiór danych. Aby kontynuować, pobierz zestaw danych na komputer lokalny. Poniżej znajduje się ogólny przegląd przepływu pracy:

Utwórz wystąpienie klastra Amazon Redshift RA3 na koncie producenta i załaduj zestaw danych.
Utwórz udział danych Amazon Redshift na koncie producenta i zezwól kontu konsumenta na dostęp do danych.
Uzyskaj dostęp do udziału danych Amazon Redshift na koncie klienta.
Analizuj i przetwarzaj dane za pomocą Data Wrangler na koncie klienta i buduj przepływy pracy związane z przygotowywaniem danych.

Pamiętaj o Rozważania do pracy z udostępnianiem danych Amazon Redshift:

Wiele kont AWS – Potrzebujesz co najmniej dwóch kont AWS: konta producenta i konta konsumenta.
Typ klastra – Udostępnianie danych jest obsługiwane w klastrze typu RA3. Podczas tworzenia wystąpienia klastra Amazon Redshift wybierz typ klastra RA3.
Szyfrowanie – Aby udostępnianie danych działało, zarówno klastry producentów, jak i konsumentów muszą być zaszyfrowane i znajdować się w tym samym regionie AWS.
regiony – Udostępnianie danych między kontami jest dostępne dla wszystkich Amazon Redshift Typy węzłów RA3 we wschodnich stanach USA (północna Wirginia), wschodnich stanach USA (Ohio), zachodnich stanach USA (północna Kalifornia), zachodnich stanach USA (Oregon), regionie Azji i Pacyfiku (Mumbai), regionie Azji i Pacyfiku (Seul), regionie Azji i Pacyfiku (Singapur), regionie Azji i Pacyfiku ( Sydney), Azja-Pacyfik (Tokio), Kanada (Centrum), Europa (Frankfurt), Europa (Irlandia), Europa (Londyn), Europa (Paryż), Europa (Sztokholm) i Ameryka Południowa (São Paulo).
Cennik – Udostępnianie danych między kontami jest dostępne w klastrach znajdujących się w tym samym Regionie. Udostępnianie danych jest bezpłatne. Po prostu płacisz za klastry Amazon Redshift, które uczestniczą w udostępnianiu.

Udostępnianie danych między kontami to proces dwuetapowy. Najpierw administrator klastra producentów tworzy udział danych, dodaje obiekty i daje dostęp do konta konsumenta. Następnie administrator konta producenta autoryzuje udostępnianie danych dla określonego konsumenta. Możesz to zrobić z konsoli Amazon Redshift.

Utwórz udział danych Amazon Redshift na koncie producenta

Aby utworzyć współdzielenie danych, wykonaj następujące czynności:

W konsoli Amazon Redshift utwórz klaster Amazon Redshift.
Sprecyzować Produkcja i wybierz typ węzła RA3.
Pod Dodatkowe konfiguracje, odznacz Użyj ustawień domyślnych.
Pod Konfiguracje baz danych, skonfiguruj szyfrowanie dla swojego klastra.
Po utworzeniu klastra zaimportuj zestaw danych banku marketingu bezpośredniego. Możesz pobrać z następującego adresu URL: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
Prześlij bank-additional-full.csv do Usługa Amazon Simple Storage Zasobnik (Amazon S3), do którego Twój klaster ma dostęp.

Użyj edytora zapytań Amazon Redshift i uruchom następujące zapytanie SQL, aby skopiować dane do Amazon Redshift:

create table bank_additional_full ( age char(40), job char(40), marital char(40), education char(40), default_history varchar(40), housing char(40), loan char(40), contact char(40), month char(40), day_of_week char(40), duration char(40), campaign char(40), pdays char(40), previous char(40), poutcome char(40), emp_var_rate char(40), cons_price_idx char(40), cons_conf_idx char(40), euribor3m char(40), nr_employed char(40), y char(40));
copy bank_additional_full
from <S3 LOCATION OF THE CSV FILE>
credentials <CLUSTER ROLE ARN>
region 'us-east-1'
format csv
IGNOREBLANKLINES
IGNOREHEADER 1

Przejdź do strony szczegółów klastra i na Udostępnianie danych kartę, wybierz Utwórz udostępnianie danych.
W razie zamówieenia projektu Nazwa udziału danych, Wpisz imię.
W razie zamówieenia projektu Nazwa bazy danychwybierz bazę danych.
W Dodaj obiekty udostępniania danych sekcji, wybierz obiekty z bazy danych, które chcesz włączyć do współdzielenia danych.
Masz szczegółową kontrolę nad tym, co chcesz udostępnić innym. Dla uproszczenia udostępniamy wszystkie tabele. W praktyce można wybrać jedną lub więcej tabel, widoków lub funkcji zdefiniowanych przez użytkownika.
Dodaj Dodaj.
Aby dodać konsumentów danych, wybierz Dodaj konta AWS do udostępniania danych i dodaj swój dodatkowy identyfikator konta AWS.
Dodaj Utwórz udostępnianie danych.
Aby autoryzować właśnie utworzonego konsumenta danych, przejdź do Udostępnianie danych na konsoli Amazon Redshift i wybierz nowy udostępnianie danych.
Wybierz konsumenta danych i wybierz Autoryzować.

Status konsumenta zmienia się z Pending authorization do Authorized.

Uzyskaj dostęp do wielokontowego udostępniania danych Amazon Redshift na koncie AWS klienta

Teraz, gdy udostępnianie danych jest skonfigurowane, przełącz się na konto AWS klienta, aby korzystać z udziału danych. Upewnij się, że masz co najmniej jeden klaster Amazon Redshift utworzony na swoim koncie klienta. Klaster musi być zaszyfrowany i znajdować się w tym samym regionie co źródło.

Na konsoli Amazon Redshift wybierz Udostępnianie danych w okienku nawigacji.
Na Z innych kont wybierz utworzony przez siebie udział danych i wybierz Współpracownik.
Możesz powiązać udział danych z jednym lub większą liczbą klastrów na tym koncie lub powiązać udział danych z całym kontem, aby bieżące i przyszłe klastry na koncie konsumenta uzyskały dostęp do tego udziału.
Podaj szczegóły połączenia i wybierz Skontaktuj się.
Dodaj Utwórz bazę danych z udostępniania danych i wprowadź nazwę nowej bazy danych.
Aby przetestować współdzielenie danych, przejdź do edytora zapytań i uruchom zapytania w nowej bazie danych, aby upewnić się, że wszystkie obiekty są dostępne w ramach współdzielenia danych.

Analizuj i przetwarzaj dane za pomocą Data Wrangler

Możesz teraz używać Data Wranglera, aby uzyskać dostęp do danych dla wielu kont utworzonych w ramach udostępniania danych w Amazon Redshift.

Otwarte Studio Amazon SageMaker.
Na filet menu, wybierz Nowości i Przepływ danych poskramiacza danych.
Na import kartę, wybierz Dodaj źródło danych i Amazonka Przesunięcie ku czerwieni.
Wprowadź szczegóły połączenia klastra Amazon Redshift, który właśnie utworzyłeś na koncie klienta dla współdzielenia danych.
Dodaj Skontaktuj się.
Użyj AWS Zarządzanie tożsamością i dostępem (IAM) rola używana w klastrze Amazon Redshift.

Pamiętaj, że chociaż udostępnianie danych jest nową bazą danych w klastrze Amazon Redshift, nie możesz połączyć się z nią bezpośrednio z Data Wrangler.

Prawidłowym sposobem jest najpierw nawiązanie połączenia z domyślną bazą danych klastra, a następnie użycie SQL do wykonania zapytania do bazy danych współdzielenia danych. Podaj informacje wymagane do nawiązania połączenia z domyślną bazą danych klastra. Zauważ, że an Usługa zarządzania kluczami AWS Identyfikator klucza (AWS KMS) nie jest wymagany do nawiązania połączenia.

Data Wrangler jest teraz połączony z instancją Amazon Redshift.

Przeszukuj dane w bazie danych współdzielenia danych Amazon Redshift za pomocą edytora SQL.
Dodaj import aby zaimportować zestaw danych do Data Wrangler.
Wprowadź nazwę zbioru danych i wybierz Dodaj.

Możesz teraz zobaczyć przepływ na Przepływ danych zakładka Poskramiacza danych.

Po załadowaniu danych do Data Wranglera możesz przeprowadzić eksploracyjną analizę danych i przygotować dane dla ML.

Wybierz znak plus i wybierz Dodaj analizę.

Data Wrangler zapewnia wbudowane analizy. Należą do nich między innymi raport dotyczący jakości danych i szczegółowych informacji, korelacja danych, raport uprzedzeń przed szkoleniem, podsumowanie zestawu danych i wizualizacje (takie jak histogramy i wykresy punktowe). Możesz także stworzyć własną niestandardową wizualizację.

Możesz użyć raportu Jakość danych i wgląd w dane, aby automatycznie generować wizualizacje i analizy w celu zidentyfikowania problemów z jakością danych oraz zalecić odpowiednią transformację wymaganą dla Twojego zbioru danych.

Dodaj Raport dotyczący jakości danych i statystyki wybierz Kolumna docelowa as y.
Ponieważ jest to stwierdzenie problemu klasyfikacji, dla Typ problemu, Wybierz Klasyfikacja.
Dodaj Stwórz.

Data Wrangler tworzy szczegółowy raport na temat Twojego zestawu danych. Możesz również pobrać raport na swój komputer lokalny.

W celu przygotowania danych wybierz znak plus i wybierz Dodaj analizę.
Dodaj Dodaj krok by zacząć budować swoje przemiany.

W chwili pisania tego tekstu Data Wrangler zapewnia ponad 300 wbudowanych transformacji. Możesz także pisać własne transformacje za pomocą Pand lub PySpark.

Możesz teraz rozpocząć tworzenie przekształceń i analiz na podstawie wymagań biznesowych.

Wnioski

W tym poście zbadaliśmy udostępnianie danych między kontami za pomocą udostępniania danych Amazon Redshift bez konieczności ręcznego pobierania i przesyłania danych. Przeszliśmy przez proces uzyskiwania dostępu do udostępnionych danych za pomocą Data Wranglera i przygotowania danych do przypadków użycia ML. Ta funkcja udostępniania danych Amazon Redshift i Data Wrangler bez kodu/z małą ilością kodu przyspiesza przygotowywanie danych szkoleniowych i zwiększa sprawność inżynierów danych i analityków danych dzięki szybszemu iteracyjnemu przygotowywaniu danych.

Aby dowiedzieć się więcej o Amazon Redshift i SageMaker, zapoznaj się z Przewodnik dla programistów bazy danych Amazon Redshift i Dokumentacja Amazon SageMaker.

O autorach

Importuj dane z wielokontowego Amazon Redshift w Amazon SageMaker Data Wrangler w celu eksploracyjnej analizy danych i przygotowania danych PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Meenakshisundaram Tandavarayan jest starszym specjalistą AI/ML z AWS. Pomaga zaawansowanym technologicznie klientom strategicznym w ich podróży związanej z AI i ML. Jego pasją jest sztuczna inteligencja oparta na danych.

Jamesa Wu jest starszym architektem rozwiązań AI/ML w AWS. pomaganie klientom w projektowaniu i budowaniu rozwiązań AI/ML. Praca Jamesa obejmuje szeroki zakres przypadków użycia ML, ze szczególnym uwzględnieniem wizji komputerowej, głębokiego uczenia i skalowania ML w całym przedsiębiorstwie. Przed dołączeniem do AWS James był architektem, programistą i liderem technologicznym przez ponad 10 lat, w tym 6 lat w inżynierii i 4 lata w branży marketingowej i reklamowej.

Znak czasu: 23 czerwca 2022 r.

Znak czasu: Grudnia 1, 2022

Opublikowane ponownie przez Plato

Uzyskaj większą kontrolę nad obciążeniami Amazon SageMaker Data Wrangler dzięki sparametryzowanym zestawom danych i zaplanowanym zadaniom

Rekomendacja mocy i wyszukiwanie za pomocą wykresu wiedzy IMDb – Część 1

Zwiększaj oszustwa przy użyciu danych syntetycznych w Amazon SageMaker

Usprawnij zarządzanie modelami uczenia maszynowego dzięki Amazon SageMaker

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto