Organizacje zmierzające w kierunku kultury opartej na danych wykorzystują dane i uczenie maszynowe (ML) w podejmowaniu decyzji. Aby podejmować decyzje oparte na ML na podstawie danych, potrzebujesz danych dostępnych, dostępnych, czystych i w odpowiednim formacie do trenowania modeli ML. Organizacje z architekturą wielokontową chcą uniknąć sytuacji, w których muszą wydobywać dane z jednego konta i ładować je na inne w celu przygotowania danych. Ręczne tworzenie i utrzymywanie różnych zadań wyodrębniania, przekształcania i ładowania (ETL) na różnych kontach zwiększa złożoność i koszty oraz utrudnia utrzymanie najlepszych praktyk w zakresie zarządzania, zgodności i zabezpieczeń w celu zapewnienia bezpieczeństwa danych.
Amazonka Przesunięcie ku czerwieni to szybka, w pełni zarządzana hurtownia danych w chmurze. Funkcja udostępniania danych między kontami Amazon Redshift zapewnia prosty i bezpieczny sposób udostępniania świeżych, kompletnych i spójnych danych w hurtowni danych Amazon Redshift dowolnej liczbie interesariuszy na różnych kontach AWS. Pogromca danych Amazon SageMaker jest zdolnością Amazon Sage Maker dzięki temu naukowcy i inżynierowie zajmujący się danymi mogą szybciej przygotowywać dane do aplikacji ML za pomocą interfejsu wizualnego. Data Wrangler umożliwia eksplorację i przekształcanie danych pod kątem ML, łącząc się z udziałami danych Amazon Redshift.
W tym poście omówimy konfigurowanie integracji między kontami za pomocą udostępniania danych Amazon Redshift i przygotowywanie danych za pomocą Data Wrangler.
Omówienie rozwiązania
Zaczynamy od dwóch kont AWS: konta producenta z hurtownią danych Amazon Redshift oraz konta konsumenta dla przypadków użycia SageMaker ML. W tym poście używamy bankowy zbiór danych. Aby kontynuować, pobierz zestaw danych na komputer lokalny. Poniżej znajduje się ogólny przegląd przepływu pracy:
- Utwórz wystąpienie klastra Amazon Redshift RA3 na koncie producenta i załaduj zestaw danych.
- Utwórz udział danych Amazon Redshift na koncie producenta i zezwól kontu konsumenta na dostęp do danych.
- Uzyskaj dostęp do udziału danych Amazon Redshift na koncie klienta.
- Analizuj i przetwarzaj dane za pomocą Data Wrangler na koncie klienta i buduj przepływy pracy związane z przygotowywaniem danych.
Pamiętaj o Rozważania do pracy z udostępnianiem danych Amazon Redshift:
- Wiele kont AWS – Potrzebujesz co najmniej dwóch kont AWS: konta producenta i konta konsumenta.
- Typ klastra – Udostępnianie danych jest obsługiwane w klastrze typu RA3. Podczas tworzenia wystąpienia klastra Amazon Redshift wybierz typ klastra RA3.
- Szyfrowanie – Aby udostępnianie danych działało, zarówno klastry producentów, jak i konsumentów muszą być zaszyfrowane i znajdować się w tym samym regionie AWS.
- regiony – Udostępnianie danych między kontami jest dostępne dla wszystkich Amazon Redshift Typy węzłów RA3 we wschodnich stanach USA (północna Wirginia), wschodnich stanach USA (Ohio), zachodnich stanach USA (północna Kalifornia), zachodnich stanach USA (Oregon), regionie Azji i Pacyfiku (Mumbai), regionie Azji i Pacyfiku (Seul), regionie Azji i Pacyfiku (Singapur), regionie Azji i Pacyfiku ( Sydney), Azja-Pacyfik (Tokio), Kanada (Centrum), Europa (Frankfurt), Europa (Irlandia), Europa (Londyn), Europa (Paryż), Europa (Sztokholm) i Ameryka Południowa (São Paulo).
- Cennik – Udostępnianie danych między kontami jest dostępne w klastrach znajdujących się w tym samym Regionie. Udostępnianie danych jest bezpłatne. Po prostu płacisz za klastry Amazon Redshift, które uczestniczą w udostępnianiu.
Udostępnianie danych między kontami to proces dwuetapowy. Najpierw administrator klastra producentów tworzy udział danych, dodaje obiekty i daje dostęp do konta konsumenta. Następnie administrator konta producenta autoryzuje udostępnianie danych dla określonego konsumenta. Możesz to zrobić z konsoli Amazon Redshift.
Utwórz udział danych Amazon Redshift na koncie producenta
Aby utworzyć współdzielenie danych, wykonaj następujące czynności:
- W konsoli Amazon Redshift utwórz klaster Amazon Redshift.
- Sprecyzować Produkcja i wybierz typ węzła RA3.
- Pod Dodatkowe konfiguracje, odznacz Użyj ustawień domyślnych.
- Pod Konfiguracje baz danych, skonfiguruj szyfrowanie dla swojego klastra.
- Po utworzeniu klastra zaimportuj zestaw danych banku marketingu bezpośredniego. Możesz pobrać z następującego adresu URL: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- Prześlij
bank-additional-full.csv
do Usługa Amazon Simple Storage Zasobnik (Amazon S3), do którego Twój klaster ma dostęp. - Użyj edytora zapytań Amazon Redshift i uruchom następujące zapytanie SQL, aby skopiować dane do Amazon Redshift:
- Przejdź do strony szczegółów klastra i na Udostępnianie danych kartę, wybierz Utwórz udostępnianie danych.
- W razie zamówieenia projektu Nazwa udziału danych, Wpisz imię.
- W razie zamówieenia projektu Nazwa bazy danychwybierz bazę danych.
- W Dodaj obiekty udostępniania danych sekcji, wybierz obiekty z bazy danych, które chcesz włączyć do współdzielenia danych.
Masz szczegółową kontrolę nad tym, co chcesz udostępnić innym. Dla uproszczenia udostępniamy wszystkie tabele. W praktyce można wybrać jedną lub więcej tabel, widoków lub funkcji zdefiniowanych przez użytkownika. - Dodaj Dodaj.
- Aby dodać konsumentów danych, wybierz Dodaj konta AWS do udostępniania danych i dodaj swój dodatkowy identyfikator konta AWS.
- Dodaj Utwórz udostępnianie danych.
- Aby autoryzować właśnie utworzonego konsumenta danych, przejdź do Udostępnianie danych na konsoli Amazon Redshift i wybierz nowy udostępnianie danych.
- Wybierz konsumenta danych i wybierz Autoryzować.
Status konsumenta zmienia się z Pending authorization
do Authorized
.
Uzyskaj dostęp do wielokontowego udostępniania danych Amazon Redshift na koncie AWS klienta
Teraz, gdy udostępnianie danych jest skonfigurowane, przełącz się na konto AWS klienta, aby korzystać z udziału danych. Upewnij się, że masz co najmniej jeden klaster Amazon Redshift utworzony na swoim koncie klienta. Klaster musi być zaszyfrowany i znajdować się w tym samym regionie co źródło.
- Na konsoli Amazon Redshift wybierz Udostępnianie danych w okienku nawigacji.
- Na Z innych kont wybierz utworzony przez siebie udział danych i wybierz Współpracownik.
- Możesz powiązać udział danych z jednym lub większą liczbą klastrów na tym koncie lub powiązać udział danych z całym kontem, aby bieżące i przyszłe klastry na koncie konsumenta uzyskały dostęp do tego udziału.
- Podaj szczegóły połączenia i wybierz Skontaktuj się.
- Dodaj Utwórz bazę danych z udostępniania danych i wprowadź nazwę nowej bazy danych.
- Aby przetestować współdzielenie danych, przejdź do edytora zapytań i uruchom zapytania w nowej bazie danych, aby upewnić się, że wszystkie obiekty są dostępne w ramach współdzielenia danych.
Analizuj i przetwarzaj dane za pomocą Data Wrangler
Możesz teraz używać Data Wranglera, aby uzyskać dostęp do danych dla wielu kont utworzonych w ramach udostępniania danych w Amazon Redshift.
- Otwarte Studio Amazon SageMaker.
- Na filet menu, wybierz Nowości i Przepływ danych poskramiacza danych.
- Na import kartę, wybierz Dodaj źródło danych i Amazonka Przesunięcie ku czerwieni.
- Wprowadź szczegóły połączenia klastra Amazon Redshift, który właśnie utworzyłeś na koncie klienta dla współdzielenia danych.
- Dodaj Skontaktuj się.
- Użyj AWS Zarządzanie tożsamością i dostępem (IAM) rola używana w klastrze Amazon Redshift.
Pamiętaj, że chociaż udostępnianie danych jest nową bazą danych w klastrze Amazon Redshift, nie możesz połączyć się z nią bezpośrednio z Data Wrangler.
Prawidłowym sposobem jest najpierw nawiązanie połączenia z domyślną bazą danych klastra, a następnie użycie SQL do wykonania zapytania do bazy danych współdzielenia danych. Podaj informacje wymagane do nawiązania połączenia z domyślną bazą danych klastra. Zauważ, że an Usługa zarządzania kluczami AWS Identyfikator klucza (AWS KMS) nie jest wymagany do nawiązania połączenia.
Data Wrangler jest teraz połączony z instancją Amazon Redshift.
- Przeszukuj dane w bazie danych współdzielenia danych Amazon Redshift za pomocą edytora SQL.
- Dodaj import aby zaimportować zestaw danych do Data Wrangler.
- Wprowadź nazwę zbioru danych i wybierz Dodaj.
Możesz teraz zobaczyć przepływ na Przepływ danych zakładka Poskramiacza danych.
Po załadowaniu danych do Data Wranglera możesz przeprowadzić eksploracyjną analizę danych i przygotować dane dla ML.
- Wybierz znak plus i wybierz Dodaj analizę.
Data Wrangler zapewnia wbudowane analizy. Należą do nich między innymi raport dotyczący jakości danych i szczegółowych informacji, korelacja danych, raport uprzedzeń przed szkoleniem, podsumowanie zestawu danych i wizualizacje (takie jak histogramy i wykresy punktowe). Możesz także stworzyć własną niestandardową wizualizację.
Możesz użyć raportu Jakość danych i wgląd w dane, aby automatycznie generować wizualizacje i analizy w celu zidentyfikowania problemów z jakością danych oraz zalecić odpowiednią transformację wymaganą dla Twojego zbioru danych.
- Dodaj Raport dotyczący jakości danych i statystyki wybierz Kolumna docelowa as y.
- Ponieważ jest to stwierdzenie problemu klasyfikacji, dla Typ problemu, Wybierz Klasyfikacja.
- Dodaj Stwórz.
Data Wrangler tworzy szczegółowy raport na temat Twojego zestawu danych. Możesz również pobrać raport na swój komputer lokalny.
- W celu przygotowania danych wybierz znak plus i wybierz Dodaj analizę.
- Dodaj Dodaj krok by zacząć budować swoje przemiany.
W chwili pisania tego tekstu Data Wrangler zapewnia ponad 300 wbudowanych transformacji. Możesz także pisać własne transformacje za pomocą Pand lub PySpark.
Możesz teraz rozpocząć tworzenie przekształceń i analiz na podstawie wymagań biznesowych.
Wnioski
W tym poście zbadaliśmy udostępnianie danych między kontami za pomocą udostępniania danych Amazon Redshift bez konieczności ręcznego pobierania i przesyłania danych. Przeszliśmy przez proces uzyskiwania dostępu do udostępnionych danych za pomocą Data Wranglera i przygotowania danych do przypadków użycia ML. Ta funkcja udostępniania danych Amazon Redshift i Data Wrangler bez kodu/z małą ilością kodu przyspiesza przygotowywanie danych szkoleniowych i zwiększa sprawność inżynierów danych i analityków danych dzięki szybszemu iteracyjnemu przygotowywaniu danych.
Aby dowiedzieć się więcej o Amazon Redshift i SageMaker, zapoznaj się z Przewodnik dla programistów bazy danych Amazon Redshift i Dokumentacja Amazon SageMaker.
O autorach
Meenakshisundaram Tandavarayan jest starszym specjalistą AI/ML z AWS. Pomaga zaawansowanym technologicznie klientom strategicznym w ich podróży związanej z AI i ML. Jego pasją jest sztuczna inteligencja oparta na danych.
Jamesa Wu jest starszym architektem rozwiązań AI/ML w AWS. pomaganie klientom w projektowaniu i budowaniu rozwiązań AI/ML. Praca Jamesa obejmuje szeroki zakres przypadków użycia ML, ze szczególnym uwzględnieniem wizji komputerowej, głębokiego uczenia i skalowania ML w całym przedsiębiorstwie. Przed dołączeniem do AWS James był architektem, programistą i liderem technologicznym przez ponad 10 lat, w tym 6 lat w inżynierii i 4 lata w branży marketingowej i reklamowej.
- Coinsmart. Najlepsza w Europie giełda bitcoinów i kryptowalut.
- Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. DARMOWY DOSTĘP.
- CryptoJastrząb. Radar Altcoin. Bezpłatna wersja próbna.
- Źródło: https://aws.amazon.com/blogs/machine-learning/import-data-from-cross-account-amazon-redshift-in-amazon-sagemaker-data-wrangler-for-exploratory-data-analysis- i-przygotowanie-danych/
- "
- &
- 10
- 100
- 11
- 7
- a
- O nas
- dostęp
- dostępny
- Konto
- w poprzek
- zajęcia
- Reklama
- przed
- AI
- Wszystkie kategorie
- pozwala
- Amazonka
- Ameryka
- analiza
- Inne
- aplikacje
- architektura
- Azja
- Azja i Pacyfik
- Współpracownik
- automatycznie
- dostępny
- AWS
- Bank
- BEST
- Najlepsze praktyki
- granica
- budować
- Budowanie
- wbudowany
- biznes
- California
- Kampania
- Kanada
- Etui
- centralny
- Dodaj
- klasyfikacja
- Chmura
- kompletny
- spełnienie
- komputer
- Skontaktuj się
- połączony
- Podłączanie
- połączenie
- zgodny
- Konsola
- konsumować
- konsument
- Konsumenci
- skontaktuj się
- kontrola
- Stwórz
- stworzony
- tworzy
- Listy uwierzytelniające
- kultura
- Aktualny
- zwyczaj
- Klientów
- dane
- analiza danych
- udostępnianie danych
- Baza danych
- Decyzje
- głęboko
- Wnętrze
- szczegółowe
- detale
- Deweloper
- różne
- trudny
- kierować
- bezpośrednio
- pobieranie
- redaktor
- Edukacja
- objąć
- szyfrowanie
- Inżynieria
- Inżynierowie
- Wchodzę
- Enterprise
- Europie
- odkryj
- FAST
- szybciej
- Cecha
- i terminów, a
- pływ
- obserwuj
- następujący
- format
- świeży
- od
- Funkcje
- przyszłość
- Generować
- zarządzanie
- mający
- pomoc
- pomaga
- obudowa
- W jaki sposób
- How To
- HTTPS
- zidentyfikować
- tożsamość
- zawierać
- Włącznie z
- przemysłowa
- Informacja
- spostrzeżenia
- przykład
- integracja
- odsetki
- Interfejs
- Irlandia
- problemy
- IT
- Praca
- Oferty pracy
- łączący
- podróż
- Trzymać
- Klawisz
- lider
- UCZYĆ SIĘ
- nauka
- Ograniczony
- załadować
- miejscowy
- lokalizacja
- Londyn
- maszyna
- uczenie maszynowe
- utrzymać
- robić
- WYKONUJE
- zarządzane
- i konserwacjami
- ręcznie
- Marketing
- może
- ML
- modele
- Miesiąc
- jeszcze
- przeniesienie
- Bombaj
- Nawigacja
- numer
- Ohio
- zamówienie
- Oregon
- organizacji
- Inne
- własny
- Pacyfik
- Paryż
- część
- uczestniczyć
- namiętny
- Zapłacić
- praktyka
- Przygotować
- poprzedni
- pierwotny
- Problem
- wygląda tak
- producent
- zapewniać
- zapewnia
- jakość
- zasięg
- polecić
- region
- raport
- wymagany
- Rola
- run
- "bezpiecznym"
- taki sam
- skalowaniem
- Naukowcy
- wtórny
- bezpieczne
- bezpieczeństwo
- Seul
- zestaw
- ustawienie
- Share
- shared
- dzielenie
- znak
- Prosty
- Singapur
- So
- solidny
- rozwiązanie
- Rozwiązania
- Południe
- specjalista
- początek
- Zestawienie sprzedaży
- Rynek
- przechowywanie
- Strategiczny
- Utrzymany
- Przełącznik
- sydney
- Technologia
- test
- Połączenia
- Źródło
- Przez
- czas
- Tokio
- w kierunku
- Trening
- Przekształcać
- Transformacja
- przemiany
- us
- posługiwać się
- virginia
- wizja
- wyobrażanie sobie
- Zachód
- Co
- bez
- Praca
- przepływów pracy
- pracujący
- pisanie
- lat
- Twój