W zeszłym roku ogłosiliśmy powszechną dostępność RStudio na Amazon SageMaker, pierwsze w branży w pełni zarządzane zintegrowane środowisko programistyczne (IDE) RStudio Workbench w chmurze. Możesz szybko uruchomić znane środowisko IDE RStudio i przełączać w górę i w dół bazowe zasoby obliczeniowe bez przerywania pracy, co ułatwia tworzenie rozwiązań uczenia maszynowego (ML) i analiz w R na dużą skalę.
Wielu użytkowników RStudio w SageMaker jest również użytkownikami Amazonka Przesunięcie ku czerwieni, w pełni zarządzany, masowo równoległy magazyn danych w skali petabajtów do przechowywania danych i obciążeń analitycznych. Sprawia, że analiza wszystkich danych jest szybka, prosta i ekonomiczna przy użyciu standardowego języka SQL i istniejących narzędzi analizy biznesowej (BI). Użytkownicy mogą również wchodzić w interakcje z danymi za pomocą ODBC, JDBC lub Amazon Redshift Data API.
Wykorzystanie RStudio na SageMaker i Amazon Redshift może być pomocne w efektywnym przeprowadzaniu analiz na dużych zbiorach danych w chmurze. Jednak praca z danymi w chmurze może wiązać się z wyzwaniami, takimi jak konieczność usunięcia organizacyjnych silosów danych, utrzymania bezpieczeństwa i zgodności oraz zmniejszenia złożoności poprzez standaryzację narzędzi. AWS oferuje narzędzia, takie jak RStudio w SageMaker i Amazon Redshift, które pomagają stawić czoła tym wyzwaniom.
W tym poście na blogu pokażemy, jak korzystać z obu tych usług razem, aby skutecznie przeprowadzać analizy ogromnych zbiorów danych w chmurze, jednocześnie rozwiązując wspomniane wyżej wyzwania. Ten blog koncentruje się na Rstudio w języku Amazon SageMaker, z analitykami biznesowymi, inżynierami danych, naukowcami danych i wszystkimi programistami, którzy używają języka R i Amazon Redshift jako odbiorców docelowych.
Jeśli chcesz korzystać z tradycyjnego doświadczenia SageMaker Studio z Amazon Redshift, zobacz Korzystanie z interfejsu Amazon Redshift Data API do interakcji z notebooka Amazon SageMaker Jupyter.
Omówienie rozwiązania
Na dzisiejszym blogu wykonamy następujące kroki:
- Klonowanie przykładowego repozytorium z wymaganymi pakietami.
- Łączenie z Amazon Redshift za pomocą bezpiecznego połączenia ODBC (ODBC jest preferowanym protokołem dla RStudio).
- Uruchamianie zapytań i akcji API SageMaker na danych w Amazon Redshift Serverless poprzez RStudio na SageMaker
Proces ten jest przedstawiony w następującej architekturze rozwiązań:
Przewodnik po rozwiązaniu
Wymagania wstępne
Zanim zaczniesz, upewnij się, że spełniasz wszystkie wymagania dotyczące konfigurowania RStudio na Amazon SageMaker i Amazon Redshift Serverless, takie jak:
Będziemy używać stosu CloudFormation do generowania wymaganej infrastruktury.
Uwaga: Jeśli masz już domenę RStudio i klaster Amazon Redshift, możesz pominąć ten krok
Uruchomienie tego stosu tworzy następujące zasoby:
- 3 prywatne podsieci
- 1 podsieć publiczna
- 1 brama NAT
- Brama internetowa
- Bezserwerowy klaster Amazon Redshift
- Domena SageMaker z RStudio
- Profil użytkownika SageMaker RStudio
- Rola usługi IAM dla wykonania domeny SageMaker RStudio
- Rola usługi IAM dla wykonania profilu użytkownika SageMaker RStudio
Ten szablon jest przeznaczony do pracy w regionie (np. us-east-1
, us-west-2
) z trzema strefami dostępności, RStudio w SageMaker i Amazon Redshift Serverless. Upewnij się, że Twój region ma dostęp do tych zasobów lub odpowiednio zmodyfikuj szablony.
Naciśnij Uruchom stos przycisk, aby utworzyć stos.
- Na Utwórz stos wybierz stronę Następna.
- Na Określ szczegóły stosu stronę, podaj nazwę swojego stosu i pozostaw pozostałe opcje jako domyślne, a następnie wybierz Następna.
- Na Skonfiguruj opcje stosu stronę, pozostaw opcje jako domyślne i naciśnij Następna.
- Na Strona recenzjiWybierz
- Potwierdzam, że AWS CloudFormation może tworzyć zasoby IAM o niestandardowych nazwach
- Przyjmuję do wiadomości, że AWS CloudFormation może wymagać następującej możliwości: CAPABILITY_AUTO_EXPANDpola wyboru i wybierz Prześlij.
Szablon wygeneruje pięć stosów.
Gdy stan stosu jest CREATE_COMPLETE, przejdź do konsoli Amazon Redshift Serverless. Jest to nowa funkcja, która bardzo ułatwia przeprowadzanie analiz w chmurze z wysoką wydajnością w dowolnej skali. Po prostu załaduj swoje dane i zacznij wysyłać zapytania. Nie ma potrzeby konfigurowania klastrów i zarządzania nimi.
Note: Wzorzec pokazany na tym blogu integrujący Amazon Redshift i RStudio w Amazon SageMaker będzie taki sam niezależnie od wzorca wdrażania Amazon Redshift (klaster bezserwerowy lub tradycyjny).
Ładowanie danych w Amazon Redshift Serverless
Skrypt CloudFormation utworzył bazę danych o nazwie sagemaker
. Wypełnijmy tę bazę danych tabelami, aby użytkownik RStudio mógł wykonać zapytanie. Utwórz kartę edytora SQL i upewnij się, że sagemaker
wybrana jest baza danych. Będziemy korzystać z syntetyczne dane transakcji kartą kredytową do tworzenia tabel w naszej bazie danych. Te dane są częścią przykładowych tabelarycznych zestawów danych SageMaker s3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions
.
Zamierzamy wykonać następujące zapytanie w edytorze zapytań. Spowoduje to wygenerowanie trzech tabel, karty, transakcje, i Użytkownicy.
Możesz sprawdzić, czy zapytanie zostało wykonane pomyślnie, wyświetlając trzy tabele w lewym okienku edytora zapytań.
Po wypełnieniu wszystkich tabel przejdź do SageMaker RStudio i rozpocznij nową sesję z obrazem podstawowym RSession na instancji ml.m5.xlarge.
Po uruchomieniu sesji uruchomimy ten kod, aby utworzyć połączenie z naszą bazą danych Amazon Redshift Serverless.
Aby wyświetlić tabele w schemacie syntetycznym, musisz przyznać dostęp w Amazon Redshift za pośrednictwem edytora zapytań.
RSstudio połączenia okienko powinno pokazywać sagemaker
baza danych ze schematami syntetycznymi i tabelami kart, transakcji, użytkowników.
Możesz kliknąć ikonę tabeli obok tabel, aby wyświetlić 1,000 rekordów.
Uwaga: Stworzyliśmy gotowy plik R Markdown ze wszystkimi gotowymi blokami kodu, które można znaleźć w projekcie GitHub repo.
Teraz użyjmy DBI
funkcja pakietu dbListTables()
aby wyświetlić istniejące tabele.
Użyj dbGetQuery(), aby przekazać zapytanie SQL do bazy danych.
Możemy również użyć dbplyr
i dplyr
pakiety do wykonywania zapytań w bazie danych. załóżmy count()
ile transakcji znajduje się w tabeli transakcji. Ale najpierw musimy zainstalować te pakiety.
Użyj tbl()
funkcji podczas określania schematu.
Policzmy liczbę wierszy dla każdej tabeli.
Mamy więc 2,000 użytkowników; 6,146 kart; i 24,386,900 XNUMX XNUMX transakcji. Możemy również przeglądać tabele w konsoli.
transactions_tbl
Możemy również zobaczyć, co dplyr
czasowniki robią pod maską.
Przyjrzyjmy się wizualnie liczbie transakcji według roku.
Możemy również podsumować dane w bazie danych w następujący sposób:
Załóżmy, że chcemy zobaczyć oszustwo przy użyciu informacji o karcie. Musimy tylko połączyć tabele, a następnie pogrupować je według atrybutu.
Teraz przygotujmy zestaw danych, którego można użyć do uczenia maszynowego. Przefiltrujmy dane transakcji tak, aby obejmowały tylko karty kredytowe Discover, zachowując tylko podzbiór kolumn.
A teraz zróbmy trochę porządków, używając następujących przekształceń:
- konwertować
is_fraud
do atrybutu binarnego - Usuń ciąg transakcji z
use_chip
i zmień jego nazwę na typ - Połącz rok, miesiąc i dzień w obiekt danych
- Usuń $ z kwoty i przekonwertuj na numeryczny typ danych
Teraz, gdy przefiltrowaliśmy i wyczyściliśmy nasz zestaw danych, jesteśmy gotowi do zebrania tego zestawu danych w lokalnej pamięci RAM.
Teraz mamy działający zestaw danych, aby rozpocząć tworzenie funkcji i modeli dopasowywania. Nie będziemy omawiać tych kroków na tym blogu, ale jeśli chcesz dowiedzieć się więcej o budowaniu modeli w RStudio w SageMaker, zajrzyj do Zapowiedź w pełni zarządzanego RStudio w Amazon SageMaker dla naukowców zajmujących się danymi.
Oczyszczanie
Aby wyczyścić wszelkie zasoby i uniknąć powtarzających się kosztów, usuń główny szablon CloudFormation. Usuń również wszystkie utworzone mocowania EFS oraz utworzone zasobniki i obiekty S3.
Wnioski
Analiza i modelowanie danych może stanowić wyzwanie podczas pracy z dużymi zbiorami danych w chmurze. Amazon Redshift to popularna hurtownia danych, która może pomóc użytkownikom w wykonywaniu tych zadań. RStudio, jedno z najczęściej używanych zintegrowanych środowisk programistycznych (IDE) do analizy danych, jest często używane z językiem R. W tym poście na blogu pokazaliśmy, jak wspólnie korzystać z Amazon Redshift i RStudio w SageMaker, aby skutecznie przeprowadzać analizy na ogromnych zbiorach danych. Korzystając z RStudio w SageMaker, użytkownicy mogą korzystać z w pełni zarządzanej infrastruktury, kontroli dostępu, sieci i możliwości bezpieczeństwa SageMaker, jednocześnie upraszczając integrację z Amazon Redshift. Jeśli chcesz dowiedzieć się więcej o korzystaniu z tych dwóch narzędzi razem, sprawdź nasze inne wpisy na blogu i zasoby. Możesz także spróbować użyć RStudio na SageMaker i Amazon Redshift dla siebie i zobaczyć, jak mogą ci pomóc w zadaniach związanych z analizą danych i modelowaniem.
Dodaj swoją opinię do tego bloga lub utwórz żądanie ściągnięcia na stronie GitHub.
O autorach
Ryana Garnera jest Data Scientist w AWS Professional Services. Pasjonuje się pomaganiem klientom AWS w używaniu R do rozwiązywania problemów związanych z nauką o danych i uczeniem maszynowym.
Raj Pathak jest Starszym Architektem Rozwiązań i Technologiem specjalizującym się w usługach finansowych (ubezpieczenia, bankowość, rynki kapitałowe) oraz uczeniu maszynowym. Specjalizuje się w przetwarzaniu języka naturalnego (NLP), dużych modelach językowych (LLM) oraz projektach infrastrukturalnych i operacyjnych uczenia maszynowego (MLOps).
Aditi Rajnish jest studentem drugiego roku inżynierii oprogramowania na University of Waterloo. Jej zainteresowania obejmują wizję komputerową, przetwarzanie języka naturalnego i przetwarzanie brzegowe. Jest także pasjonatem działań społecznych i rzecznictwa STEM. W wolnym czasie można ją spotkać na wspinaczce skałkowej, grze na pianinie lub uczeniu się, jak upiec idealne bułeczki.
Saiteja Pudi jest architektem rozwiązań w firmie AWS z siedzibą w Dallas w Teksasie. Jest z AWS od ponad 3 lat, pomagając klientom czerpać prawdziwy potencjał AWS, będąc ich zaufanym doradcą. Wywodzi się ze środowiska programistycznego, interesuje się nauką o danych i uczeniem maszynowym.
- AI
- ai sztuka
- generator sztuki ai
- masz robota
- Amazonka Przesunięcie ku czerwieni
- Amazon Sage Maker
- sztuczna inteligencja
- certyfikacja sztucznej inteligencji
- sztuczna inteligencja w bankowości
- robot sztucznej inteligencji
- roboty sztucznej inteligencji
- oprogramowanie sztucznej inteligencji
- Uczenie maszynowe AWS
- blockchain
- konferencja blockchain ai
- pomysłowość
- sztuczna inteligencja konwersacyjna
- konferencja kryptograficzna
- Dall's
- głęboka nauka
- Ekspert (400)
- google to
- uczenie maszynowe
- plato
- Platon Ai
- Analiza danych Platona
- Gra Platona
- PlatoDane
- platogaming
- skala ai
- składnia
- Instrukcje techniczne
- zefirnet