Importieren Sie Daten aus kontoübergreifendem Amazon Redshift in Amazon SageMaker Data Wrangler für explorative Datenanalyse und Datenvorbereitung

Neuauflage von Plato

Verfolger: 0

Organisationen, die sich zu einer datengesteuerten Kultur hinbewegen, setzen bei der Entscheidungsfindung auf den Einsatz von Daten und maschinellem Lernen (ML). Um ML-basierte Entscheidungen aus Daten zu treffen, müssen Ihre Daten verfügbar, zugänglich, sauber und im richtigen Format sein, um ML-Modelle zu trainieren. Organisationen mit einer Architektur mit mehreren Konten möchten Situationen vermeiden, in denen sie Daten aus einem Konto extrahieren und für Datenvorbereitungsaktivitäten in ein anderes laden müssen. Das manuelle Erstellen und Verwalten der verschiedenen Extraktions-, Transformations- und Ladeaufträge (ETL) in verschiedenen Konten erhöht die Komplexität und Kosten und erschwert die Einhaltung der Best Practices für Governance, Compliance und Sicherheit, um Ihre Daten zu schützen.

Amazon RedShift ist ein schnelles, vollständig verwaltetes Cloud Data Warehouse. Die kontenübergreifende Datenfreigabefunktion von Amazon Redshift bietet eine einfache und sichere Möglichkeit, aktuelle, vollständige und konsistente Daten in Ihrem Amazon Redshift Data Warehouse mit einer beliebigen Anzahl von Beteiligten in verschiedenen AWS-Konten zu teilen. Amazon SageMaker Data Wrangler ist eine Fähigkeit von Amazon Sage Maker Dadurch können Data Scientists und Ingenieure Daten mithilfe einer visuellen Schnittstelle schneller für ML-Anwendungen aufbereiten. Mit Data Wrangler können Sie Daten für ML untersuchen und transformieren, indem Sie eine Verbindung zu Amazon Redshift-Datashares herstellen.

In diesem Beitrag gehen wir durch die Einrichtung einer kontoübergreifenden Integration mit einem Amazon Redshift-Datashare und die Vorbereitung von Daten mit Data Wrangler.

Lösungsüberblick

Wir beginnen mit zwei AWS-Konten: einem Producer-Konto mit dem Amazon Redshift Data Warehouse und einem Consumer-Konto für SageMaker ML-Anwendungsfälle. Für diesen Beitrag verwenden wir die Banking-Datensatz. Um mitzumachen, laden Sie das Dataset auf Ihren lokalen Computer herunter. Im Folgenden finden Sie eine allgemeine Übersicht über den Workflow:

Instanziieren Sie einen Amazon Redshift RA3-Cluster im Producer-Konto und laden Sie das Dataset.
Erstellen Sie eine Amazon Redshift-Datenfreigabe im Produzentenkonto und gestatten Sie dem Verbraucherkonto den Zugriff auf die Daten.
Greifen Sie im Verbraucherkonto auf die Amazon Redshift-Datenfreigabe zu.
Analysieren und verarbeiten Sie Daten mit Data Wrangler im Verbraucherkonto und erstellen Sie Ihre Datenvorbereitungs-Workflows.

Seien Sie sich der bewusst Überlegungen für die Arbeit mit der Amazon Redshift-Datenfreigabe:

Mehrere AWS-Konten – Sie benötigen mindestens zwei AWS-Konten: ein Producer-Konto und ein Consumer-Konto.
Clustertyp – Die gemeinsame Nutzung von Daten wird im RA3-Clustertyp unterstützt. Stellen Sie beim Instanziieren eines Amazon Redshift-Clusters sicher, dass Sie den RA3-Clustertyp auswählen.
Verschlüsselung – Damit die gemeinsame Nutzung von Daten funktioniert, müssen sowohl der Producer- als auch der Consumer-Cluster verschlüsselt sein und sich in derselben AWS-Region befinden.
Regionen – Die kontoübergreifende Datenfreigabe ist für alle Amazon Redshift verfügbar RA3-Knotentypen in USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Nordkalifornien), USA West (Oregon), Asien-Pazifik (Mumbai), Asien-Pazifik (Seoul), Asien-Pazifik (Singapur), Asien-Pazifik ( Sydney), Asien-Pazifik (Tokio), Kanada (Zentral), Europa (Frankfurt), Europa (Irland), Europa (London), Europa (Paris), Europa (Stockholm) und Südamerika (São Paulo).
AnzeigenPreise – Die kontoübergreifende Datenfreigabe ist über Cluster hinweg verfügbar, die sich in derselben Region befinden. Für die gemeinsame Nutzung von Daten fallen keine Kosten an. Sie zahlen nur für die Amazon Redshift-Cluster, die am Teilen teilnehmen.

Die kontoübergreifende Datenfreigabe ist ein zweistufiger Prozess. Zuerst erstellt ein Produzenten-Cluster-Administrator einen Datashare, fügt Objekte hinzu und gewährt Zugriff auf das Verbraucherkonto. Dann autorisiert der Administrator des Produzentenkontos die gemeinsame Nutzung von Daten für den angegebenen Verbraucher. Sie können dies über die Amazon Redshift-Konsole tun.

Erstellen Sie eine Amazon Redshift-Datenfreigabe im Produzentenkonto

Führen Sie die folgenden Schritte aus, um Ihren Datashare zu erstellen:

Erstellen Sie auf der Amazon Redshift-Konsole einen Amazon Redshift-Cluster.
Angeben Produktion und wählen Sie den Knotentyp RA3.
Der Zusätzliche Konfigurationen, Abwählen Standardwerte verwenden.
Der Datenbankkonfigurationen, richten Sie die Verschlüsselung für Ihren Cluster ein.
Nachdem Sie den Cluster erstellt haben, importieren Sie das Direktmarketing-Bank-Dataset. Sie können von der folgenden URL herunterladen: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
Hochladen bank-additional-full.csv ein Amazon Simple Storage-Service (Amazon S3)-Bucket, auf den Ihr Cluster Zugriff hat.

Verwenden Sie den Amazon Redshift-Abfrage-Editor und führen Sie die folgende SQL-Abfrage aus, um die Daten in Amazon Redshift zu kopieren:

create table bank_additional_full ( age char(40), job char(40), marital char(40), education char(40), default_history varchar(40), housing char(40), loan char(40), contact char(40), month char(40), day_of_week char(40), duration char(40), campaign char(40), pdays char(40), previous char(40), poutcome char(40), emp_var_rate char(40), cons_price_idx char(40), cons_conf_idx char(40), euribor3m char(40), nr_employed char(40), y char(40));
copy bank_additional_full
from <S3 LOCATION OF THE CSV FILE>
credentials <CLUSTER ROLE ARN>
region 'us-east-1'
format csv
IGNOREBLANKLINES
IGNOREHEADER 1

Navigieren Sie zur Cluster-Detailseite und auf der Datenfreigaben Tab, wählen Sie Datenfreigabe erstellen.
Aussichten für Datashare-Name, Geben Sie einen Namen ein.
Aussichten für Name der Datenbank, wählen Sie eine Datenbank aus.
Im Fügen Sie Datashare-Objekte hinzu Wählen Sie im Abschnitt die Objekte aus der Datenbank aus, die Sie in den Datashare aufnehmen möchten.
Sie haben genaue Kontrolle darüber, was Sie mit anderen teilen möchten. Der Einfachheit halber teilen wir alle Tische. In der Praxis können Sie eine oder mehrere Tabellen, Ansichten oder benutzerdefinierte Funktionen auswählen.
Auswählen Speichern.
Um Datenconsumer hinzuzufügen, wählen Sie aus Fügen Sie dem Datashare AWS-Konten hinzu und fügen Sie Ihre sekundäre AWS-Konto-ID hinzu.
Auswählen Datenfreigabe erstellen.
Um den soeben erstellten Datenkonsumenten zu autorisieren, gehen Sie zu Datenfreigaben Seite auf der Amazon Redshift-Konsole und wählen Sie die neue Datenfreigabe aus.
Wählen Sie den Datenkonsumenten aus und wählen Sie Autorisieren.

Der Verbraucherstatus ändert sich von Pending authorization zu Authorized.

Greifen Sie im AWS-Kundenkonto auf den kontoübergreifenden Amazon Redshift-Datashare zu

Nachdem der Datashare eingerichtet ist, wechseln Sie zu Ihrem AWS-Konsumentenkonto, um den Datashare zu nutzen. Stellen Sie sicher, dass Sie mindestens einen Amazon Redshift-Cluster in Ihrem Verbraucherkonto erstellt haben. Der Cluster muss verschlüsselt sein und sich in derselben Region wie die Quelle befinden.

Wählen Sie in der Amazon Redshift-Konsole aus Datenfreigaben im Navigationsbereich.
Auf dem Von anderen Konten Wählen Sie auf der Registerkarte den von Ihnen erstellten Datashare aus und wählen Sie Partnerschaftsräte.
Sie können die Datenfreigabe einem oder mehreren Clustern in diesem Konto zuordnen oder die Datenfreigabe dem gesamten Konto zuordnen, sodass die aktuellen und zukünftigen Cluster im Verbraucherkonto Zugriff auf diese Freigabe erhalten.
Geben Sie Ihre Verbindungsdaten an und wählen Sie aus Vernetz Dich.
Auswählen Erstellen Sie eine Datenbank aus Datashare und geben Sie einen Namen für Ihre neue Datenbank ein.
Wechseln Sie zum Testen der Datenfreigabe zum Abfrageeditor und führen Sie Abfragen für die neue Datenbank aus, um sicherzustellen, dass alle Objekte als Teil der Datenfreigabe verfügbar sind.

Analysieren und verarbeiten Sie Daten mit Data Wrangler

Sie können jetzt Data Wrangler verwenden, um auf die kontoübergreifenden Daten zuzugreifen, die als Datashare in Amazon Redshift erstellt wurden.

Offen Amazon SageMaker-Studio.
Auf dem Reichen Sie das Menü, wählen Sie Neu und Daten-Wrangler-Flow.
Auf dem Import Tab, wählen Sie Datenquelle hinzufügen und Amazon RedShift.
Geben Sie die Verbindungsdetails des gerade erstellten Amazon Redshift-Clusters im Verbraucherkonto für die Datenfreigabe ein.
Auswählen Vernetz Dich.
Verwenden Sie das AWS Identity and Access Management and (IAM)-Rolle, die Sie für Ihren Amazon Redshift-Cluster verwendet haben.

Beachten Sie, dass Sie, obwohl die Datenfreigabe eine neue Datenbank im Amazon Redshift-Cluster ist, von Data Wrangler aus keine direkte Verbindung zu ihr herstellen können.

Der richtige Weg besteht darin, zuerst eine Verbindung zur Standardclusterdatenbank herzustellen und dann SQL zum Abfragen der Datashare-Datenbank zu verwenden. Geben Sie die erforderlichen Informationen zum Herstellen einer Verbindung mit der Standardclusterdatenbank an. Beachten Sie, dass ein AWS-Schlüsselverwaltungsservice (AWS KMS)-Schlüssel-ID ist nicht erforderlich, um eine Verbindung herzustellen.

Data Wrangler ist jetzt mit der Amazon Redshift-Instanz verbunden.

Fragen Sie die Daten in der Amazon Redshift-Datashare-Datenbank mit einem SQL-Editor ab.
Auswählen Import um den Datensatz in Data Wrangler zu importieren.
Geben Sie einen Namen für den Datensatz ein und wählen Sie Speichern.

Sie können jetzt den Fluss auf der sehen Datenfluss Registerkarte von Data Wrangler.

Nachdem Sie die Daten in Data Wrangler geladen haben, können Sie eine explorative Datenanalyse durchführen und Daten für ML vorbereiten.

Wählen Sie das Pluszeichen und wählen Sie aus Analyse hinzufügen.

Data Wrangler bietet integrierte Analysen. Dazu gehören unter anderem ein Datenqualitäts- und Erkenntnisbericht, Datenkorrelation, ein Bias-Bericht vor dem Training, eine Zusammenfassung Ihres Datensatzes und Visualisierungen (z. B. Histogramme und Streudiagramme). Sie können auch Ihre eigene benutzerdefinierte Visualisierung erstellen.

Sie können den Data Quality and Insights Report verwenden, um automatisch Visualisierungen und Analysen zu generieren, um Datenqualitätsprobleme zu identifizieren und die richtige Transformation zu empfehlen, die für Ihren Datensatz erforderlich ist.

Auswählen Datenqualitäts- und Insights-Berichtund wählen Sie die Zielspalte as y.
Da es sich hierbei um eine Klassifikationsproblematik handelt, z ProblemtypWählen Klassifikation.
Auswählen Erstellen.

Data Wrangler erstellt einen detaillierten Bericht zu Ihrem Datensatz. Sie können den Bericht auch auf Ihren lokalen Computer herunterladen.

Wählen Sie für die Datenaufbereitung das Pluszeichen und wählen Sie aus Analyse hinzufügen.
Auswählen Schritt hinzufügen um mit dem Aufbau Ihrer Transformationen zu beginnen.

Zum Zeitpunkt der Erstellung dieses Artikels bietet Data Wrangler über 300 integrierte Transformationen. Sie können auch Ihre eigenen Transformationen mit Pandas oder PySpark schreiben.

Sie können jetzt damit beginnen, Ihre Transformationen und Analysen basierend auf Ihren Geschäftsanforderungen zu erstellen.

Zusammenfassung

In diesem Beitrag haben wir untersucht, wie Daten über Konten hinweg mit Amazon Redshift-Datenfreigaben geteilt werden können, ohne dass Daten manuell heruntergeladen und hochgeladen werden müssen. Wir haben erklärt, wie Sie mit Data Wrangler auf die freigegebenen Daten zugreifen und die Daten für Ihre ML-Anwendungsfälle vorbereiten. Diese No-Code/Low-Code-Fähigkeit von Amazon Redshift Datashares und Data Wrangler beschleunigt die Vorbereitung von Trainingsdaten und erhöht die Agilität von Dateningenieuren und Datenwissenschaftlern durch eine schnellere iterative Datenvorbereitung.

Weitere Informationen zu Amazon Redshift und SageMaker finden Sie unter Entwicklerhandbuch für die Amazon Redshift-Datenbank und Amazon SageMaker-Dokumentation.

Über die Autoren

Importieren Sie Daten aus kontoübergreifendem Amazon Redshift in Amazon SageMaker Data Wrangler für die explorative Datenanalyse und Datenvorbereitung PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Meenakshisundaram Thandavarayan ist Senior AI/ML-Spezialist bei AWS. Er hilft strategischen High-Tech-Accounts auf ihrer KI- und ML-Reise. Er interessiert sich sehr für datengetriebene KI.

James Wu ist Senior AI/ML Specialist Solution Architect bei AWS. Unterstützung von Kunden bei der Entwicklung und Erstellung von KI/ML-Lösungen. Die Arbeit von James deckt ein breites Spektrum von ML-Anwendungsfällen ab, wobei sein Hauptinteresse auf Computer Vision, Deep Learning und der Skalierung von ML im gesamten Unternehmen liegt. Bevor er zu AWS kam, war James über 10 Jahre lang Architekt, Entwickler und Technologieführer, davon 6 Jahre im Ingenieurwesen und 4 Jahre in der Marketing- und Werbebranche.

Zeitstempel: 23. Juni 2022

Zeitstempel: 1. Dezember 2022

Neuauflage von Plato

Erhalten Sie mehr Kontrolle über Ihre Amazon SageMaker Data Wrangler-Workloads mit parametrisierten Datensätzen und geplanten Jobs

Leistungsempfehlung und Suche mit einem IMDb Knowledge Graph – Teil 1

Erweitern Sie Betrugstransaktionen mit synthetischen Daten in Amazon SageMaker

Verbessern Sie die Governance Ihrer Machine-Learning-Modelle mit Amazon SageMaker

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto