Verwenden Sie Snowflake als Datenquelle, um ML-Modelle mit Amazon SageMaker zu trainieren

Neuauflage von Plato

Verfolger: 0

Amazon Sage Maker ist ein vollständig verwalteter Dienst für maschinelles Lernen (ML). Mit SageMaker können Data Scientists und Entwickler schnell und einfach ML-Modelle erstellen und trainieren und diese dann direkt in einer produktionsbereiten gehosteten Umgebung bereitstellen. Sagemaker bietet eine integrierte Jupyter-Authoring-Notebook-Instance für den einfachen Zugriff auf Ihre Datenquellen zur Untersuchung und Analyse, sodass Sie keine Server verwalten müssen. Es bietet auch gängige ML-Algorithmen, die für die effiziente Ausführung extrem großer Datenmengen in einer verteilten Umgebung optimiert sind.

SageMaker erfordert, dass die Trainingsdaten für ein ML-Modell entweder in vorhanden sind Amazon Simple Storage Service (Amazon S3), Amazon Elastic File System (Amazon EFS) oder Amazon FSx for Lustre (weitere Informationen finden Sie unter Zugriff auf Trainingsdaten). Um ein Modell mit Daten zu trainieren, die außerhalb der drei unterstützten Speicherdienste gespeichert sind, müssen die Daten zuerst in einen dieser Dienste (normalerweise Amazon S3) aufgenommen werden. Dies erfordert den Aufbau einer Datenpipeline (unter Verwendung von Tools wie z Amazon SageMaker Data Wrangler), um Daten in Amazon S3 zu verschieben. Dieser Ansatz kann jedoch eine Herausforderung für die Datenverwaltung in Bezug auf die Verwaltung des Lebenszyklus dieses Datenspeichermediums, die Erstellung von Zugriffskontrollen, die Datenprüfung usw. darstellen, alles zum Zweck der Bereitstellung von Schulungsdaten für die Dauer des Schulungsauftrags. In solchen Situationen kann es wünschenswert sein, die Daten für SageMaker in den flüchtigen Speichermedien zugänglich zu machen, die an die flüchtigen Trainingsinstanzen angeschlossen sind, ohne dass Daten in Amazon S3 zwischengespeichert werden.

Dieser Beitrag zeigt eine Möglichkeit, dies zu tun Schneeflocke als Datenquelle und durch direktes Herunterladen der Daten von Snowflake in eine SageMaker Training-Auftragsinstanz.

Lösungsüberblick

Wir nutzen die Kalifornischer Wohnungsdatensatz als Trainingsdatensatz für diesen Posten und trainieren Sie ein ML-Modell, um den mittleren Hauswert für jeden Bezirk vorherzusagen. Wir fügen diese Daten als neue Tabelle zu Snowflake hinzu. Wir erstellen einen benutzerdefinierten Trainingscontainer, der Daten direkt aus der Snowflake-Tabelle in die Trainingsinstanz herunterlädt, anstatt die Daten zuerst in einen S3-Bucket herunterzuladen. Nachdem die Daten in die Trainingsinstanz heruntergeladen wurden, führt das benutzerdefinierte Trainingsskript Datenvorbereitungsaufgaben aus und trainiert dann das ML-Modell mithilfe von XGBoost-Schätzer. Der gesamte Code für diesen Beitrag ist im verfügbar GitHub Repo.

Abbildung 1: Architektur

Die folgende Abbildung stellt die allgemeine Architektur der vorgeschlagenen Lösung dar, um Snowflake als Datenquelle zum Trainieren von ML-Modellen mit SageMaker zu verwenden.

Die Arbeitsschritte sind wie folgt:

Richten Sie ein SageMaker-Notebook und eine AWS Identity and Access Management and (IAM)-Rolle mit den entsprechenden Berechtigungen, um SageMaker den Zugriff zu ermöglichen Amazon Elastic Container-Registrierung (Amazon ECR), Secrets Manager und andere Dienste in Ihrem AWS-Konto.
Speichern Sie Ihre Snowflake-Kontoanmeldeinformationen in AWS Secrets Manager.
Nehmen Sie die Daten in eine Tabelle in Ihrem Snowflake-Konto auf.
Erstellen Sie ein benutzerdefiniertes Container-Image für das ML-Modelltraining und übertragen Sie es an Amazon ECR.
Starten Sie einen SageMaker-Trainingsjob zum Trainieren des ML-Modells. Die Trainingsinstanz ruft Snowflake-Anmeldeinformationen von Secrets Manager ab und verwendet diese Anmeldeinformationen dann, um das Dataset direkt von Snowflake herunterzuladen. Dies ist der Schritt, der das vorherige Herunterladen von Daten in einen S3-Bucket überflüssig macht.
Das trainierte ML-Modell wird in einem S3-Bucket gespeichert.

Voraussetzungen:

Um die in diesem Beitrag bereitgestellte Lösung zu implementieren, sollten Sie über eine AWS-Konto, eine Snowflake-Konto und Vertrautheit mit SageMaker.

Richten Sie ein SageMaker Notebook und eine IAM-Rolle ein

Wir verwenden AWS CloudFormation, um ein SageMaker-Notebook namens zu erstellen aws-aiml-blogpost-sagemaker-snowflake-example und eine IAM-Rolle namens SageMakerSnowFlakeExample. Wählen Sie Stack starten für die Region, in der Sie Ressourcen bereitstellen möchten.

Speichern Sie Snowflake-Anmeldeinformationen in Secrets Manager

Speichern Sie Ihre Snowflake-Anmeldeinformationen als Geheimnis in Secrets Manager. Anweisungen zum Erstellen eines Geheimnisses finden Sie unter Create an AWS Secrets Manager secret.

Nennen Sie das Geheimnis snowflake_credentials. Dies ist erforderlich, da der Code in snowflake-load-dataset.ipynb erwartet, dass das Geheimnis so heißt.
Erstellen Sie das Geheimnis als Schlüssel/Wert-Paar mit zwei Schlüsseln:
- Benutzername – Ihr Snowflake-Benutzername.
- Passwort – Das mit Ihrem Snowflake-Benutzernamen verknüpfte Passwort.

Nehmen Sie die Daten in eine Tabelle in Ihrem Snowflake-Konto auf

Führen Sie die folgenden Schritte aus, um die Daten aufzunehmen:

Wählen Sie in der SageMaker-Konsole Notizbücher im Navigationsbereich.
Wählen Sie das Notebook aws-aiml-blogpost-sagemaker-snowflake-example aus und wählen Sie Öffnen Sie JupyterLab.

Abbildung 2: Öffnen Sie JupyterLab
Auswählen snowflake-load-dataset.ipynb um es in JupyterLab zu öffnen. Dieses Notebook nimmt die auf Kalifornischer Wohnungsdatensatz zu einem Snowflake-Tisch.
Bearbeiten Sie im Notizbuch den Inhalt der folgenden Zelle, um die Platzhalterwerte durch die Werte zu ersetzen, die Ihrem Snowflake-Konto entsprechen:
```
sf_account_id = "your-snowflake-account-id"
```
Wählen Sie im Menü Ausführen Führen Sie alle Zellen aus um den Code in diesem Notebook auszuführen. Dadurch wird das Dataset lokal in das Notebook heruntergeladen und dann in die Snowflake-Tabelle aufgenommen.

Abbildung 3: Notebook führt alle Zellen aus

Das folgende Code-Snippet im Notebook nimmt das Dataset in Snowflake auf. Siehe die snowflake-load-dataset.ipynb Notizbuch für den vollständigen Code.

# connect to Snowflake Table schema
conn.cursor().execute(f"CREATE SCHEMA IF NOT EXISTS {schema}")
conn.cursor().execute(f"USE SCHEMA {schema}") create_table_sql = f"CREATE TABLE IF NOT EXISTS {db}.{schema}.{table}n (" california_housing.rename(columns=str.upper, inplace=True)
# iterating through the columns
for col in california_housing.columns: column_name = col.upper() if (california_housing[col].dtype.name == "int" or california_housing[col].dtype.name == "int64"): create_table_sql = create_table_sql + column_name + " int"
elif california_housing[col].dtype.name == "object": create_table_sql = create_table_sql + column_name + " varchar(16777216)"
elif california_housing[col].dtype.name == "datetime64[ns]": create_table_sql = create_table_sql + column_name + " datetime"
elif california_housing[col].dtype.name == "float64": create_table_sql = create_table_sql + column_name + " float8"
elif california_housing[col].dtype.name == "bool": create_table_sql = create_table_sql + column_name + " boolean"
else: create_table_sql = create_table_sql + column_name + " varchar(16777216)" # Deciding next steps. Either column is not the last column (add comma) else end create_tbl_statement
if california_housing[col].name != california_housing.columns[-1]: create_table_sql = create_table_sql + ",n"
else: create_table_sql = create_table_sql + ")" # execute the SQL statement to create the table
print(f"create_table_sql={create_table_sql}")
conn.cursor().execute(create_table_sql) print(f"snowflake_table={snowflake_table}")
conn.cursor().execute('TRUNCATE TABLE IF EXISTS ' + snowflake_table)

Schließen Sie das Notebook, nachdem alle Zellen fehlerfrei ausgeführt wurden. Ihre Daten sind jetzt in Snowflake verfügbar. Der folgende Screenshot zeigt die california_housing in Snowflake erstellte Tabelle.

Abbildung 4: Snowflake-Tabelle

Führen Sie die `sagemaker-snowflake-example.ipynb` Notizbuch

Dieses Notebook erstellt einen benutzerdefinierten Trainingscontainer mit einer Snowflake-Verbindung, extrahiert Daten aus Snowflake in den flüchtigen Speicher der Trainingsinstanz, ohne sie in Amazon S3 bereitzustellen, und führt ein Distributed Data Parallel (DDP) XGBoost-Modelltraining für die Daten durch. Für das Modelltraining auf einem so kleinen Datensatz ist kein DDP-Training erforderlich; es ist hier zur Veranschaulichung einer weiteren kürzlich veröffentlichten SageMaker-Funktion enthalten.

Abbildung 5: SageMaker Snowflake Beispiel-Notebook öffnen

Erstellen Sie einen benutzerdefinierten Container für das Training

Wir erstellen jetzt einen benutzerdefinierten Container für den ML-Modelltrainingsjob. Beachten Sie, dass zum Erstellen eines Docker-Containers Root-Zugriff erforderlich ist. Dieses SageMaker-Notebook wurde mit aktiviertem Root-Zugriff bereitgestellt. Wenn Ihre Unternehmensrichtlinien keinen Root-Zugriff auf Cloud-Ressourcen zulassen, möchten Sie möglicherweise die folgenden Docker-Dateien und Shell-Skripts verwenden, um einen Docker-Container an anderer Stelle (z. B. Ihrem Laptop) zu erstellen und ihn dann an Amazon ECR zu übertragen. Wir verwenden den Container basierend auf dem SageMaker XGBoost-Container-Image 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1 mit folgenden Ergänzungen:

Das Snowflake-Konnektor für Python um die Daten aus der Snowflake-Tabelle in die Trainingsinstanz herunterzuladen.
Ein Python-Skript zum Herstellen einer Verbindung mit Secrets Manager zum Abrufen von Snowflake-Anmeldeinformationen.

Die Verwendung des Snowflake-Konnektors und des Python-Skripts stellt sicher, dass Benutzer, die dieses Container-Image für das ML-Modelltraining verwenden, diesen Code nicht als Teil ihres Trainingsskripts schreiben müssen und diese bereits verfügbare Funktionalität nutzen können.

Das Folgende ist das Dockerfile für den Trainingscontainer:

# Build an image that can be used for training in Amazon SageMaker, we use
# the SageMaker XGBoost as the base image as it contains support for distributed
# training.
FROM 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1 MAINTAINER Amazon AI <sage-learner@amazon.com> RUN apt-get -y update && apt-get install -y --no-install-recommends wget python3-pip python3-setuptools nginx ca-certificates && rm -rf /var/lib/apt/lists/* RUN ln -s /usr/bin/python3 /usr/bin/python
RUN ln -s /usr/bin/pip3 /usr/bin/pip # Here we get snowflake-connector python package.
# pip leaves the install caches populated which uses a # significant amount of space. These optimizations save a fair # amount of space in the image, which reduces start up time.
RUN pip --no-cache-dir install snowflake-connector-python==2.8.3 # Include python script for retrieving Snowflake credentials # from AWS SecretsManager
ADD snowflake_credentials.py /

Das Container-Image wird erstellt und an Amazon ECR übertragen. Dieses Bild wird zum Trainieren des ML-Modells verwendet.

Trainieren Sie das ML-Modell mit einem SageMaker-Trainingsjob

Nachdem wir das Container-Image erfolgreich erstellt und an Amazon ECR gepusht haben, können wir damit beginnen, es für das Modelltraining zu verwenden.

Wir erstellen eine Reihe von Python-Skripts, um die Daten von Snowflake mithilfe von herunterzuladen Snowflake-Konnektor für Python, bereiten Sie die Daten vor und verwenden Sie dann die XGBoost Regressor um das ML-Modell zu trainieren. Es ist der Schritt, die Daten direkt in die Trainingsinstanz herunterzuladen, wodurch vermieden wird, dass Amazon S3 als Zwischenspeicher für Trainingsdaten verwendet werden muss.

Wir erleichtern verteiltes paralleles Datentraining, indem wir den Trainingscode eine zufällige Teilmenge der Daten herunterladen lassen, sodass jede Trainingsinstanz eine gleiche Datenmenge von Snowflake herunterlädt. Wenn beispielsweise zwei Trainingsknoten vorhanden sind, lädt jeder Knoten eine zufällige Stichprobe von 50 % der Zeilen in der Snowflake-Tabelle herunter. Siehe den folgenden Code:

"""
Read the HOUSING table (this is the california housing dataset used by this example) """
import pandas as pd
import snowflake.connector def data_pull(ctx: snowflake.connector.SnowflakeConnection, table: str, hosts: int) -> pd.DataFrame: # Query Snowflake HOUSING table for number of table records sql_cnt = f"select count(*) from {table};" df_cnt = pd.read_sql(sql_cnt, ctx) # Retrieve the total number of table records from dataframe for index, row in df_cnt.iterrows(): num_of_records = row.astype(int) list_num_of_rec = num_of_records.tolist() tot_num_records = list_num_of_rec[0] record_percent = str(round(100/hosts)) print(f"going to download a random {record_percent}% sample of the data") # Query Snowflake HOUSING table sql = f"select * from {table} sample ({record_percent});" print(f"sql={sql}") # Get the dataset into Pandas df = pd.read_sql(sql, ctx) print(f"read data into a dataframe of shape {df.shape}") # Prepare the data for ML df.dropna(inplace=True) print(f"final shape of dataframe to be used for training {df.shape}") return df

Anschließend stellen wir das Trainingsskript für das SageMaker SDK bereit Estimator zusammen mit dem Quellverzeichnis, sodass alle von uns erstellten Skripts dem Trainingscontainer bereitgestellt werden können, wenn der Trainingsjob mit ausgeführt wird Estimator.fit Verfahren:

custom_img_uri = f"{account_id}.dkr.ecr.{region}.amazonaws.com/{custom_img_name}:{custom_img_tag}" # Create Sagemaker Estimator
xgb_script_mode_estimator = sagemaker.estimator.Estimator( image_uri = custom_img_uri, role=role, instance_count=instance_count, instance_type=instance_type, output_path="s3://{}/{}/output".format(bucket, prefix), sagemaker_session=session, entry_point="train.py", source_dir="./src", hyperparameters=hyperparams, environment=env, subnets = subnet_ids,
) # start the training job
xgb_script_mode_estimator.fit()

Weitere Informationen finden Sie unter Bereiten Sie ein Scikit-Learn-Schulungsskript vor.

Nach Abschluss des Modelltrainings steht das trainierte Modell als model.tar.gz Datei im standardmäßigen SageMaker-Bucket für die Region:

print(f"the trained model is available in Amazon S3 -> {xgb_script_mode_estimator.model_data}")

Sie können jetzt das trainierte Modell einsetzen, um Rückschlüsse auf neue Daten zu ziehen! Anweisungen finden Sie unter Erstellen Sie Ihren Endpunkt und stellen Sie Ihr Modell bereit.

Aufräumen

Löschen Sie die Ressourcen, um zukünftige Gebühren zu vermeiden. Sie können dies tun, indem Sie die CloudFormation-Vorlage löschen, die zum Erstellen der IAM-Rolle und des SageMaker-Notebooks verwendet wurde.

Verwenden Sie Snowflake als Datenquelle, um ML-Modelle mit Amazon SageMaker PlatoBlockchain Data Intelligence zu trainieren. Vertikale Suche. Ai.

Abbildung 6: Aufräumen

Sie müssen die Snowflake-Ressourcen manuell aus der Snowflake-Konsole löschen.

Zusammenfassung

In diesem Beitrag haben wir gezeigt, wie Sie in einer Snowflake-Tabelle gespeicherte Daten in eine SageMaker-Trainingsauftragsinstanz herunterladen und ein XGBoost-Modell mit einem benutzerdefinierten Trainingscontainer trainieren. Dieser Ansatz ermöglicht es uns, Snowflake direkt als Datenquelle in ein SageMaker-Notebook zu integrieren, ohne dass die Daten in Amazon S3 bereitgestellt werden.

Wir empfehlen Ihnen, mehr zu erfahren, indem Sie die erkunden Amazon SageMaker Python-SDK und Erstellen einer Lösung mit der in diesem Beitrag bereitgestellten Beispielimplementierung und einem für Ihr Unternehmen relevanten Datensatz. Wenn Sie Fragen oder Anregungen haben, hinterlassen Sie einen Kommentar.

Über die Autoren

Amit Arora ist ein auf KI und ML spezialisierter Architekt bei Amazon Web Services und unterstützt Unternehmenskunden bei der Nutzung von Cloud-basierten Diensten für maschinelles Lernen, um ihre Innovationen schnell zu skalieren. Er ist außerdem außerordentlicher Dozent im MS Data Science and Analytics-Programm an der Georgetown University in Washington DC

Divya Muralidharan ist Lösungsarchitekt bei Amazon Web Services. Ihre Leidenschaft ist es, Unternehmenskunden bei der Lösung von Geschäftsproblemen mit Technologie zu unterstützen. Sie hat einen Master in Informatik vom Rochester Institute of Technology. Außerhalb des Büros verbringt sie Zeit damit, zu kochen, zu singen und Pflanzen anzubauen.

Sergej Ermolin ist Principal AIML Solutions Architect bei AWS. Zuvor war er Softwarelösungsarchitekt für Deep Learning, Analytik und Big-Data-Technologien bei Intel. Sergey, ein Veteran des Silicon Valley mit einer Leidenschaft für maschinelles Lernen und künstliche Intelligenz, interessiert sich seit Tagen vor der GPU für neuronale Netze, als er sie zur Vorhersage des Alterungsverhaltens von Quarzkristallen und Cäsium-Atomuhren bei Hewlett-Packard einsetzte. Sergey hat ein MSEE- und ein CS-Zertifikat von Stanford und einen BS-Abschluss in Physik und Maschinenbau von der California State University, Sacramento. Außerhalb der Arbeit genießt Sergey die Weinherstellung, das Skifahren, Radfahren, Segeln und Tauchen. Sergey ist auch ein freiwilliger Pilot für Engelsflug.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
Quelle: https://aws.amazon.com/blogs/machine-learning/use-snowflake-as-a-data-source-to-train-ml-models-with-amazon-sagemaker/

Zeitstempel: 8. März 2023

Zeitstempel: 13. April 2023

Verwenden Sie Snowflake als Datenquelle, um ML-Modelle mit Amazon SageMaker zu trainieren

Neuauflage von Plato

Lösungsüberblick

Voraussetzungen:

Richten Sie ein SageMaker Notebook und eine IAM-Rolle ein

Speichern Sie Snowflake-Anmeldeinformationen in Secrets Manager

Nehmen Sie die Daten in eine Tabelle in Ihrem Snowflake-Konto auf

Führen Sie die `sagemaker-snowflake-example.ipynb` Notizbuch

Erstellen Sie einen benutzerdefinierten Container für das Training

Trainieren Sie das ML-Modell mit einem SageMaker-Trainingsjob

Aufräumen

Zusammenfassung

Über die Autoren

Mehr von AWS Maschinelles Lernen

Transformation der qualitativen Forschung durch die Automatisierung von Sprache in Text-zu-Text-Analysen

Erstellen Sie eine Impfüberprüfungslösung mithilfe der Abfragefunktion in Amazon Textract | Amazon Web Services

Wir stellen Amazon CodeWhisperer vor, den ML-gestützten Programmierbegleiter

Ankündigung der Einführung der Modellkopierfunktion für Amazon Rekognition Custom Labels

Wie AWS Prototyping es der ICL-Group ermöglichte, Computer-Vision-Modelle auf Amazon SageMaker zu erstellen | Amazon Web Services

Erstellen Sie flexible und skalierbare verteilte Trainingsarchitekturen mit Kubeflow auf AWS und Amazon SageMaker

Führen Sie Inferenzen für OpenFold, ein PyTorch-basiertes Proteinfaltungs-ML-Modell, mit Amazon EKS im großen Maßstab aus

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto

Lösungsüberblick

Voraussetzungen:

Richten Sie ein SageMaker Notebook und eine IAM-Rolle ein

Speichern Sie Snowflake-Anmeldeinformationen in Secrets Manager

Nehmen Sie die Daten in eine Tabelle in Ihrem Snowflake-Konto auf

Führen Sie die sagemaker-snowflake-example.ipynb Notizbuch

Erstellen Sie einen benutzerdefinierten Container für das Training

Trainieren Sie das ML-Modell mit einem SageMaker-Trainingsjob

Aufräumen

Zusammenfassung

Über die Autoren

Mehr von AWS Maschinelles Lernen

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto

Führen Sie die `sagemaker-snowflake-example.ipynb` Notizbuch