Bruk Snowflake som en datakilde for å trene ML-modeller med Amazon SageMaker

Publisert av Platon

Følgere: 0

Amazon SageMaker er en fullstendig administrert maskinlæringstjeneste (ML). Med SageMaker kan dataforskere og utviklere raskt og enkelt bygge og trene ML-modeller, og deretter distribuere dem direkte i et produksjonsklart vertsmiljø. Sagemaker tilbyr en integrert Jupyter-forfatternotatbokforekomst for enkel tilgang til datakildene dine for utforskning og analyse, slik at du ikke trenger å administrere servere. Det gir også vanlige ML-algoritmer som er optimalisert for å kjøre effektivt mot ekstremt store data i et distribuert miljø.

SageMaker krever at treningsdataene for en ML-modell finnes enten i Amazon Simple Storage Service (Amazon S3), Amazon Elastic File System (Amazon EFS) eller Amazon FSx for Luster (for mer informasjon, se Access Training Data). For å trene en modell ved å bruke data som er lagret utenfor de tre støttede lagringstjenestene, må dataene først tas inn i en av disse tjenestene (typisk Amazon S3). Dette krever å bygge en datapipeline (ved å bruke verktøy som f.eks Amazon SageMaker Data Wrangler) for å flytte data til Amazon S3. Imidlertid kan denne tilnærmingen skape en datahåndteringsutfordring når det gjelder å administrere livssyklusen til dette datalagringsmediet, lage tilgangskontroller, datarevisjon og så videre, alt med det formål å iscenesette opplæringsdata for varigheten av treningsjobben. I slike situasjoner kan det være ønskelig å ha dataene tilgjengelig for SageMaker i de flyktige lagringsmediene knyttet til de flyktige treningsinstansene uten mellomlagring av data i Amazon S3.

Dette innlegget viser en måte å gjøre dette på Snowflake som datakilde og ved å laste ned dataene direkte fra Snowflake til en SageMaker Training-jobbforekomst.

Løsningsoversikt

Vi bruker California boligdatasett som et opplæringsdatasett for dette innlegget og trene en ML-modell for å forutsi median husverdi for hvert distrikt. Vi legger til disse dataene i Snowflake som en ny tabell. Vi lager en tilpasset treningsbeholder som laster ned data direkte fra Snowflake-tabellen til treningsforekomsten i stedet for først å laste ned dataene til en S3-bøtte. Etter at dataene er lastet ned til treningsforekomsten, utfører det tilpassede opplæringsskriptet dataforberedelsesoppgaver og trener deretter ML-modellen ved å bruke XGBoost Estimator. All kode for dette innlegget er tilgjengelig i GitHub repo.

Figur 1: Arkitektur

Følgende figur representerer høynivåarkitekturen til den foreslåtte løsningen for å bruke Snowflake som en datakilde for å trene ML-modeller med SageMaker.

Arbeidsflyttrinnene er som følger:

Sett opp en SageMaker-notisbok og en AWS identitets- og tilgangsadministrasjon (IAM) rolle med passende tillatelser for å gi SageMaker tilgang Amazon Elastic Container Registry (Amazon ECR), Secrets Manager og andre tjenester på AWS-kontoen din.
Lagre din Snowflake-kontolegitimasjon i AWS Secrets Manager.
Ta inn dataene i en tabell i Snowflake-kontoen din.
Lag et tilpasset beholderbilde for opplæring av ML-modeller og skyv det til Amazon ECR.
Lanser en SageMaker Training-jobb for opplæring av ML-modellen. Treningsforekomsten henter Snowflake-legitimasjon fra Secrets Manager og bruker deretter disse legitimasjonene til å laste ned datasettet direkte fra Snowflake. Dette er trinnet som eliminerer behovet for at data først skal lastes ned til en S3-bøtte.
Den trente ML-modellen oppbevares i en S3-bøtte.

Forutsetninger

For å implementere løsningen som er gitt i dette innlegget, bør du ha en AWS-kontoen Snowflake-konto og kjennskap til SageMaker.

Sett opp en SageMaker Notebook- og IAM-rolle

Vi bruker AWS CloudFormation for å lage en SageMaker notatbok kalt aws-aiml-blogpost-sagemaker-snowflake-example og en IAM-rolle kalt SageMakerSnowFlakeExample. Velg Start Stack for regionen du ønsker å distribuere ressurser til.

Lagre Snowflake-legitimasjon i Secrets Manager

Lagre Snowflake-legitimasjonen din som en hemmelighet i Secrets Manager. For instruksjoner om hvordan du oppretter en hemmelighet, se Create an AWS Secrets Manager secret.

Navngi hemmeligheten snowflake_credentials. Dette er nødvendig fordi koden i snowflake-load-dataset.ipynb forventer at hemmeligheten heter det.
Lag hemmeligheten som et nøkkelverdi-par med to nøkler:
- brukernavn – Ditt Snowflake-brukernavn.
- passord – Passordet knyttet til Snowflake-brukernavnet ditt.

Ta inn dataene i en tabell i Snowflake-kontoen din

For å innta dataene, fullfør følgende trinn:

Velg på SageMaker-konsollen Notatbøker i navigasjonsruten.
Velg notatboken aws-aiml-blogpost-sagemaker-snowflake-example og velg Åpne JupyterLab.

Figur 2: Åpne JupyterLab
Velg snowflake-load-dataset.ipynb for å åpne den i JupyterLab. Denne notatboken vil innta California boligdatasett til et Snowflake-bord.
Rediger innholdet i følgende celle i notatboken for å erstatte plassholderverdiene med den som samsvarer med snøfnuggkontoen din:
```
sf_account_id = "your-snowflake-account-id"
```
På Kjør-menyen velger du Kjør alle celler for å kjøre koden i denne notatboken. Dette vil laste ned datasettet lokalt til notatboken og deretter legge det inn i Snowflake-tabellen.

Figur 3: Notebook Kjør alle celler

Følgende kodebit i notatboken inntar datasettet i Snowflake. Se snowflake-load-dataset.ipynb notatbok for hele koden.

# connect to Snowflake Table schema
conn.cursor().execute(f"CREATE SCHEMA IF NOT EXISTS {schema}")
conn.cursor().execute(f"USE SCHEMA {schema}") create_table_sql = f"CREATE TABLE IF NOT EXISTS {db}.{schema}.{table}n (" california_housing.rename(columns=str.upper, inplace=True)
# iterating through the columns
for col in california_housing.columns: column_name = col.upper() if (california_housing[col].dtype.name == "int" or california_housing[col].dtype.name == "int64"): create_table_sql = create_table_sql + column_name + " int"
elif california_housing[col].dtype.name == "object": create_table_sql = create_table_sql + column_name + " varchar(16777216)"
elif california_housing[col].dtype.name == "datetime64[ns]": create_table_sql = create_table_sql + column_name + " datetime"
elif california_housing[col].dtype.name == "float64": create_table_sql = create_table_sql + column_name + " float8"
elif california_housing[col].dtype.name == "bool": create_table_sql = create_table_sql + column_name + " boolean"
else: create_table_sql = create_table_sql + column_name + " varchar(16777216)" # Deciding next steps. Either column is not the last column (add comma) else end create_tbl_statement
if california_housing[col].name != california_housing.columns[-1]: create_table_sql = create_table_sql + ",n"
else: create_table_sql = create_table_sql + ")" # execute the SQL statement to create the table
print(f"create_table_sql={create_table_sql}")
conn.cursor().execute(create_table_sql) print(f"snowflake_table={snowflake_table}")
conn.cursor().execute('TRUNCATE TABLE IF EXISTS ' + snowflake_table)

Lukk notatboken etter at alle cellene har kjørt uten feil. Dine data er nå tilgjengelig i Snowflake. Følgende skjermbilde viser california_housing bord laget i Snowflake.

Figur 4: Snøfnuggbord

Kjør `sagemaker-snowflake-example.ipynb` bærbare

Denne notatboken lager en tilpasset treningsbeholder med en Snowflake-tilkobling, trekker ut data fra Snowflake inn i treningsforekomstens flyktige lagring uten å sette den i Amazon S3, og utfører Distribuert Data Parallel (DDP) XGBoost modelltrening på dataene. DDP-trening er ikke nødvendig for modelltrening på et så lite datasett; den er inkludert her for å illustrere enda en nylig utgitt SageMaker-funksjon.

Figur 5: Åpne SageMaker Snowflake Eksempel Notebook

Lag en tilpasset beholder for opplæring

Vi lager nå en tilpasset beholder for ML-modellopplæringsjobben. Merk at root-tilgang er nødvendig for å lage en Docker-beholder. Denne SageMaker-notisboken ble distribuert med root-tilgang aktivert. Hvis retningslinjer for bedriftsorganisasjonen ikke tillater root-tilgang til skyressurser, kan det være lurt å bruke følgende Docker-fil- og shell-skript for å bygge en Docker-beholder andre steder (for eksempel den bærbare datamaskinen) og deretter skyve den til Amazon ECR. Vi bruker beholderen basert på SageMaker XGBoost-beholderbildet 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1 med følgende tillegg:

De Snowflake Connector for Python for å laste ned dataene fra Snowflake-tabellen til treningsforekomsten.
Et Python-skript for å koble til Secrets Manager for å hente Snowflake-legitimasjon.

Bruk av Snowflake-koblingen og Python-skriptet sikrer at brukere som bruker dette beholderbildet for opplæring i ML-modeller, ikke trenger å skrive denne koden som en del av opplæringsskriptet og kan bruke denne funksjonaliteten som allerede er tilgjengelig for dem.

Følgende er Dockerfilen for opplæringsbeholderen:

# Build an image that can be used for training in Amazon SageMaker, we use
# the SageMaker XGBoost as the base image as it contains support for distributed
# training.
FROM 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1 MAINTAINER Amazon AI <sage-learner@amazon.com> RUN apt-get -y update && apt-get install -y --no-install-recommends wget python3-pip python3-setuptools nginx ca-certificates && rm -rf /var/lib/apt/lists/* RUN ln -s /usr/bin/python3 /usr/bin/python
RUN ln -s /usr/bin/pip3 /usr/bin/pip # Here we get snowflake-connector python package.
# pip leaves the install caches populated which uses a # significant amount of space. These optimizations save a fair # amount of space in the image, which reduces start up time.
RUN pip --no-cache-dir install snowflake-connector-python==2.8.3 # Include python script for retrieving Snowflake credentials # from AWS SecretsManager
ADD snowflake_credentials.py /

Beholderbildet bygges og skyves til Amazon ECR. Dette bildet brukes til trening av ML-modellen.

Tren ML-modellen ved å bruke en SageMaker Training-jobb

Etter at vi har opprettet beholderbildet og sendt det til Amazon ECR, kan vi begynne å bruke det til modellopplæring.

Vi lager et sett med Python-skript for å laste ned dataene fra Snowflake ved å bruke Snowflake Connector for Python, klargjør dataene og bruk deretter XGBoost Regressor å trene ML-modellen. Det er trinnet med å laste ned dataene direkte til treningsinstansen som unngår å måtte bruke Amazon S3 som mellomlagring for treningsdata.

Vi tilrettelegger for distribuert dataparallell trening ved å la treningskoden laste ned et tilfeldig delsett av dataene slik at hver treningsforekomst laster ned like mye data fra Snowflake. For eksempel, hvis det er to treningsnoder, laster hver node ned et tilfeldig utvalg på 50 % av radene i Snowflake-tabellen. Se følgende kode:

"""
Read the HOUSING table (this is the california housing dataset used by this example) """
import pandas as pd
import snowflake.connector def data_pull(ctx: snowflake.connector.SnowflakeConnection, table: str, hosts: int) -> pd.DataFrame: # Query Snowflake HOUSING table for number of table records sql_cnt = f"select count(*) from {table};" df_cnt = pd.read_sql(sql_cnt, ctx) # Retrieve the total number of table records from dataframe for index, row in df_cnt.iterrows(): num_of_records = row.astype(int) list_num_of_rec = num_of_records.tolist() tot_num_records = list_num_of_rec[0] record_percent = str(round(100/hosts)) print(f"going to download a random {record_percent}% sample of the data") # Query Snowflake HOUSING table sql = f"select * from {table} sample ({record_percent});" print(f"sql={sql}") # Get the dataset into Pandas df = pd.read_sql(sql, ctx) print(f"read data into a dataframe of shape {df.shape}") # Prepare the data for ML df.dropna(inplace=True) print(f"final shape of dataframe to be used for training {df.shape}") return df

Vi leverer deretter opplæringsskriptet til SageMaker SDK Estimator sammen med kildekatalogen slik at alle skriptene vi lager kan leveres til opplæringsbeholderen når opplæringsjobben kjøres ved hjelp av Estimator.fit metode:

custom_img_uri = f"{account_id}.dkr.ecr.{region}.amazonaws.com/{custom_img_name}:{custom_img_tag}" # Create Sagemaker Estimator
xgb_script_mode_estimator = sagemaker.estimator.Estimator( image_uri = custom_img_uri, role=role, instance_count=instance_count, instance_type=instance_type, output_path="s3://{}/{}/output".format(bucket, prefix), sagemaker_session=session, entry_point="train.py", source_dir="./src", hyperparameters=hyperparams, environment=env, subnets = subnet_ids,
) # start the training job
xgb_script_mode_estimator.fit()

For mer informasjon, se Forbered et Scikit-Learn Training Script.

Etter at modellopplæringen er fullført, er den trente modellen tilgjengelig som en model.tar.gz fil i standard SageMaker-bøtte for regionen:

print(f"the trained model is available in Amazon S3 -> {xgb_script_mode_estimator.model_data}")

Du kan nå distribuere den trente modellen for å få slutninger om nye data! For instruksjoner, se Lag endepunktet ditt og distribuer modellen din.

Rydd opp

Slett ressursene for å unngå fremtidige kostnader. Du kan gjøre dette ved å slette CloudFormation-malen som ble brukt til å lage IAM-rollen og SageMaker-notatboken.

Bruk Snowflake som datakilde for å trene ML-modeller med Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Figur 6: Rydding

Du må slette Snowflake-ressursene manuelt fra Snowflake-konsollen.

konklusjonen

I dette innlegget viste vi hvordan du laster ned data lagret i en Snowflake-tabell til en SageMaker Training-jobbforekomst og trener en XGBoost-modell ved hjelp av en tilpasset treningsbeholder. Denne tilnærmingen lar oss integrere Snowflake direkte som en datakilde med en SageMaker-notisbok uten å ha dataene iscenesatt i Amazon S3.

Vi oppfordrer deg til å lære mer ved å utforske Amazon SageMaker Python SDK og bygge en løsning ved å bruke eksempelimplementeringen gitt i dette innlegget og et datasett som er relevant for virksomheten din. Hvis du har spørsmål eller forslag, legg igjen en kommentar.

Om forfatterne

Amit Arora er en AI- og ML-spesialistarkitekt hos Amazon Web Services, og hjelper bedriftskunder å bruke skybaserte maskinlæringstjenester for å raskt skalere innovasjonene sine. Han er også adjunkt i MS data science and analytics-programmet ved Georgetown University i Washington DC

Divya Muralidharan er løsningsarkitekt hos Amazon Web Services. Hun brenner for å hjelpe bedriftskunder med å løse forretningsproblemer med teknologi. Hun har en mastergrad i informatikk fra Rochester Institute of Technology. Utenfor kontoret bruker hun tid på å lage mat, synge og dyrke planter.

Sergey Ermolin er en rektor AIML Solutions Architect ved AWS. Tidligere var han programvareløsningsarkitekt for dyp læring, analyse og big data-teknologier hos Intel. En Silicon Valley-veteran med lidenskap for maskinlæring og kunstig intelligens, Sergey har vært interessert i nevrale nettverk siden pre-GPU-dagene, da han brukte dem til å forutsi aldringsadferd til kvartskrystaller og cesium atomklokker hos Hewlett-Packard. Sergey har et MSEE og et CS-sertifikat fra Stanford og en BS-grad i fysikk og maskinteknikk fra California State University, Sacramento. Utenom jobben liker Sergey vinproduksjon, skigåing, sykling, seiling og dykking. Sergey er også frivillig pilot for Angel Flight.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/use-snowflake-as-a-data-source-to-train-ml-models-with-amazon-sagemaker/

Tidstempel: Mars 8, 2023

Mer fra AWS maskinlæring

Optimaliser for bærekraft med Amazon CodeWhisperer | Amazon Web Services

Kildeklynge:

AWS maskinlæring

Kilde node: 1911056

Tidstempel: November 8, 2023

Trekk ut ikke-PHI-data fra Amazon HealthLake, reduser kompleksiteten og øk kostnadseffektiviteten med Amazon Athena og Amazon SageMaker Canvas

AWS maskinlæring

Kilde node: 1898108

Tidstempel: Oktober 4, 2023

Bruk Snowflake som datakilde for å trene ML-modeller med Amazon SageMaker

Publisert av Platon

Løsningsoversikt

Forutsetninger

Sett opp en SageMaker Notebook- og IAM-rolle

Lagre Snowflake-legitimasjon i Secrets Manager

Ta inn dataene i en tabell i Snowflake-kontoen din

Kjør `sagemaker-snowflake-example.ipynb` bærbare

Lag en tilpasset beholder for opplæring

Tren ML-modellen ved å bruke en SageMaker Training-jobb

Rydd opp

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Vi introduserer AWS AI Service Cards: En ny ressurs for å øke åpenheten og fremme ansvarlig AI

Sanntidsoppdagelse av svindel ved hjelp av AWS-serverløse og maskinlæringstjenester

Distribuer store modeller på Amazon SageMaker ved å bruke DJLServing og DeepSpeed modell parallell inferens

Fremskynd utviklingslivssyklusen for Amazon Lex chatbot med Test Workbench | Amazon Web Services

Opprett en HCLS dokumentoppsummeringsapplikasjon med Falcon ved å bruke Amazon SageMaker JumpStart | Amazon Web Services

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn

Løsningsoversikt

Forutsetninger

Sett opp en SageMaker Notebook- og IAM-rolle

Lagre Snowflake-legitimasjon i Secrets Manager

Ta inn dataene i en tabell i Snowflake-kontoen din

Kjør sagemaker-snowflake-example.ipynb bærbare

Lag en tilpasset beholder for opplæring

Tren ML-modellen ved å bruke en SageMaker Training-jobb

Rydd opp

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn

Kjør `sagemaker-snowflake-example.ipynb` bærbare