Utilizați Snowflake ca sursă de date pentru a antrena modele ML cu Amazon SageMaker

Republicat de Platon

Urmaritori: 0

Amazon SageMaker este un serviciu de învățare automată (ML) complet gestionat. Cu SageMaker, oamenii de știință de date și dezvoltatorii pot construi și antrena rapid și ușor modele ML, apoi le pot implementa direct într-un mediu găzduit pregătit pentru producție. Sagemaker oferă o instanță de notebook de autor Jupyter integrată pentru acces ușor la sursele de date pentru explorare și analiză, astfel încât să nu fie nevoie să gestionați serverele. De asemenea, oferă algoritmi ML obișnuiți, care sunt optimizați pentru a rula eficient împotriva datelor extrem de mari într-un mediu distribuit.

SageMaker necesită ca datele de antrenament pentru un model ML să fie prezente fie în Amazon Simple Storage Service (Amazon S3), Amazon Elastic File System (Amazon EFS) sau Amazon FSx pentru Luster (pentru mai multe informații, consultați Acces la datele de instruire). Pentru a antrena un model folosind date stocate în afara celor trei servicii de stocare acceptate, datele trebuie mai întâi să fie ingerate într-unul dintre aceste servicii (de obicei Amazon S3). Acest lucru necesită construirea unei conducte de date (folosind instrumente precum Amazon SageMaker Data Wrangler) pentru a muta datele în Amazon S3. Cu toate acestea, această abordare poate crea o provocare de gestionare a datelor în ceea ce privește gestionarea ciclului de viață al acestui mediu de stocare a datelor, elaborarea controalelor de acces, auditarea datelor și așa mai departe, toate în scopul punerii în scenă a datelor de formare pe durata jobului de formare. În astfel de situații, poate fi de dorit ca datele să fie accesibile pentru SageMaker în mediile de stocare efemere atașate la instanțele de antrenament efemere fără stocarea intermediară a datelor în Amazon S3.

Această postare arată o modalitate de a face acest lucru folosind Fulg de nea ca sursă de date și prin descărcarea datelor direct din Snowflake într-o instanță de job SageMaker Training.

Prezentare generală a soluțiilor

Noi folosim Setul de date privind locuințele din California ca set de date de instruire pentru acest post și antrenați un model ML pentru a prezice valoarea medie a casei pentru fiecare district. Adăugăm aceste date la Snowflake ca tabel nou. Creăm un container de antrenament personalizat care descarcă datele direct din tabelul Snowflake în instanța de antrenament, mai degrabă decât să descarcăm mai întâi datele într-o găleată S3. După ce datele sunt descărcate în instanța de antrenament, scriptul de antrenament personalizat efectuează sarcini de pregătire a datelor și apoi antrenează modelul ML folosind Estimator XGBoost. Tot codul pentru această postare este disponibil în GitHub repo.

Figura 1: Arhitectură

Următoarea figură reprezintă arhitectura de nivel înalt a soluției propuse pentru a utiliza Snowflake ca sursă de date pentru a antrena modele ML cu SageMaker.

Pașii fluxului de lucru sunt următorii:

Configurați un blocnotes SageMaker și un Gestionarea identității și accesului AWS (IAM) cu permisiunile corespunzătoare pentru a permite accesul SageMaker Registrul Amazon de containere elastice (Amazon ECR), Secrets Manager și alte servicii din contul dvs. AWS.
Stocați acreditările contului dvs. Snowflake în AWS Secrets Manager.
Ingerați datele dintr-un tabel din contul dvs. Snowflake.
Creați o imagine de container personalizată pentru formarea modelului ML și trimiteți-o către Amazon ECR.
Lansați un job SageMaker Training pentru antrenamentul modelului ML. Instanța de antrenament preia acreditările Snowflake din Secrets Manager și apoi folosește aceste acreditări pentru a descărca setul de date direct din Snowflake. Acesta este pasul care elimină necesitatea ca datele să fie mai întâi descărcate într-o găleată S3.
Modelul ML antrenat este stocat într-o găleată S3.

Cerințe preliminare

Pentru a implementa soluția oferită în această postare, ar trebui să aveți un Cont AWS, A cont fulg de nea și familiaritatea cu SageMaker.

Configurați un SageMaker Notebook și un rol IAM

Folosim AWS CloudFormation pentru a crea un notebook SageMaker numit aws-aiml-blogpost-sagemaker-snowflake-example și un rol IAM numit SageMakerSnowFlakeExample. Alege Lansați Stack pentru regiunea în care doriți să implementați resurse.

Stocați acreditările Snowflake în Secrets Manager

Stocați-vă acreditările Snowflake ca secret în Secrets Manager. Pentru instrucțiuni despre cum să creați un secret, consultați Create an AWS Secrets Manager secret.

Denumiți secretul snowflake_credentials. Acest lucru este necesar deoarece codul în snowflake-load-dataset.ipynb se așteaptă ca secretul să se numească așa.
Creați secretul ca o pereche cheie-valoare cu două chei:
- nume de utilizator – Numele dvs. de utilizator Snowflake.
- parola – Parola asociată cu numele dvs. de utilizator Snowflake.

Ingerați datele dintr-un tabel din contul dvs. Snowflake

Pentru a ingera datele, parcurgeți următorii pași:

Pe consola SageMaker, alegeți notebook-uri în panoul de navigare.
Selectați blocnotesul aws-aiml-blogpost-sagemaker-snowflake-example și alegeți Deschideți JupyterLab.

Figura 2: Deschideți JupyterLab
Alege snowflake-load-dataset.ipynb pentru a-l deschide în JupyterLab. Acest caiet va ingera Setul de date privind locuințele din California la o masă cu fulgi de nea.
În blocnotes, editați conținutul următoarei celule pentru a înlocui valorile substituentului cu cea care se potrivește contului dvs. de fulg de zăpadă:
```
sf_account_id = "your-snowflake-account-id"
```
În meniul Run, alegeți Rulați toate celulele pentru a rula codul din acest caiet. Acest lucru va descărca setul de date local în notebook și apoi îl va ingera în tabelul Snowflake.

Figura 3: Notebook Run All Cells

Următorul fragment de cod din blocnotes ingerează setul de date în Snowflake. Vezi snowflake-load-dataset.ipynb blocnotes pentru codul complet.

# connect to Snowflake Table schema
conn.cursor().execute(f"CREATE SCHEMA IF NOT EXISTS {schema}")
conn.cursor().execute(f"USE SCHEMA {schema}") create_table_sql = f"CREATE TABLE IF NOT EXISTS {db}.{schema}.{table}n (" california_housing.rename(columns=str.upper, inplace=True)
# iterating through the columns
for col in california_housing.columns: column_name = col.upper() if (california_housing[col].dtype.name == "int" or california_housing[col].dtype.name == "int64"): create_table_sql = create_table_sql + column_name + " int"
elif california_housing[col].dtype.name == "object": create_table_sql = create_table_sql + column_name + " varchar(16777216)"
elif california_housing[col].dtype.name == "datetime64[ns]": create_table_sql = create_table_sql + column_name + " datetime"
elif california_housing[col].dtype.name == "float64": create_table_sql = create_table_sql + column_name + " float8"
elif california_housing[col].dtype.name == "bool": create_table_sql = create_table_sql + column_name + " boolean"
else: create_table_sql = create_table_sql + column_name + " varchar(16777216)" # Deciding next steps. Either column is not the last column (add comma) else end create_tbl_statement
if california_housing[col].name != california_housing.columns[-1]: create_table_sql = create_table_sql + ",n"
else: create_table_sql = create_table_sql + ")" # execute the SQL statement to create the table
print(f"create_table_sql={create_table_sql}")
conn.cursor().execute(create_table_sql) print(f"snowflake_table={snowflake_table}")
conn.cursor().execute('TRUNCATE TABLE IF EXISTS ' + snowflake_table)

Închideți blocnotesul după ce toate celulele rulează fără nicio eroare. Datele dvs. sunt acum disponibile în Snowflake. Următoarea captură de ecran arată california_housing tabel creat în Snowflake.

Figura 4: Tabelul cu fulgi de nea

Pornește `sagemaker-snowflake-example.ipynb` caiet

Acest notebook creează un container de antrenament personalizat cu o conexiune Snowflake, extrage datele din Snowflake în stocarea efemeră a instanței de antrenament fără a le pune în scenă în Amazon S3 și efectuează antrenament model XGBoost Distributed Data Parallel (DDP) pe date. Instruirea DDP nu este necesară pentru formarea modelului pe un set de date atât de mic; este inclus aici pentru a ilustra încă o altă caracteristică SageMaker lansată recent.

Figura 5: Deschideți SageMaker Snowflake Exemplu Notebook

Creați un container personalizat pentru antrenament

Acum creăm un container personalizat pentru jobul de formare a modelului ML. Rețineți că accesul root este necesar pentru a crea un container Docker. Acest notebook SageMaker a fost implementat cu accesul root activat. Dacă politicile organizației dvs. de întreprindere nu permit accesul rădăcină la resursele cloud, vă recomandăm să utilizați următoarele fișiere Docker și scripturi shell pentru a construi un container Docker în altă parte (de exemplu, laptopul dvs.) și apoi împingeți-l către Amazon ECR. Folosim containerul pe baza imaginii containerului SageMaker XGBoost 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1 cu următoarele completări:

Conector Snowflake pentru Python pentru a descărca datele din tabelul Snowflake în instanța de antrenament.
Un script Python pentru a se conecta la Secrets Manager pentru a prelua acreditările Snowflake.

Utilizarea conectorului Snowflake și a scriptului Python asigură că utilizatorii care folosesc această imagine container pentru antrenamentul modelului ML nu trebuie să scrie acest cod ca parte a scriptului de antrenament și pot folosi această funcționalitate care le este deja disponibilă.

Următorul este Dockerfile pentru containerul de antrenament:

# Build an image that can be used for training in Amazon SageMaker, we use
# the SageMaker XGBoost as the base image as it contains support for distributed
# training.
FROM 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1 MAINTAINER Amazon AI <sage-learner@amazon.com> RUN apt-get -y update && apt-get install -y --no-install-recommends wget python3-pip python3-setuptools nginx ca-certificates && rm -rf /var/lib/apt/lists/* RUN ln -s /usr/bin/python3 /usr/bin/python
RUN ln -s /usr/bin/pip3 /usr/bin/pip # Here we get snowflake-connector python package.
# pip leaves the install caches populated which uses a # significant amount of space. These optimizations save a fair # amount of space in the image, which reduces start up time.
RUN pip --no-cache-dir install snowflake-connector-python==2.8.3 # Include python script for retrieving Snowflake credentials # from AWS SecretsManager
ADD snowflake_credentials.py /

Imaginea containerului este construită și trimisă către Amazon ECR. Această imagine este utilizată pentru antrenarea modelului ML.

Antrenați modelul ML folosind un job SageMaker Training

După ce creăm cu succes imaginea containerului și o trimitem către Amazon ECR, putem începe să o folosim pentru antrenamentul modelului.

Creăm un set de script-uri Python pentru a descărca datele din Snowflake folosind Conector Snowflake pentru Python, pregătiți datele și apoi utilizați XGBoost Regressor pentru a antrena modelul ML. Este pasul de descărcare a datelor direct în instanța de antrenament care evită utilizarea Amazon S3 ca stocare intermediară pentru datele de antrenament.

Facilităm instruirea în paralel cu date distribuite prin faptul că codul de antrenament descarcă un subset aleatoriu de date, astfel încât fiecare instanță de antrenament să descarce o cantitate egală de date de la Snowflake. De exemplu, dacă există două noduri de antrenament, atunci fiecare nod descarcă un eșantion aleatoriu de 50% din rândurile din tabelul Snowflake. Consultați următorul cod:

"""
Read the HOUSING table (this is the california housing dataset used by this example) """
import pandas as pd
import snowflake.connector def data_pull(ctx: snowflake.connector.SnowflakeConnection, table: str, hosts: int) -> pd.DataFrame: # Query Snowflake HOUSING table for number of table records sql_cnt = f"select count(*) from {table};" df_cnt = pd.read_sql(sql_cnt, ctx) # Retrieve the total number of table records from dataframe for index, row in df_cnt.iterrows(): num_of_records = row.astype(int) list_num_of_rec = num_of_records.tolist() tot_num_records = list_num_of_rec[0] record_percent = str(round(100/hosts)) print(f"going to download a random {record_percent}% sample of the data") # Query Snowflake HOUSING table sql = f"select * from {table} sample ({record_percent});" print(f"sql={sql}") # Get the dataset into Pandas df = pd.read_sql(sql, ctx) print(f"read data into a dataframe of shape {df.shape}") # Prepare the data for ML df.dropna(inplace=True) print(f"final shape of dataframe to be used for training {df.shape}") return df

Apoi oferim script-ul de instruire SDK-ului SageMaker Estimator împreună cu directorul sursă, astfel încât toate scripturile pe care le creăm să poată fi furnizate containerului de instruire atunci când jobul de instruire este rulat folosind Estimator.fit metodă:

custom_img_uri = f"{account_id}.dkr.ecr.{region}.amazonaws.com/{custom_img_name}:{custom_img_tag}" # Create Sagemaker Estimator
xgb_script_mode_estimator = sagemaker.estimator.Estimator( image_uri = custom_img_uri, role=role, instance_count=instance_count, instance_type=instance_type, output_path="s3://{}/{}/output".format(bucket, prefix), sagemaker_session=session, entry_point="train.py", source_dir="./src", hyperparameters=hyperparams, environment=env, subnets = subnet_ids,
) # start the training job
xgb_script_mode_estimator.fit()

Pentru mai multe informații, consultați Pregătiți un script de instruire Scikit-Learn.

După finalizarea instruirii modelului, modelul instruit este disponibil ca a model.tar.gz fișier în compartimentul implicit SageMaker pentru regiune:

print(f"the trained model is available in Amazon S3 -> {xgb_script_mode_estimator.model_data}")

Acum puteți implementa modelul instruit pentru a obține inferențe asupra datelor noi! Pentru instrucțiuni, consultați Creați punctul final și implementați modelul.

A curăța

Pentru a evita costurile viitoare, ștergeți resursele. Puteți face acest lucru ștergând șablonul CloudFormation utilizat pentru a crea rolul IAM și blocnotesul SageMaker.

Use Snowflake as a data source to train ML models with Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Figura 6: Curățare

Va trebui să ștergeți manual resursele Snowflake din consola Snowflake.

Concluzie

În această postare, am arătat cum să descărcați datele stocate într-un tabel Snowflake într-o instanță de lucru SageMaker Training și cum să antrenați un model XGBoost folosind un container de antrenament personalizat. Această abordare ne permite să integrăm în mod direct Snowflake ca sursă de date cu un notebook SageMaker, fără a avea datele puse în scenă în Amazon S3.

Vă încurajăm să aflați mai multe explorând Amazon SageMaker Python SDK și construirea unei soluții folosind exemplul de implementare furnizat în această postare și un set de date relevant pentru afacerea dvs. Dacă aveți întrebări sau sugestii, lăsați un comentariu.

Despre autori

Amit Arora este un arhitect specializat în AI și ML la Amazon Web Services, care ajută clienții întreprinderilor să folosească servicii de învățare automată bazate pe cloud pentru a-și scala rapid inovațiile. El este, de asemenea, lector adjunct în programul MS de știință a datelor și analiză la Universitatea Georgetown din Washington DC

Divya Muralidharan este arhitect de soluții la Amazon Web Services. Este pasionată de a ajuta clienții întreprinderilor să rezolve problemele de afaceri cu tehnologie. Ea are un master în informatică de la Rochester Institute of Technology. În afara biroului, își petrece timpul gătind, cântând și cultivând plante.

Serghei Ermolin este arhitect principal de soluții AIML la AWS. Anterior, el a fost arhitect de soluții software pentru învățare profundă, analiză și tehnologii de date mari la Intel. Un veteran din Silicon Valley cu o pasiune pentru învățarea automată și inteligența artificială, Sergey a fost interesat de rețelele neuronale încă din zilele pre-GPU, când le-a folosit pentru a prezice comportamentul de îmbătrânire a cristalelor de cuarț și a ceasurilor atomice de cesiu la Hewlett-Packard. Sergey deține un MSEE și un certificat CS de la Stanford și o diplomă de licență în fizică și inginerie mecanică de la California State University, Sacramento. În afara serviciului, lui Sergey îi place vinul, schiul, ciclismul, navigația și scufundările. Sergey este, de asemenea, pilot voluntar pentru Zborul îngerului.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. Accesați Aici.
Sursa: https://aws.amazon.com/blogs/machine-learning/use-snowflake-as-a-data-source-to-train-ml-models-with-amazon-sagemaker/

Timestamp-ul: Martie 8, 2023

Timestamp-ul: Aprilie 13, 2023

Utilizați Snowflake ca sursă de date pentru a antrena modele ML cu Amazon SageMaker

Republicat de Platon

Prezentare generală a soluțiilor

Cerințe preliminare

Configurați un SageMaker Notebook și un rol IAM

Stocați acreditările Snowflake în Secrets Manager

Ingerați datele dintr-un tabel din contul dvs. Snowflake

Pornește `sagemaker-snowflake-example.ipynb` caiet

Creați un container personalizat pentru antrenament

Antrenați modelul ML folosind un job SageMaker Training

A curăța

Concluzie

Despre autori

Mai mult de la Învățare automată AWS

Transformarea cercetării calitative prin automatizarea vorbirii în analize text-to-text

Creați o soluție de verificare a vaccinării folosind funcția Interogări din Amazon Text | Amazon Web Services

Vă prezentăm Amazon CodeWhisperer, însoțitorul de codare bazat pe ML

Se anunță lansarea funcției de copiere a modelului pentru etichetele personalizate Amazon Rekognition

Cum AWS Prototyping a permis ICL-Group să creeze modele de computer vision pe Amazon SageMaker | Amazon Web Services

Creați arhitecturi de instruire distribuite flexibile și scalabile folosind Kubeflow pe AWS și Amazon SageMaker

Executați inferențe la scară pentru OpenFold, un model ML de pliere a proteinelor bazat pe PyTorch, folosind Amazon EKS

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont

Prezentare generală a soluțiilor

Cerințe preliminare

Configurați un SageMaker Notebook și un rol IAM

Stocați acreditările Snowflake în Secrets Manager

Ingerați datele dintr-un tabel din contul dvs. Snowflake

Pornește sagemaker-snowflake-example.ipynb caiet

Creați un container personalizat pentru antrenament

Antrenați modelul ML folosind un job SageMaker Training

A curăța

Concluzie

Despre autori

Mai mult de la Învățare automată AWS

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont

Pornește `sagemaker-snowflake-example.ipynb` caiet