Használja a Snowflake-et adatforrásként az ML modellek képzéséhez az Amazon SageMakerrel

Újra kiadta Platón

Követő: 0

Amazon SageMaker egy teljesen felügyelt gépi tanulási (ML) szolgáltatás. A SageMaker segítségével az adattudósok és fejlesztők gyorsan és egyszerűen építhetnek és taníthatnak ML-modelleket, majd közvetlenül telepíthetik azokat egy termelésre kész hosztolt környezetben. A Sagemaker integrált Jupyter authoring notebook példányt biztosít az adatforrásokhoz való könnyű hozzáféréshez feltárás és elemzés céljából, így Önnek nem kell szervereket kezelnie. Közös ML algoritmusokat is biztosít, amelyek úgy vannak optimalizálva, hogy hatékonyan fussanak rendkívül nagy adatokkal elosztott környezetben.

A SageMaker megköveteli, hogy az ML modell betanítási adatai jelen legyenek Amazon Simple Storage Service (Amazon S3), Amazon Elastic File System (Amazon EFS) vagy Amazon FSx for Luster (további információért lásd: Access Training Data). Ahhoz, hogy egy modellt a három támogatott tárolási szolgáltatáson kívül tárolt adatok felhasználásával betaníthasson, az adatokat először e szolgáltatások egyikébe (általában Amazon S3) be kell tölteni. Ehhez egy adatfolyam felépítésére van szükség (olyan eszközök használatával, mint pl Amazon SageMaker Data Wrangler), hogy adatokat vigyen át az Amazon S3-ba. Ez a megközelítés azonban adatkezelési kihívást jelenthet az adattároló médium életciklusának menedzselése, a hozzáférés-ellenőrzések kialakítása, az adatauditálás és így tovább, mindezt azzal a céllal, hogy a betanítási munka időtartamára beállítsák a képzési adatokat. Ilyen helyzetekben kívánatos lehet, hogy a SageMaker számára hozzáférhető adatok legyenek az ideiglenes betanítási példányokhoz csatolt efemer adathordozókon anélkül, hogy közbenső adatokat tárolnának az Amazon S3-ban.

Ez a bejegyzés bemutatja ennek a módját Hópehely adatforrásként, és az adatok letöltésével közvetlenül a Snowflake-ből egy SageMaker Training feladatpéldányba.

Megoldás áttekintése

Az általunk használt Kaliforniai lakhatási adatkészlet képzési adatkészletként ehhez a bejegyzéshez, és képezzen ki egy ML-modellt az egyes kerületek medián házértékének előrejelzésére. Ezeket az adatokat új táblázatként hozzáadjuk a Snowflake-hez. Egyéni edzéstárolót hozunk létre, amely közvetlenül a Snowflake táblából tölti le az adatokat a képzési példányba, ahelyett, hogy először egy S3 tárolóba töltené le az adatokat. Az adatok betanítási példányba való letöltése után az egyéni betanító szkript adat-előkészítési feladatokat hajt végre, majd betanítja az ML-modellt a XGBoost Becslő. A bejegyzéshez tartozó összes kód elérhető a GitHub repo.

1. ábra: Építészet

A következő ábra a javasolt megoldás magas szintű architektúráját mutatja be, amely a Snowflake-et adatforrásként használja az ML modellek SageMakerrel való betanításához.

A munkafolyamat lépései a következők:

Állítson be egy SageMaker notebookot és egy AWS Identity and Access Management (IAM) szerepkör megfelelő jogosultságokkal, amelyek lehetővé teszik a SageMaker elérését Amazon Elastic Container Registry (Amazon ECR), Secrets Manager és egyéb szolgáltatások az AWS-fiókjában.
Tárolja Snowflake-fiókja hitelesítő adatait az AWS Secrets Managerben.
Foglalja le az adatokat egy táblázatban a Snowflake-fiókjában.
Hozzon létre egy egyéni tárolóképet az ML modell képzéséhez, és küldje el az Amazon ECR-hez.
Indítson el egy SageMaker Training munkát az ML modell betanításához. A képzési példány lekéri a Snowflake hitelesítő adatait a Titkokkezelőből, majd ezeket a hitelesítő adatokat használja az adatkészlet letöltéséhez közvetlenül a Snowflake alkalmazásból. Ez az a lépés, amely szükségtelenné teszi az adatok első letöltését egy S3 tárolóba.
A betanított ML modellt egy S3 vödörben tárolják.

Előfeltételek

Az ebben a bejegyzésben található megoldás megvalósításához rendelkeznie kell egy AWS-fiókEgy Hópehely fiók és a SageMaker ismerete.

Állítson be egy SageMaker-jegyzetfüzetet és egy IAM-szerepet

Az AWS CloudFormation segítségével készítünk egy SageMaker jegyzetfüzetet aws-aiml-blogpost-sagemaker-snowflake-example és egy IAM szerepkör ún SageMakerSnowFlakeExample. Válaszd ki Indítsa el a Stack alkalmazást az erőforrásokat telepíteni kívánt régió számára.

Tárolja a Snowflake hitelesítő adatait a Titkokkezelőben

Tárolja Snowflake hitelesítő adatait titokként a Titkokkezelőben. A titok létrehozására vonatkozó utasításokért lásd: Create an AWS Secrets Manager secret.

Nevezze meg a titkot snowflake_credentials. Erre azért van szükség, mert a kód be snowflake-load-dataset.ipynb elvárja, hogy így hívják a titkot.
Hozd létre a titkot kulcs-érték párként két kulccsal:
- felhasználónév – Az Ön Snowflake felhasználóneve.
- jelszó – A Snowflake felhasználónévhez tartozó jelszó.

Foglalja le az adatokat egy táblázatban a Snowflake-fiókjában

Az adatok feldolgozásához hajtsa végre a következő lépéseket:

A SageMaker konzolon válassza a lehetőséget notebookok a navigációs ablaktáblában.
Válassza ki az aws-aiml-blogpost-sagemaker-snowflake-example jegyzetfüzetet, és válassza Nyissa meg a JupyterLabot.

2. ábra: Nyissa meg a JupyterLabot
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a snowflake-load-dataset.ipynb hogy nyissa meg a JupyterLabban. Ez a jegyzetfüzet lenyeli a Kaliforniai lakhatási adatkészlet egy Snowflake asztalhoz.
A jegyzetfüzetben szerkessze a következő cella tartalmát, hogy a helyőrző értékeket a hópehely-fiókjának megfelelőre cserélje:
```
sf_account_id = "your-snowflake-account-id"
```
A Futtatás menüben válassza a lehetőséget Futtassa az összes cellát a kód futtatásához ebben a notebookban. Ez letölti az adatkészletet helyben a jegyzetfüzetbe, majd betölti a Snowflake táblába.

3. ábra: Notebook Futtassa az összes cellát

A következő kódrészlet a jegyzetfüzetben feldolgozza az adatkészletet a Snowflake-be. Lásd a snowflake-load-dataset.ipynb notebook a teljes kódért.

# connect to Snowflake Table schema
conn.cursor().execute(f"CREATE SCHEMA IF NOT EXISTS {schema}")
conn.cursor().execute(f"USE SCHEMA {schema}") create_table_sql = f"CREATE TABLE IF NOT EXISTS {db}.{schema}.{table}n (" california_housing.rename(columns=str.upper, inplace=True)
# iterating through the columns
for col in california_housing.columns: column_name = col.upper() if (california_housing[col].dtype.name == "int" or california_housing[col].dtype.name == "int64"): create_table_sql = create_table_sql + column_name + " int"
elif california_housing[col].dtype.name == "object": create_table_sql = create_table_sql + column_name + " varchar(16777216)"
elif california_housing[col].dtype.name == "datetime64[ns]": create_table_sql = create_table_sql + column_name + " datetime"
elif california_housing[col].dtype.name == "float64": create_table_sql = create_table_sql + column_name + " float8"
elif california_housing[col].dtype.name == "bool": create_table_sql = create_table_sql + column_name + " boolean"
else: create_table_sql = create_table_sql + column_name + " varchar(16777216)" # Deciding next steps. Either column is not the last column (add comma) else end create_tbl_statement
if california_housing[col].name != california_housing.columns[-1]: create_table_sql = create_table_sql + ",n"
else: create_table_sql = create_table_sql + ")" # execute the SQL statement to create the table
print(f"create_table_sql={create_table_sql}")
conn.cursor().execute(create_table_sql) print(f"snowflake_table={snowflake_table}")
conn.cursor().execute('TRUNCATE TABLE IF EXISTS ' + snowflake_table)

Zárja be a jegyzetfüzetet, miután minden cella hiba nélkül futott. Adatai mostantól elérhetők a Snowflake-ben. A következő képernyőképen látható a california_housing Hópehelyben létrehozott táblázat.

4. ábra: Hópehely táblázat

Futtassa a `sagemaker-snowflake-example.ipynb` jegyzetfüzet

Ez a notebook egyéni képzési tárolót hoz létre Snowflake kapcsolattal, kivonja a Snowflake-ből az adatokat a tanítási példány átmeneti tárolójába anélkül, hogy azokat Amazon S3-ban helyezné el, és elosztott adatpárhuzamos (DDP) XGBoost modell betanítást hajt végre az adatokon. Egy ilyen kis adatkészleten végzett modellképzéshez nincs szükség DDP-tanításra; itt található egy újabb, nemrégiben kiadott SageMaker funkció illusztrálására.

5. ábra: Nyissa meg a SageMaker Snowflake példa Jegyzetfüzetet

Hozzon létre egy egyéni tárolót a képzéshez

Most létrehozunk egy egyéni tárolót az ML modell képzési munkához. Vegye figyelembe, hogy a Docker-tároló létrehozásához root hozzáférés szükséges. Ez a SageMaker jegyzetfüzet root hozzáféréssel lett telepítve. Ha a vállalati szervezeti szabályzatok nem teszik lehetővé a root hozzáférést a felhő-erőforrásokhoz, érdemes lehet a következő Docker-fájl- és shell-parancsfájlokat használni egy Docker-tároló létrehozásához máshol (például a laptopon), majd továbbítani az Amazon ECR-be. A tárolót a SageMaker XGBoost konténerkép alapján használjuk 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1 a következő kiegészítésekkel:

A Snowflake csatlakozó Pythonhoz az adatok letöltéséhez a Snowflake táblából a képzési példányba.
Python-szkript a Secrets Managerhez való csatlakozáshoz a Snowflake hitelesítő adatok lekéréséhez.

A Snowflake-összekötő és a Python-szkript használata biztosítja, hogy a tárolóképet az ML-modell-oktatáshoz használó felhasználóknak ne kelljen ezt a kódot a betanítási szkriptjük részeként megírniuk, hanem használhatják ezt a már elérhető funkciót.

A következő a képzési tároló Docker-fájlja:

# Build an image that can be used for training in Amazon SageMaker, we use
# the SageMaker XGBoost as the base image as it contains support for distributed
# training.
FROM 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1 MAINTAINER Amazon AI <sage-learner@amazon.com> RUN apt-get -y update && apt-get install -y --no-install-recommends wget python3-pip python3-setuptools nginx ca-certificates && rm -rf /var/lib/apt/lists/* RUN ln -s /usr/bin/python3 /usr/bin/python
RUN ln -s /usr/bin/pip3 /usr/bin/pip # Here we get snowflake-connector python package.
# pip leaves the install caches populated which uses a # significant amount of space. These optimizations save a fair # amount of space in the image, which reduces start up time.
RUN pip --no-cache-dir install snowflake-connector-python==2.8.3 # Include python script for retrieving Snowflake credentials # from AWS SecretsManager
ADD snowflake_credentials.py /

A konténerképet megépítik és elküldik az Amazon ECR-be. Ezt a képet az ML modell betanítására használják.

Tanítsd meg az ML modellt egy SageMaker Training feladattal

Miután sikeresen elkészítettük a konténerképet, és elküldtük az Amazon ECR-re, elkezdhetjük használni a modellképzéshez.

Létrehozunk egy Python-szkriptet az adatok letöltéséhez a Snowflake alkalmazásból a Snowflake csatlakozó Pythonhoz, készítse elő az adatokat, majd használja a XGBoost Regressor az ML modell betanítására. Ez az a lépés, amikor az adatokat közvetlenül a betanítási példányra töltjük le, így elkerülhető, hogy az Amazon S3-at köztes tárolóként használjuk a betanítási adatokhoz.

Az elosztott adatokkal párhuzamos képzést úgy könnyítjük meg, hogy a betanítási kód letölti az adatok egy véletlenszerű részhalmazát, így minden képzési példány azonos mennyiségű adatot tölt le a Snowflake-ből. Ha például két betanító csomópont van, akkor mindegyik csomópont véletlenszerű mintát tölt le a Snowflake táblázat sorainak 50%-ából. Tekintse meg a következő kódot:

"""
Read the HOUSING table (this is the california housing dataset used by this example) """
import pandas as pd
import snowflake.connector def data_pull(ctx: snowflake.connector.SnowflakeConnection, table: str, hosts: int) -> pd.DataFrame: # Query Snowflake HOUSING table for number of table records sql_cnt = f"select count(*) from {table};" df_cnt = pd.read_sql(sql_cnt, ctx) # Retrieve the total number of table records from dataframe for index, row in df_cnt.iterrows(): num_of_records = row.astype(int) list_num_of_rec = num_of_records.tolist() tot_num_records = list_num_of_rec[0] record_percent = str(round(100/hosts)) print(f"going to download a random {record_percent}% sample of the data") # Query Snowflake HOUSING table sql = f"select * from {table} sample ({record_percent});" print(f"sql={sql}") # Get the dataset into Pandas df = pd.read_sql(sql, ctx) print(f"read data into a dataframe of shape {df.shape}") # Prepare the data for ML df.dropna(inplace=True) print(f"final shape of dataframe to be used for training {df.shape}") return df

Ezután biztosítjuk a képzési szkriptet a SageMaker SDK-nak Estimator a forráskönyvtárral együtt, így az általunk létrehozott összes szkript a képzési tárolóba kerülhet, amikor a betanítási feladat a Estimator.fit eljárás:

custom_img_uri = f"{account_id}.dkr.ecr.{region}.amazonaws.com/{custom_img_name}:{custom_img_tag}" # Create Sagemaker Estimator
xgb_script_mode_estimator = sagemaker.estimator.Estimator( image_uri = custom_img_uri, role=role, instance_count=instance_count, instance_type=instance_type, output_path="s3://{}/{}/output".format(bucket, prefix), sagemaker_session=session, entry_point="train.py", source_dir="./src", hyperparameters=hyperparams, environment=env, subnets = subnet_ids,
) # start the training job
xgb_script_mode_estimator.fit()

További információ: Készítsen egy Scikit-Learn képzési szkriptet.

A modellképzés befejezése után a betanított modell elérhető a model.tar.gz fájl a régió alapértelmezett SageMaker tárolójában:

print(f"the trained model is available in Amazon S3 -> {xgb_script_mode_estimator.model_data}")

Most már telepítheti a betanított modellt az új adatokra vonatkozó következtetések levonásához! Az utasításokat lásd Hozza létre a végpontot, és helyezze üzembe a modellt.

Tisztítsuk meg

A jövőbeni költségek elkerülése érdekében törölje az erőforrásokat. Ezt az IAM-szerepkör és a SageMaker-jegyzetfüzet létrehozásához használt CloudFormation-sablon törlésével teheti meg.

Használja a Snowflake-et adatforrásként az ML modellek képzéséhez az Amazon SageMaker PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

6. ábra: Tisztítás

A Snowflake erőforrásokat kézzel kell törölnie a Snowflake konzolról.

Következtetés

Ebben a bejegyzésben megmutattuk, hogyan tölthet le egy Snowflake táblában tárolt adatokat egy SageMaker Training munkapéldányra, és hogyan taníthat be egy XGBoost modellt egyéni képzési tároló használatával. Ez a megközelítés lehetővé teszi számunkra, hogy közvetlenül integráljuk a Snowflake-et adatforrásként egy SageMaker notebookba anélkül, hogy az adatokat az Amazon S3-ban tárolnánk.

Javasoljuk, hogy többet tudjon meg a Amazon SageMaker Python SDK és megoldást készítsen az ebben a bejegyzésben található mintamegvalósítással és egy, az Ön vállalkozása szempontjából releváns adatkészlettel. Ha kérdése vagy javaslata van, írjon megjegyzést.

A szerzőkről

Amit Arora az Amazon Web Services mesterséges intelligenciára és ML-re szakosodott építész, aki segít a vállalati ügyfeleknek felhő alapú gépi tanulási szolgáltatások használatában innovációik gyors skálázásához. Emellett adjunktus az MS adattudományi és analitikai programban a Washington DC-i Georgetown Egyetemen.

Divya Muralidharan az Amazon Web Services megoldástervezője. Szenvedélyesen segít a vállalati ügyfeleknek technológiával kapcsolatos üzleti problémák megoldásában. A Rochesteri Műszaki Egyetemen szerzett mesterképzést számítástechnikából. Az irodán kívül főzéssel, énekléssel és növénytermesztéssel tölti az idejét.

Szergej Ermolin az AWS vezető AIML megoldások építésze. Korábban az Intelnél a mély tanulás, az analitika és a nagy adatátviteli technológiák szoftvermegoldás-tervezője volt. A gépi tanulás és a mesterséges intelligencia iránti szenvedélyes Szilícium-völgyi veterán, Sergey a GPU előtti idők óta érdeklődik a neurális hálózatok iránt, amikor a Hewlett-Packardnál a kvarckristályok és a cézium atomórák öregedési viselkedésének előrejelzésére használta őket. Sergey MSEE és CS bizonyítványt szerzett a Stanfordon, valamint BS diplomát fizikából és gépészmérnökből a California State University, Sacramento Egyetemen. A munkán kívül Szergej szeret borozni, síelni, kerékpározni, vitorlázni és búvárkodni. Sergey önkéntes pilóta is Angyal repülés.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/machine-learning/use-snowflake-as-a-data-source-to-train-ml-models-with-amazon-sagemaker/

Időbélyeg: Március 8, 2023

Időbélyeg: 13. április 2023.

Használja a Snowflake-et adatforrásként az ML modellek képzéséhez az Amazon SageMaker segítségével

Újra kiadta Platón

Megoldás áttekintése

Előfeltételek

Állítson be egy SageMaker-jegyzetfüzetet és egy IAM-szerepet

Tárolja a Snowflake hitelesítő adatait a Titkokkezelőben

Foglalja le az adatokat egy táblázatban a Snowflake-fiókjában

Futtassa a `sagemaker-snowflake-example.ipynb` jegyzetfüzet

Hozzon létre egy egyéni tárolót a képzéshez

Tanítsd meg az ML modellt egy SageMaker Training feladattal

Tisztítsuk meg

Következtetés

A szerzőkről

Még több AWS gépi tanulás

A kvalitatív kutatás átalakítása a beszéd automatizálásával szöveg-szöveg elemzéssé

Hozzon létre egy oltásellenőrző megoldást az Amazon Textract | Lekérdezések funkciójával Amazon webszolgáltatások

Bemutatkozik az Amazon CodeWhisperer, az ML-alapú kódolótárs

Bejelentjük az Amazon Rekognition egyedi címkék modellmásolási funkciójának elindítását

Hogyan tette lehetővé az AWS Prototyping segítségével az ICL-Group számítógépes látásmodelleket az Amazon SageMakeren | Amazon webszolgáltatások

Rugalmas és méretezhető elosztott képzési architektúrák létrehozása a Kubeflow segítségével az AWS-en és az Amazon SageMakeren

Futtasson következtetést nagyarányú OpenFoldhoz, egy PyTorch-alapú fehérjehajtogatási ML-modellhez, az Amazon EKS használatával

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók

Megoldás áttekintése

Előfeltételek

Állítson be egy SageMaker-jegyzetfüzetet és egy IAM-szerepet

Tárolja a Snowflake hitelesítő adatait a Titkokkezelőben

Foglalja le az adatokat egy táblázatban a Snowflake-fiókjában

Futtassa a sagemaker-snowflake-example.ipynb jegyzetfüzet

Hozzon létre egy egyéni tárolót a képzéshez

Tanítsd meg az ML modellt egy SageMaker Training feladattal

Tisztítsuk meg

Következtetés

A szerzőkről

Még több AWS gépi tanulás

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók

Futtassa a `sagemaker-snowflake-example.ipynb` jegyzetfüzet