Launch Amazon SageMaker Autopilot Experiments Directly From Within Amazon SageMaker Pipelines To Easily Automate MLOps Workflows

Újra kiadta Platón

Követő: 0

Amazon SageMaker Autopilot, egy alacsony kódú gépi tanulási (ML) szolgáltatás, amely táblázatos adatok alapján automatikusan összeállítja, betanítja és hangolja a legjobb ML-modelleket. Amazon SageMaker csővezetékek, az első célzott folyamatos integrációs és folyamatos szállítási (CI/CD) szolgáltatás az ML számára. Ez lehetővé teszi az ML-modellek teljes folyamatának automatizálását az Autopilot segítségével, és a modellek integrálását a következő CI/CD lépésekbe.

Eddig egy Autopilot kísérlet elindításához a Pipelines-en belül egy modellépítő munkafolyamatot kell felépítenie úgy, hogy egyéni integrációs kódot ír a Pipelines-ekkel Lambda or Feldolgozás lépések. További információkért lásd Mozgassa át az Amazon SageMaker Autopilot ML modelleket a kísérletezésből a gyártásba az Amazon SageMaker Pipelines segítségével.

Az Autopilot natív lépésként való támogatásával a Pipelines-en belül most hozzáadhat egy automatizált képzési lépést (AutoMLStep) a Pipelines alkalmazásban, és indítson el egy Autopilot kísérletet Együttes edzésmód. Ha például egy oktatási és kiértékelési ML munkafolyamatot épít fel egy csalásészlelési esethez a Pipelines segítségével, akkor most elindíthat egy Autopilot kísérletet az AutoML lépéssel, amely automatikusan több kísérletet futtat, hogy megtalálja a legjobb modellt egy adott bemeneti adatkészleten. . Miután a legjobb modellt a Modell lépés, teljesítménye a tesztadatokon értékelhető a Átalakítási lépés és egy Feldolgozási lépés egyéni kiértékelő szkripthez a Pipelines-en belül. Végül a modell regisztrálható a SageMaker modellnyilvántartásba a Modell lépés kombinálva a Feltétel lépés.

Ebben a bejegyzésben bemutatjuk, hogyan hozhat létre végpontok közötti ML munkafolyamatot a SageMaker által generált ML-modell betanításához és értékeléséhez a Pipelines újonnan elindított AutoML lépésével, és regisztrálhatja azt a SageMaker modellnyilvántartásba. A legjobb teljesítményű ML-modell telepíthető egy SageMaker-végpontra.

Adatkészlet áttekintése

A nyilvánosan elérhetőt használjuk UCI Adult 1994 Census Income dataset to predict if a person has an annual income of greater than $50,000 per year. This is a binary classification problem; the options for the income target variable are either 50K.

Az adatkészlet 32,561 16,281 sort tartalmaz a betanításhoz és ellenőrzéshez, valamint 15 XNUMX sort a teszteléshez, egyenként XNUMX oszloppal. Ide tartoznak a demográfiai adatok az egyénekről és class mint a jövedelmi osztályt jelző céloszlop.

Oszlop neve	Leírás
kor	Folyamatos
munkaosztály	Magán, önkiadó-nem-bev., Ön-kibocsátó, Szövetségi kormány, Helyi kormány, Állami kormány, Fizetés nélkül, Soha nem dolgozott
fnlwgt	Folyamatos
szabott oktatás	Alapképzés, néhány főiskola, 11., HS-grad, Prof-iskola, Assoc-acdm, Assoc-voc, 9., 7-8., 12., Masters, 1.-4., 10., Doktori, 5-6., Óvoda
oktatás-szám	Folyamatos
családi állapot	Házas-élettárs-házastárs, Elvált, Soha nem házas, Külön élt, Özvegy, Házas-házastárs-távol, Házas-AF-házastárs
foglalkozás	Technikai támogatás, Kézműves-javítás, Egyéb szolgáltatás, Értékesítés, Vezetői vezető, Prof-speciality, Kezelők-takarítók, Gépfelügyelőség, Adm-hivatali, Gazdálkodás-halászat, Szállítás-költöztetés, Priv-house-service, Védőszolgálat, fegyveres erők
kapcsolat	Feleség, Saját gyermek, Férj, Nem családtag, Egyéb rokon, Nőtlen
verseny	Fehér, Ázsiai-Pac-szigeti, amer-indiai-eszkimó, egyéb, fekete
szex	Nő férfi
tőkenyereség	Folyamatos
tőkeveszteség	Folyamatos
óra hetente	Folyamatos
Szülőföld	Egyesült Államok, Kambodzsa, Anglia, Puerto Rico, Kanada, Németország, külterületi USA (Guam-USVI stb.), India, Japán, Görögország, Dél-Kína, Kuba, Irán, Honduras, Fülöp-szigetek, Olaszország, Lengyelország, Jamaica , Vietnam, Mexikó, Portugália, Írország, Franciaország, Dominikai Köztársaság, Laosz, Ecuador, Tajvan, Haiti, Kolumbia, Magyarország, Guatemala, Nicaragua, Skócia, Thaiföld, Jugoszlávia, El-Salvador, Trinadad és Tobago, Peru, Hong, Holand-Hollandia
osztály	Income class, either 50K

Megoldás áttekintése

Csővezetékeket használunk a különböző hangszereléshez csővezeték lépései Autopilot modell betanításához szükséges. Létrehozunk és futtatunk egy Autopilot kísérlet az oktatóanyagban leírt AutoML-lépés részeként.

A következő lépésekre van szükség ehhez a végpontokig terjedő Autopilot képzési folyamathoz:

Hozzon létre és figyeljen egy Autopilot képzési feladatot a segítségével AutoMLStep.
Hozzon létre egy SageMaker modellt a segítségével ModelStep. Ez a lépés lekéri a legjobb modell metaadatait és az előző lépésben az Autopilot által megjelenített műtermékeket.
Értékelje a betanított Autopilot-modellt egy tesztadatkészleten a használatával TransformStep.
Hasonlítsa össze az előző futtatás kimenetét TransformStep a tényleges célcímkékkel ProcessingStep.
Regisztrálja az ML modellt a SageMaker modellnyilvántartás segítségével ModelStep, ha a korábban kapott értékelési mérőszám túllép egy előre meghatározott küszöbértéket ConditionStep.
Telepítse az ML-modellt SageMaker-végpontként tesztelési célokra.

Építészet

Az alábbi architektúra diagram bemutatja a különböző folyamatlépéseket, amelyek szükségesek ahhoz, hogy az összes lépést reprodukálható, automatizált és méretezhető SageMaker Autopilot képzési folyamatba csomagolják. Az adatfájlokat a rendszer az S3 tárolóból olvassa be, és a folyamat lépéseit szekvenciálisan hívja meg.

Végigjátszás

Ez a bejegyzés részletes magyarázatot ad a folyamat lépéseiről. Áttekintjük a kódot, és megbeszéljük az egyes lépések összetevőit. A megoldás üzembe helyezéséhez tekintse meg a példafüzet, amely lépésről lépésre útmutatást ad az Autopilot MLOps munkafolyamat csővezetékek segítségével történő megvalósításához.

Előfeltételek

Töltse ki a következő előfeltételeket:

Amikor az adatkészlet használatra kész, be kell állítanunk a Pipelines-t, hogy létrehozzanak egy megismételhető folyamatot az ML-modellek automatikus felépítéséhez és betanításához az Autopilot segítségével. Használjuk a SageMaker SDK végpontok közötti ML képzési folyamat programozott meghatározásához, futtatásához és nyomon követéséhez.

A csővezeték lépései

A következő szakaszokban végigmegyünk a SageMaker folyamat különböző lépésein, beleértve az AutoML képzést, a modell létrehozását, a kötegelt következtetést, a kiértékelést és a legjobb modell feltételes regisztrációját. A következő diagram a teljes csővezeték áramlását szemlélteti.

AutoML képzési lépés

An AutoML objektum az Autopilot képzési feladat futtatásának meghatározására szolgál, és hozzáadható a SageMaker folyamathoz a AutoMLStep osztályba, ahogy az a következő kódban látható. Az összeállítású edzésmódot meg kell adni, de szükség szerint más paraméterek is módosíthatók. Például ahelyett, hogy hagyná, hogy az AutoML-feladat automatikusan következtessen az ML-re probléma típus és a objektív mérőszám, ezeket a kód megadásával lehet kódolni problem_type és a job_objective az AutoML objektumnak átadott paraméterek.

automl = AutoML(
    role=execution_role,
    target_attribute_name=target_attribute_name,
    sagemaker_session=pipeline_session,
    total_job_runtime_in_seconds=max_automl_runtime,
    mode="ENSEMBLING",
)
train_args = automl.fit(
    inputs=[
        AutoMLInput(
            inputs=s3_train_val,
            target_attribute_name=target_attribute_name,
            channel_type="training",
        )
    ]
)
step_auto_ml_training = AutoMLStep(
    name="AutoMLTrainingStep",
    step_args=train_args,
)

Modellkészítési lépés

Az AutoML lépés gondoskodik a különböző ML-modelljelöltek generálásáról, kombinálásáról és a legjobb ML-modell beszerzéséről. A modelltermékek és a metaadatok automatikusan tárolásra kerülnek, és a következő hívásával érhetők el get_best_auto_ml_model() módszer az AutoML képzési lépésben. Ezek felhasználhatók egy SageMaker modell létrehozására a Model lépés részeként:

best_auto_ml_model = step_auto_ml_training.get_best_auto_ml_model(
    execution_role, sagemaker_session=pipeline_session
)
step_args_create_model = best_auto_ml_model.create(instance_type=instance_type)
step_create_model = ModelStep(name="ModelCreationStep", step_args=step_args_create_model)

Kötegelt átalakítás és kiértékelés lépései

Az általunk használt Transzformátor objektum mert kötegelt következtetés a tesztadatkészleten, amelyet aztán kiértékelési célokra használhatunk fel. A kimeneti előrejelzéseket a Scikit-learn metrikafüggvény segítségével hasonlítják össze a tényleges vagy alapigazság-címkékkel. Eredményeinket az alapján értékeljük F1 pontszám. A teljesítménymutatókat a rendszer egy JSON-fájlba menti, amelyre a modell a következő lépésben történő regisztrálásakor hivatkozik.

Feltételes regisztráció lépései

Ebben a lépésben regisztráljuk az új Autopilot modellünket a SageMaker modellnyilvántartásba, ha az meghaladja az előre meghatározott értékelési metrika küszöbértéket.

Hozza létre és futtassa a folyamatot

Miután meghatároztuk a lépéseket, egyesítjük őket egy SageMaker folyamatba:

pipeline = Pipeline(
    name="AutoMLTrainingPipeline",
    parameters=[
        instance_count,
        instance_type,
        max_automl_runtime,
        model_approval_status,
        model_package_group_name,
        model_registration_metric_threshold,
        s3_bucket,
        target_attribute_name,
    ],
    steps=[
        step_auto_ml_training,
        step_create_model,
        step_batch_transform,
        step_evaluation,
        step_conditional_registration,
    ],
    sagemaker_session=pipeline_session,
)

A lépéseket egymás utáni sorrendben hajtják végre. A folyamat az AutoML-feladatok összes lépését lefuttatja Autopilot és Pipelines használatával a betanításhoz, a modellértékeléshez és a modell regisztrálásához.

Az új modellt úgy tekintheti meg, ha a Studio konzolon a modell-nyilvántartásba navigál, és megnyitja AutoMLModelPackageGroup. Válassza ki a képzési feladat bármely verzióját a célmutatók megtekintéséhez Modell minőség Tab.

A magyarázhatósági jelentést megtekintheti a Magyarázatosság lapon, hogy megértse a modell előrejelzéseit.

Az alapul szolgáló Autopilot-kísérlet megtekintéséhez az összes olyan modellhez, amelyet itt hoztak létre AutoMLStep, navigáljon a AutoML oldalon, és válassza ki a munka nevét.

Telepítse a modellt

Miután manuálisan áttekintettük az ML modell teljesítményét, telepíthetjük az újonnan létrehozott modellünket egy SageMaker végpontra. Ehhez a SageMaker modellnyilvántartásában elmentett modellkonfiguráció segítségével futtathatjuk a notebook celláit, amelyek a modell végpontját hozzák létre.

Vegye figyelembe, hogy ez a szkript demonstrációs célból meg van osztva, de az ML-következtetések éles üzembe helyezéséhez robusztusabb CI/CD-folyamat követése javasolt. További információkért lásd: ML munkafolyamatok felépítése, automatizálása, kezelése és skálázása az Amazon SageMaker Pipelines segítségével.

Összegzésként

Ez a bejegyzés egy könnyen használható ML-folyamat-megközelítést ír le a táblázatos ML-modellek (AutoML) automatikus betanításához az Autopilot, a Pipelines és a Studio használatával. Az AutoML javítja az ML-gyakorlók hatékonyságát, felgyorsítva az ML-kísérletezéstől a termelésig vezető utat anélkül, hogy kiterjedt ML-szakértelemre lenne szükség. Felvázoljuk az ML-modell létrehozásához, kiértékeléséhez és regisztrálásához szükséges megfelelő folyamatlépéseket. Kezdje azzal, hogy kipróbálja a példafüzet saját egyéni AutoML-modellek betanításához és üzembe helyezéséhez.

Az Autopilotról és a csővezetékekről további információkért lásd: Automatizálja a modellfejlesztést az Amazon SageMaker Autopilot segítségével és a Amazon SageMaker csővezetékek.

Külön köszönet mindenkinek, aki hozzájárult az induláshoz: Shenghua Yue, John He, Ao Guo, Xinlu Tu, Tian Qin, Yanda Hu, Zhankui Lu és Dewen Qi.

A szerzőkről

Janisha Anand Senior Product Manager a SageMaker Low/No Code ML csapatában, amely magában foglalja a SageMaker Autopilotot is. Imádja a kávét, aktív marad, és a családjával tölti az idejét.

Marcelo Aberle az AWS AI ML mérnöke. Segít Amazon ML Solutions Lab az ügyfelek méretezhető ML(-Ops) rendszereket és keretrendszereket építenek. Szabadidejében szeret túrázni és kerékpározni a San Francisco-öböl környékén.

Geremy Cohen az AWS megoldástervezője, ahol segít ügyfeleinek élvonalbeli, felhőalapú megoldások kidolgozásában. Szabadidejében szeret rövid sétákat tenni a tengerparton, családjával felfedezni az öböl környékét, megjavítani a ház körüli dolgokat, összetörni a ház körüli dolgokat és grillezni.

Shenghua Yue az Amazon SageMaker szoftverfejlesztő mérnöke. Arra összpontosít, hogy ML eszközöket és termékeket készítsen az ügyfelek számára. Munkán kívül szeret a szabadban, jógázni és túrázni.

Időbélyeg: November 30, 2022December 1, 2022

Időbélyeg: 15. április 2022.

Indítsa el az Amazon SageMaker Autopilot kísérleteket közvetlenül az Amazon SageMaker Pipelines-ből az MLOps munkafolyamatok egyszerű automatizálása érdekében

Újra kiadta Platón

Adatkészlet áttekintése

Megoldás áttekintése

Építészet

Végigjátszás

Előfeltételek

A csővezeték lépései

Telepítse a modellt

Összegzésként

A szerzőkről

Még több AWS gépi tanulás

Azonosítsa a mangrove erdőket műholdkép funkcióival az Amazon SageMaker Studio és az Amazon SageMaker Autopilot segítségével – 1. rész

A PGA TOUR generatív AI virtuális asszisztensének útja a koncepciótól a fejlesztésen át a prototípusig | Amazon webszolgáltatások

Javítsa modellképzésének árteljesítményét az Amazon SageMaker heterogén klaszterek használatával

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók