Amazon SageMaker Autopilot, egy alacsony kódú gépi tanulási (ML) szolgáltatás, amely táblázatos adatok alapján automatikusan összeállítja, betanítja és hangolja a legjobb ML-modelleket. Amazon SageMaker csővezetékek, az első célzott folyamatos integrációs és folyamatos szállítási (CI/CD) szolgáltatás az ML számára. Ez lehetővé teszi az ML-modellek teljes folyamatának automatizálását az Autopilot segítségével, és a modellek integrálását a következő CI/CD lépésekbe.
Eddig egy Autopilot kísérlet elindításához a Pipelines-en belül egy modellépítő munkafolyamatot kell felépítenie úgy, hogy egyéni integrációs kódot ír a Pipelines-ekkel Lambda or Feldolgozás lépések. További információkért lásd Mozgassa át az Amazon SageMaker Autopilot ML modelleket a kísérletezésből a gyártásba az Amazon SageMaker Pipelines segítségével.
Az Autopilot natív lépésként való támogatásával a Pipelines-en belül most hozzáadhat egy automatizált képzési lépést (AutoMLStep) a Pipelines alkalmazásban, és indítson el egy Autopilot kísérletet Együttes edzésmód. Ha például egy oktatási és kiértékelési ML munkafolyamatot épít fel egy csalásészlelési esethez a Pipelines segítségével, akkor most elindíthat egy Autopilot kísérletet az AutoML lépéssel, amely automatikusan több kísérletet futtat, hogy megtalálja a legjobb modellt egy adott bemeneti adatkészleten. . Miután a legjobb modellt a Modell lépés, teljesítménye a tesztadatokon értékelhető a Átalakítási lépés és egy Feldolgozási lépés egyéni kiértékelő szkripthez a Pipelines-en belül. Végül a modell regisztrálható a SageMaker modellnyilvántartásba a Modell lépés kombinálva a Feltétel lépés.
Ebben a bejegyzésben bemutatjuk, hogyan hozhat létre végpontok közötti ML munkafolyamatot a SageMaker által generált ML-modell betanításához és értékeléséhez a Pipelines újonnan elindított AutoML lépésével, és regisztrálhatja azt a SageMaker modellnyilvántartásba. A legjobb teljesítményű ML-modell telepíthető egy SageMaker-végpontra.
Adatkészlet áttekintése
A nyilvánosan elérhetőt használjuk UCI Adult 1994 Census Income dataset to predict if a person has an annual income of greater than $50,000 per year. This is a binary classification problem; the options for the income target variable are either 50K.
Az adatkészlet 32,561 16,281 sort tartalmaz a betanításhoz és ellenőrzéshez, valamint 15 XNUMX sort a teszteléshez, egyenként XNUMX oszloppal. Ide tartoznak a demográfiai adatok az egyénekről és class
mint a jövedelmi osztályt jelző céloszlop.
Oszlop neve | Leírás |
kor | Folyamatos |
munkaosztály | Magán, önkiadó-nem-bev., Ön-kibocsátó, Szövetségi kormány, Helyi kormány, Állami kormány, Fizetés nélkül, Soha nem dolgozott |
fnlwgt | Folyamatos |
szabott oktatás | Alapképzés, néhány főiskola, 11., HS-grad, Prof-iskola, Assoc-acdm, Assoc-voc, 9., 7-8., 12., Masters, 1.-4., 10., Doktori, 5-6., Óvoda |
oktatás-szám | Folyamatos |
családi állapot | Házas-élettárs-házastárs, Elvált, Soha nem házas, Külön élt, Özvegy, Házas-házastárs-távol, Házas-AF-házastárs |
foglalkozás | Technikai támogatás, Kézműves-javítás, Egyéb szolgáltatás, Értékesítés, Vezetői vezető, Prof-speciality, Kezelők-takarítók, Gépfelügyelőség, Adm-hivatali, Gazdálkodás-halászat, Szállítás-költöztetés, Priv-house-service, Védőszolgálat, fegyveres erők |
kapcsolat | Feleség, Saját gyermek, Férj, Nem családtag, Egyéb rokon, Nőtlen |
verseny | Fehér, Ázsiai-Pac-szigeti, amer-indiai-eszkimó, egyéb, fekete |
szex | Nő férfi |
tőkenyereség | Folyamatos |
tőkeveszteség | Folyamatos |
óra hetente | Folyamatos |
Szülőföld | Egyesült Államok, Kambodzsa, Anglia, Puerto Rico, Kanada, Németország, külterületi USA (Guam-USVI stb.), India, Japán, Görögország, Dél-Kína, Kuba, Irán, Honduras, Fülöp-szigetek, Olaszország, Lengyelország, Jamaica , Vietnam, Mexikó, Portugália, Írország, Franciaország, Dominikai Köztársaság, Laosz, Ecuador, Tajvan, Haiti, Kolumbia, Magyarország, Guatemala, Nicaragua, Skócia, Thaiföld, Jugoszlávia, El-Salvador, Trinadad és Tobago, Peru, Hong, Holand-Hollandia |
osztály | Income class, either 50K |
Megoldás áttekintése
Csővezetékeket használunk a különböző hangszereléshez csővezeték lépései Autopilot modell betanításához szükséges. Létrehozunk és futtatunk egy Autopilot kísérlet az oktatóanyagban leírt AutoML-lépés részeként.
A következő lépésekre van szükség ehhez a végpontokig terjedő Autopilot képzési folyamathoz:
- Hozzon létre és figyeljen egy Autopilot képzési feladatot a segítségével
AutoMLStep
. - Hozzon létre egy SageMaker modellt a segítségével
ModelStep
. Ez a lépés lekéri a legjobb modell metaadatait és az előző lépésben az Autopilot által megjelenített műtermékeket. - Értékelje a betanított Autopilot-modellt egy tesztadatkészleten a használatával
TransformStep
. - Hasonlítsa össze az előző futtatás kimenetét
TransformStep
a tényleges célcímkékkelProcessingStep
. - Regisztrálja az ML modellt a SageMaker modellnyilvántartás segítségével
ModelStep
, ha a korábban kapott értékelési mérőszám túllép egy előre meghatározott küszöbértéketConditionStep
. - Telepítse az ML-modellt SageMaker-végpontként tesztelési célokra.
Építészet
Az alábbi architektúra diagram bemutatja a különböző folyamatlépéseket, amelyek szükségesek ahhoz, hogy az összes lépést reprodukálható, automatizált és méretezhető SageMaker Autopilot képzési folyamatba csomagolják. Az adatfájlokat a rendszer az S3 tárolóból olvassa be, és a folyamat lépéseit szekvenciálisan hívja meg.
Végigjátszás
Ez a bejegyzés részletes magyarázatot ad a folyamat lépéseiről. Áttekintjük a kódot, és megbeszéljük az egyes lépések összetevőit. A megoldás üzembe helyezéséhez tekintse meg a példafüzet, amely lépésről lépésre útmutatást ad az Autopilot MLOps munkafolyamat csővezetékek segítségével történő megvalósításához.
Előfeltételek
Töltse ki a következő előfeltételeket:
Amikor az adatkészlet használatra kész, be kell állítanunk a Pipelines-t, hogy létrehozzanak egy megismételhető folyamatot az ML-modellek automatikus felépítéséhez és betanításához az Autopilot segítségével. Használjuk a SageMaker SDK végpontok közötti ML képzési folyamat programozott meghatározásához, futtatásához és nyomon követéséhez.
A csővezeték lépései
A következő szakaszokban végigmegyünk a SageMaker folyamat különböző lépésein, beleértve az AutoML képzést, a modell létrehozását, a kötegelt következtetést, a kiértékelést és a legjobb modell feltételes regisztrációját. A következő diagram a teljes csővezeték áramlását szemlélteti.
AutoML képzési lépés
An AutoML objektum az Autopilot képzési feladat futtatásának meghatározására szolgál, és hozzáadható a SageMaker folyamathoz a AutoMLStep
osztályba, ahogy az a következő kódban látható. Az összeállítású edzésmódot meg kell adni, de szükség szerint más paraméterek is módosíthatók. Például ahelyett, hogy hagyná, hogy az AutoML-feladat automatikusan következtessen az ML-re probléma típus és a objektív mérőszám, ezeket a kód megadásával lehet kódolni problem_type
és a job_objective
az AutoML objektumnak átadott paraméterek.
Modellkészítési lépés
Az AutoML lépés gondoskodik a különböző ML-modelljelöltek generálásáról, kombinálásáról és a legjobb ML-modell beszerzéséről. A modelltermékek és a metaadatok automatikusan tárolásra kerülnek, és a következő hívásával érhetők el get_best_auto_ml_model()
módszer az AutoML képzési lépésben. Ezek felhasználhatók egy SageMaker modell létrehozására a Model lépés részeként:
Kötegelt átalakítás és kiértékelés lépései
Az általunk használt Transzformátor objektum mert kötegelt következtetés a tesztadatkészleten, amelyet aztán kiértékelési célokra használhatunk fel. A kimeneti előrejelzéseket a Scikit-learn metrikafüggvény segítségével hasonlítják össze a tényleges vagy alapigazság-címkékkel. Eredményeinket az alapján értékeljük F1 pontszám. A teljesítménymutatókat a rendszer egy JSON-fájlba menti, amelyre a modell a következő lépésben történő regisztrálásakor hivatkozik.
Feltételes regisztráció lépései
Ebben a lépésben regisztráljuk az új Autopilot modellünket a SageMaker modellnyilvántartásba, ha az meghaladja az előre meghatározott értékelési metrika küszöbértéket.
Hozza létre és futtassa a folyamatot
Miután meghatároztuk a lépéseket, egyesítjük őket egy SageMaker folyamatba:
A lépéseket egymás utáni sorrendben hajtják végre. A folyamat az AutoML-feladatok összes lépését lefuttatja Autopilot és Pipelines használatával a betanításhoz, a modellértékeléshez és a modell regisztrálásához.
Az új modellt úgy tekintheti meg, ha a Studio konzolon a modell-nyilvántartásba navigál, és megnyitja AutoMLModelPackageGroup
. Válassza ki a képzési feladat bármely verzióját a célmutatók megtekintéséhez Modell minőség Tab.
A magyarázhatósági jelentést megtekintheti a Magyarázatosság lapon, hogy megértse a modell előrejelzéseit.
Az alapul szolgáló Autopilot-kísérlet megtekintéséhez az összes olyan modellhez, amelyet itt hoztak létre AutoMLStep
, navigáljon a AutoML oldalon, és válassza ki a munka nevét.
Telepítse a modellt
Miután manuálisan áttekintettük az ML modell teljesítményét, telepíthetjük az újonnan létrehozott modellünket egy SageMaker végpontra. Ehhez a SageMaker modellnyilvántartásában elmentett modellkonfiguráció segítségével futtathatjuk a notebook celláit, amelyek a modell végpontját hozzák létre.
Vegye figyelembe, hogy ez a szkript demonstrációs célból meg van osztva, de az ML-következtetések éles üzembe helyezéséhez robusztusabb CI/CD-folyamat követése javasolt. További információkért lásd: ML munkafolyamatok felépítése, automatizálása, kezelése és skálázása az Amazon SageMaker Pipelines segítségével.
Összegzésként
Ez a bejegyzés egy könnyen használható ML-folyamat-megközelítést ír le a táblázatos ML-modellek (AutoML) automatikus betanításához az Autopilot, a Pipelines és a Studio használatával. Az AutoML javítja az ML-gyakorlók hatékonyságát, felgyorsítva az ML-kísérletezéstől a termelésig vezető utat anélkül, hogy kiterjedt ML-szakértelemre lenne szükség. Felvázoljuk az ML-modell létrehozásához, kiértékeléséhez és regisztrálásához szükséges megfelelő folyamatlépéseket. Kezdje azzal, hogy kipróbálja a példafüzet saját egyéni AutoML-modellek betanításához és üzembe helyezéséhez.
Az Autopilotról és a csővezetékekről további információkért lásd: Automatizálja a modellfejlesztést az Amazon SageMaker Autopilot segítségével és a Amazon SageMaker csővezetékek.
Külön köszönet mindenkinek, aki hozzájárult az induláshoz: Shenghua Yue, John He, Ao Guo, Xinlu Tu, Tian Qin, Yanda Hu, Zhankui Lu és Dewen Qi.
A szerzőkről
Janisha Anand Senior Product Manager a SageMaker Low/No Code ML csapatában, amely magában foglalja a SageMaker Autopilotot is. Imádja a kávét, aktív marad, és a családjával tölti az idejét.
Marcelo Aberle az AWS AI ML mérnöke. Segít Amazon ML Solutions Lab az ügyfelek méretezhető ML(-Ops) rendszereket és keretrendszereket építenek. Szabadidejében szeret túrázni és kerékpározni a San Francisco-öböl környékén.
Geremy Cohen az AWS megoldástervezője, ahol segít ügyfeleinek élvonalbeli, felhőalapú megoldások kidolgozásában. Szabadidejében szeret rövid sétákat tenni a tengerparton, családjával felfedezni az öböl környékét, megjavítani a ház körüli dolgokat, összetörni a ház körüli dolgokat és grillezni.
Shenghua Yue az Amazon SageMaker szoftverfejlesztő mérnöke. Arra összpontosít, hogy ML eszközöket és termékeket készítsen az ügyfelek számára. Munkán kívül szeret a szabadban, jógázni és túrázni.
- Haladó (300)
- AI
- ai művészet
- ai art generátor
- van egy robotod
- Amazon SageMaker
- Amazon SageMaker Autopilot
- Amazon SageMaker csővezetékek
- mesterséges intelligencia
- mesterséges intelligencia tanúsítás
- mesterséges intelligencia a bankszektorban
- mesterséges intelligencia robot
- mesterséges intelligencia robotok
- mesterséges intelligencia szoftver
- AWS gépi tanulás
- blockchain
- blokklánc konferencia ai
- coingenius
- társalgási mesterséges intelligencia
- kriptokonferencia ai
- dall's
- mély tanulás
- google azt
- gépi tanulás
- MLOps
- Plató
- plato ai
- Platón adatintelligencia
- Platón játék
- PlatoData
- platogaming
- skála ai
- szintaxis
- zephyrnet