Az adatok minőségétől és összetettségétől függően az adatkutatók idejük 45–80%-át adat-előkészítési feladatokkal töltik. Ez azt jelenti, hogy az adatok előkészítése és tisztítása értékes időt von el a valódi adattudományi munkától. Miután egy gépi tanulási (ML) modellt betanítottak az előkészített adatokkal és készen állnak a telepítésre, az adattudósoknak gyakran át kell írniuk az adatok ML következtetésre való előkészítéséhez használt adatátalakításokat. Ez meghosszabbíthatja egy hasznos modell üzembe helyezéséhez szükséges időt, amely képes következtetéseket levonni és pontozni az adatokat nyers alakjából és formájából.
A sorozat 1. részében bemutattuk, hogy a Data Wrangler hogyan teszi lehetővé a egységes adat-előkészítés és modellképzés tapasztalatok Amazon SageMaker Autopilot néhány kattintással. A sorozat második és egyben utolsó részében egy olyan funkcióra összpontosítunk, amely magában foglalja és újrafelhasználja Amazon SageMaker Data Wrangler transzformációk, mint például a hiányzó értékű imputerek, ordinális vagy one-hot kódolók és egyebek, valamint az ML következtetések Autopilot modelljei. Ez a funkció lehetővé teszi a nyers adatok automatikus előfeldolgozását a Data Wrangler funkció transzformációinak újrafelhasználásával a következtetés idején, tovább csökkentve a betanított modell termelésbe való üzembe helyezéséhez szükséges időt.
Megoldás áttekintése
A Data Wrangler hetekről percekre csökkenti az ML adatok összesítésének és előkészítésének idejét, az Autopilot pedig automatikusan összeállítja, betanítja és hangolja a legjobb ML modelleket az Ön adatai alapján. Az Autopilot segítségével továbbra is teljes ellenőrzést és láthatóságot biztosít adatai és modellje felett. Mindkét szolgáltatás célja, hogy az ML-szakemberek termelékenyebbé váljanak, és felgyorsítsák az értékteremtési időt.
Az alábbi ábra szemlélteti megoldásunk architektúráját.
Előfeltételek
Mivel ez a bejegyzés egy kétrészes sorozat második része, győződjön meg róla, hogy sikeresen elolvasta és végrehajtotta rész 1 mielőtt folytatná.
A modell exportálása és betanítása
Az 1. részben az adatok ML-hez történő előkészítése után megvitattuk, hogyan használhatja fel a Data Wrangler integrált tapasztalatait adatkészletek elemzésére, és egyszerűen készíthet kiváló minőségű ML-modelleket az Autopilotban.
Ezúttal ismét az Autopilot integrációt használjuk a modell betanításához ugyanazon betanítási adatkészlet alapján, de a tömeges következtetés végrehajtása helyett valós idejű következtetést végzünk egy Amazon SageMaker következtetési végpont, amely automatikusan jön létre számunkra.
Az automatikus végpont-telepítés nyújtotta kényelem mellett bemutatjuk, hogyan telepítheti az összes Data Wrangler szolgáltatástranszformációt SageMaker soros következtetési folyamatként. Ez lehetővé teszi a nyers adatok automatikus előfeldolgozását a Data Wrangler funkció transzformációinak újrafelhasználásával a következtetés időpontjában.
Ne feledje, hogy ez a funkció jelenleg csak olyan Data Wrangler-folyamatok esetében támogatott, amelyek nem használnak csatlakozási, csoportosítási, összefűzési és idősoros átalakításokat.
Használhatjuk az új Data Wrangler integrációt az Autopilottal, hogy közvetlenül betaníthassuk a modellt a Data Wrangler adatfolyam felhasználói felületéről.
- Válassza a melletti pluszjelet Skálaértékek csomópontot, és válassza ki Vonat modell.
- A Amazon S3 hely, adja meg a Amazon egyszerű tárolási szolgáltatás (Amazon S3) hely, ahová a SageMaker exportálja az adatait.
Ha a Data Wrangler alapértelmezés szerint gyökérgyűjtőútvonallal rendelkezik, akkor ez alatt egyedi exportálási alkönyvtárat hoz létre – ezt az alapértelmezett gyökérútvonalat nem kell módosítania, hacsak nem akarja. Az Autopilot ezt a helyet használja a modellek automatikus betanításához, ezzel megtakarítva Önt. eltelt idő, amíg meg kell határozni a Data Wrangler folyam kimeneti helyét, majd meg kell határozni az Autopilot képzési adatainak bemeneti helyét. Ez zökkenőmentesebb élményt biztosít. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Export és vonat hogy exportálja az átalakított adatokat az Amazon S3-ba.
Ha az exportálás sikeres, a rendszer átirányítja a Hozzon létre egy Autopilot kísérletet oldalon, a Beviteli adat S3 hely már kitöltve az Ön számára (az előző oldal eredményeiből lett kitöltve). - A Kísérlet neve, írjon be egy nevet (vagy tartsa meg az alapértelmezett nevet).
- A cél, választ Eredmény mint a megjósolni kívánt oszlop.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Következő: Képzési módszer.
A posztban részletezettek szerint Az Amazon SageMaker Autopilot akár nyolcszor gyorsabb az AutoGluon által hajtott új együttes edzésmóddal, akkor hagyhatja, hogy az Autopilot automatikusan válassza ki az edzési módot az adatkészlet mérete alapján, vagy manuálisan is kiválaszthatja az edzési módot az összeállításhoz vagy a hiperparaméter-optimalizáláshoz (HPO).
Az egyes opciók részletei a következők:
- kocsi – Az Autopilot automatikusan kiválasztja az összeállítási vagy a HPO módot az adatkészlet mérete alapján. Ha az adatkészlete nagyobb, mint 100 MB, az Autopilot a HPO-t választja; egyébként az összeállítást választja.
- Összeállítás – Az Autopilot a AutoGluon ensemble technika több alapmodell betanításához, és ezek előrejelzéseit modellhalmozással kombinálja egy optimális prediktív modellben.
- Hiperparaméter optimalizálás – Az Autopilot megtalálja a modell legjobb verzióját a hiperparaméterek Bayes-féle optimalizálási technikával történő hangolásával és az adatkészleten futó oktatási feladatok végrehajtásával. A HPO kiválasztja az adatkészlet szempontjából legrelevánsabb algoritmusokat, és kiválasztja a hiperparaméterek legjobb tartományát a modellek hangolásához. Példánkban meghagyjuk az alapértelmezett kocsi.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Következő: Üzembe helyezés és speciális beállítások hogy folytassa.
- A Üzembe helyezés és speciális beállítások oldalon válasszon egy telepítési lehetőséget.
Fontos, hogy részletesebben megértsük a telepítési lehetőségeket; amit választunk, az befolyásolja, hogy a Data Wranglerben korábban végrehajtott átalakítások belekerülnek-e a következtetési folyamatba:- A legjobb modell automatikus üzembe helyezése a Data Wrangler átalakításaival – Ezzel az üzembe helyezési lehetőséggel, amikor adatokat készít elő a Data Wranglerben és betanít egy modellt az Autopilot meghívásával, a betanított modell az összes Data Wrangler szolgáltatástranszformáció mellett kerül üzembe. SageMaker soros következtetési folyamat. Ez lehetővé teszi a nyers adatok automatikus előfeldolgozását a Data Wrangler funkció transzformációinak újrafelhasználásával a következtetés időpontjában. Vegye figyelembe, hogy a következtetési végpont elvárja, hogy az adatok formátuma ugyanabban a formátumban legyen, mint amikor azokat a Data Wrangler folyamatba importálják.
- A legjobb modell automatikus üzembe helyezése átalakítások nélkül a Data Wranglerből – Ez a beállítás egy valós idejű végpontot telepít, amely nem használ Data Wrangler átalakításokat. Ebben az esetben a Data Wrangler folyamatban meghatározott átalakításokat kell alkalmaznia az adatokra a következtetés előtt.
- Ne telepítse automatikusan a legjobb modellt – Akkor használja ezt a lehetőséget, ha egyáltalán nem szeretne következtetési végpontot létrehozni. Hasznos, ha egy legjobb modellt szeretne létrehozni későbbi használatra, például helyileg futtatott tömeges következtetést. (Ez az a telepítési lehetőség, amelyet a sorozat 1. részében választottunk.) Vegye figyelembe, hogy ha ezt a lehetőséget választja, a létrehozott modell (az Autopilot legjobb jelöltjéből a SageMaker SDK-n keresztül) tartalmazza a Data Wrangler szolgáltatást, amely SageMaker soros következtetési folyamatként átalakul.
Ehhez a bejegyzéshez a A legjobb modell automatikus üzembe helyezése a Data Wrangler átalakításaival opciót.
- A Telepítési lehetőségválassza A legjobb modell automatikus üzembe helyezése a Data Wrangler átalakításaival.
- A többi beállítást hagyja alapértelmezettként.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Következő: Tekintse át és hozzon létre hogy folytassa.
A Tekintse át és hozzon létre oldalon láthatjuk az Autopilot kísérletünkhöz kiválasztott beállítások összefoglalását. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Kísérlet létrehozása a modellalkotási folyamat megkezdéséhez.
A rendszer átirányítja az Autopilot munkaleírás oldalára. A modellek a Modellek lapon, ahogy azok létrejönnek. A folyamat befejezésének megerősítéséhez lépjen a következőre: Állás profil fület, és keresse meg a Completed
érték a Állapot mező.
Bármikor visszatérhet erre az Autopilot munkaköri leírás oldalára innen Amazon SageMaker Studio:
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Kísérletek és próbák a SageMaker források legördülő menü.
- Válassza ki a létrehozott Autopilot-feladat nevét.
- Válassza ki (jobb gombbal) a kísérletet, és válassza ki Az AutoML Job leírása.
Tekintse meg a képzést és a telepítést
Amikor az Autopilot befejezi a kísérletet, megtekinthetjük a képzési eredményeket, és felfedezhetjük a legjobb modellt az Autopilot munkaleírás oldalán.
Válassza ki (jobb gombbal) a feliratozott modellt A legjobb modell, és válasszon Nyissa meg a modell részleteinél.
A teljesítmény fül több modell mérési tesztet jelenít meg, beleértve a zavaros mátrixot, a precíziós/visszahívási görbe alatti területet (AUCPR) és a vevő működési jelleggörbéje alatti területet (ROC). Ezek illusztrálják a modell általános érvényesítési teljesítményét, de nem árulják el, hogy a modell jól általánosítható-e. Továbbra is ki kell értékelnünk a nem látott tesztadatokat, hogy meglássuk, milyen pontosan a modell a jóslatokat (ebben a példában azt jósoljuk, hogy az egyén cukorbeteg lesz-e).
Végezzen következtetést a valós idejű végpont alapján
Hozzon létre egy új SageMaker notebookot, amely valós idejű következtetést hajt végre a modell teljesítményének értékeléséhez. Írja be a következő kódot egy notebookba, hogy valós idejű következtetést lehessen futtatni az érvényesítéshez:
Miután beállította a kódot a jegyzetfüzetben való futtatásra, két változót kell konfigurálnia:
endpoint_name
payload_str
A végpont_neve konfigurálása
endpoint_name
a központi telepítés által automatikusan létrehozott valós idejű következtetési végpont nevét jelenti. Mielőtt beállítanánk, meg kell találnunk a nevét.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Végpontok a SageMaker források legördülő menü.
- Keresse meg annak a végpontnak a nevét, amely a létrehozott Autopilot-feladat nevét tartalmazza egy véletlenszerű karakterlánc hozzáadásával.
- Válassza ki (jobb gombbal) a kísérletet, és válassza ki Írja le a végpontot.
A Végpont részletei oldal jelenik meg. - Jelölje ki a végpont teljes nevét, és nyomja meg a gombot Ctrl + C hogy a vágólapra másolja.
- Adja meg ezt az értéket (bizonyosodjon meg arról, hogy idézőjelben van) ehhez
endpoint_name
a következtetési füzetben.
A payload_str
A notebookhoz tartozik egy alapértelmezett rakomány karakterlánc payload_str
amelyeket a végpont tesztelésére használhat, de nyugodtan kísérletezzen különböző értékekkel, például a tesztadatkészletből származó értékekkel.
Ha értékeket szeretne lekérni a tesztadatkészletből, kövesse az alábbi utasításokat rész 1 hogy exportálja a tesztadatkészletet az Amazon S3-ba. Ezután az Amazon S3 konzolon letöltheti, és kiválaszthatja a sorokat az Amazon S3 fájl használatához.
A tesztadatkészlet minden sora kilenc oszlopból áll, az utolsó oszlop pedig a outcome
érték. Ennél a notebook-kódnál ügyeljen arra, hogy csak egyetlen adatsort használjon (soha ne CSV-fejlécet). payload_str
. Győződjön meg arról is, hogy csak a payload_str
nyolc oszloppal, ahol eltávolította az eredményértéket.
Például, ha a tesztadatkészlet-fájlok a következő kódhoz hasonlítanak, és valós idejű következtetést szeretnénk végrehajtani az első sorból:
Állítottuk payload_str
nak nek 10,115,0,0,0,35.3,0.134,29
. Jegyezzük meg, hogyan hagytuk ki a outcome
értéke 0
a végén.
Ha véletlenül az adatkészlet célértéke nem az első vagy az utolsó érték, egyszerűen távolítsa el az értéket a vesszőszerkezet érintetlenségével. Tegyük fel például, hogy sávot jósolunk, és az adatkészletünk a következő kódhoz hasonlít:
Ebben az esetben beállítjuk payload_str
nak nek 85,,20
.
Amikor a notebook megfelelően konfigurált payload_str
és a endpoint_name
értékeket, akkor CSV-választ kap vissza a következő formátumban outcome
(0 vagy 1), confidence
(0-1).
Takarítás
Annak érdekében, hogy az oktatóanyag befejezése után ne merüljenek fel az oktatóanyaggal kapcsolatos költségek, feltétlenül kapcsolja ki a Data Wrangler alkalmazást (https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-shut-down.html), valamint a következtetési feladatok végrehajtására használt összes notebook-példány. Az Auto Pilot telepítésével létrehozott következtetési végpontokat törölni kell a további költségek elkerülése érdekében.
Következtetés
Ebben a bejegyzésben bemutattuk, hogyan integrálhatja az adatfeldolgozást, a tervezést és a modellépítést a Data Wrangler és az Autopilot segítségével. A sorozat 1. részére építve kiemeltük, hogyan lehet egyszerűen betanítani, hangolni és telepíteni egy modellt egy valós idejű következtetési végpontra az Autopilot segítségével közvetlenül a Data Wrangler felhasználói felületéről. Az automatikus végpont-telepítés nyújtotta kényelem mellett bemutattuk, hogyan telepítheti az összes Data Wrangler szolgáltatástranszformációt SageMaker soros következtetési folyamatként, amely biztosítja a nyers adatok automatikus előfeldolgozását, a Data Wrangler szolgáltatástranszformációk újrafelhasználásával a következtetés ideje.
Az alacsony kódú és AutoML megoldások, mint például a Data Wrangler és az Autopilot, megszüntetik a mély kódolási ismeretek szükségességét a robusztus ML-modellek felépítéséhez. Kezdje el a Data Wrangler használatát ma, hogy megtapasztalhassa, milyen egyszerű az ML modellek elkészítése az Autopilot segítségével.
A szerzőkről
Geremy Cohen az AWS megoldástervezője, ahol segít ügyfeleinek élvonalbeli, felhőalapú megoldások kidolgozásában. Szabadidejében szeret rövid sétákat tenni a tengerparton, családjával felfedezni az öböl környékét, megjavítani a ház körüli dolgokat, összetörni a ház körüli dolgokat és grillezni.
Pradeep Reddy Senior Product Manager a SageMaker Low/No Code ML csapatában, amely magában foglalja a SageMaker Autopilotot és a SageMaker Automatic Model Tuner-t. A munkán kívül Pradeep szívesen olvas, fut, és tenyérnyi számítógépekkel, például Raspberry pi-vel és egyéb otthoni automatizálási technológiával szórakozik.
Dr. John He vezető szoftverfejlesztő mérnök az Amazon AI-nál, ahol a gépi tanulásra és az elosztott számítástechnikára összpontosít. A CMU-n szerzett PhD fokozatot.
- AI
- ai művészet
- ai art generátor
- van egy robotod
- Amazon SageMaker
- Amazon SageMaker Autopilot
- Amazon SageMaker Data Wrangler
- mesterséges intelligencia
- mesterséges intelligencia tanúsítás
- mesterséges intelligencia a bankszektorban
- mesterséges intelligencia robot
- mesterséges intelligencia robotok
- mesterséges intelligencia szoftver
- AWS gépi tanulás
- blockchain
- blokklánc konferencia ai
- coingenius
- társalgási mesterséges intelligencia
- kriptokonferencia ai
- dall's
- mély tanulás
- google azt
- gépi tanulás
- Plató
- plato ai
- Platón adatintelligencia
- Platón játék
- PlatoData
- platogaming
- skála ai
- szintaxis
- zephyrnet