Egységes adat-előkészítés, modell betanítás és telepítés az Amazon SageMaker Data Wrangler és az Amazon SageMaker Autopilot segítségével – 2. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

Egységes adat-előkészítés, modell betanítás és telepítés az Amazon SageMaker Data Wranglerrel és az Amazon SageMaker Autopilottal – 2. rész

Az adatok minőségétől és összetettségétől függően az adatkutatók idejük 45–80%-át adat-előkészítési feladatokkal töltik. Ez azt jelenti, hogy az adatok előkészítése és tisztítása értékes időt von el a valódi adattudományi munkától. Miután egy gépi tanulási (ML) modellt betanítottak az előkészített adatokkal és készen állnak a telepítésre, az adattudósoknak gyakran át kell írniuk az adatok ML következtetésre való előkészítéséhez használt adatátalakításokat. Ez meghosszabbíthatja egy hasznos modell üzembe helyezéséhez szükséges időt, amely képes következtetéseket levonni és pontozni az adatokat nyers alakjából és formájából.

A sorozat 1. részében bemutattuk, hogy a Data Wrangler hogyan teszi lehetővé a egységes adat-előkészítés és modellképzés tapasztalatok Amazon SageMaker Autopilot néhány kattintással. A sorozat második és egyben utolsó részében egy olyan funkcióra összpontosítunk, amely magában foglalja és újrafelhasználja Amazon SageMaker Data Wrangler transzformációk, mint például a hiányzó értékű imputerek, ordinális vagy one-hot kódolók és egyebek, valamint az ML következtetések Autopilot modelljei. Ez a funkció lehetővé teszi a nyers adatok automatikus előfeldolgozását a Data Wrangler funkció transzformációinak újrafelhasználásával a következtetés idején, tovább csökkentve a betanított modell termelésbe való üzembe helyezéséhez szükséges időt.

Megoldás áttekintése

A Data Wrangler hetekről percekre csökkenti az ML adatok összesítésének és előkészítésének idejét, az Autopilot pedig automatikusan összeállítja, betanítja és hangolja a legjobb ML modelleket az Ön adatai alapján. Az Autopilot segítségével továbbra is teljes ellenőrzést és láthatóságot biztosít adatai és modellje felett. Mindkét szolgáltatás célja, hogy az ML-szakemberek termelékenyebbé váljanak, és felgyorsítsák az értékteremtési időt.

Az alábbi ábra szemlélteti megoldásunk architektúráját.

Előfeltételek

Mivel ez a bejegyzés egy kétrészes sorozat második része, győződjön meg róla, hogy sikeresen elolvasta és végrehajtotta rész 1 mielőtt folytatná.

A modell exportálása és betanítása

Az 1. részben az adatok ML-hez történő előkészítése után megvitattuk, hogyan használhatja fel a Data Wrangler integrált tapasztalatait adatkészletek elemzésére, és egyszerűen készíthet kiváló minőségű ML-modelleket az Autopilotban.

Ezúttal ismét az Autopilot integrációt használjuk a modell betanításához ugyanazon betanítási adatkészlet alapján, de a tömeges következtetés végrehajtása helyett valós idejű következtetést végzünk egy Amazon SageMaker következtetési végpont, amely automatikusan jön létre számunkra.

Az automatikus végpont-telepítés nyújtotta kényelem mellett bemutatjuk, hogyan telepítheti az összes Data Wrangler szolgáltatástranszformációt SageMaker soros következtetési folyamatként. Ez lehetővé teszi a nyers adatok automatikus előfeldolgozását a Data Wrangler funkció transzformációinak újrafelhasználásával a következtetés időpontjában.

Ne feledje, hogy ez a funkció jelenleg csak olyan Data Wrangler-folyamatok esetében támogatott, amelyek nem használnak csatlakozási, csoportosítási, összefűzési és idősoros átalakításokat.

Használhatjuk az új Data Wrangler integrációt az Autopilottal, hogy közvetlenül betaníthassuk a modellt a Data Wrangler adatfolyam felhasználói felületéről.

  1. Válassza a melletti pluszjelet Skálaértékek csomópontot, és válassza ki Vonat modell.
  2. A Amazon S3 hely, adja meg a Amazon egyszerű tárolási szolgáltatás (Amazon S3) hely, ahová a SageMaker exportálja az adatait.
    Ha a Data Wrangler alapértelmezés szerint gyökérgyűjtőútvonallal rendelkezik, akkor ez alatt egyedi exportálási alkönyvtárat hoz létre – ezt az alapértelmezett gyökérútvonalat nem kell módosítania, hacsak nem akarja. Az Autopilot ezt a helyet használja a modellek automatikus betanításához, ezzel megtakarítva Önt. eltelt idő, amíg meg kell határozni a Data Wrangler folyam kimeneti helyét, majd meg kell határozni az Autopilot képzési adatainak bemeneti helyét. Ez zökkenőmentesebb élményt biztosít.
  3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Export és vonat hogy exportálja az átalakított adatokat az Amazon S3-ba.
    Egységes adat-előkészítés, modell betanítás és telepítés az Amazon SageMaker Data Wrangler és az Amazon SageMaker Autopilot segítségével – 2. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.
    Ha az exportálás sikeres, a rendszer átirányítja a Hozzon létre egy Autopilot kísérletet oldalon, a Beviteli adat S3 hely már kitöltve az Ön számára (az előző oldal eredményeiből lett kitöltve).
  4. A Kísérlet neve, írjon be egy nevet (vagy tartsa meg az alapértelmezett nevet).
  5. A cél, választ Eredmény mint a megjósolni kívánt oszlop.
  6. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Következő: Képzési módszer.
    Egységes adat-előkészítés, modell betanítás és telepítés az Amazon SageMaker Data Wrangler és az Amazon SageMaker Autopilot segítségével – 2. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

A posztban részletezettek szerint Az Amazon SageMaker Autopilot akár nyolcszor gyorsabb az AutoGluon által hajtott új együttes edzésmóddal, akkor hagyhatja, hogy az Autopilot automatikusan válassza ki az edzési módot az adatkészlet mérete alapján, vagy manuálisan is kiválaszthatja az edzési módot az összeállításhoz vagy a hiperparaméter-optimalizáláshoz (HPO).

Az egyes opciók részletei a következők:

  • kocsi – Az Autopilot automatikusan kiválasztja az összeállítási vagy a HPO módot az adatkészlet mérete alapján. Ha az adatkészlete nagyobb, mint 100 MB, az Autopilot a HPO-t választja; egyébként az összeállítást választja.
  • Összeállítás – Az Autopilot a AutoGluon ensemble technika több alapmodell betanításához, és ezek előrejelzéseit modellhalmozással kombinálja egy optimális prediktív modellben.
  • Hiperparaméter optimalizálás – Az Autopilot megtalálja a modell legjobb verzióját a hiperparaméterek Bayes-féle optimalizálási technikával történő hangolásával és az adatkészleten futó oktatási feladatok végrehajtásával. A HPO kiválasztja az adatkészlet szempontjából legrelevánsabb algoritmusokat, és kiválasztja a hiperparaméterek legjobb tartományát a modellek hangolásához. Példánkban meghagyjuk az alapértelmezett kocsi.
  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Következő: Üzembe helyezés és speciális beállítások hogy folytassa.
    Egységes adat-előkészítés, modell betanítás és telepítés az Amazon SageMaker Data Wrangler és az Amazon SageMaker Autopilot segítségével – 2. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.
  2. A Üzembe helyezés és speciális beállítások oldalon válasszon egy telepítési lehetőséget.
    Fontos, hogy részletesebben megértsük a telepítési lehetőségeket; amit választunk, az befolyásolja, hogy a Data Wranglerben korábban végrehajtott átalakítások belekerülnek-e a következtetési folyamatba:
    • A legjobb modell automatikus üzembe helyezése a Data Wrangler átalakításaival – Ezzel az üzembe helyezési lehetőséggel, amikor adatokat készít elő a Data Wranglerben és betanít egy modellt az Autopilot meghívásával, a betanított modell az összes Data Wrangler szolgáltatástranszformáció mellett kerül üzembe. SageMaker soros következtetési folyamat. Ez lehetővé teszi a nyers adatok automatikus előfeldolgozását a Data Wrangler funkció transzformációinak újrafelhasználásával a következtetés időpontjában. Vegye figyelembe, hogy a következtetési végpont elvárja, hogy az adatok formátuma ugyanabban a formátumban legyen, mint amikor azokat a Data Wrangler folyamatba importálják.
    • A legjobb modell automatikus üzembe helyezése átalakítások nélkül a Data Wranglerből – Ez a beállítás egy valós idejű végpontot telepít, amely nem használ Data Wrangler átalakításokat. Ebben az esetben a Data Wrangler folyamatban meghatározott átalakításokat kell alkalmaznia az adatokra a következtetés előtt.
    • Ne telepítse automatikusan a legjobb modellt – Akkor használja ezt a lehetőséget, ha egyáltalán nem szeretne következtetési végpontot létrehozni. Hasznos, ha egy legjobb modellt szeretne létrehozni későbbi használatra, például helyileg futtatott tömeges következtetést. (Ez az a telepítési lehetőség, amelyet a sorozat 1. részében választottunk.) Vegye figyelembe, hogy ha ezt a lehetőséget választja, a létrehozott modell (az Autopilot legjobb jelöltjéből a SageMaker SDK-n keresztül) tartalmazza a Data Wrangler szolgáltatást, amely SageMaker soros következtetési folyamatként átalakul.

    Ehhez a bejegyzéshez a A legjobb modell automatikus üzembe helyezése a Data Wrangler átalakításaival opciót.

  3. A Telepítési lehetőségválassza A legjobb modell automatikus üzembe helyezése a Data Wrangler átalakításaival.
  4. A többi beállítást hagyja alapértelmezettként.
  5. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Következő: Tekintse át és hozzon létre hogy folytassa.
    A Tekintse át és hozzon létre oldalon láthatjuk az Autopilot kísérletünkhöz kiválasztott beállítások összefoglalását.
  6. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Kísérlet létrehozása a modellalkotási folyamat megkezdéséhez.
    Egységes adat-előkészítés, modell betanítás és telepítés az Amazon SageMaker Data Wrangler és az Amazon SageMaker Autopilot segítségével – 2. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

A rendszer átirányítja az Autopilot munkaleírás oldalára. A modellek a Modellek lapon, ahogy azok létrejönnek. A folyamat befejezésének megerősítéséhez lépjen a következőre: Állás profil fület, és keresse meg a Completed érték a Állapot mező.

Bármikor visszatérhet erre az Autopilot munkaköri leírás oldalára innen Amazon SageMaker Studio:

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Kísérletek és próbák a SageMaker források legördülő menü.
  2. Válassza ki a létrehozott Autopilot-feladat nevét.
  3. Válassza ki (jobb gombbal) a kísérletet, és válassza ki Az AutoML Job leírása.

Tekintse meg a képzést és a telepítést

Amikor az Autopilot befejezi a kísérletet, megtekinthetjük a képzési eredményeket, és felfedezhetjük a legjobb modellt az Autopilot munkaleírás oldalán.

Válassza ki (jobb gombbal) a feliratozott modellt A legjobb modell, és válasszon Nyissa meg a modell részleteinél.

Egységes adat-előkészítés, modell betanítás és telepítés az Amazon SageMaker Data Wrangler és az Amazon SageMaker Autopilot segítségével – 2. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

A teljesítmény fül több modell mérési tesztet jelenít meg, beleértve a zavaros mátrixot, a precíziós/visszahívási görbe alatti területet (AUCPR) és a vevő működési jelleggörbéje alatti területet (ROC). Ezek illusztrálják a modell általános érvényesítési teljesítményét, de nem árulják el, hogy a modell jól általánosítható-e. Továbbra is ki kell értékelnünk a nem látott tesztadatokat, hogy meglássuk, milyen pontosan a modell a jóslatokat (ebben a példában azt jósoljuk, hogy az egyén cukorbeteg lesz-e).

Végezzen következtetést a valós idejű végpont alapján

Hozzon létre egy új SageMaker notebookot, amely valós idejű következtetést hajt végre a modell teljesítményének értékeléséhez. Írja be a következő kódot egy notebookba, hogy valós idejű következtetést lehessen futtatni az érvényesítéshez:

import boto3

### Define required boto3 clients

sm_client = boto3.client(service_name="sagemaker")
runtime_sm_client = boto3.client(service_name="sagemaker-runtime")

### Define endpoint name

endpoint_name = ""

### Define input data

payload_str = '5,166.0,72.0,19.0,175.0,25.8,0.587,51'
payload = payload_str.encode()
response = runtime_sm_client.invoke_endpoint(
    EndpointName=endpoint_name,
    ContentType="text/csv",
    Body=payload,
)

response["Body"].read()

Miután beállította a kódot a jegyzetfüzetben való futtatásra, két változót kell konfigurálnia:

  • endpoint_name
  • payload_str

A végpont_neve konfigurálása

endpoint_name a központi telepítés által automatikusan létrehozott valós idejű következtetési végpont nevét jelenti. Mielőtt beállítanánk, meg kell találnunk a nevét.

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Végpontok a SageMaker források legördülő menü.
  2. Keresse meg annak a végpontnak a nevét, amely a létrehozott Autopilot-feladat nevét tartalmazza egy véletlenszerű karakterlánc hozzáadásával.
  3. Válassza ki (jobb gombbal) a kísérletet, és válassza ki Írja le a végpontot.
    Egységes adat-előkészítés, modell betanítás és telepítés az Amazon SageMaker Data Wrangler és az Amazon SageMaker Autopilot segítségével – 2. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.
    A Végpont részletei oldal jelenik meg.
  4. Jelölje ki a végpont teljes nevét, és nyomja meg a gombot Ctrl + C hogy a vágólapra másolja.
    Egységes adat-előkészítés, modell betanítás és telepítés az Amazon SageMaker Data Wrangler és az Amazon SageMaker Autopilot segítségével – 2. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.
  5. Adja meg ezt az értéket (bizonyosodjon meg arról, hogy idézőjelben van) ehhez endpoint_name a következtetési füzetben.
    Egységes adat-előkészítés, modell betanítás és telepítés az Amazon SageMaker Data Wrangler és az Amazon SageMaker Autopilot segítségével – 2. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

A payload_str

A notebookhoz tartozik egy alapértelmezett rakomány karakterlánc payload_str amelyeket a végpont tesztelésére használhat, de nyugodtan kísérletezzen különböző értékekkel, például a tesztadatkészletből származó értékekkel.

Ha értékeket szeretne lekérni a tesztadatkészletből, kövesse az alábbi utasításokat rész 1 hogy exportálja a tesztadatkészletet az Amazon S3-ba. Ezután az Amazon S3 konzolon letöltheti, és kiválaszthatja a sorokat az Amazon S3 fájl használatához.

A tesztadatkészlet minden sora kilenc oszlopból áll, az utolsó oszlop pedig a outcome érték. Ennél a notebook-kódnál ügyeljen arra, hogy csak egyetlen adatsort használjon (soha ne CSV-fejlécet). payload_str. Győződjön meg arról is, hogy csak a payload_str nyolc oszloppal, ahol eltávolította az eredményértéket.

Például, ha a tesztadatkészlet-fájlok a következő kódhoz hasonlítanak, és valós idejű következtetést szeretnénk végrehajtani az első sorból:

Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome 
10,115,0,0,0,35.3,0.134,29,0 
10,168,74,0,0,38.0,0.537,34,1 
1,103,30,38,83,43.3,0.183,33,0

Állítottuk payload_str nak nek 10,115,0,0,0,35.3,0.134,29. Jegyezzük meg, hogyan hagytuk ki a outcome értéke 0 a végén.

Ha véletlenül az adatkészlet célértéke nem az első vagy az utolsó érték, egyszerűen távolítsa el az értéket a vesszőszerkezet érintetlenségével. Tegyük fel például, hogy sávot jósolunk, és az adatkészletünk a következő kódhoz hasonlít:

foo,bar,foobar
85,17,20

Ebben az esetben beállítjuk payload_str nak nek 85,,20.

Amikor a notebook megfelelően konfigurált payload_str és a endpoint_name értékeket, akkor CSV-választ kap vissza a következő formátumban outcome (0 vagy 1), confidence (0-1).

Takarítás

Annak érdekében, hogy az oktatóanyag befejezése után ne merüljenek fel az oktatóanyaggal kapcsolatos költségek, feltétlenül kapcsolja ki a Data Wrangler alkalmazást (https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-shut-down.html), valamint a következtetési feladatok végrehajtására használt összes notebook-példány. Az Auto Pilot telepítésével létrehozott következtetési végpontokat törölni kell a további költségek elkerülése érdekében.

Következtetés

Ebben a bejegyzésben bemutattuk, hogyan integrálhatja az adatfeldolgozást, a tervezést és a modellépítést a Data Wrangler és az Autopilot segítségével. A sorozat 1. részére építve kiemeltük, hogyan lehet egyszerűen betanítani, hangolni és telepíteni egy modellt egy valós idejű következtetési végpontra az Autopilot segítségével közvetlenül a Data Wrangler felhasználói felületéről. Az automatikus végpont-telepítés nyújtotta kényelem mellett bemutattuk, hogyan telepítheti az összes Data Wrangler szolgáltatástranszformációt SageMaker soros következtetési folyamatként, amely biztosítja a nyers adatok automatikus előfeldolgozását, a Data Wrangler szolgáltatástranszformációk újrafelhasználásával a következtetés ideje.

Az alacsony kódú és AutoML megoldások, mint például a Data Wrangler és az Autopilot, megszüntetik a mély kódolási ismeretek szükségességét a robusztus ML-modellek felépítéséhez. Kezdje el a Data Wrangler használatát ma, hogy megtapasztalhassa, milyen egyszerű az ML modellek elkészítése az Autopilot segítségével.


A szerzőkről

Egységes adat-előkészítés, modell betanítás és telepítés az Amazon SageMaker Data Wrangler és az Amazon SageMaker Autopilot segítségével – 2. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.Geremy Cohen az AWS megoldástervezője, ahol segít ügyfeleinek élvonalbeli, felhőalapú megoldások kidolgozásában. Szabadidejében szeret rövid sétákat tenni a tengerparton, családjával felfedezni az öböl környékét, megjavítani a ház körüli dolgokat, összetörni a ház körüli dolgokat és grillezni.

Egységes adat-előkészítés, modell betanítás és telepítés az Amazon SageMaker Data Wrangler és az Amazon SageMaker Autopilot segítségével – 2. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.Pradeep Reddy Senior Product Manager a SageMaker Low/No Code ML csapatában, amely magában foglalja a SageMaker Autopilotot és a SageMaker Automatic Model Tuner-t. A munkán kívül Pradeep szívesen olvas, fut, és tenyérnyi számítógépekkel, például Raspberry pi-vel és egyéb otthoni automatizálási technológiával szórakozik.

Egységes adat-előkészítés, modell betanítás és telepítés az Amazon SageMaker Data Wrangler és az Amazon SageMaker Autopilot segítségével – 2. rész PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.Dr. John He vezető szoftverfejlesztő mérnök az Amazon AI-nál, ahol a gépi tanulásra és az elosztott számítástechnikára összpontosít. A CMU-n szerzett PhD fokozatot.

Időbélyeg:

Még több AWS gépi tanulás