Build An MLOps Sentiment Analysis Pipeline Using Amazon SageMaker Ground Truth And Databricks MLflow

Újra kiadta Platón

Követő: 0

Ahogy egyre több szervezet tér át a gépi tanulásra (ML), hogy mélyebb betekintést nyerjen, két fő akadályba ütköznek, a címkézés és az életciklus-kezelés. A címkézés az adatok azonosítása és címkék hozzáadása a kontextus biztosításához, hogy az ML-modell tanulhasson belőle. A címkék jelezhetnek egy kifejezést egy hangfájlban, egy autót a fényképen, vagy egy szervet az MRI-n. Az adatcímkézés szükséges ahhoz, hogy az ML-modellek az adatokkal szemben működjenek. Az életciklus-kezelés egy ML-kísérlet beállításának folyamatához, valamint az eredmények eléréséhez használt adatkészlet, könyvtár, verzió és modell dokumentálásához kapcsolódik. Egy csapat több száz kísérletet futtathat le, mielőtt egy megközelítés mellett döntene. A visszalépés és a megközelítés újraalkotása nehéz lehet a kísérlet elemeinek feljegyzése nélkül.

Sok ML-példa és oktatóanyag célértéket tartalmazó adatkészlettel kezdődik. A valós adatoknak azonban nem mindig van ilyen célértéke. Például a hangulatelemzés során egy személy általában képes megítélni, hogy egy értékelés pozitív, negatív vagy vegyes. Ám a recenziók olyan szöveggyűjteményből állnak, amelyhez nincs ítélőérték. Létrehozása érdekében a felügyelt tanulás A probléma megoldásához elengedhetetlen egy jó minőségű címkézett adatkészlet. Amazon SageMaker Ground Truth egy teljesen felügyelt adatcímkéző szolgáltatás, amely megkönnyíti a rendkívül pontos képzési adatkészletek készítését az ML számára.

Azon szervezetek számára, amelyek Databricks-et használnak adat- és elemzési platformként az AWS-en a kibontási, átalakítási és betöltési (ETL) feladatok végrehajtásához, a végső cél gyakran egy felügyelt tanulási modell betanítása. Ebben a bejegyzésben bemutatjuk, hogyan integrálódik a Databricks a Ground Truth és Amazon SageMaker adatcímkézéshez és modellelosztáshoz.

Megoldás áttekintése

A Ground Truth egy teljesen felügyelt adatcímkézési szolgáltatás, amely megkönnyíti a rendkívül pontos képzési adatkészletek készítését az ML számára. A Ground Truth konzolon keresztül percek alatt készíthetünk egyedi vagy beépített adatcímkézési munkafolyamatokat. Ezek a munkafolyamatok számos felhasználási esetet támogatnak, beleértve a 3D pontfelhőket, videókat, képeket és szöveget. Ezenkívül a Ground Truth automatikus adatcímkézést is kínál, amely ML modellt használ adataink címkézésére.

Modellünket a nyilvánosan elérhető Amazon Customer Reviews adatkészleten tanítjuk. Magas szinten a lépések a következők:

Bontsa ki a címkézendő nyers adatkészletet, és helyezze át Amazon egyszerű tárolási szolgáltatás (Amazon S3).
Végezze el a címkézést egy címkézési feladat létrehozásával a SageMakerben.
Készítsen és képezzen egy egyszerű Scikit-learn lineáris tanulói modellt, hogy osztályozza a vélemény szövegének hangulatát a Databricks platformon egy minta segítségével jegyzetfüzet.
Felhasználás MLflow összetevőket az MLOp létrehozásához és végrehajtásához, valamint a modell melléktermékeinek mentéséhez.
Telepítse a modellt SageMaker-végpontként a MLflow SageMaker könyvtár valós idejű következtetéshez.

A következő diagram a címkézést és az ML-utat mutatja be a Ground Truth és az MLflow használatával.

Hozzon létre egy címkézési feladatot a SageMakerben

Az Amazon Customer Reviews adatkészletből csak a szöveges részeket bontjuk ki, mivel hangulatelemzési modellt építünk. A kibontás után a szöveget egy S3 vödörbe helyezzük, majd létrehozunk egy Ground Truth címkézési feladatot a SageMaker konzolon keresztül.

A Címkézési feladat létrehozása oldalon töltse ki az összes kötelező mezőt. Az ezen az oldalon található lépés részeként a Ground Truth lehetővé teszi a munkajegyzékfájl létrehozását. A Ground Truth a bemeneti jegyzékfájlt használja a fájlok vagy objektumok számának azonosítására a címkézési feladatban, így a megfelelő számú feladat jön létre, és kerül elküldésre az emberi (vagy gépi) címkézőknek. A fájl automatikusan mentésre kerül az S3 tárolóba. A következő lépés a feladatkategória és a feladatkiválasztás megadása. Ebben a felhasználási esetben mi választjuk szöveg feladatkategóriaként, és Szöveg osztályozása egyetlen címkével a feladat kiválasztásához, ami azt jelenti, hogy az áttekintés szövegének egyetlen érzése lesz: pozitív, negatív vagy semleges.

Végül egyszerű, de tömör utasításokat írunk a címkézőknek a szöveges adatok címkézéséhez. Az utasítások megjelennek a címkéző eszközön, és opcionálisan megtekintheti az annotátor nézetét. Végül beküldjük a munkát, és a konzolon nyomon követjük a folyamatot.

Amíg a címkézési munka folyamatban van, megtekinthetjük a címkézett adatokat is teljesítmény lapon. Figyelni tudjuk az egyes vélemények szövegeit és címkéit, valamint azt, hogy a munkát ember vagy gép végezte-e. Kiválaszthatjuk a címkézési munkák 100%-át ember által elvégzésre, vagy választhatunk gépi annotációt, ami felgyorsítja a munkát és csökkenti a munkaerőköltségeket.

Amikor a feladat befejeződött, a címkézési feladat összegzése hivatkozásokat tartalmaz a kimeneti jegyzékre és a címkézett adatkészletre. Ugorhatunk az Amazon S3-ra is, és mindkettőt letölthetjük az S3 bucket mappánkból.

Hozzon létre egy MLOps hangulatelemző folyamatot az Amazon SageMaker Ground Truth és Databricks MLflow PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

A következő lépésekben egy Databricks jegyzetfüzetet használunk, MLflowés a Ground Truth által címkézett adatkészletek létrehozásához a Scikit elsajátítható modell.

Töltse le a címkézett adatkészletet az Amazon S3 webhelyről

Kezdjük azzal, hogy letöltjük a címkézett adatkészletet az Amazon S3-ról. A jegyzéket JSON formátumban mentjük, és betöltjük egy Spark DataFrame-be a Databricksben. A hangulatelemzési modell betanításához csak a Ground Truth címkézési feladat által jegyzett áttekintés szövegére és véleményére van szükségünk. A select() segítségével kinyerjük ezt a két jellemzőt. Ezután az adatkészletet PySpark DataFrame-ből Pandas DataFrame-re konvertáljuk, mivel a Scikit-learn algoritmushoz Pandas DataFrame formátumra van szükség.

Ezután a Scikit-learnt használjuk CountVectorizer hogy az áttekintés szövegét biggram vektormá alakítsa a beállításával ngram_range max értéke 2. CountVectorizer a szöveget tokenszámok mátrixává alakítja. Akkor használjuk TfidfTransformer hogy a bigramvektort terminus-frekvencia-inverz dokumentumfrekvenciás (TF-IDF) formátummá alakítsuk át.

Összehasonlítjuk a bigramvektorral végzett edzés pontossági pontszámait a TF-IDF-fel végzett bigrammal végzett edzéseknél. A TF-IDF egy statisztikai mérőszám, amely értékeli, hogy egy szó mennyire releváns egy dokumentumgyűjteményben lévő dokumentum szempontjából. Mivel az áttekintés szövege általában viszonylag rövid, megfigyelhetjük, hogy a TF-IDF hogyan befolyásolja a prediktív modell teljesítményét.

Hozzon létre egy MLOps hangulatelemző folyamatot az Amazon SageMaker Ground Truth és Databricks MLflow PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Állítson be egy MLflow-kísérletet

Az MLflow-t a Databricks fejlesztette ki, és ma már egy nyílt forráskódú projekt. Az MLflow kezeli az ML életciklusát, így könnyen nyomon követheti, újra létrehozhatja és közzéteheti a kísérleteket.

Az MLflow kísérletek beállításához használjuk mlflow.sklearn.autolog() a hiperparaméterek, metrikák és modelltermékek automatikus naplózásának engedélyezése bármikor estimator.fit(), estimator.fit_predict(), és a estimator.fit_transform() hívják. Alternatív megoldásként ezt manuálisan is megteheti hívással mlflow.log_param() és a mlflow.log_metric().

A transzformált adatkészletet egy lineáris osztályozóhoz illesztettük sztochasztikus gradiens süllyedés (SGD) tanulással. Az SGD-vel a veszteség gradiensét egyenként becsülik meg, és a modellt menet közben frissítik egy csökkenő erősségű ütemezéssel.

A korábban elkészített két adatkészletet átadjuk a train_and_show_scores() funkció az edzéshez. A képzés után regisztrálnunk kell egy modellt, és el kell mentenünk a műtárgyait. Használjuk mlflow.sklearn.log_model() megtenni.

Üzembe helyezés előtt megnézzük a kísérlet eredményeit, és kiválasztunk két kísérletet (az egyiket a bigramhoz, a másikat a TF-IDF-fel használt bigramhoz) az összehasonlításhoz. A mi használati esetünkben a második, nagyméretű TF-IDF-fel betanított modell valamivel jobban teljesített, ezért ezt a modellt választjuk a telepítéshez. A modell regisztrálása után üzembe helyezzük a modellt, átállítva a modell szakaszát gyártásra. Ezt meg tudjuk valósítani az MLflow felhasználói felületen, vagy a kód használatával transition_model_version_stage().

Hozzon létre egy MLOps hangulatelemző folyamatot az Amazon SageMaker Ground Truth és Databricks MLflow PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Telepítse és tesztelje a modellt SageMaker-végpontként

A betanított modell üzembe helyezése előtt létre kell hoznunk egy Docker-tárolót, amely a SageMakerben tárolja a modellt. Ezt egy egyszerű MLflow parancs futtatásával tehetjük meg, amely felépíti és továbbítja a tárolót Amazon Elastic Container Registry (Amazon ECR) az AWS-fiókunkban.

A kép URI-ját most az Amazon ECR konzolon találjuk. A kép URI-ját an image_url paramétert és használatát DEPLOYMENT_MODE_CREATE a mód paraméterhez, ha ez egy új telepítés. Ha egy meglévő végpontot frissít egy új verzióval, használja DEPLOYMENT_MODE_REPLACE.

A SageMaker végpont teszteléséhez hozunk létre egy függvényt, amely paraméterként a végpont nevét és a bemeneti adatokat veszi fel.

Hozzon létre egy MLOps hangulatelemző folyamatot az Amazon SageMaker Ground Truth és Databricks MLflow PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Következtetés

Ebben a bejegyzésben megmutattuk, hogyan használhatja a Ground Truth-ot egy nyers adatkészlet címkézésére, és hogyan használhatja a címkézett adatokat egy egyszerű lineáris osztályozó betanításához a Scikit-learn segítségével. Ebben a példában az MLflow-t használjuk a hiperparaméterek és metrikák nyomon követésére, egy éles szintű modell regisztrálására, és a betanított modell végpontként történő üzembe helyezésére a SageMakerben. Az adatok feldolgozására szolgáló Databricks mellett ez a teljes használati eset automatizálható, így az új adatok bekerülésekor felcímkézhetők és feldolgozhatók a modellbe. Ezen folyamatok és modellek automatizálásával az adattudományi csapatok új felhasználási esetekre összpontosíthatnak, és több betekintést nyerhetnek ahelyett, hogy a napi adatfrissítések kezelésével töltenék idejüket.

A kezdéshez nézze meg Az adatok címkézéséhez használja az Amazon SageMaker Ground Truth alkalmazást és iratkozz fel a A Databricks 14 napos ingyenes próbaverziója az AWS-en. Ha többet szeretne megtudni arról, hogyan integrálódik a Databricks a SageMakerrel, valamint más AWS-szolgáltatásokkal, mint pl AWS ragasztó és a Amazon RedShiftLátogasson el Databricks az AWS-en.

Ezenkívül tekintse meg a következő, ebben a bejegyzésben használt forrásokat:

Használja a következőket jegyzetfüzet az induláshoz.

A szerzőkről

Hozzon létre egy MLOps hangulatelemző folyamatot az Amazon SageMaker Ground Truth és Databricks MLflow PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai. Rumi Olsen az AWS Partnerprogram megoldástervezője. Jelenlegi szerepkörében szerver nélküli és gépi tanulási megoldásokra specializálódott, és természetes nyelvi feldolgozási technológiák terén szerzett hátteret. Szabadidejének nagy részét lányával tölti a Pacific Northwest természetének felfedezésével.

Igor Alekseev az AWS adat- és elemzési partner megoldástervezője. Igor stratégiai partnerekkel dolgozik együtt, segítve őket komplex, AWS-optimalizált architektúrák felépítésében. Mielőtt Data/Solution Architect-ként csatlakozott az AWS-hez, számos Big Data-projektet valósított meg, beleértve a Hadoop ökoszisztéma több adattóját is. Adatmérnökként az AI/ML csalásfelderítésben és irodaautomatizálásban való alkalmazásában vett részt. Igor projektjei számos iparágban zajlottak, beleértve a kommunikációt, a pénzügyet, a közbiztonságot, a gyártást és az egészségügyet. Korábban Igor full stack mérnökként/technikai vezetőként dolgozott.

Naseer Ahmed a Databricks Sr. Partner Solutions Architect, aki támogatja az AWS üzletágát. A Naseer adattárházzal, üzleti intelligenciával, alkalmazásfejlesztéssel, konténerekkel, kiszolgáló nélküli és gépi tanulási architektúrákkal foglalkozik az AWS-en. A Databricks 2021-ben az év kkv-jának választotta, és lelkes kripto-rajongó.

Időbélyeg: April 4, 2022

Az Amazon Textract és az Amazon Polly PlatoBlockchain Data Intelligence segítségével lehetővé teheti a gyengénlátók számára, hogy meghallgassák a dokumentumokat. Függőleges keresés. Ai.

Engedélyezze a látássérültek számára a dokumentumok meghallgatását az Amazon Textract és az Amazon Polly segítségével

Forrás klaszter:

AWS gépi tanulás

Forrás csomópont: 1197157

Időbélyeg: 3. március 2022.

Építsen fel egy MLOps hangulatelemző folyamatot az Amazon SageMaker Ground Truth és Databricks MLflow segítségével

Újra kiadta Platón

Megoldás áttekintése

Hozzon létre egy címkézési feladatot a SageMakerben

Töltse le a címkézett adatkészletet az Amazon S3 webhelyről

Állítson be egy MLflow-kísérletet

Telepítse és tesztelje a modellt SageMaker-végpontként

Következtetés

A szerzőkről

Még több AWS gépi tanulás

Hatékonyan képezhet, hangolhat és telepíthet egyedi együtteseket az Amazon SageMaker | segítségével Amazon webszolgáltatások

Útmutató az AI/ML-hez az AWS re:Invent 2022-ben

Készítsen tényellenes elemzést a kukorica nitrogénre adott válaszáról az Amazon SageMaker JumpStart megoldásokkal

Telepítsen nagy nyelvi modelleket az AWS Inferentia2-n nagy modellkövetkeztetési tárolók használatával

Futtassa a notebookokat kötegelt munkákként az Amazon SageMaker Studio Labban

Intelligens dokumentumfeldolgozás AWS AI szolgáltatásokkal: 2. rész

Engedélyezze a látássérültek számára a dokumentumok meghallgatását az Amazon Textract és az Amazon Polly segítségével

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók