Ahogy egyre több szervezet tér át a gépi tanulásra (ML), hogy mélyebb betekintést nyerjen, két fő akadályba ütköznek, a címkézés és az életciklus-kezelés. A címkézés az adatok azonosítása és címkék hozzáadása a kontextus biztosításához, hogy az ML-modell tanulhasson belőle. A címkék jelezhetnek egy kifejezést egy hangfájlban, egy autót a fényképen, vagy egy szervet az MRI-n. Az adatcímkézés szükséges ahhoz, hogy az ML-modellek az adatokkal szemben működjenek. Az életciklus-kezelés egy ML-kísérlet beállításának folyamatához, valamint az eredmények eléréséhez használt adatkészlet, könyvtár, verzió és modell dokumentálásához kapcsolódik. Egy csapat több száz kísérletet futtathat le, mielőtt egy megközelítés mellett döntene. A visszalépés és a megközelítés újraalkotása nehéz lehet a kísérlet elemeinek feljegyzése nélkül.
Sok ML-példa és oktatóanyag célértéket tartalmazó adatkészlettel kezdődik. A valós adatoknak azonban nem mindig van ilyen célértéke. Például a hangulatelemzés során egy személy általában képes megítélni, hogy egy értékelés pozitív, negatív vagy vegyes. Ám a recenziók olyan szöveggyűjteményből állnak, amelyhez nincs ítélőérték. Létrehozása érdekében a felügyelt tanulás A probléma megoldásához elengedhetetlen egy jó minőségű címkézett adatkészlet. Amazon SageMaker Ground Truth egy teljesen felügyelt adatcímkéző szolgáltatás, amely megkönnyíti a rendkívül pontos képzési adatkészletek készítését az ML számára.
Azon szervezetek számára, amelyek Databricks-et használnak adat- és elemzési platformként az AWS-en a kibontási, átalakítási és betöltési (ETL) feladatok végrehajtásához, a végső cél gyakran egy felügyelt tanulási modell betanítása. Ebben a bejegyzésben bemutatjuk, hogyan integrálódik a Databricks a Ground Truth és Amazon SageMaker adatcímkézéshez és modellelosztáshoz.
Megoldás áttekintése
A Ground Truth egy teljesen felügyelt adatcímkézési szolgáltatás, amely megkönnyíti a rendkívül pontos képzési adatkészletek készítését az ML számára. A Ground Truth konzolon keresztül percek alatt készíthetünk egyedi vagy beépített adatcímkézési munkafolyamatokat. Ezek a munkafolyamatok számos felhasználási esetet támogatnak, beleértve a 3D pontfelhőket, videókat, képeket és szöveget. Ezenkívül a Ground Truth automatikus adatcímkézést is kínál, amely ML modellt használ adataink címkézésére.
Modellünket a nyilvánosan elérhető Amazon Customer Reviews adatkészleten tanítjuk. Magas szinten a lépések a következők:
- Bontsa ki a címkézendő nyers adatkészletet, és helyezze át Amazon egyszerű tárolási szolgáltatás (Amazon S3).
- Végezze el a címkézést egy címkézési feladat létrehozásával a SageMakerben.
- Készítsen és képezzen egy egyszerű Scikit-learn lineáris tanulói modellt, hogy osztályozza a vélemény szövegének hangulatát a Databricks platformon egy minta segítségével jegyzetfüzet.
- Felhasználás MLflow összetevőket az MLOp létrehozásához és végrehajtásához, valamint a modell melléktermékeinek mentéséhez.
- Telepítse a modellt SageMaker-végpontként a MLflow SageMaker könyvtár valós idejű következtetéshez.
A következő diagram a címkézést és az ML-utat mutatja be a Ground Truth és az MLflow használatával.
Hozzon létre egy címkézési feladatot a SageMakerben
Az Amazon Customer Reviews adatkészletből csak a szöveges részeket bontjuk ki, mivel hangulatelemzési modellt építünk. A kibontás után a szöveget egy S3 vödörbe helyezzük, majd létrehozunk egy Ground Truth címkézési feladatot a SageMaker konzolon keresztül.
A Címkézési feladat létrehozása oldalon töltse ki az összes kötelező mezőt. Az ezen az oldalon található lépés részeként a Ground Truth lehetővé teszi a munkajegyzékfájl létrehozását. A Ground Truth a bemeneti jegyzékfájlt használja a fájlok vagy objektumok számának azonosítására a címkézési feladatban, így a megfelelő számú feladat jön létre, és kerül elküldésre az emberi (vagy gépi) címkézőknek. A fájl automatikusan mentésre kerül az S3 tárolóba. A következő lépés a feladatkategória és a feladatkiválasztás megadása. Ebben a felhasználási esetben mi választjuk szöveg feladatkategóriaként, és Szöveg osztályozása egyetlen címkével a feladat kiválasztásához, ami azt jelenti, hogy az áttekintés szövegének egyetlen érzése lesz: pozitív, negatív vagy semleges.
Végül egyszerű, de tömör utasításokat írunk a címkézőknek a szöveges adatok címkézéséhez. Az utasítások megjelennek a címkéző eszközön, és opcionálisan megtekintheti az annotátor nézetét. Végül beküldjük a munkát, és a konzolon nyomon követjük a folyamatot.
Amíg a címkézési munka folyamatban van, megtekinthetjük a címkézett adatokat is teljesítmény lapon. Figyelni tudjuk az egyes vélemények szövegeit és címkéit, valamint azt, hogy a munkát ember vagy gép végezte-e. Kiválaszthatjuk a címkézési munkák 100%-át ember által elvégzésre, vagy választhatunk gépi annotációt, ami felgyorsítja a munkát és csökkenti a munkaerőköltségeket.
Amikor a feladat befejeződött, a címkézési feladat összegzése hivatkozásokat tartalmaz a kimeneti jegyzékre és a címkézett adatkészletre. Ugorhatunk az Amazon S3-ra is, és mindkettőt letölthetjük az S3 bucket mappánkból.
A következő lépésekben egy Databricks jegyzetfüzetet használunk, MLflowés a Ground Truth által címkézett adatkészletek létrehozásához a Scikit elsajátítható modell.
Töltse le a címkézett adatkészletet az Amazon S3 webhelyről
Kezdjük azzal, hogy letöltjük a címkézett adatkészletet az Amazon S3-ról. A jegyzéket JSON formátumban mentjük, és betöltjük egy Spark DataFrame-be a Databricksben. A hangulatelemzési modell betanításához csak a Ground Truth címkézési feladat által jegyzett áttekintés szövegére és véleményére van szükségünk. A select() segítségével kinyerjük ezt a két jellemzőt. Ezután az adatkészletet PySpark DataFrame-ből Pandas DataFrame-re konvertáljuk, mivel a Scikit-learn algoritmushoz Pandas DataFrame formátumra van szükség.
Ezután a Scikit-learnt használjuk CountVectorizer
hogy az áttekintés szövegét biggram vektormá alakítsa a beállításával ngram_range
max értéke 2. CountVectorizer
a szöveget tokenszámok mátrixává alakítja. Akkor használjuk TfidfTransformer
hogy a bigramvektort terminus-frekvencia-inverz dokumentumfrekvenciás (TF-IDF) formátummá alakítsuk át.
Összehasonlítjuk a bigramvektorral végzett edzés pontossági pontszámait a TF-IDF-fel végzett bigrammal végzett edzéseknél. A TF-IDF egy statisztikai mérőszám, amely értékeli, hogy egy szó mennyire releváns egy dokumentumgyűjteményben lévő dokumentum szempontjából. Mivel az áttekintés szövege általában viszonylag rövid, megfigyelhetjük, hogy a TF-IDF hogyan befolyásolja a prediktív modell teljesítményét.
Állítson be egy MLflow-kísérletet
Az MLflow-t a Databricks fejlesztette ki, és ma már egy nyílt forráskódú projekt. Az MLflow kezeli az ML életciklusát, így könnyen nyomon követheti, újra létrehozhatja és közzéteheti a kísérleteket.
Az MLflow kísérletek beállításához használjuk mlflow.sklearn.autolog()
a hiperparaméterek, metrikák és modelltermékek automatikus naplózásának engedélyezése bármikor estimator.fit()
, estimator.fit_predict()
, és a estimator.fit_transform()
hívják. Alternatív megoldásként ezt manuálisan is megteheti hívással mlflow.log_param()
és a mlflow.log_metric()
.
A transzformált adatkészletet egy lineáris osztályozóhoz illesztettük sztochasztikus gradiens süllyedés (SGD) tanulással. Az SGD-vel a veszteség gradiensét egyenként becsülik meg, és a modellt menet közben frissítik egy csökkenő erősségű ütemezéssel.
A korábban elkészített két adatkészletet átadjuk a train_and_show_scores()
funkció az edzéshez. A képzés után regisztrálnunk kell egy modellt, és el kell mentenünk a műtárgyait. Használjuk mlflow.sklearn.log_model()
megtenni.
Üzembe helyezés előtt megnézzük a kísérlet eredményeit, és kiválasztunk két kísérletet (az egyiket a bigramhoz, a másikat a TF-IDF-fel használt bigramhoz) az összehasonlításhoz. A mi használati esetünkben a második, nagyméretű TF-IDF-fel betanított modell valamivel jobban teljesített, ezért ezt a modellt választjuk a telepítéshez. A modell regisztrálása után üzembe helyezzük a modellt, átállítva a modell szakaszát gyártásra. Ezt meg tudjuk valósítani az MLflow felhasználói felületen, vagy a kód használatával transition_model_version_stage()
.
Telepítse és tesztelje a modellt SageMaker-végpontként
A betanított modell üzembe helyezése előtt létre kell hoznunk egy Docker-tárolót, amely a SageMakerben tárolja a modellt. Ezt egy egyszerű MLflow parancs futtatásával tehetjük meg, amely felépíti és továbbítja a tárolót Amazon Elastic Container Registry (Amazon ECR) az AWS-fiókunkban.
A kép URI-ját most az Amazon ECR konzolon találjuk. A kép URI-ját an image_url
paramétert és használatát DEPLOYMENT_MODE_CREATE
a mód paraméterhez, ha ez egy új telepítés. Ha egy meglévő végpontot frissít egy új verzióval, használja DEPLOYMENT_MODE_REPLACE
.
A SageMaker végpont teszteléséhez hozunk létre egy függvényt, amely paraméterként a végpont nevét és a bemeneti adatokat veszi fel.
Következtetés
Ebben a bejegyzésben megmutattuk, hogyan használhatja a Ground Truth-ot egy nyers adatkészlet címkézésére, és hogyan használhatja a címkézett adatokat egy egyszerű lineáris osztályozó betanításához a Scikit-learn segítségével. Ebben a példában az MLflow-t használjuk a hiperparaméterek és metrikák nyomon követésére, egy éles szintű modell regisztrálására, és a betanított modell végpontként történő üzembe helyezésére a SageMakerben. Az adatok feldolgozására szolgáló Databricks mellett ez a teljes használati eset automatizálható, így az új adatok bekerülésekor felcímkézhetők és feldolgozhatók a modellbe. Ezen folyamatok és modellek automatizálásával az adattudományi csapatok új felhasználási esetekre összpontosíthatnak, és több betekintést nyerhetnek ahelyett, hogy a napi adatfrissítések kezelésével töltenék idejüket.
A kezdéshez nézze meg Az adatok címkézéséhez használja az Amazon SageMaker Ground Truth alkalmazást és iratkozz fel a A Databricks 14 napos ingyenes próbaverziója az AWS-en. Ha többet szeretne megtudni arról, hogyan integrálódik a Databricks a SageMakerrel, valamint más AWS-szolgáltatásokkal, mint pl AWS ragasztó és a Amazon RedShiftLátogasson el Databricks az AWS-en.
Ezenkívül tekintse meg a következő, ebben a bejegyzésben használt forrásokat:
Használja a következőket jegyzetfüzet az induláshoz.
A szerzőkről
Rumi Olsen az AWS Partnerprogram megoldástervezője. Jelenlegi szerepkörében szerver nélküli és gépi tanulási megoldásokra specializálódott, és természetes nyelvi feldolgozási technológiák terén szerzett hátteret. Szabadidejének nagy részét lányával tölti a Pacific Northwest természetének felfedezésével.
Igor Alekseev az AWS adat- és elemzési partner megoldástervezője. Igor stratégiai partnerekkel dolgozik együtt, segítve őket komplex, AWS-optimalizált architektúrák felépítésében. Mielőtt Data/Solution Architect-ként csatlakozott az AWS-hez, számos Big Data-projektet valósított meg, beleértve a Hadoop ökoszisztéma több adattóját is. Adatmérnökként az AI/ML csalásfelderítésben és irodaautomatizálásban való alkalmazásában vett részt. Igor projektjei számos iparágban zajlottak, beleértve a kommunikációt, a pénzügyet, a közbiztonságot, a gyártást és az egészségügyet. Korábban Igor full stack mérnökként/technikai vezetőként dolgozott.
Naseer Ahmed a Databricks Sr. Partner Solutions Architect, aki támogatja az AWS üzletágát. A Naseer adattárházzal, üzleti intelligenciával, alkalmazásfejlesztéssel, konténerekkel, kiszolgáló nélküli és gépi tanulási architektúrákkal foglalkozik az AWS-en. A Databricks 2021-ben az év kkv-jának választotta, és lelkes kripto-rajongó.
- Coinsmart. Európa legjobb Bitcoin- és kriptográfiai tőzsdéje.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. SZABAD HOZZÁFÉRÉS.
- CryptoHawk. Altcoin radar. Ingyenes próbaverzió.
- Forrás: https://aws.amazon.com/blogs/machine-learning/build-an-mlops-sentiment-analysis-pipeline-using-amazon-sagemaker-ground-truth-and-databricks-mlflow/
- "
- 100
- 2021
- 3d
- Rólunk
- Fiók
- pontos
- mellett
- algoritmus
- Minden termék
- amazon
- elemzés
- analitika
- app
- App fejlesztés
- Alkalmazása
- megközelítés
- hang-
- auto
- Automatizálás
- elérhető
- AWS
- háttér
- alap
- Big adatok
- épít
- Épület
- épít
- beépített
- üzleti
- üzleti intelligencia
- autó
- esetek
- Kategória
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- besorolás
- kód
- gyűjtemény
- távközlés
- bonyolult
- Konzol
- Konténer
- tartalmaz
- kiadások
- készítette
- létrehozása
- crypto
- Jelenlegi
- szokás
- dátum
- adat-tudomány
- mélyebb
- telepíteni
- bevezetéséhez
- bevetés
- Érzékelés
- fejlett
- Fejlesztés
- nehéz
- terjesztés
- Dokkmunkás
- dokumentumok
- Nem
- hajtás
- könnyen
- ökoszisztéma
- lehetővé
- Endpoint
- mérnök
- alapvető
- becsült
- példa
- kísérlet
- Jellemzők
- Fields
- Végül
- finanszíroz
- megfelelő
- Összpontosít
- következő
- formátum
- csalás
- Ingyenes
- Tele
- funkció
- generál
- cél
- megy
- egészségügyi
- Magas
- nagyon
- Hogyan
- How To
- HTTPS
- emberi
- Az emberek
- Több száz
- Azonosítás
- azonosítani
- kép
- végre
- Beleértve
- iparágak
- bemenet
- meglátások
- Intelligencia
- részt
- IT
- Munka
- Állások
- Kulcs
- címkézés
- Címkék
- munkaerő
- nyelv
- vezet
- TANUL
- tanulás
- szint
- könyvtár
- linkek
- kiszámításának
- gép
- gépi tanulás
- készült
- KÉSZÍT
- sikerült
- vezetés
- kezelése
- kézzel
- gyártási
- Mátrix
- intézkedés
- Metrics
- vegyes
- ML
- modell
- modellek
- monitor
- több
- a legtöbb
- mozog
- Természetes
- Természet
- jegyzetfüzet
- szám
- Ajánlatok
- érdekében
- szervezetek
- Más
- Csendes-óceán
- partner
- partnerek
- teljesítmény
- person
- emelvény
- pont
- pozitív
- Probléma
- folyamat
- Termelés
- Program
- projektek
- ad
- nyilvános
- közzétesz
- Nyers
- real-time
- nyilvántartások
- Regisztráció
- nyilvántartott
- kötelező
- Tudástár
- Eredmények
- Kritika
- Vélemények
- futás
- futás
- Biztonság
- Tudomány
- érzés
- vagy szerver
- szolgáltatás
- Szolgáltatások
- készlet
- beállítás
- rövid
- Egyszerű
- So
- megoldások
- Megoldások
- SOLVE
- specializálódott
- Költési
- verem
- Színpad
- kezdet
- kezdődött
- statisztikai
- tárolás
- Stratégiai
- támogatás
- Támogató
- cél
- feladatok
- csapat
- Technologies
- teszt
- Keresztül
- idő
- jelképes
- szerszám
- vágány
- Képzések
- Átalakítás
- próba
- oktatóanyagok
- ui
- végső
- feltárni
- Frissítés
- használ
- rendszerint
- érték
- fajta
- videó
- Megnézem
- vajon
- nélkül
- Munka
- dolgozott
- művek
- év