Kuna üha rohkem organisatsioone siirdub masinõppele (ML), et saada sügavamat ülevaadet, on kaks peamist komistuskivi, millega nad kokku puutuvad, märgistamine ja elutsükli haldamine. Märgistamine on andmete tuvastamine ja siltide lisamine konteksti loomiseks, et ML-mudel saaks sellest õppida. Sildid võivad viidata fraasile helifailis, autole fotol või elundile MRI-s. Andmete märgistamine on vajalik selleks, et võimaldada ML-mudelitel andmete vastu töötada. Elutsükli haldamine on seotud ML-eksperimendi seadistamise ja tulemuste saamiseks kasutatava andmekogumi, teegi, versiooni ja mudeli dokumenteerimisega. Meeskond võib enne ühe lähenemisviisi otsustamist läbi viia sadu katseid. Tagasipöördumine ja selle lähenemisviisi uuesti loomine võib olla keeruline ilma selle katse elementide dokumentideta.
Paljud ML-i näited ja õpetused algavad sihtväärtust sisaldava andmekogumiga. Reaalmaailma andmetel ei ole aga alati sellist sihtväärtust. Näiteks tundeanalüüsis saab inimene tavaliselt otsustada, kas ülevaade on positiivne, negatiivne või segane. Kuid arvustused koosnevad tekstikogumitest, millel pole hinnangulist väärtust. Selleks, et luua a juhendatud õppimine Selle probleemi lahendamiseks on vaja kvaliteetset märgistatud andmestikku. Amazon SageMaker Ground Truth on täielikult hallatav andmete märgistamise teenus, mis muudab ML jaoks väga täpsete treeningandmete kogumite loomise lihtsaks.
Organisatsioonide jaoks, kes kasutavad AWS-is oma andmete ja analüüsiplatvormina Databricksi ekstraktimise, teisendamise ja laadimise (ETL) ülesannete täitmiseks, on lõppeesmärk sageli juhendatud õppemudeli koolitamine. Selles postituses näitame, kuidas Databricks integreerub Ground Truthi ja Amazon SageMaker andmete märgistamiseks ja mudelite levitamiseks.
Lahenduse ülevaade
Ground Truth on täielikult hallatav andmete märgistamise teenus, mis muudab ML-i jaoks väga täpsete treeningandmete kogumite loomise lihtsaks. Ground Truthi konsooli kaudu saame luua kohandatud või sisseehitatud andmete sildistamise töövooge minutitega. Need töövood toetavad mitmesuguseid kasutusjuhtumeid, sealhulgas 3D-punktipilvi, videoid, pilte ja teksti. Lisaks pakub Ground Truth automaatset andmete märgistamist, mis kasutab meie andmete märgistamiseks ML-mudelit.
Koolitame oma mudelit avalikult kättesaadava Amazon Customer Reviews andmestiku põhjal. Kõrgel tasemel on sammud järgmised:
- Eraldage märgistatav töötlemata andmekogum ja teisaldage see Amazoni lihtne salvestusteenus (Amazon S3).
- Tehke märgistus, luues SageMakeris märgistustöö.
- Ehitage ja treenige lihtsat Scikit-learni lineaarset õppijamudelit, et klassifitseerida arvustuse teksti tundeid Databricksi platvormil näidise abil märkmik.
- Kasutama MLflow komponendid MLO-de loomiseks ja teostamiseks ning mudeli artefaktide salvestamiseks.
- Juurutage mudel SageMakeri lõpp-punktina, kasutades MLflow SageMakeri teek reaalajas järelduste tegemiseks.
Järgmine diagramm illustreerib märgistamist ja ML-teekonda Ground Truthi ja MLflow abil.
Looge SageMakeris märgistustöö
Amazoni klientide arvustuste andmestikku eraldame ainult tekstiosad, kuna loome sentimentaalanalüüsi mudelit. Pärast ekstraheerimist paneme teksti S3 ämbrisse ja loome seejärel SageMakeri konsooli kaudu Ground Truthi märgistustöö.
Kohta Loo märgistustöö lehel täitke kõik nõutavad väljad. Selle lehe toimingu osana võimaldab Ground Truth teil luua töö manifesti faili. Ground Truth kasutab sisendmanifesti faili, et tuvastada sildistamistöös olevate failide või objektide arv, nii et luuakse õige arv ülesandeid ja saadetakse need inimeste (või masinate) sildistajatesse. Fail salvestatakse automaatselt S3 ämbrisse. Järgmine samm on ülesande kategooria ja ülesande valiku täpsustamine. Sel kasutusjuhul valime Tekst ülesande kategooriana ja Teksti liigitus ühe ülesande valiku sildiga, mis tähendab, et arvustuse tekstil on üks tunne: positiivne, negatiivne või neutraalne.
Lõpuks kirjutame märgistajatele lihtsad, kuid ülevaatlikud juhised tekstiandmete sildistamise kohta. Juhised kuvatakse märgistamistööriistal ja saate soovi korral annotaatori vaate üle vaadata. Lõpuks esitame töö ja jälgime konsooli edenemist.
Samal ajal kui märgistustöö on pooleli, saame vaadata ka märgistatud andmeid Väljund sakk. Saame jälgida iga arvustuse teksti ja silti ning seda, kas töö tegi inimene või masin. Saame valida 100% märgistamistöödest inimeste teha või valida masinmärkuse, mis kiirendab tööd ja vähendab tööjõukulusid.
Kui töö on lõpetatud, sisaldab sildistamistöö kokkuvõte linke väljundmanifesti ja märgistatud andmestiku juurde. Võime minna ka Amazon S3-le ja mõlemad oma S3 ämbrikaustast alla laadida.
Järgmistes sammudes kasutame Databricksi märkmikku, MLflow, ja Ground Truthiga märgistatud andmestikud, et luua a Scikit-õppida mudel.
Laadige Amazon S3-st alla märgistatud andmestik
Alustuseks laadime Amazon S3-st alla märgistatud andmestiku. Manifest salvestatakse JSON-vormingus ja laadime selle Databricksi Spark DataFrame'i. Sentimentide analüüsi mudeli koolitamiseks vajame ainult ülevaateteksti ja arvamust, mis on märgitud Ground Truthi märgistamistööga. Nende kahe funktsiooni eraldamiseks kasutame select(). Seejärel teisendame andmestiku PySpark DataFrame'ist Panda DataFrame'iks, kuna Scikit-learn algoritm nõuab Pandas DataFrame'i vormingut.
Järgmisena kasutame Scikit-learni CountVectorizer
arvustuse teksti muutmiseks bigmvektoriks, määrates ngram_range
maksimaalne väärtus kuni 2. CountVectorizer
teisendab teksti märkide arvu maatriksiks. Siis kasutame TfidfTransformer
et teisendada bigramm-vektorit terminisagedus-pöörddokumentide sageduse (TF-IDF) vormingusse.
Võrdleme bigrammivektoriga tehtud treeningute täpsusskoore ja TF-IDF-i bigrammi. TF-IDF on statistiline mõõt, mis hindab, kui asjakohane sõna on dokumendikogus oleva dokumendi jaoks. Kuna ülevaatetekst kipub olema suhteliselt lühike, saame jälgida, kuidas TF-IDF mõjutab ennustava mudeli jõudlust.
Seadistage MLflow katse
MLflow töötas välja Databricks ja see on nüüd avatud lähtekoodiga projekt. MLflow haldab ML-i elutsüklit, nii et saate katseid hõlpsalt jälgida, uuesti luua ja avaldada.
MLflow katsete seadistamiseks kasutame mlflow.sklearn.autolog()
hüperparameetrite, mõõdikute ja mudeliartefaktide automaatseks logimiseks igal ajal estimator.fit()
, estimator.fit_predict()
, ja estimator.fit_transform()
kutsutakse. Teise võimalusena saate seda teha käsitsi, helistades mlflow.log_param()
ja mlflow.log_metric()
.
Paigaldame teisendatud andmestiku lineaarsesse klassifikaatorisse stohhastilise gradiendi laskumise (SGD) õppimisega. SGD puhul hinnatakse kao gradienti üks proov korraga ja mudelit uuendatakse koos väheneva tugevusgraafikuga.
Need kaks varem koostatud andmekogumit edastatakse train_and_show_scores()
funktsioon treenimiseks. Pärast koolitust peame mudeli registreerima ja selle artefaktid salvestama. Me kasutame mlflow.sklearn.log_model()
seda teha.
Enne juurutamist vaatame katse tulemusi ja valime võrdlemiseks kaks katset (üks bigrammi jaoks ja teine TF-IDF-iga bigrammi jaoks). Meie kasutusjuhtumil toimis teine biggrammi TF-IDF-iga treenitud mudel veidi paremini, seega valime selle mudeli kasutuselevõtuks. Pärast mudeli registreerimist juurutame mudeli, muutes mudeli etapi tootmiseks. Saame seda teha MLflow kasutajaliideses või koodi kasutades transition_model_version_stage()
.
Mudeli juurutamine ja testimine SageMakeri lõpp-punktina
Enne koolitatud mudeli juurutamist peame mudeli SageMakeris majutamiseks ehitama Dockeri konteineri. Teeme seda, käivitades lihtsa MLflow-käsu, mis koostab ja suunab konteineri sinna Amazoni elastsete konteinerite register (Amazon ECR) meie AWS-i kontol.
Nüüd leiame pildi URI Amazon ECR konsoolilt. Edastame pildi URI kui a image_url
parameeter ja kasutamine DEPLOYMENT_MODE_CREATE
režiimi parameetri jaoks, kui see on uus juurutus. Kui värskendate olemasolevat lõpp-punkti uue versiooniga, kasutage DEPLOYMENT_MODE_REPLACE
.
SageMakeri lõpp-punkti testimiseks loome funktsiooni, mis võtab parameetriteks lõpp-punkti nime ja sisendandmed.
Järeldus
Selles postituses näitasime teile, kuidas kasutada Ground Truthi töötlemata andmestiku märgistamiseks ja märgistatud andmete abil lihtsa lineaarse klassifikaatori koolitamiseks Scikit-learni abil. Selles näites kasutame MLflow-d hüperparameetrite ja mõõdikute jälgimiseks, tootmistaseme mudeli registreerimiseks ja koolitatud mudeli juurutamiseks SageMakerisse lõpp-punktina. Koos andmete töötlemisega Databricksiga saate kogu selle kasutusjuhtumi automatiseerida, nii et uute andmete kasutuselevõtul saab neid sildistada ja mudelisse töödelda. Nende torustike ja mudelite automatiseerimisega saavad andmeteaduse meeskonnad keskenduda uutele kasutusjuhtudele ja avastada rohkem teadmisi, selle asemel, et kulutada aega igapäevase andmete värskenduste haldamisele.
Alustamiseks vaadake Kasutage andmete märgistamiseks Amazon SageMaker Ground Truthi ja registreeruge a Databricksi 14-päevane tasuta prooviversioon AWS-is. Lisateabe saamiseks selle kohta, kuidas Databricks integreerub SageMakeriga, aga ka muude AWS-teenustega, nagu AWS liim ja Amazoni punane niheKülastage Andmekivid AWS-is.
Lisaks vaadake järgmisi selles postituses kasutatud ressursse:
Kasutage järgmist märkmik alustada.
Autoritest
Rumi Olsen on lahenduste arhitekt AWS-i partnerprogrammis. Ta on oma praeguses rollis spetsialiseerunud serverita ja masinõppe lahendustele ning tal on loomuliku keele töötlemise tehnoloogiate taust. Ta veedab suurema osa oma vabast ajast koos tütrega Vaikse ookeani loodeosa loodust uurides.
Igor Alekseev on AWS-i andmete ja analüüsi partnerlahenduste arhitekt. Igor teeb koostööd strateegiliste partneritega, aidates neil ehitada keerulisi AWS-i jaoks optimeeritud arhitektuure. Enne AWS-iga liitumist rakendas ta andmete/lahenduste arhitektina paljusid suurandmete projekte, sealhulgas mitut Hadoopi ökosüsteemi andmejärve. Andmeinsenerina oli ta seotud AI/ML rakendamisega pettuste tuvastamisel ja kontori automatiseerimisel. Igori projektid olid seotud erinevates tööstusharudes, sealhulgas side, rahandus, avalik turvalisus, tootmine ja tervishoid. Varem töötas Igor täisinsenerina/tehnilise juhina.
Naseer Ahmed on Databricksi vanem partnerlahenduste arhitekt, kes toetab selle AWS-äri. Naseer on spetsialiseerunud AWS-i andmeladustamisele, äriteabele, rakenduste arendamisele, konteineritele, serverita ja masinõppearhitektuuridele. Ta valiti Databricksis 2021. aasta VKE-ks ja ta on innukas krüptoentusiast.
- Münditark. Euroopa parim Bitcoini ja krüptobörs.
- Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. TASUTA PÄÄS.
- CryptoHawk. Altcoini radar. Tasuta prooviversioon.
- Allikas: https://aws.amazon.com/blogs/machine-learning/build-an-mlops-sentiment-analysis-pipeline-using-amazon-sagemaker-ground-truth-and-databricks-mlflow/
- "
- 100
- 2021
- 3d
- MEIST
- konto
- täpne
- lisamine
- algoritm
- Materjal: BPA ja flataatide vaba plastik
- Amazon
- analüüs
- analytics
- app
- Rakenduste arendamine
- Rakendades
- lähenemine
- heli-
- auto
- Automaatika
- saadaval
- AWS
- tagapõhi
- alus
- Big andmed
- ehitama
- Ehitus
- Ehitab
- sisseehitatud
- äri
- ärianalüüsi
- auto
- juhtudel
- Kategooria
- Vali
- klassifikatsioon
- kood
- kogumine
- Side
- keeruline
- konsool
- Konteiner
- sisaldab
- kulud
- loodud
- loomine
- krüpto
- Praegune
- tava
- andmed
- andmeteadus
- sügavam
- juurutada
- juurutamine
- kasutuselevõtu
- Detection
- arenenud
- & Tarkvaraarendus
- raske
- jaotus
- laevalaadija
- dokumendid
- Ei tee
- ajam
- kergesti
- ökosüsteemi
- võimaldama
- Lõpp-punkt
- insener
- oluline
- Hinnanguliselt
- näide
- eksperiment
- FUNKTSIOONID
- Valdkonnad
- Lõpuks
- rahastama
- sobima
- Keskenduma
- Järel
- formaat
- pettus
- tasuta
- täis
- funktsioon
- tekitama
- eesmärk
- läheb
- tervishoid
- Suur
- kõrgelt
- Kuidas
- Kuidas
- HTTPS
- inim-
- Inimestel
- sajad
- Identifitseerimine
- identifitseerima
- pilt
- rakendatud
- Kaasa arvatud
- tööstusharudes
- sisend
- teadmisi
- Intelligentsus
- seotud
- IT
- töö
- Tööturg
- Võti
- märgistamine
- Labels
- töö
- keel
- viima
- Õppida
- õppimine
- Tase
- Raamatukogu
- lingid
- koormus
- masin
- masinõpe
- tehtud
- TEEB
- juhitud
- juhtimine
- juhtiv
- käsitsi
- tootmine
- maatriks
- mõõtma
- Meetrika
- segatud
- ML
- mudel
- mudelid
- Jälgida
- rohkem
- kõige
- liikuma
- Natural
- loodus
- märkmik
- number
- Pakkumised
- et
- organisatsioonid
- Muu
- Vaikne ookean
- partner
- partnerid
- jõudlus
- inimene
- inimesele
- Punkt
- positiivne
- Probleem
- protsess
- Produktsioon
- Programm
- projektid
- anda
- avalik
- avaldama
- Töötlemata
- reaalajas
- andmed
- registreerima
- registreeritud
- asjakohane
- nõutav
- Vahendid
- Tulemused
- läbi
- Arvustused
- jooks
- jooksmine
- ohutus
- teadus
- tunne
- Serverita
- teenus
- Teenused
- komplekt
- kehtestamine
- Lühike
- lihtne
- So
- lahendus
- Lahendused
- LAHENDAGE
- spetsialiseerunud
- Kulutused
- Kestab
- Stage
- algus
- alustatud
- statistiline
- ladustamine
- Strateegiline
- toetama
- Toetamine
- sihtmärk
- ülesanded
- meeskond
- Tehnoloogiad
- test
- Läbi
- aeg
- sümboolne
- tööriist
- jälgida
- koolitus
- Muutma
- kohtuprotsess
- õpetused
- ui
- lõplik
- paljastama
- Uudised
- kasutama
- tavaliselt
- väärtus
- sort
- Video
- vaade
- kas
- ilma
- Töö
- töötas
- töötab
- aasta