Ker vse več organizacij prehaja na strojno učenje (ML), da bi pridobile globlje vpoglede, sta dve ključni oviri, na katera naletijo, označevanje in upravljanje življenjskega cikla. Označevanje je identifikacija podatkov in dodajanje oznak za zagotavljanje konteksta, tako da se lahko model ML uči iz tega. Oznake lahko označujejo frazo v zvočni datoteki, avto na fotografiji ali organ na MRI. Označevanje podatkov je potrebno, da omogočimo modelom ML, da delujejo glede na podatke. Upravljanje življenjskega cikla je povezano s postopkom nastavitve eksperimenta ML in dokumentiranjem nabora podatkov, knjižnice, različice in modela, uporabljenega za pridobivanje rezultatov. Ekipa lahko izvede na stotine poskusov, preden se odloči za en pristop. Vrniti se nazaj in poustvariti ta pristop je lahko težko brez zapisov o elementih tega eksperimenta.
Številni primeri in vadnice ML se začnejo z naborom podatkov, ki vključuje ciljno vrednost. Vendar pa podatki iz resničnega sveta nimajo vedno takšne ciljne vrednosti. Na primer, pri analizi razpoloženja lahko oseba običajno presodi, ali je ocena pozitivna, negativna ali mešana. Toda ocene so sestavljene iz zbirke besedil, ki jim ni pripisana vrednost presoje. Da bi ustvarili a nadzorovano učenje model za rešitev te težave, je visokokakovosten označen nabor podatkov bistven. Amazon SageMaker Ground Truth je v celoti upravljana storitev za označevanje podatkov, ki olajša izdelavo zelo natančnih naborov podatkov o usposabljanju za ML.
Za organizacije, ki uporabljajo Databricks kot svojo podatkovno in analitično platformo na AWS za izvajanje nalog ekstrahiranja, preoblikovanja in nalaganja (ETL), je končni cilj pogosto usposabljanje modela nadzorovanega učenja. V tej objavi prikazujemo, kako se Databricks integrira z Ground Truth in Amazon SageMaker za označevanje podatkov in distribucijo modelov.
Pregled rešitev
Ground Truth je v celoti upravljana storitev za označevanje podatkov, ki olajša izdelavo zelo natančnih naborov podatkov za usposabljanje za ML. S konzolo Ground Truth lahko v nekaj minutah ustvarimo delovne poteke označevanja podatkov po meri ali vgrajene. Ti poteki dela podpirajo različne primere uporabe, vključno s 3D oblaki točk, videoposnetki, slikami in besedilom. Poleg tega Ground Truth ponuja samodejno označevanje podatkov, ki za označevanje naših podatkov uporablja model ML.
Naš model usposabljamo na javno dostopnem naboru podatkov Amazon Customer Reviews. Na visoki ravni so koraki naslednji:
- Ekstrahirajte nabor neobdelanih podatkov, ki ga želite označiti, in ga premaknite Preprosta storitev shranjevanja Amazon (Amazon S3).
- Izvedite označevanje tako, da ustvarite opravilo označevanja v SageMakerju.
- Zgradite in usposobite preprost linearni učenčev model Scikit-learn za razvrščanje razpoloženja besedila ocene na platformi Databricks z uporabo vzorca prenosnik.
- Uporaba MLflow komponente za ustvarjanje in izvajanje MLO ter shranjevanje artefaktov modela.
- Razmestite model kot končno točko SageMaker z uporabo Knjižnica MLflow SageMaker za sklepanje v realnem času.
Naslednji diagram ponazarja pot označevanja in ML z uporabo Ground Truth in MLflow.
Ustvarite opravilo označevanja v SageMakerju
Iz nabora podatkov Amazon Customer Reviews izvlečemo samo dele besedila, ker gradimo model analize razpoloženja. Ko je izvlečeno, postavimo besedilo v vedro S3 in nato prek konzole SageMaker ustvarimo opravilo označevanja Ground Truth.
o Ustvari nalogo za označevanje strani, izpolnite vsa zahtevana polja. Kot del koraka na tej strani vam Ground Truth omogoča ustvarjanje datoteke manifesta opravila. Ground Truth uporablja datoteko vhodnega manifesta za identifikacijo števila datotek ali predmetov v opravilu označevanja, tako da se ustvari pravo število nalog in pošlje človeškim (ali strojnim) označevalcem. Datoteka se samodejno shrani v vedro S3. Naslednji korak je določitev kategorije opravil in izbor opravil. V tem primeru uporabe izberemo Besedilo kot kategorija nalog in Razvrstitev besedil z eno samo oznako za izbiro opravil, kar pomeni, da bo imelo besedilo ocene eno samo mnenje: pozitivno, negativno ali nevtralno.
Na koncu napišemo preprosta, a jedrnata navodila za označevalce, kako označiti besedilne podatke. Navodila so prikazana v orodju za označevanje in po želji lahko trenutno pregledate pogled označevalca. Na koncu oddamo nalogo in spremljamo napredek na konzoli.
Medtem ko označevanje poteka, si lahko ogledamo tudi označene podatke na izhod zavihek. Spremljamo lahko vsako recenzirano besedilo in oznako ter ali je delo opravil človek ali stroj. Izberemo lahko, da 100 % opravil etiketiranja opravijo ljudje, ali pa izberemo strojno opombo, ki pohitri delo in zmanjša stroške dela.
Ko je opravilo končano, povzetek opravila označevanja vsebuje povezave do izhodnega manifesta in označenega nabora podatkov. Lahko gremo tudi na Amazon S3 in oba prenesemo iz naše mape vedra S3.
V naslednjih korakih uporabimo prenosni računalnik Databricks, MLflow, in nabore podatkov, ki jih je označil Ground Truth za izgradnjo a Scikit-učite se model.
Prenesite označeni nabor podatkov iz Amazon S3
Začnemo s prenosom označenega nabora podatkov iz Amazon S3. Manifest je shranjen v formatu JSON in ga naložimo v Spark DataFrame v Databricks. Za usposabljanje modela analize razpoloženja potrebujemo samo besedilo pregleda in razpoloženje, ki je bilo označeno z opravilom označevanja Ground Truth. Za ekstrahiranje teh dveh funkcij uporabljamo select(). Nato nabor podatkov pretvorimo iz PySpark DataFrame v Pandas DataFrame, ker algoritem Scikit-learn zahteva format Pandas DataFrame.
Nato uporabimo Scikit-learn CountVectorizer
za preoblikovanje besedila pregleda v bigramski vektor z nastavitvijo ngram_range
največja vrednost do 2. CountVectorizer
pretvori besedilo v matriko števcev žetonov. Nato uporabimo TfidfTransformer
za preoblikovanje bigramskega vektorja v format frekvenčno inverzne frekvence dokumenta (TF-IDF).
Primerjamo rezultate točnosti za usposabljanje, opravljeno z bigramskim vektorjem, z bigramom s TF-IDF. TF-IDF je statistično merilo, ki ocenjuje, kako pomembna je beseda za dokument v zbirki dokumentov. Ker je besedilo pregleda razmeroma kratko, lahko opazujemo, kako TF-IDF vpliva na učinkovitost napovednega modela.
Nastavite poskus MLflow
MLflow je razvil Databricks in je zdaj odprtokodni projekt. MLflow upravlja življenjski cikel ML, tako da lahko preprosto sledite, znova ustvarite in objavite eksperimente.
Za postavitev poskusov MLflow uporabljamo mlflow.sklearn.autolog()
da omogočite samodejno beleženje hiperparametrov, meritev in artefaktov modela kadar koli estimator.fit()
, estimator.fit_predict()
, in estimator.fit_transform()
se imenujejo. Lahko pa to storite ročno s klicem mlflow.log_param()
in mlflow.log_metric()
.
Transformirani nabor podatkov prilagodimo linearnemu klasifikatorju z učenjem stohastičnega gradientnega spuščanja (SGD). Pri SGD se gradient izgube oceni en vzorec naenkrat, model pa se med potjo posodablja z razporedom padajoče jakosti.
Ta dva niza podatkov, ki smo jih pripravili prej, se posredujeta v train_and_show_scores()
funkcijo za usposabljanje. Po treningu moramo registrirati model in shraniti njegove artefakte. Uporabljamo mlflow.sklearn.log_model()
narediti tako.
Pred uvedbo si ogledamo rezultate poskusa in izberemo dva poskusa (enega za bigram in drugega za bigram s TF-IDF) za primerjavo. V našem primeru uporabe je bil drugi model, usposobljen z bigramom TF-IDF, nekoliko boljši, zato smo ta model izbrali za uvedbo. Ko je model registriran, ga razmestimo in spremenimo fazo modela v proizvodnjo. To lahko dosežemo v uporabniškem vmesniku MLflow ali v kodi z uporabo transition_model_version_stage()
.
Namestite in preizkusite model kot končno točko SageMaker
Preden uvedemo usposobljeni model, moramo zgraditi vsebnik Docker, ki bo gostil model v SageMakerju. To naredimo tako, da zaženemo preprost ukaz MLflow, ki zgradi in potisne vsebnik Registar elastičnih zabojnikov Amazon (Amazon ECR) v našem računu AWS.
Zdaj lahko najdemo URI slike na konzoli Amazon ECR. URI slike posredujemo kot image_url
parameter in uporabo DEPLOYMENT_MODE_CREATE
za parameter načina, če je to nova uvedba. Če posodabljate obstoječo končno točko z novo različico, uporabite DEPLOYMENT_MODE_REPLACE
.
Za preizkušanje končne točke SageMaker ustvarimo funkcijo, ki kot parametre vzame ime končne točke in vhodne podatke.
zaključek
V tej objavi smo vam pokazali, kako uporabiti Ground Truth za označevanje neobdelanega nabora podatkov in uporabo označenih podatkov za usposabljanje preprostega linearnega klasifikatorja z uporabo Scikit-learn. V tem primeru uporabljamo MLflow za sledenje hiperparametrom in metrikam, registracijo modela produkcijske stopnje in uvajanje usposobljenega modela v SageMaker kot končno točko. Skupaj z Databricks za obdelavo podatkov lahko avtomatizirate celoten primer uporabe, tako da jih je mogoče, ko so uvedeni novi podatki, označiti in obdelati v model. Z avtomatizacijo teh cevovodov in modelov se lahko ekipe za podatkovno znanost osredotočijo na nove primere uporabe in odkrijejo več vpogledov, namesto da bi porabile svoj čas za vsakodnevno upravljanje posodobitev podatkov.
Če želite začeti, preverite Uporabite Amazon SageMaker Ground Truth za označevanje podatkov in se prijavite za a 14-dnevna brezplačna preskusna različica Databricks na AWS. Če želite izvedeti več o tem, kako se Databricks integrira s SageMakerjem in drugimi storitvami AWS, kot je AWS lepilo in Amazon RedShift, Obiščite Databricks na AWS.
Poleg tega si oglejte naslednje vire, uporabljene v tej objavi:
Uporabite naslednje prenosnik da bi začeli.
O avtorjih
Rumi Olsen je arhitekt rešitev v partnerskem programu AWS. V svoji trenutni vlogi je specializirana za rešitve brez strežnikov in strojnega učenja ter ima izkušnje s tehnologijami za obdelavo naravnega jezika. Večino prostega časa preživi s hčerko in raziskuje naravo severozahodnega Pacifika.
Igor Alekseev je arhitekt partnerskih rešitev pri AWS na področju podatkov in analitike. Igor sodeluje s strateškimi partnerji in jim pomaga zgraditi kompleksne arhitekture, optimizirane za AWS. Preden se je pridružil AWS, je kot Data/Solution Architect izvajal številne projekte na področju velikih podatkov, vključno z več podatkovnimi jezeri v ekosistemu Hadoop. Kot podatkovni inženir je sodeloval pri uporabi AI/ML za odkrivanje goljufij in pisarniško avtomatizacijo. Igorjevi projekti so bili v različnih panogah, vključno s komunikacijami, financami, javno varnostjo, proizvodnjo in zdravstvenim varstvom. Prej je Igor delal kot full stack inženir/tehnični vodja.
Naseer Ahmed je starejši arhitekt partnerskih rešitev pri podjetju Databricks, ki podpira njegovo podjetje AWS. Naseer je specializiran za skladiščenje podatkov, poslovno inteligenco, razvoj aplikacij, vsebnik, brezstrežniško arhitekturo, strojno učenje na AWS. Pri Databricks so ga izglasovali za MSP leta 2021 in je navdušen kripto navdušenec.
- Coinsmart. Najboljša evropska borza bitcoinov in kriptovalut.
- Platoblockchain. Web3 Metaverse Intelligence. Razširjeno znanje. PROST DOSTOP.
- CryptoHawk. Altcoin radar. Brezplačen preizkus.
- Vir: https://aws.amazon.com/blogs/machine-learning/build-an-mlops-sentiment-analysis-pipeline-using-amazon-sagemaker-ground-truth-and-databricks-mlflow/
- "
- 100
- 2021
- 3d
- O meni
- Račun
- natančna
- Poleg tega
- algoritem
- vsi
- Amazon
- Analiza
- analitika
- aplikacija
- Razvoj aplikacij
- Uporaba
- pristop
- audio
- avto
- Avtomatizacija
- Na voljo
- AWS
- ozadje
- Osnova
- Big Podatki
- izgradnjo
- Building
- Gradi
- vgrajeno
- poslovni
- Poslovna inteligenca
- voziček
- primeri
- Kategorija
- Izberite
- Razvrstitev
- Koda
- zbirka
- Communications
- kompleksna
- Konzole
- Posoda
- Vsebuje
- stroški
- ustvaril
- Ustvarjanje
- kripto
- Trenutna
- po meri
- datum
- znanost o podatkih
- globlje
- razporedi
- uvajanja
- uvajanje
- Odkrivanje
- razvili
- Razvoj
- težko
- distribucija
- Lučki delavec
- Dokumenti
- Ne
- pogon
- enostavno
- ekosistem
- omogočajo
- Končna točka
- inženir
- bistvena
- ocenjeni
- Primer
- poskus
- Lastnosti
- Področja
- končno
- financiranje
- fit
- Osredotočite
- po
- format
- goljufija
- brezplačno
- polno
- funkcija
- ustvarjajo
- Cilj
- dogaja
- zdravstveno varstvo
- visoka
- zelo
- Kako
- Kako
- HTTPS
- človeškega
- Ljudje
- Stotine
- Identifikacija
- identificirati
- slika
- izvajali
- Vključno
- industrij
- vhod
- vpogledi
- Intelligence
- vključeni
- IT
- Job
- Delovna mesta
- Ključne
- označevanje
- Oznake
- dela
- jezik
- vodi
- UČITE
- učenje
- Stopnja
- Knjižnica
- Povezave
- obremenitev
- stroj
- strojno učenje
- je
- IZDELA
- upravlja
- upravljanje
- upravljanje
- ročno
- proizvodnja
- Matrix
- merjenje
- Meritve
- mešano
- ML
- Model
- modeli
- monitor
- več
- Najbolj
- premikanje
- naravna
- Narava
- prenosnik
- Številka
- Ponudbe
- Da
- organizacije
- Ostalo
- Pacific
- partner
- partnerji
- performance
- oseba
- platforma
- Točka
- pozitiven
- problem
- Postopek
- proizvodnja
- Program
- projekti
- zagotavljajo
- javnega
- objavijo
- Surovi
- v realnem času
- evidence
- Registracija
- registriranih
- pomembno
- obvezna
- viri
- Rezultati
- pregleda
- Mnenja
- Run
- tek
- Varnost
- Znanost
- sentiment
- Brez strežnika
- Storitev
- Storitve
- nastavite
- nastavitev
- Kratke Hlače
- Enostavno
- So
- Rešitev
- rešitve
- SOLVE
- specializirano
- Poraba
- sveženj
- Stage
- Začetek
- začel
- Statistično
- shranjevanje
- Strateško
- podpora
- Podpora
- ciljna
- Naloge
- skupina
- Tehnologije
- Test
- skozi
- čas
- žeton
- orodje
- sledenje
- usposabljanje
- Transform
- sojenje
- vaje
- ui
- Končni
- odkrijte
- posodobitve
- uporaba
- navadno
- vrednost
- raznolikost
- Video
- Poglej
- ali
- brez
- delo
- delal
- deluje
- leto