Kun yhä useammat organisaatiot siirtyvät koneoppimiseen (ML) saadakseen syvempiä oivalluksia, kaksi keskeistä kompastuskiveä, joihin ne törmäävät, ovat merkinnät ja elinkaaren hallinta. Merkintä on tietojen tunnistamista ja otsikoiden lisäämistä kontekstin luomiseksi, jotta ML-malli voi oppia siitä. Tarrat voivat viitata lauseeseen äänitiedostossa, autoon valokuvassa tai elimeen magneettikuvauksessa. Tietojen merkitseminen on tarpeen, jotta ML-mallit voivat toimia dataa vastaan. Elinkaarihallinta liittyy ML-kokeen perustamisprosessiin ja tulosten saamiseksi käytetyn tietojoukon, kirjaston, version ja mallin dokumentointiin. Ryhmä voi suorittaa satoja kokeita ennen kuin päätyy yhteen lähestymistapaan. Paluu ja tuon lähestymistavan luominen uudelleen voi olla vaikeaa ilman kirjaa kokeen elementeistä.
Monet ML-esimerkit ja opetusohjelmat alkavat tietojoukolla, joka sisältää kohdearvon. Reaalimaailman datalla ei kuitenkaan aina ole tällaista tavoitearvoa. Esimerkiksi tunneanalyysissä henkilö voi yleensä tehdä arvion siitä, onko arvostelu positiivinen, negatiivinen vai sekalainen. Mutta arvostelut koostuvat kokoelmasta tekstiä, johon ei liitetä arvoa. Luodakseen a valvottu oppiminen laadukas merkitty tietojoukko on välttämätön. Amazon SageMaker Ground Totuus on täysin hallittu tietojen merkintäpalvelu, jonka avulla on helppo rakentaa erittäin tarkkoja harjoitustietojoukkoja ML:lle.
Organisaatioille, jotka käyttävät Databricksiä tieto- ja analytiikkaalustanaan AWS:ssä poiminta-, muunnos- ja lataustehtävien suorittamiseen, perimmäisenä tavoitteena on usein kouluttaa valvottu oppimismalli. Tässä viestissä näytämme, kuinka Databricks integroituu Ground Truthiin ja Amazon Sage Maker tietojen merkitsemiseen ja mallien jakeluun.
Ratkaisun yleiskatsaus
Ground Truth on täysin hallittu tietojen merkintäpalvelu, jonka avulla on helppo rakentaa erittäin tarkkoja harjoitustietojoukkoja ML:lle. Ground Truth -konsolin avulla voimme luoda mukautettuja tai sisäänrakennettuja datamerkintöjen työnkulkuja minuuteissa. Nämä työnkulut tukevat erilaisia käyttötapauksia, kuten 3D-pistepilviä, videoita, kuvia ja tekstiä. Lisäksi Ground Truth tarjoaa automaattisen tietojen merkitsemisen, joka käyttää ML-mallia tietojen merkitsemiseen.
Koulutamme malliamme julkisesti saatavilla olevan Amazon Customer Reviews -tietojoukon perusteella. Korkealla tasolla vaiheet ovat seuraavat:
- Pura raakatietojoukko tunnistettavaksi ja siirrä se Amazonin yksinkertainen tallennuspalvelu (Amazon S3).
- Suorita merkintä luomalla merkintätyö SageMakerissa.
- Rakenna ja harjoittele yksinkertainen Scikit-learn lineaarinen oppijamalli arvioidaksesi arvostelutekstin tunteita Databricks-alustalla näytteen avulla muistikirja.
- Käyttää MLvirtaus komponentteja MLO:iden luomiseen ja suorittamiseen sekä mallin artefaktien tallentamiseen.
- Ota malli käyttöön SageMaker-päätepisteenä käyttämällä MLflow SageMaker -kirjasto reaaliaikaisia päätelmiä varten.
Seuraava kaavio havainnollistaa merkintöjä ja ML-matkaa käyttäen Ground Truthia ja MLflow:ta.
Luo merkintätyö SageMakerissa
Poimimme Amazon Customer Reviews -tietojoukosta vain tekstiosat, koska rakennamme mielialan analysointimallia. Kun teksti on purettu, laitamme tekstin S3-ämpäriin ja luomme sitten Ground Truth -merkintätyön SageMaker-konsolin kautta.
On Luo merkintätyö sivulla, täytä kaikki vaaditut kentät. Osana tämän sivun vaihetta Ground Truth antaa sinun luoda työluettelotiedoston. Ground Truth käyttää syöttöluettelotiedostoa tunnistaakseen tiedostojen tai objektien määrän merkintätyössä, jotta oikea määrä tehtäviä luodaan ja lähetetään ihmisille (tai koneille) etiketöijille. Tiedosto tallennetaan automaattisesti S3-ämpäriin. Seuraava vaihe on määrittää tehtäväluokka ja tehtävävalinta. Tässä käyttötapauksessa valitsemme teksti tehtäväkategoriana ja Tekstiluokitus yhdellä tunnisteella tehtävän valintaa varten, mikä tarkoittaa, että arvostelutekstillä on yksi mielipide: positiivinen, negatiivinen tai neutraali.
Lopuksi kirjoitamme yksinkertaiset, mutta ytimekkäät ohjeet etiketöijille tekstitietojen merkitsemisestä. Ohjeet näkyvät merkintätyökalussa, ja voit halutessasi tarkastella annotaattorin näkymää tällä hetkellä. Lopuksi lähetämme työn ja seuraamme edistymistä konsolissa.
Kun merkintätyö on käynnissä, voimme myös tarkastella merkittyjä tietoja ulostulo -välilehti. Voimme seurata jokaista arvostelutekstiä ja tarraa sekä sitä, onko työn tehnyt ihminen vai kone. Voimme valita 100 % merkintätöistä ihmisten tekemiksi tai valita koneellisen huomautuksen, joka nopeuttaa työtä ja alentaa työvoimakustannuksia.
Kun työ on valmis, merkintätyön yhteenveto sisältää linkkejä tulosluetteloon ja nimettyyn tietojoukkoon. Voimme myös mennä Amazon S3:een ja ladata molemmat S3-bucket-kansiostamme.
Seuraavissa vaiheissa käytämme Databricks-muistikirjaa, MLvirtaus, ja Ground Truthilla merkityt tietojoukot rakentaaksesi a Scikit opittava malli.
Lataa merkitty tietojoukko Amazon S3:sta
Aloitamme lataamalla merkityn tietojoukon Amazon S3:sta. Luettelo tallennetaan JSON-muodossa ja lataa se Spark DataFrameen Databricksissä. Tunneanalyysimallin kouluttamiseen tarvitsemme vain arvostelutekstin ja mielipiteen, joka on merkitty Ground Truth -merkintätyöllä. Käytämme select():tä näiden kahden ominaisuuden poimimiseen. Sitten muunnamme tietojoukon PySpark DataFrame -kehyksestä Pandas DataFrame -kehykseksi, koska Scikit-learn-algoritmi vaatii Pandas DataFrame -muodon.
Seuraavaksi käytämme Scikit-learnia CountVectorizer
muuttaaksesi arvostelutekstin biggrammivektoriksi asettamalla ngram_range
maksimi arvo 2. CountVectorizer
muuntaa tekstin merkkien lukumäärän matriisiksi. Sitten käytämme TfidfTransformer
muuntaa biggram-vektorin termitaajuus-käänteisasiakirjataajuus (TF-IDF) -muotoon.
Vertaamme bigrammivektorilla suoritetun harjoittelun tarkkuuspisteitä vs. bigrammiin TF-IDF:llä. TF-IDF on tilastollinen mitta, joka arvioi, kuinka merkityksellinen sana on asiakirjakokoelmassa olevan asiakirjan kannalta. Koska arvosteluteksti on yleensä suhteellisen lyhyt, voimme havaita, kuinka TF-IDF vaikuttaa ennustavan mallin suorituskykyyn.
Määritä MLflow-kokeilu
MLflow on Databricksin kehittämä, ja se on nyt avoimen lähdekoodin projekti. MLflow hallitsee ML-elinkaaria, joten voit seurata, luoda uudelleen ja julkaista kokeiluja helposti.
MLflow-kokeilujen määrittämiseen käytämme mlflow.sklearn.autolog()
mahdollistaa hyperparametrien, mittareiden ja malliartefaktien automaattisen kirjaamisen milloin tahansa estimator.fit()
, estimator.fit_predict()
, ja estimator.fit_transform()
kutsutaan. Vaihtoehtoisesti voit tehdä tämän manuaalisesti soittamalla mlflow.log_param()
ja mlflow.log_metric()
.
Sovitamme muunnetun tietojoukon lineaariseen luokittimeen, jossa on stokastinen gradienttilasku (SGD) -oppiminen. SGD:llä häviön gradientti arvioidaan näyte kerrallaan ja mallia päivitetään matkan varrella laskevalla vahvuusaikataululla.
Nämä kaksi aiemmin laatimamme tietojoukkoa välitetään train_and_show_scores()
toiminto harjoitteluun. Koulutuksen jälkeen meidän on rekisteröitävä malli ja tallennettava sen esineet. Käytämme mlflow.sklearn.log_model()
tehdä niin.
Ennen käyttöönottoa tarkastelemme kokeen tuloksia ja valitsemme kaksi koetta (yksi bigrammille ja toinen bigrammille TF-IDF:llä) verrattavaksi. Meidän käyttötapauksessamme toinen malli, joka oli koulutettu biggram TF-IDF:llä, toimi hieman paremmin, joten valitsemme tämän mallin käyttöön. Kun malli on rekisteröity, otamme mallin käyttöön ja vaihdamme mallin vaiheen tuotantoon. Voimme tehdä tämän MLflow-käyttöliittymässä tai käyttämällä koodia transition_model_version_stage()
.
Ota malli käyttöön ja testaa sitä SageMaker-päätepisteenä
Ennen kuin otamme käyttöön koulutetun mallin, meidän on rakennettava Docker-säiliö isännöimään mallia SageMakerissa. Teemme tämän suorittamalla yksinkertaisen MLflow-komennon, joka rakentaa ja työntää säilön siihen Amazonin elastisten säiliörekisteri (Amazon ECR) AWS-tilillämme.
Voimme nyt löytää kuvan URI:n Amazon ECR -konsolista. Välitämme kuvan URI:n an image_url
parametri ja käyttö DEPLOYMENT_MODE_CREATE
tilaparametrille, jos tämä on uusi käyttöönotto. Jos päivität olemassa olevaa päätepistettä uudella versiolla, käytä DEPLOYMENT_MODE_REPLACE
.
Testaaksemme SageMaker-päätepistettä, luomme funktion, joka ottaa parametreiksi päätepisteen nimen ja syötetiedot.
Yhteenveto
Tässä viestissä näytimme sinulle, kuinka Ground Truthia käytetään raakatietojoukon merkitsemiseen ja merkittyjen tietojen avulla yksinkertaisen lineaarisen luokittelijan kouluttamiseen Scikit-learnin avulla. Tässä esimerkissä käytämme MLflow:ta hyperparametrien ja mittareiden seuraamiseen, tuotantotason mallin rekisteröimiseen ja koulutetun mallin käyttöönottoon SageMakerissa päätepisteenä. Databricksin kanssa tietojen käsittelyyn voit automatisoida koko tämän käyttötapauksen, jolloin uutta dataa esitettäessä se voidaan merkitä ja käsitellä malliin. Automatisoimalla nämä putkistot ja mallit datatieteen tiimit voivat keskittyä uusiin käyttötapauksiin ja löytää enemmän oivalluksia sen sijaan, että he viettäisivät aikaansa päivittäiseen datapäivitysten hallintaan.
Aloita tutustumalla Käytä Amazon SageMaker Ground Truthia tietojen merkitsemiseen ja kirjaudu sisään Databricksin 14 päivän ilmainen kokeiluversio AWS:ssä. Saat lisätietoja siitä, kuinka Databricks integroituu SageMakeriin sekä muihin AWS-palveluihin, kuten AWS-liima ja Amazonin punainen siirtoOsoitteessa Databricks AWS:ssä.
Tarkista lisäksi seuraavat tässä viestissä käytetyt resurssit:
Käytä seuraavaa muistikirja päästä alkuun.
Tietoja Tekijät
Rumi Olsen on ratkaisuarkkitehti AWS-kumppaniohjelmassa. Hän on erikoistunut palvelimettomiin ja koneoppimisratkaisuihin nykyisessä tehtävässään, ja hänellä on tausta luonnollisen kielen käsittelytekniikoista. Hän viettää suurimman osan vapaa-ajastaan tyttärensä kanssa tutkien Pacific Northwest -alueen luontoa.
Igor Alekseev on kumppaniratkaisuarkkitehti AWS:ssä Data and Analyticsissa. Igor työskentelee strategisten kumppaneiden kanssa auttaen heitä rakentamaan monimutkaisia, AWS-optimoituja arkkitehtuureja. Ennen liittymistään AWS:ään Data/Solution Architectina hän toteutti monia Big Datan projekteja, mukaan lukien useita Hadoop-ekosysteemin datajärviä. Tietoinsinöörinä hän oli mukana soveltamassa AI/ML:ää petosten havaitsemiseen ja toimistoautomaatioon. Igorin projektit olivat useilla aloilla, mukaan lukien viestintä, rahoitus, yleinen turvallisuus, valmistus ja terveydenhuolto. Aiemmin Igor työskenteli täyspinon insinöörinä/teknologiajohtajana.
Naseer Ahmed on Databricksin vanhempi kumppaniratkaisuarkkitehti, joka tukee sen AWS-liiketoimintaa. Naseer on erikoistunut AWS:n tietovarastointiin, liiketoimintatiedonhallintaan, sovelluskehitykseen, säilöihin, palvelimettomiin ja koneoppimisarkkitehtuureihin. Hänet valittiin Databricksissa vuoden 2021 pk-yritykseksi ja hän on innokas krypto-harrastaja.
- Coinsmart. Euroopan paras Bitcoin- ja kryptopörssi.
- Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. VAPAA PÄÄSY.
- CryptoHawk. Altcoinin tutka. Ilmainen kokeilu.
- Lähde: https://aws.amazon.com/blogs/machine-learning/build-an-mlops-sentiment-analysis-pipeline-using-amazon-sagemaker-ground-truth-and-databricks-mlflow/
- "
- 100
- 2021
- 3d
- Meistä
- Tili
- tarkka
- Lisäksi
- algoritmi
- Kaikki
- Amazon
- analyysi
- Analytics
- sovelluksen
- Sovellusten kehittäminen
- Hakeminen
- lähestymistapa
- audio-
- auto
- Automaatio
- saatavissa
- AWS
- tausta
- perusta
- Big Data
- rakentaa
- Rakentaminen
- rakentaa
- sisäänrakennettu
- liiketoiminta
- bisnesvaisto
- auto
- tapauksissa
- Kategoria
- Valita
- luokittelu
- koodi
- kokoelma
- Yhteydenpito
- monimutkainen
- Console
- Kontti
- sisältää
- kustannukset
- luotu
- Luominen
- Crypto
- Nykyinen
- asiakassuhde
- tiedot
- tietojenkäsittely
- syvempää
- sijoittaa
- levityspinnalta
- käyttöönotto
- Detection
- kehitetty
- Kehitys
- vaikea
- jakelu
- Satamatyöläinen
- asiakirjat
- ei
- ajaa
- helposti
- ekosysteemi
- mahdollistaa
- päätepiste
- insinööri
- olennainen
- arvioidaan
- esimerkki
- kokeilu
- Ominaisuudet
- Fields
- Vihdoin
- rahoittaa
- sovittaa
- Keskittää
- jälkeen
- muoto
- petos
- Ilmainen
- koko
- toiminto
- tuottaa
- tavoite
- menee
- terveydenhuollon
- Korkea
- erittäin
- Miten
- Miten
- HTTPS
- ihmisen
- Ihmiset
- Sadat
- Tunnistaminen
- tunnistaa
- kuva
- täytäntöön
- Mukaan lukien
- teollisuuden
- panos
- oivalluksia
- Älykkyys
- osallistuva
- IT
- Job
- Työpaikat
- avain
- merkinnät
- tarrat
- työ
- Kieli
- johtaa
- OPPIA
- oppiminen
- Taso
- Kirjasto
- linkit
- kuormitus
- kone
- koneoppiminen
- tehty
- TEE
- onnistui
- johto
- toimitusjohtaja
- käsin
- valmistus
- Matriisi
- mitata
- Metrics
- sekoitettu
- ML
- malli
- mallit
- monitori
- lisää
- eniten
- liikkua
- Luonnollinen
- luonto
- muistikirja
- numero
- Tarjoukset
- tilata
- organisaatioiden
- Muut
- Tyynenmeren
- kumppani
- kumppani
- suorituskyky
- henkilö
- foorumi
- Kohta
- positiivinen
- Ongelma
- prosessi
- tuotanto
- Ohjelma
- hankkeet
- toimittaa
- julkinen
- julkaista
- raaka
- reaaliaikainen
- asiakirjat
- ilmoittautua
- kirjattu
- merkityksellinen
- tarvitaan
- Esittelymateriaalit
- tulokset
- arviot
- Arvostelut
- ajaa
- juoksu
- Turvallisuus
- tiede
- näkemys
- serverless
- palvelu
- Palvelut
- setti
- asetus
- Lyhyt
- Yksinkertainen
- So
- ratkaisu
- Ratkaisumme
- SOLVE
- erikoistunut
- menot
- pino
- Vaihe
- Alkaa
- alkoi
- tilastollinen
- Levytila
- Strateginen
- tuki
- Tukea
- Kohde
- tehtävät
- joukkue-
- Technologies
- testi
- Kautta
- aika
- symbolinen
- työkalu
- raita
- koulutus
- Muuttaa
- oikeudenkäynti
- opetusohjelmat
- ui
- lopullinen
- paljastaa
- Päivitykset
- käyttää
- yleensä
- arvo
- lajike
- Video
- Näytä
- onko
- ilman
- Referenssit
- työskenteli
- toimii
- vuosi