Paranna ML-kehittäjien tuottavuutta painotusten ja harhojen avulla: esimerkki tietokonevisiosta Amazon SageMakerissa

Julkaissut Platon

seuraajia: 0

Tämän viestin sisältö ja mielipiteet ovat kolmannen osapuolen kirjoittajan omia, eikä AWS ole vastuussa tämän viestin sisällöstä tai oikeellisuudesta.

Kun yhä useammat organisaatiot käyttävät syväoppimistekniikoita, kuten tietokonenäköä ja luonnollisen kielen käsittelyä, koneoppimisen (ML) kehittäjäpersoona tarvitsee skaalautuvaa työkalua kokeiden seurantaan, sukulinjaan ja yhteistyöhön. Kokeiluseuranta sisältää metatietoja, kuten käyttöjärjestelmän, käytetyn infrastruktuurin, kirjaston sekä syöttö- ja lähtötietojoukot, joita seurataan usein laskentataulukolla manuaalisesti. Sukulinjaan kuuluu ML-mallin luomiseen käytettyjen tietojoukkojen, muunnosten ja algoritmien seuranta. Yhteistyö sisältää yhden projektin parissa työskenteleviä ML-kehittäjiä ja myös ML-kehittäjiä, jotka jakavat tuloksiaan ryhmien kesken ja yritysten sidosryhmille – tämä prosessi tehdään yleensä sähköpostitse, kuvakaappauksilla ja PowerPoint-esityksillä.

Tässä viestissä koulutamme mallin tunnistamaan esineitä autonomiseen ajoneuvokäyttöön käyttämällä painoja ja painotuksia (W&B) ja Amazon Sage Maker. Esittelemme, kuinka yhteinen ratkaisu vähentää manuaalista työtä ML-kehittäjälle, lisää mallien kehitysprosessin läpinäkyvyyttä ja mahdollistaa tiimien yhteistyön projekteissa.

Käytämme tätä esimerkkiä Amazon SageMaker Studio jotta voit kokeilla itse.

Yleiskatsaus painoista ja painotuksista

Painot & Biases auttavat ML-tiimejä rakentamaan parempia malleja nopeammin. Vain muutamalla koodirivillä SageMaker-muistikirjassasi voit tehdä virheenkorjauksen, vertailla ja toistaa mallejasi – arkkitehtuuria, hyperparametrejä, git-sitoumuksia, mallien painotuksia, grafiikkasuorittimen käyttöä, tietojoukkoja ja ennusteita – samalla kun teet yhteistyötä joukkuetovereidesi kanssa.

W&B:hen luottaa yli 200,000 XNUMX ML-alan ammattilaista joistakin maailman innovatiivisimmista yrityksistä ja tutkimusorganisaatioista. Jos haluat kokeilla sitä ilmaiseksi, rekisteröidy osoitteessa Painot ja painotuksetTai käydä W&B AWS Marketplace -listaus.

SageMaker Studion käytön aloittaminen

SageMaker Studio on ensimmäinen täysin integroitu kehitysympäristö (IDE) ML:lle. Studio tarjoaa yhden verkkopohjaisen käyttöliittymän, jossa ML-ammattilaiset ja datatieteilijät voivat rakentaa, kouluttaa ja ottaa käyttöön malleja muutamalla napsautuksella, kaikki yhdessä paikassa.

Studion käytön aloittamiseksi tarvitset AWS-tilin ja AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) käyttäjä tai rooli, jolla on oikeudet luoda Studio-verkkotunnus. Viitata Sisääntulo Amazon SageMaker -verkkotunnukseen verkkotunnuksen luomiseen ja Studion dokumentaatio saadaksesi yleiskatsauksen Studion visuaalisen käyttöliittymän ja muistikirjojen käytöstä.

Määritä ympäristö

Tätä viestiä varten olemme kiinnostuneita oman koodimme suorittamisesta, joten tuodaan joitain muistikirjoja GitHubista. Käytämme seuraavaa GitHub repo esimerkkinä, joten ladataan tämä muistikirja.

Voit kloonata arkiston joko päätteen tai Studion käyttöliittymän kautta. Jos haluat kloonata arkiston päätteen kautta, avaa järjestelmäpääte ( filee valikosta, valitse Uusi ja terminaali) ja anna seuraava komento:

git clone https://github.com/wandb/SageMakerStudio

Jos haluat kloonata arkiston Studion käyttöliittymästä, katso Kloonaa Git-arkisto SageMaker Studiossa.

Aloita valitsemalla 01_data_processing.ipynb muistikirja. Sinua kehotetaan antamaan ytimen vaihtajakehote. Tämä esimerkki käyttää PyTorchia, joten voimme valita valmiiksi rakennetun PyTorch 1.10 Python 3.8 GPU optimoitu kuva aloittaaksesi muistikirjamme. Näet sovelluksen käynnistyvän, ja kun ydin on valmis, se näyttää ilmentymän tyypin ja ytimen muistikirjan oikeassa yläkulmassa.

Muistikirjamme tarvitsee joitain lisäriippuvuuksia. Tämä arkisto tarjoaa vaatimusten.txt-tiedoston lisäriippuvuuksilla. Suorita ensimmäinen solu asentaaksesi tarvittavat riippuvuudet:

%pip install -r requirements.txt

Voit myös luoda elinkaarimäärityksen, joka asentaa paketit automaattisesti aina, kun käynnistät PyTorch-sovelluksen. Katso Räätälöi Amazon SageMaker Studio käyttämällä Lifecycle Configurations -asetuksia ohjeita ja esimerkkitoteutusta.

Käytä painoja ja painotuksia SageMaker Studiossa

Painot ja painot (wandb) on tavallinen Python-kirjasto. Kun se on asennettu, se on niin helppoa kuin lisätä muutaman rivin koodia harjoitusskriptiin ja olet valmis kirjaamaan kokeita. Olemme jo asentaneet sen vaatimuksemme.txt-tiedostomme kautta. Voit asentaa sen myös manuaalisesti seuraavalla koodilla:

! pip install wandb

Tapaustutkimus: Autonominen ajoneuvon semanttinen segmentointi

aineisto

Käytämme Cambridge-ajo Labeled Video Database (CamVid) tälle esimerkille. Se sisältää kokoelman videoita, joissa on objektiluokan semanttiset tunnisteet ja metatiedot. Tietokanta tarjoaa perustotuustunnisteita, jotka yhdistävät jokaisen pikselin johonkin 32 semanttisesta luokasta. Voimme versioida tietojoukomme muodossa a wandb.Artefact, jotta voimme viitata siihen myöhemmin. Katso seuraava koodi:

with wandb.init(project="sagemaker_camvid_demo", job_type="upload"): artifact = wandb.Artifact( name='camvid-dataset', type='dataset', metadata={ "url": 'https://s3.amazonaws.com/fast-ai-imagelocal/camvid.tgz', "class_labels": class_labels }, description="The Cambridge-driving Labeled Video Database (CamVid) is the first collection of videos with object class semantic labels, complete with metadata. The database provides ground truth labels that associate each pixel with one of 32 semantic classes." ) artifact.add_dir(path) wandb.log_artifact(artifact)

Voit seurata mukana 01_data_processing.ipynb muistikirja.

Kirjaamme myös a taulukko tietojoukosta. Taulukot ovat monipuolisia ja tehokkaita DataFrame-tyyppisiä kokonaisuuksia, joiden avulla voit tehdä kyselyjä ja analysoida taulukkotietoja. Voit ymmärtää tietojoukkojasi, visualisoida malliennusteita ja jakaa oivalluksia keskitetyssä kojetaulussa.

Painot & Biases -taulukot tukevat monia multimediamuotoja, kuten kuva-, ääni- ja aaltomuotoja. Täydellinen luettelo mediamuodoista on kohdassa Tietotyypit.

Seuraavassa kuvakaappauksessa on taulukko, jossa on raakakuvia perustotuussegmentoinneilla. Voit myös katsella an tämän taulukon interaktiivinen versio.

Paranna ML-kehittäjien tuottavuutta Weights & Biasesilla: tietokonenäköesimerkki Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

Kouluta malli

Voimme nyt luoda mallin ja harjoitella sitä tietojoukossamme. Käytämme PyTorch ja fastai perustilan nopeaan prototyyppiin ja sen käyttöön wandb.Sweeps optimoidaksemme hyperparametrimme. Seuraa mukana 02_semantic_segmentation.ipynb muistikirja. Kun tietokonetta avattaessa kehotetaan antamaan ydin, valitse sama ydin ensimmäisestä muistikirjastamme, PyTorch 1.10 Python 3.8 GPU optimoitu. Pakettisi on jo asennettu, koska käytät samaa sovellusta.

Mallin oletetaan oppivan pikselikohtaista merkintää kohtauksesta, joka on kaapattu autonomisen agentin näkökulmasta. Mallin on luokiteltava tai segmentoitava tietyn kohtauksen jokainen pikseli 32 asiaankuuluvaan luokkaan, kuten tie, jalankulku, jalkakäytävä tai autot. Voit valita minkä tahansa taulukon segmentoiduista kuvista ja käyttää tätä interaktiivista käyttöliittymää segmentoinnin tuloksiin ja luokkiin.

Koska fastai kirjastossa on integraatio wandb, voit yksinkertaisesti ohittaa WandbCallback Oppijalle:

from fastai.callback.wandb import WandbCallback loss_func=FocalLossFlat(axis=1)
model = SegmentationModel(backbone, hidden_dim, num_classes=num_classes)
wandb_callback = WandbCallback(log_preds=True) learner = Learner( data_loader, model, loss_func=loss_func, metrics=metrics, cbs=[wandb_callback], ) learn.fit_one_cycle(TRAIN_EPOCHS, LEARNING_RATE)

Perustason kokeissa päätimme käyttää yksinkertaista arkkitehtuuria, joka on saanut inspiraationsa UNet paperia, jossa on eri selkäranka timm. Koulutamme mallejamme Polttoväli kriteerinä. Weights & Biases -asetuksella voit helposti luoda kojetauluja, joissa on yhteenvetoja kokeiluistasi, jotta voit analysoida nopeasti harjoitustuloksia seuraavan kuvakaappauksen mukaisesti. Voit myös tarkastella tätä kojelautaa interaktiivisesti.

Hyperparametrihaku pyyhkäisyillä

Perusmallin suorituskyvyn parantamiseksi meidän on valittava paras malli ja paras joukko opetettavaa hyperparametria. W&B tekee tästä käytöstä helppoa pyyhkäisee.

Suoritamme a Bayesin hyperparametrihaku tavoitteena maksimoida mallin etualalla oleva tarkkuus validointitietojoukossa. Pyyhkäisyä varten määritämme määritystiedoston sweep.yaml. Tämän tiedoston sisällä välitämme halutun menetelmän käytettäväksi: bayes ja parametrit ja niitä vastaavat arvot etsittäväksi. Meidän tapauksessamme kokeilemme erilaisia runkoja, eräkokoja ja häviötoimintoja. Tutkimme myös erilaisia optimointiparametreja, kuten oppimisnopeutta ja painon heikkenemistä. Koska nämä ovat jatkuvia arvoja, otamme näytteen jakaumasta. Niitä on useita konfigurointivaihtoehtoja pyyhkäisyjä varten.

program: train.py
project: sagemaker_camvid_demo
method: bayes
metric: name: foreground_acc goal: maximize
early_terminate: type: hyperband min_iter: 5
parameters: backbone: values: ["mobilenetv2_100","mobilenetv3_small_050","mobilenetv3_large_100","resnet18","resnet34","resnet50","vgg19"] batch_size: values: [8, 16] image_resize_factor: value: 4 loss_function: values: ["categorical_cross_entropy", "focal", "dice"] learning_rate: distribution: uniform min: 1e-5 max: 1e-2 weight_decay: distribution: uniform min: 0.0 max: 0.05

Tämän jälkeen käynnistät pyyhkäisyn terminaalissa käyttämällä wandb-komentorivi:

$ wandb sweep sweep.yaml —-project="sagemaker_camvid_demo"

Ja käynnistä sitten pyyhkäisyagentti tälle koneelle seuraavalla koodilla:

$ wandb agent <sweep_id>

Kun pyyhkäisy on valmis, voimme käyttää rinnakkaista koordinaattikaaviota tutkiaksemme mallien suorituskykyä erilaisilla rungoilla ja erilaisilla hyperparametrijoukoilla. Sen perusteella voimme nähdä, mikä malli toimii parhaiten.

Seuraavassa kuvakaappauksessa näkyy pyyhkäisyjen tulokset, mukaan lukien rinnakkaiskoordinaattikaavio ja parametrien korrelaatiokaaviot. Voit myös tarkastella tätä pyyhkäisymittaristoa interaktiivisesti.

Voimme saada seuraavat keskeiset oivallukset pyyhkäisystä:

Pienempi oppimisnopeus ja pienempi painon heikkeneminen johtavat parempaan etualan tarkkuuteen ja noppapisteisiin.
Erän koolla on vahva positiivinen korrelaatio mittareiden kanssa.
- VGG-pohjaiset runkoverkot ei ehkä ole hyvä vaihtoehto lopullisen mallimme kouluttamiseen, koska ne voivat johtaa a katoava kaltevuus. (Ne suodatetaan pois, kun tappio eroaa.)
- ResNet runkoverkot johtavat parhaaseen yleiseen suorituskykyyn mittojen suhteen.
Lopulliseen malliin tulisi valita ResNet34- tai ResNet50-runkoverkko niiden vahvan suorituskyvyn vuoksi.

Data ja malliperintö

W&B-artefaktit on suunniteltu tekemään tietojoukkojen ja mallien versioinnista vaivatonta riippumatta siitä, haluatko tallentaa tiedostosi W&B:hen vai onko sinulla jo ämpäri, jota haluat W&B:n seurattavan. Kun olet seurannut tietojoukkojasi tai mallitiedostojasi, W&B kirjaa automaattisesti lokiin jokaisen muutoksen, jolloin saat täydellisen ja tarkastettavan tiedostojesi muutoshistorian.

Meidän tapauksessamme harjoituksen aikana luodut tietojoukot, mallit ja erilaiset taulukot kirjataan työtilaan. Voit nopeasti tarkastella ja visualisoida tätä sukulinjaa siirtymällä kohtaan Esineet sivu.

Paranna ML-kehittäjien tuottavuutta Weights & Biasesilla: tietokonenäköesimerkki Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

Tulkitse mallien ennusteet

Weight & Biases on erityisen hyödyllinen arvioitaessa mallin suorituskykyä käyttämällä tehoa wandb.taulukot visualisoida, missä mallillamme menee huonosti. Tässä tapauksessa olemme erityisen kiinnostuneita tunnistamaan oikein haavoittuvat käyttäjät, kuten polkupyörät ja jalankulkijat.

Kirjasimme ennustetut maskit ja luokkakohtaisen noppapistekertoimen taulukkoon. Sitten suodatimme rivien mukaan, jotka sisälsivät halutut luokat, ja lajittelimme noppapisteiden nousevaan järjestykseen.

Seuraavassa taulukossa suodatamme ensin valitsemalla, missä Dice-pistemäärä on positiivinen (jalankulkijat ovat läsnä kuvassa). Sitten lajittelemme nousevaan järjestykseen tunnistaaksemme huonoimmin havaitut jalankulkijamme. Muista, että Dice-pistemäärä, joka on yhtä suuri kuin yksi, tarkoittaa jalankulkijaluokan oikeaa segmentointia. Voit myös tarkastella tätä taulukkoa interaktiivisesti.

Paranna ML-kehittäjien tuottavuutta Weights & Biasesilla: tietokonenäköesimerkki Amazon SageMaker PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

Voimme toistaa tämän analyysin muiden haavoittuvien luokkien, kuten polkupyörien tai liikennevalojen, kanssa.

Tämä ominaisuus on erittäin hyvä tapa tunnistaa kuvat, joita ei ole merkitty oikein, ja merkitä ne uudelleen huomautuksia varten.

Yhteenveto

Tämä viesti esitteli Weights & Biases MLOps -alustan, kuinka W&B määritetään SageMaker Studiossa ja miten johdattelevaa muistikirjaa käytetään yhteisratkaisusta. Sitten käytiin läpi autonomisen ajoneuvon semanttisen segmentoinnin käyttötapauksen ja esitimme seurantaharjoituksia W&B-kokeiluilla, hyperparametrien optimoinnilla W&B-pyyhkäisyillä ja tulosten tulkinnalla W&B-taulukoiden avulla.

Jos olet kiinnostunut oppimaan lisää, pääset mukaan livenä W&B raportti. Jos haluat kokeilla Weights & Biases -sovellusta ilmaiseksi, rekisteröidy osoitteessa Painot ja painotuksetTai käydä W&B AWS Marketplace -listaus.

Tietoja Tekijät

Thomas Capelle on koneoppimisinsinööri painojen ja harhojen alalla. Hän on vastuussa www.github.com/wandb/examples -tietovaraston pitämisestä käytössä ja ajan tasalla. Hän rakentaa myös sisältöä MLOPS:iin, W&B:n sovelluksiin teollisuuteen ja hauskaan syvälliseen oppimiseen yleensä. Aiemmin hän käytti syväoppimista ratkaistakseen aurinkoenergian lyhyen aikavälin ennusteita. Hänellä on tausta kaupunkisuunnittelusta, kombinatorisesta optimoinnista, liikennetaloudesta ja sovelletusta matematiikasta.

Durga Sury on ML Solutions -arkkitehti Amazon SageMaker Service SA -tiimissä. Hän haluaa tehdä koneoppimisesta kaikkien ulottuville. Kolmen vuoden aikana AWS:ssä hän on auttanut luomaan AI/ML-alustoja yritysasiakkaille. Kun hän ei ole töissä, hän rakastaa moottoripyöräilyä, mysteeriromaaneja ja patikointia nelivuotiaan huskynsa kanssa.

Karthik Bharathy on Amazon SageMakerin tuotejohtaja, jolla on yli vuosikymmenen kokemus tuotehallinnasta, tuotestrategiasta, toteutuksesta ja lanseerauksesta.

Aikaleima: Kesäkuu 24, 2022

Aikaleima: Lokakuu 27, 2022

Julkaissut Platon

Rakenna uutisiin perustuva reaaliaikainen hälytysjärjestelmä Twitterin, Amazon SageMakerin ja Hugging Facen avulla

ML-putkien vakauden ja joustavuuden parantaminen Amazon Packaging Innovationissa Amazon SageMaker Pipelinesin avulla

AWS Panorama tukee nyt NVIDIA JetPack SDK 4.6.2:ta

Paranna mallikoulutuksesi hintatehokkuutta käyttämällä Amazon SageMakerin heterogeenisia klustereita

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili