ML-arendaja tootlikkuse parandamine kaalude ja eelarvamustega: arvutinägemise näide Amazon SageMakeris

Taasavaldanud Platon

järgijaid: 0

Selle postituse sisu ja arvamused on kolmandast osapoolest autori omad ja AWS ei vastuta selle postituse sisu ega täpsuse eest.

Kuna rohkem organisatsioone kasutab süvaõppe tehnikaid, nagu arvutinägemine ja loomuliku keele töötlemine, vajab masinõppe (ML) arendaja isiksus skaleeritavaid tööriistu katsete jälgimise, põlvnemise ja koostöö osas. Katse jälgimine hõlmab metaandmeid, nagu operatsioonisüsteem, kasutatav infrastruktuur, raamatukogu ning sisend- ja väljundandmed – sageli jälgitakse neid arvutustabelis käsitsi. Lineage hõlmab ML-mudeli loomiseks kasutatavate andmekogumite, teisenduste ja algoritmide jälgimist. Koostöö hõlmab ML-i arendajaid, kes töötavad ühe projekti kallal, ja ka ML-i arendajaid, kes jagavad oma tulemusi meeskondade vahel ja ettevõtete sidusrühmadega – see protsess toimub tavaliselt meili, ekraanipiltide ja PowerPointi esitluste kaudu.

Selles postituses koolitame mudelit, et tuvastada objekte autonoomse sõiduki kasutusjuhtumi jaoks, kasutades kaalu ja eelarvamusi (W&B) ja Amazon SageMaker. Näitame, kuidas ühislahendus vähendab ML-i arendaja käsitsitööd, muudab mudeli arendusprotsessi läbipaistvamaks ja võimaldab meeskondadel projektide kallal koostööd teha.

Toome selle näite edasi Amazon SageMaker Studio et saaksid ise järele proovida.

Ülevaade kaaludest ja eelarvamustest

Kaalud ja eelarvamused aitavad ML-i meeskondadel kiiremini paremaid mudeleid luua. Vaid mõne koodireaga SageMakeri märkmikus saate koheselt siluda, võrrelda ja reprodutseerida oma mudeleid (arhitektuur, hüperparameetrid, git commits, mudeli kaalud, GPU kasutus, andmestikud ja prognoosid), tehes seda kõike oma meeskonnakaaslastega koostööd tehes.

W&B-d usaldavad enam kui 200,000 XNUMX ML praktikut mõnest maailma kõige uuenduslikumast ettevõttest ja uurimisorganisatsioonist. Tasuta proovimiseks registreeruge aadressil Kaalud ja eelarvamusedVõi külastada W&B AWS Marketplace'i loend.

SageMaker Studioga alustamine

SageMaker Studio on esimene täielikult integreeritud arenduskeskkond (IDE) ML-i jaoks. Studio pakub ühtset veebipõhist liidest, kus ML-i praktikud ja andmeteadlased saavad mõne klõpsuga mudeleid luua, koolitada ja juurutada ühes kohas.

Studio kasutamise alustamiseks vajate AWS-i kontot ja AWS-i identiteedi- ja juurdepääsuhaldus (IAM) kasutaja või roll, kellel on õigused luua Studio domeeni. Viitama Sisseehitatud Amazon SageMakeri domeeniga domeeni loomiseks ja Stuudio dokumentatsioon Stuudio visuaalse liidese ja märkmike kasutamise ülevaate saamiseks.

Seadistage keskkond

Selle postituse jaoks oleme huvitatud oma koodi käitamisest, seega impordime GitHubist mõned sülearvutid. Kasutame järgmist GitHub repo näiteks laadime see märkmik.

Hoidla saab kloonida kas terminali või Studio kasutajaliidese kaudu. Hoidla kloonimiseks terminali kaudu avage süsteemi terminal (aadressil fail menüüst valige Uus ja terminal) ja sisestage järgmine käsk:

git clone https://github.com/wandb/SageMakerStudio

Hoidla kloonimiseks Studio kasutajaliidesest vt Kloonige Giti hoidla SageMaker Studios.

Alustamiseks valige 01_data_processing.ipynb märkmik. Teilt küsitakse kerneli vahetaja viipa. See näide kasutab PyTorchi, nii et saame valida eelehitatud PyTorch 1.10 Python 3.8 GPU optimeeritud pilt meie märkmiku käivitamiseks. Näete, et rakendus käivitub ja kui tuum on valmis, näitab see teie märkmiku paremas ülanurgas eksemplari tüüpi ja tuuma.

Meie sülearvuti vajab täiendavaid sõltuvusi. See hoidla pakub faili nõuded.txt koos täiendavate sõltuvustega. Nõutavate sõltuvuste installimiseks käivitage esimene lahter:

%pip install -r requirements.txt

Samuti saate luua elutsükli konfiguratsiooni, et installida paketid automaatselt iga kord, kui käivitate PyTorchi rakenduse. Vaata Kohandage Amazon SageMaker Studio elutsükli konfiguratsioonide abil juhiste ja näidisrakenduse jaoks.

Kasutage SageMaker Studios kaalusid ja eelarvamusi

Kaalud ja kalded (wandb) on standardne Pythoni teek. Pärast installimist on see sama lihtne, kui lisada treeningskriptile paar rida koodi ja olete valmis katseid logima. Oleme selle faili nõuded.txt kaudu juba installinud. Saate selle installida ka käsitsi järgmise koodiga:

! pip install wandb

Juhtumiuuring: autonoomne sõiduki semantiline segmenteerimine

Andmebaas

Me kasutame Cambridge'i sõidu märgistatud videote andmebaas (CamVid) selle näite jaoks. See sisaldab objektiklassi semantiliste siltidega videote kogumit koos metaandmetega. Andmebaas pakub põhitõe silte, mis seovad iga piksli ühega 32 semantilisest klassist. Saame oma andmestiku versiooni a wandb.Artefakt, nii saame sellele hiljem viidata. Vaadake järgmist koodi:

with wandb.init(project="sagemaker_camvid_demo", job_type="upload"): artifact = wandb.Artifact( name='camvid-dataset', type='dataset', metadata={ "url": 'https://s3.amazonaws.com/fast-ai-imagelocal/camvid.tgz', "class_labels": class_labels }, description="The Cambridge-driving Labeled Video Database (CamVid) is the first collection of videos with object class semantic labels, complete with metadata. The database provides ground truth labels that associate each pixel with one of 32 semantic classes." ) artifact.add_dir(path) wandb.log_artifact(artifact)

Saate jälgida 01_data_processing.ipynb märkmik.

Samuti logime a tabel andmestikust. Tabelid on rikkalikud ja võimsad DataFrame'i sarnased olemid, mis võimaldavad teil teha päringuid ja analüüsida tabeliandmeid. Kesksel armatuurlaual saate mõista oma andmekogumeid, visualiseerida mudeli prognoose ja jagada teadmisi.

Kaalude ja kallutatuste tabelid toetavad paljusid rikasmeediavorminguid, nagu pilt, heli ja lainekujud. Meediumivormingute täieliku loendi leiate jaotisest Andmetüübid.

Järgmisel ekraanipildil on tabel töötlemata piltidega koos põhitõe segmentidega. Samuti saate vaadata an selle tabeli interaktiivne versioon.

Parandage ML-arendaja tootlikkust kaalude ja eelarvamustega: arvutinägemise näide rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Treeni modelli

Nüüd saame luua mudeli ja treenida seda oma andmekogumis. Me kasutame PyTorch ja fastai algtaseme kiireks prototüüpimiseks ja seejärel kasutamiseks wandb.Sweeps meie hüperparameetrite optimeerimiseks. Jälgi kaasa 02_semantic_segmentation.ipynb märkmik. Kui märkmiku avamisel küsitakse kerneli, valige sama tuum meie esimesest märkmikust, PyTorch 1.10 Python 3.8 GPU optimeeritud. Teie paketid on juba installitud, kuna kasutate sama rakendust.

Mudel peaks õppima autonoomse agendi vaatepunktist jäädvustatud stseeni kohta piksli kohta märkuse. Mudel peab kategoriseerima või segmenteerima antud stseeni iga piksli 32 asjakohasesse kategooriasse, nagu tee, jalakäija, kõnnitee või autod. Saate valida tabelis olevatest segmenteeritud piltidest ja pääseda juurde sellele interaktiivsele liidesele, et pääseda juurde segmenteerimistulemustele ja kategooriatele.

Kuna fastai raamatukogu on integreeritud wandb, võite lihtsalt läbida WandbCallback õppijale:

from fastai.callback.wandb import WandbCallback loss_func=FocalLossFlat(axis=1)
model = SegmentationModel(backbone, hidden_dim, num_classes=num_classes)
wandb_callback = WandbCallback(log_preds=True) learner = Learner( data_loader, model, loss_func=loss_func, metrics=metrics, cbs=[wandb_callback], ) learn.fit_one_cycle(TRAIN_EPOCHS, LEARNING_RATE)

Lähtekatsete jaoks otsustasime kasutada lihtsat arhitektuuri, mis on inspireeritud UNet aastast erineva selgrooga paber timm. Koolitasime oma modelle koos Fookuse kadu kriteeriumina. Funktsiooni Weights & Biases abil saate hõlpsasti luua armatuurlaudu oma katsete kokkuvõtetega, et treeningtulemusi kiiresti analüüsida, nagu on näidatud järgmisel ekraanipildil. Sa saad ka vaadake seda armatuurlauda interaktiivselt.

Hüperparameetrite otsing pühkimistega

Algmudeli toimivuse parandamiseks peame valima parima mudeli ja parima hüperparameetrite komplekti, mida treenida. W&B muudab selle kasutamise meie jaoks lihtsaks vallutab.

Teostame a Bayesi hüperparameetrite otsing eesmärgiga maksimeerida mudeli esiplaani täpsust valideerimisandmestikul. Pühkimise teostamiseks määratleme konfiguratsioonifaili sweep.yaml. Selle faili sees edastame soovitud meetodi: lahtrid ja parameetrid ning neile vastavad väärtused otsimiseks. Meie puhul proovime erinevaid selgroogu, partiide suurusi ja kadufunktsioone. Uurime ka erinevaid optimeerimisparameetreid, nagu õppimiskiirus ja kaalulangus. Kuna need on pidevad väärtused, võtame valimi jaotusest. Neid on mitu konfiguratsioonivalikud, mis on saadaval pühkimiste jaoks.

program: train.py
project: sagemaker_camvid_demo
method: bayes
metric: name: foreground_acc goal: maximize
early_terminate: type: hyperband min_iter: 5
parameters: backbone: values: ["mobilenetv2_100","mobilenetv3_small_050","mobilenetv3_large_100","resnet18","resnet34","resnet50","vgg19"] batch_size: values: [8, 16] image_resize_factor: value: 4 loss_function: values: ["categorical_cross_entropy", "focal", "dice"] learning_rate: distribution: uniform min: 1e-5 max: 1e-2 weight_decay: distribution: uniform min: 0.0 max: 0.05

Seejärel käivitate terminalis pühkimise, kasutades nuppu wandb käsurida:

$ wandb sweep sweep.yaml —-project="sagemaker_camvid_demo"

Seejärel käivitage sellel masinal järgmise koodiga puhastusagent:

$ wandb agent <sweep_id>

Kui pühkimine on lõppenud, saame kasutada paralleelkoordinaatide graafikut, et uurida erinevate selgroogsete ja erinevate hüperparameetrite komplektidega mudelite jõudlust. Selle põhjal saame näha, milline mudel töötab kõige paremini.

Järgmine ekraanipilt näitab pühkimiste tulemusi, sealhulgas paralleelkoordinaatide diagrammi ja parameetrite korrelatsioonitabeleid. Sa saad ka vaadake seda pühkimise armatuurlauda interaktiivselt.

Pühkimisest saame tuletada järgmised peamised arusaamad:

Madalam õppimiskiirus ja väiksem kaalulangus tagavad parema esiplaani täpsuse ja täringutulemuse.
Partii suurusel on tugev positiivne korrelatsioon mõõdikutega.
. VGG-põhised selgroog ei pruugi olla hea valik meie lõpliku mudeli koolitamiseks, kuna need võivad põhjustada a kaduv gradient. (Need filtreeritakse välja, kuna kahjum erineb.)
. ResNet selgroog annab mõõdikute osas parima üldise jõudluse.
Lõpliku mudeli jaoks tuleks valida ResNet34 või ResNet50 magistraal, kuna need on mõõdikute osas tugevad.

Andmed ja mudeli põlvnemine

W&B artefaktid on loodud selleks, et andmekogude ja mudelite versioonide koostamine oleks lihtne, olenemata sellest, kas soovite oma failid W&B-ga salvestada või on teil juba ämber, mida soovite, et W&B jälgiks. Pärast andmekogumite või mudelifailide jälgimist logib W&B automaatselt iga muudatuse, pakkudes teile täielikku ja kontrollitavat failide muudatuste ajalugu.

Meie puhul logitakse treeningu käigus genereeritud andmestik, mudelid ja erinevad tabelid tööruumi. Saate seda põlvnemist kiiresti vaadata ja visualiseerida, minnes lehele Esemeid lehel.

Parandage ML-arendaja tootlikkust kaalude ja eelarvamustega: arvutinägemise näide rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Mudeli prognooside tõlgendamine

Kaal ja eelarvamused on eriti kasulikud mudeli jõudluse hindamisel võimsuse abil wandb.Tabelid visualiseerida, kus meie mudelil halvasti läheb. Sel juhul oleme eriti huvitatud õigesti haavatavate kasutajate, näiteks jalgratturite ja jalakäijate tuvastamisest.

Logisime ennustatud maskid koos klasside kaupa täringu koefitsiendiga tabelisse. Seejärel filtreerisime soovitud klasse sisaldavate ridade järgi ja sorteerisime täringu skoori kasvavas järjekorras.

Järgmises tabelis filtreerime esmalt, valides koha, kus täringu skoor on positiivne (jalakäijad on pildil). Seejärel sorteerime kasvavas järjekorras, et tuvastada meie kõige halvemini tuvastatud jalakäijad. Pidage meeles, et täringu skoor, mis on võrdne 1-ga, tähendab jalakäijate klassi õiget segmenteerimist. Sa saad ka vaadake seda tabelit interaktiivselt.

Parandage ML-arendaja tootlikkust kaalude ja eelarvamustega: arvutinägemise näide rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Võime seda analüüsi korrata teiste haavatavate klasside, näiteks jalgrataste või fooridega.

See funktsioon on väga hea viis ebaõigesti märgistatud piltide tuvastamiseks ja neile uuesti märkuste lisamiseks.

Järeldus

See postitus tutvustas Weights & Biases MLOps platvormi, kuidas seadistada W&B SageMaker Studios ja kuidas käivitada ühislahenduse sissejuhatav märkmik. Seejärel läbisime autonoomse sõiduki semantilise segmenteerimise kasutusjuhtumi ja demonstreerisime jälgimiskoolitusi W&B katsetega, hüperparameetrite optimeerimist W&B-pühkimiste abil ja tulemuste tõlgendamist W&B tabelitega.

Kui soovite rohkem teada saada, pääsete otseülekandele juurde W&B aruanne. Kaalude ja eelarvamuste tasuta proovimiseks registreeruge aadressil Kaalud ja eelarvamusedVõi külastada W&B AWS Marketplace'i loend.

Autoritest

Thomas Capelle on masinõppe insener kaalude ja eelarvamuste alal. Ta vastutab hoidla www.github.com/wandb/examples aktiivsena ja ajakohasena hoidmise eest. Samuti loob ta sisu MLOPS-ile, W&B rakendustele tööstustele ja lõbusale süvaõppele üldiselt. Varem kasutas ta süvaõpet päikeseenergia lühiajaliste prognooside lahendamiseks. Tal on linnaplaneerimise, kombinatoorse optimeerimise, transpordiökonoomika ja rakendusmatemaatika taust.

Durga Sury on ML Solutionsi arhitekt Amazon SageMaker Service SA meeskonnas. Ta on kirglik masinõppe kõigile kättesaadavaks tegemise vastu. Kolme aasta jooksul AWS-is on ta aidanud luua AI/ML platvorme ettevõtete klientidele. Kui ta ei tööta, armastab ta mootorrattasõite, mõistatusromaane ja matkamist oma nelja-aastase huskyga.

Karthik Bharathy on Amazon SageMakeri tooteliider, kellel on üle kümne aasta tootehalduse, tootestrateegia, teostamise ja turuletoomise kogemust.

Ajatempel: Juuni 24, 2022

Ajatempel: Oktoober 27, 2022

Taasavaldanud Platon

Looge Twitteri, Amazon SageMakeri ja Hugging Face abil uudistepõhine reaalajas hoiatussüsteem

ML torujuhtmete stabiilsuse ja paindlikkuse parandamine Amazon Packaging Innovationis Amazon SageMaker Pipelinesiga

AWS Panorama toetab nüüd NVIDIA JetPack SDK 4.6.2

Parandage oma mudelikoolituse hinda, kasutades Amazon SageMakeri heterogeenseid klastreid

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto