Improve ML Developer Productivity With Weights & Biases: A Computer Vision Example On Amazon SageMaker

Ponovno objavil Platon

Spremljevalci: 0

Vsebina in mnenja v tej objavi so mnenja neodvisnega avtorja in AWS ni odgovoren za vsebino ali točnost te objave.

Ker vse več organizacij uporablja tehnike globokega učenja, kot sta računalniški vid in obdelava naravnega jezika, osebnost razvijalca strojnega učenja (ML) potrebuje razširljivo orodje za sledenje poskusom, rodovništvu in sodelovanju. Sledenje poskusu vključuje metapodatke, kot so operacijski sistem, uporabljena infrastruktura, knjižnica ter vhodni in izhodni nabori podatkov – ki se pogosto spremljajo ročno v preglednici. Lineage vključuje sledenje naborom podatkov, transformacijam in algoritmom, uporabljenim za ustvarjanje modela ML. Sodelovanje vključuje razvijalce ML, ki delajo na enem samem projektu, in tudi razvijalce ML, ki svoje rezultate delijo med ekipami in poslovnimi deležniki – proces, ki se običajno izvede prek e-pošte, posnetkov zaslona in PowerPoint predstavitev.

V tem prispevku urimo model za prepoznavanje predmetov za primer uporabe avtonomnega vozila z uporabo uteži in pristranskosti (W&B) in Amazon SageMaker. Predstavimo, kako skupna rešitev zmanjša ročno delo za razvijalca ML, ustvari večjo preglednost v procesu razvoja modela in omogoči ekipam sodelovanje pri projektih.

Ta primer izvajamo naprej Amazon SageMaker Studio da preizkusite sami.

Pregled uteži in pristranskosti

Weights & Biases pomaga ekipam ML hitreje zgraditi boljše modele. S samo nekaj vrsticami kode v vašem prenosnem računalniku SageMaker lahko takoj odpravite napake, primerjate in reproducirate svoje modele – arhitekturo, hiperparametre, git commits, uteži modelov, uporabo GPE, nabore podatkov in napovedi – vse to med sodelovanjem s soigralci.

W&B zaupa več kot 200,000 praktikov ML iz nekaterih najbolj inovativnih podjetij in raziskovalnih organizacij na svetu. Če želite preizkusiti brezplačno, se prijavite na Uteži in pristranskosti, Ali pa obiščite Seznam W&B AWS Marketplace.

Uvod v SageMaker Studio

SageMaker Studio je prvo popolnoma integrirano razvojno okolje (IDE) za ML. Studio ponuja enoten spletni vmesnik, kjer lahko praktiki ML in podatkovni znanstveniki zgradijo, učijo in uvedejo modele z nekaj kliki, vse na enem mestu.

Če želite začeti uporabljati Studio, potrebujete račun AWS in račun AWS upravljanje identitete in dostopa (IAM) uporabnik ali vloga z dovoljenji za ustvarjanje domene Studio. Nanašati se na Vkrcajte se na domeno Amazon SageMaker za ustvarjanje domene in Studijska dokumentacija za pregled uporabe vizualnega vmesnika Studio in zvezkov.

Nastavite okolje

Za to objavo nas zanima zagon lastne kode, zato uvozimo nekaj zvezkov iz GitHuba. Uporabljamo naslednje GitHub repo kot primer, torej naložimo ta zvezek.

Repozitorij lahko klonirate prek terminala ali uporabniškega vmesnika Studio. Če želite klonirati repozitorij prek terminala, odprite sistemski terminal (na file izberite meni Novo in terminal) in vnesite naslednji ukaz:

git clone https://github.com/wandb/SageMakerStudio

Če želite klonirati repozitorij iz uporabniškega vmesnika Studio, glejte Klonirajte repozitorij Git v SageMaker Studio.

Za začetek izberite 01_data_processing.ipynb zvezek. Prikaže se poziv za preklop jedra. Ta primer uporablja PyTorch, tako da lahko izberemo vnaprej izdelano PyTorch 1.10 Python 3.8 GPE optimiziran sliko za začetek našega zvezka. Vidite lahko, da se aplikacija zažene, in ko je jedro pripravljeno, prikažeta vrsto primerka in jedro v zgornjem desnem kotu vašega prenosnika.

Naš prenosni računalnik potrebuje nekaj dodatnih odvisnosti. Ta repozitorij ponuja requirements.txt z dodatnimi odvisnostmi. Zaženite prvo celico, da namestite zahtevane odvisnosti:

%pip install -r requirements.txt

Ustvarite lahko tudi konfiguracijo življenjskega cikla za samodejno namestitev paketov vsakič, ko zaženete aplikacijo PyTorch. glej Prilagodite Amazon SageMaker Studio s konfiguracijami življenjskega cikla za navodila in vzorčno izvedbo.

Uporabite uteži in pristranskosti v SageMaker Studio

Uteži in pristranskosti (wandb) je standardna knjižnica Python. Ko je enkrat nameščen, je tako preprost, kot da dodate nekaj vrstic kode v svoj skript za usposabljanje in pripravljeni ste na beleženje poskusov. Namestili smo ga že prek naše datoteke requirements.txt. Namestite ga lahko tudi ročno z naslednjo kodo:

! pip install wandb

Študija primera: Semantična segmentacija avtonomnega vozila

Podatkovni niz

Mi uporabljamo Označena video podatkovna baza, ki vodi Cambridge (CamVid) za ta primer. Vsebuje zbirko videoposnetkov s semantičnimi oznakami razreda objektov, skupaj z metapodatki. Podatkovna baza ponuja osnovne oznake resnice, ki povezujejo vsako slikovno piko z enim od 32 semantičnih razredov. Naš nabor podatkov lahko različico kot a wandb.Artefact, tako da se lahko pozneje sklicujemo nanj. Oglejte si naslednjo kodo:

with wandb.init(project="sagemaker_camvid_demo", job_type="upload"): artifact = wandb.Artifact( name='camvid-dataset', type='dataset', metadata={ "url": 'https://s3.amazonaws.com/fast-ai-imagelocal/camvid.tgz', "class_labels": class_labels }, description="The Cambridge-driving Labeled Video Database (CamVid) is the first collection of videos with object class semantic labels, complete with metadata. The database provides ground truth labels that associate each pixel with one of 32 semantic classes." ) artifact.add_dir(path) wandb.log_artifact(artifact)

Sledite lahko v 01_data_processing.ipynb zvezek.

Zabeležimo tudi a miza nabora podatkov. Tabele so bogate in zmogljive entitete, podobne DataFrame, ki vam omogočajo poizvedovanje in analizo tabelarnih podatkov. Na osrednji nadzorni plošči lahko razumete svoje nabore podatkov, vizualizirate napovedi modela in delite vpoglede.

Tabele uteži in pristranskosti podpirajo številne oblike obogatenih predstavnosti, kot so slike, zvok in valovne oblike. Za celoten seznam medijskih formatov glejte Vrste podatkov.

Naslednji posnetek zaslona prikazuje tabelo z neobdelanimi slikami s segmentacijami temeljne resnice. Ogledate si lahko tudi an interaktivno različico te tabele.

Izboljšajte produktivnost razvijalcev ML z Weights & Biases: Primer računalniškega vida na Amazon SageMaker PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Usposobi model

Zdaj lahko ustvarimo model in ga usposobimo na našem naboru podatkov. Uporabljamo PyTorch in hitro za hiter prototip osnovne linije in nato uporabo wandb.Sweeps za optimizacijo naših hiperparametrov. Sledite v 02_semantic_segmentation.ipynb zvezek. Ob pozivu za jedro ob odpiranju zvezka izberite isto jedro iz našega prvega zvezka, PyTorch 1.10 Python 3.8 GPE optimiziran. Vaši paketi so že nameščeni, ker uporabljate isto aplikacijo.

Model naj bi se naučil opombe na slikovno piko za prizor, zajet z vidika avtonomnega agenta. Model mora vsako slikovno piko danega prizora kategorizirati ali segmentirati v 32 ustreznih kategorij, kot so cesta, pešec, pločnik ali avtomobili. Izberete lahko katero koli od segmentiranih slik v tabeli in dostopate do tega interaktivnega vmesnika za dostop do rezultatov in kategorij segmentacije.

Ker hitro knjižnica ima integracijo s wandb, lahko preprosto prenesete WandbCallback učencu:

from fastai.callback.wandb import WandbCallback loss_func=FocalLossFlat(axis=1)
model = SegmentationModel(backbone, hidden_dim, num_classes=num_classes)
wandb_callback = WandbCallback(log_preds=True) learner = Learner( data_loader, model, loss_func=loss_func, metrics=metrics, cbs=[wandb_callback], ) learn.fit_one_cycle(TRAIN_EPOCHS, LEARNING_RATE)

Za osnovne poskuse smo se odločili uporabiti preprosto arhitekturo, ki jo je navdihnila UNet papir z različnimi hrbtenicami iz timm. Naše modele smo trenirali z Goriščna izguba kot merilo. Z Weights & Biases lahko preprosto ustvarite nadzorne plošče s povzetki svojih poskusov za hitro analizo rezultatov vadbe, kot je prikazano na naslednjem posnetku zaslona. Lahko tudi si oglejte to nadzorno ploščo interaktivno.

Hiperparametrsko iskanje s pometanjem

Za izboljšanje delovanja osnovnega modela moramo izbrati najboljši model in najboljši nabor hiperparametrov za usposabljanje. W&B nam to olajša pometa.

Izvajamo a Bayesovo iskanje hiperparametrov s ciljem povečati natančnost v ospredju modela na naboru validacijskih podatkov. Za izvedbo pometanja definiramo konfiguracijsko datoteko sweep.yaml. Znotraj te datoteke posredujemo želeno metodo za uporabo: bayes in parametre ter njihove ustrezne vrednosti za iskanje. V našem primeru preizkušamo različne hrbtenice, velikosti paketov in funkcije izgube. Raziskujemo tudi različne parametre optimizacije, kot sta stopnja učenja in upad teže. Ker so to zvezne vrednosti, vzorčimo iz porazdelitve. Obstaja več možnosti konfiguracije, ki so na voljo za pometanje.

program: train.py
project: sagemaker_camvid_demo
method: bayes
metric: name: foreground_acc goal: maximize
early_terminate: type: hyperband min_iter: 5
parameters: backbone: values: ["mobilenetv2_100","mobilenetv3_small_050","mobilenetv3_large_100","resnet18","resnet34","resnet50","vgg19"] batch_size: values: [8, 16] image_resize_factor: value: 4 loss_function: values: ["categorical_cross_entropy", "focal", "dice"] learning_rate: distribution: uniform min: 1e-5 max: 1e-2 weight_decay: distribution: uniform min: 0.0 max: 0.05

Nato v terminalu zaženete čiščenje z uporabo ukazna vrstica wandb:

$ wandb sweep sweep.yaml —-project="sagemaker_camvid_demo"

Nato zaženite agenta za čiščenje na tem računalniku z naslednjo kodo:

$ wandb agent <sweep_id>

Ko je pometanje končano, lahko uporabimo izris vzporednih koordinat za raziskovanje zmogljivosti modelov z različnimi hrbtenicami in različnimi nizi hiperparametrov. Na podlagi tega lahko ugotovimo, kateri model se najbolje obnese.

Naslednji posnetek zaslona prikazuje rezultate pometanja, vključno z diagramom vzporednih koordinat in korelacijskimi grafikoni parametrov. Lahko tudi oglejte si interaktivno nadzorno ploščo za pometanje.

Iz pregleda lahko pridobimo naslednje ključne vpoglede:

Nižja stopnja učenja in manjši upad teže povzročita boljšo natančnost v ospredju in rezultate Dice.
Velikost serije ima močne pozitivne korelacije z meritvami.
O Hrbtenice na osnovi VGG morda ni dobra možnost za usposabljanje našega končnega modela, ker so nagnjeni k temu, da povzročijo a izginjajoči gradient. (Izločeni so, ko se je izguba razšla.)
O ResNet hrbtenice imajo za posledico najboljšo splošno uspešnost glede na meritve.
Za končni model je treba izbrati hrbtenico ResNet34 ali ResNet50 zaradi njune visoke zmogljivosti v smislu meritev.

Linija podatkov in modela

Artefakti W&B so bili zasnovani tako, da olajšajo različico vaših naborov podatkov in modelov, ne glede na to, ali želite svoje datoteke shraniti v W&B ali že imate vedro, ki mu želite, da mu W&B sledi. Ko sledite svojim naborom podatkov ali modelnim datotekam, W&B samodejno beleži vsako spremembo, kar vam daje popolno in pregledljivo zgodovino sprememb vaših datotek.

V našem primeru se nabor podatkov, modeli in različne tabele, ustvarjene med usposabljanjem, zabeležijo v delovni prostor. To linijo si lahko hitro ogledate in vizualizirate tako, da obiščete Artefakte stran.

Izboljšajte produktivnost razvijalcev ML z Weights & Biases: Primer računalniškega vida na Amazon SageMaker PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Interpretirajte napovedi modela

Teža in pristranskosti je še posebej uporabna pri ocenjevanju zmogljivosti modela z uporabo moči wandb.Tabele da vizualiziramo, kje gre našemu modelu slabo. V tem primeru nas še posebej zanima pravilno odkrivanje ranljivih uporabnikov, kot so kolesa in pešci.

V tabelo smo zabeležili predvidene maske skupaj s koeficientom točk Dice na razred. Nato smo filtrirali po vrsticah, ki vsebujejo želene razrede, in jih razvrstili po naraščajočem vrstnem redu glede na rezultat Dice.

V naslednji tabeli najprej filtriramo tako, da izberemo, kje je rezultat Dice pozitiven (na sliki so prisotni pešci). Nato razvrstimo v naraščajočem vrstnem redu, da identificiramo naše najslabše zaznane pešce. Ne pozabite, da rezultat kocke, ki je enak 1, pomeni pravilno segmentacijo razreda pešcev. Lahko tudi si oglejte to tabelo interaktivno.

Izboljšajte produktivnost razvijalcev ML z Weights & Biases: Primer računalniškega vida na Amazon SageMaker PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

To analizo lahko ponovimo z drugimi ranljivimi razredi, kot so kolesa ali semaforji.

Ta funkcija je zelo dober način za prepoznavanje slik, ki niso pravilno označene, in njihovo označevanje za ponovno dodajanje opomb.

zaključek

Ta objava je predstavila platformo Weights & Biases MLOps, kako nastaviti W&B v SageMaker Studio in kako zagnati uvodni zvezek za skupno rešitev. Nato smo pregledali primer uporabe semantične segmentacije avtonomnega vozila in prikazali potek usposabljanja za sledenje s poskusi W&B, optimizacijo hiperparametrov z uporabo W&B sweepov in interpretacijo rezultatov s tabelami W&B.

Če vas zanima več, lahko dostopate do prenosa v živo W&B poročilo. Če želite brezplačno preizkusiti Weights & Biases, se prijavite na Uteži in pristranskosti, Ali pa obiščite Seznam W&B AWS Marketplace.

O avtorjih

Thomas Capelle je inženir strojnega učenja pri Weights and Biases. Odgovoren je za vzdrževanje repozitorija www.github.com/wandb/examples v živo in posodobljenem stanju. Prav tako gradi vsebino na MLOPS, aplikacijah W&B v panogah in nasploh o zabavnem globokem učenju. Prej je uporabljal globoko učenje za reševanje kratkoročnih napovedi za sončno energijo. Ima izkušnje s področja urbanističnega načrtovanja, kombinatorične optimizacije, ekonomike prometa in uporabne matematike.

Durga Sury je arhitekt rešitev ML v skupini Amazon SageMaker Service SA. Navdušena je nad tem, da bi strojno učenje postalo dostopno vsem. V treh letih pri AWS je pomagala vzpostaviti platforme AI/ML za poslovne stranke. Ko ni v službi, obožuje vožnje z motorjem, skrivnostne romane in pohode s svojim štiriletnim haskijem.

Karthik Bharathy je produktni vodja za Amazon SageMaker z več kot desetletjem izkušenj z upravljanjem izdelkov, strategijo izdelkov, izvajanjem in lansiranjem.

Časovni žig: Junij 24, 2022

Časovni žig: Oktober 27, 2022

Ponovno objavil Platon

Zgradite sistem obveščanja v realnem času, ki temelji na novicah, s Twitterjem, Amazon SageMakerjem in Hugging Face

Izboljšanje stabilnosti in prilagodljivosti cevovodov ML pri Amazon Packaging Innovation z Amazon SageMaker Pipelines

AWS Panorama zdaj podpira NVIDIA JetPack SDK 4.6.2

Izboljšajte cenovno učinkovitost vašega usposabljanja modela z uporabo heterogenih grozdov Amazon SageMaker

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun