TorchVisioni moderniseerimise teekond – TorchVisioni arendaja memuaarid – 3 PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

TorchVisioni moderniseerimise teekond – TorchVisioni arendaja memuaarid – 3

TorchVisioni moderniseerimise teekond – TorchVisioni arendaja memuaarid – 3

Sellest on möödunud tükk aega, kui ma viimati TorchVisioni memuaaride kohta uue sissekande postitasin seeria. Arvasin, et olen varem jaganud uudiseid ametlikus PyTorchi ajaveebis ja edasi puperdama, ma arvasin, et oleks hea mõte rääkida lähemalt TorchVisioni viimase väljalaskega (v0.12) juhtunust, järgmise versiooni (v0.13) väljatulekust ja meie plaanidest aastaks 2022H2. Minu eesmärk on minna kaugemale uutest funktsioonidest ülevaate andmisest ja pigem anda ülevaade sellest, kuhu tahame projekti järgmistel kuudel viia.

TorchVision v0.12 oli mahukas väljalase, millel on kaks fookust: a) värskendage meie kasutusest loobumise ja mudeli panuse poliitikat, et parandada läbipaistvust ja meelitada ligi rohkem kogukonna kaastöölisi ning b) kahekordistada meie moderniseerimispüüdlusi, lisades populaarsed uued mudeliarhitektuurid, andmestikud ja ML-tehnikad.

Meie eeskirjade värskendamine

Eduka avatud lähtekoodiga projekti võtmeks on terve ja aktiivse kogukonna säilitamine, mis aitab sellesse kaasa ja viib seda edasi. Seega on meie meeskonna oluline eesmärk suurendada kogukonna panuste arvu, pidades silmas pikaajalist visiooni võimaldada kogukonnal lisaks tavapärastele järkjärgulistele täiustustele (vea-/dokiparandused) panustada suurte funktsioonide (uued mudelid, ML-tehnikad jne) juurde. , väikesed funktsioonid jne).

Ajalooliselt, kuigi kogukond oli innukas selliste funktsioonide lisamiseks kõhkles meie meeskond neid vastu võtma. Peamine blokeerija oli konkreetse mudeli panuse ja amortisatsioonipoliitika puudumine. Selle lahendamiseks tegi Joao Gomes kogukonnaga koostööd, et koostada ja avaldada meie esimene näidispanuse juhised mis annab selgust uute arhitektuuride, eelkoolitatud kaalude ja mudelikoolitust nõudvate funktsioonide loomise protsessi kohta. Lisaks töötas Nicolas Hug koos PyTorchi põhiarendajatega, et koostada ja kasutusele võtta konkreetne amortisatsioonipoliitika.

Eelnimetatud muudatustel oli projektile kohene positiivne mõju. Uus kaastööpoliitika aitas meil saada arvukalt kogukonna kaastöid suurte funktsioonide jaoks (lisateavet leiate allpool) ja selge kasutuseeskirjad võimaldasid meil puhastada oma koodibaasi, tagades samas, et TorchVision pakub tugevaid tagasiühilduvuse garantiisid. Meie meeskond on väga motiveeritud jätkama koostööd avatud lähtekoodiga arendajate, uurimisrühmade ja alljärgnevate raamatukogude loojatega, et TorchVision oleks asjakohane ja värske. Kui teil on tagasisidet, kommentaari või funktsioonitaotlust, palun sirutama meile.

TorchVisioni moderniseerimine

Pole saladus, et viimastel väljaannetel on meie sihtmärk oli lisada TorchVisionile kõik vajalikud täiendused, kaod, kihid, koolitusutiliidid ja uudsed arhitektuurid, et meie kasutajad saaksid PyTorchi abil hõlpsasti SOTA tulemusi reprodutseerida. TorchVision v0.12 jätkas seda teed pidi:

  • Meie rockstaari kogukonna kaastöötajad Hu Ye ja Zhiqiang Wang on andnud oma panuse FCOS arhitektuur, mis on üheastmeline objektituvastuse mudel.

  • Nicolas Hug on TorchVisionis lisanud optilise voo toe, lisades PARVE arhitektuur.

  • Yiwen Song on lisanud tuge Vision Transformer (ViT) ja olen lisanud ConvNEXt arhitektuur koos täiustatud eeltreenitud raskustega.

  • Lõpuks koos aitama meie kogukonnast, oleme lisanud 14 uus klassifikatsioon ja 5 uut optilist voolu andmestikud.

  • Nagu tavaliselt, oli väljalasega kaasas arvukalt väiksemaid täiustusi, veaparandusi ja dokumentatsiooni täiustusi. Kõigi uute funktsioonide ja meie kaastöötajate loendi vaatamiseks vaadake v0.12 väljalaskemärkmed.

TorchVision v0.13 on kohe käes, selle eeldatav väljalaskmine juuni alguses. See on väga suur väljalase, millel on palju uusi funktsioone ja suuri API täiustusi.

Moderniseerimise lõpetamine ja SOTA-st puudujäägi kaotamine

Me jätkame oma teekond raamatukogu kaasajastamiseks lisades vajalikud primitiivid, mudeliarhitektuurid ja retseptiutiliidid, et saada SOTA tulemusi peamiste Computer Visioni ülesannete jaoks:

  • Victor Fomini abiga olen lisanud olulisi puuduvaid Data Augmentation tehnikaid nagu AugMix, Suuremahuline värin jne. Need tehnikad võimaldasid meil SOTA-st maha võtta ja toota paremaid kaalusid (vt allpool).

  • Aditya Oke, Hu Ye, Yassine Alouini ja Abhijit Deo abiga oleme lisanud olulisi ühiseid ehitusplokke, nagu DropBlock kiht, MLP plokk, oskan & DOU kaotus jne. Lõpuks töötasin koos Shen Liga PyTorchi pikaajalise probleemi lahendamiseks SyncBatchNorm kiht, mis mõjutas tuvastamismudeleid.

  • Hu Ye Joao Gomesi toetusel lisas Swin Transformer koos täiustatud eeltreenitud raskustega. Lisasin EfficientNetV2 arhitektuur ja mitmed paberijärgsed arhitektuurilised optimeerimised rakendamise kohta RetinaNet, FasterRCNN ja MaskRCNN.

  • Nagu ma varem PyTorchi ajaveebis arutasin, oleme teinud märkimisväärseid jõupingutusi oma eeltreenitud raskuste parandamiseks, luues parema koolituse retsept. See võimaldas meil parandada oma täpsust Klassifitseerimismudelid 3 täpsuspunkti võrra, saavutades erinevate arhitektuuride jaoks uue SOTA. Sarnane pingutus tehti selleks Tuvastamine ja segmenteerimine, kus parandasime mudelite täpsust keskmiselt üle 8.1 mAP võrra. Lõpuks töötas Yosua Michael M Laura Gustafsoni, Mannat Singhandi ja Aaron Adcockiga, et toetada Swag, uute ülitäpsete tipptasemel eeltreenitud raskuste komplekt ViT ja RegNets jaoks.

Uus mitme kaalu tugi API

Nagu mina varem arutatud PyTorchi ajaveebis on TorchVision laiendanud oma olemasolevat mudeliehitaja mehhanismi, et toetada mitut eelnevalt treenitud raskust. Uus API on täielikult tagasiühilduv, võimaldab luua erineva kaaluga mudeleid ja pakub mehhanisme kasulike metaandmete (nt kategooriad, parameetrite arv, mõõdikud jne) hankimiseks ja mudeli eeltöötluse järelduste teisendusteks. Seal on pühendatud tagasiside väljaanne Githubis et aidata meil kõiki ebatasasi servi triikida.

Uuendatud dokumentatsioon

Nicolas Hug juhtis jõupingutusi ümberstruktureerimiseks mudeli dokumentatsioon TorchVisionist. Uus struktuur suudab kasutada Multi-weight Support API funktsioone, et pakkuda paremat dokumentatsiooni eelkoolitatud kaalude ja nende kasutamise kohta teegis. Suur hõiskamine meie kogukonna liikmetele meid aidates dokumenteerige kõik arhitektuurid õigeaegselt.

Arvame, et meie 2022. aasta 2. aasta üksikasjalik tegevuskava pole veel lõpule viidud, siin on mõned olulised projektid, mille kallal me praegu töötame:

  • Teeme tihedat koostööd Haoqi Fani ja Christoph Feichtenhoferiga PyTorchi video, et lisada Täiustatud mitmemõõtmeline nägemistrafo (MViTv2) arhitektuur TorchVisionile.

  • Philip Meier ja Nicolas Hug töötavad selle täiustatud versiooni kallal Andmekogumite API (v2), mis kasutab TorchData ja andmetorud. Philip Meier, Victor Fomin ja mina töötame samuti oma laiendamise nimel Transforms API (v2), et toetada mitte ainult pilte, vaid ka piirdekaste, segmentimismaske jne.

  • Lõpuks aitab kogukond meil hoida TorchVisioni värske ja asjakohasena, lisades populaarseid arhitektuure ja tehnikaid. Lezwon Castelino teeb praegu koostööd Victor Fominiga, et lisada SimpleCopyPaste suurendamine. Hu Ye töötab praegu selle nimel, et lisada DeTR arhitektuur.

Kui soovite projektiga kaasa lüüa, vaadake meie lehte head esimesed numbrid ja abi taheti nimekirjad. Kui olete kogenud PyTorch/Computer Visioni veteran ja soovite oma panuse anda, on meil mitu kandidaatprojekti uuteks ettevõtjad, kaod, täiendused ja mudelid.

Loodan, et artikkel oli teile huvitav. Kui tahad ühendust võtta, siis võta minuga ühendust LinkedIn or puperdama.

Ajatempel:

Veel alates Datumbox