Valige oma Amazon SageMakeri koolitustöö jaoks parim andmeallikas

Taasavaldanud Platon

järgijaid: 0

Amazon SageMaker on hallatav teenus, mis muudab masinõppe (ML) mudelite loomise, koolitamise ja juurutamise lihtsaks. Andmeteadlased kasutavad SageMakeri koolitustöid ML-mudelite hõlpsaks koolitamiseks; te ei pea muretsema arvutusressursside haldamise pärast ja maksate ainult tegeliku koolitusaja eest. Andmete sissevõtmine on iga koolitustoru lahutamatu osa ning SageMakeri koolitustööd toetavad erinevaid andmesalvestus- ja sisestusrežiime, et sobituda paljude koolituste koormustega.

See postitus aitab teil valida SageMaker ML-i treeningu kasutamiseks parima andmeallika. Tutvustame andmeallikate valikuid, mida SageMakeri koolitustööd natiivselt toetavad. Iga andmeallika ja sisendrežiimi puhul kirjeldame selle kasutusmugavust, jõudlusnäitajaid, kulusid ja piiranguid. Kiire alustamise hõlbustamiseks pakume diagrammi koos otsustusvoo näidisega, mida saate oma töökoormuse põhiomaduste põhjal jälgida. Lõpuks teeme realistlike koolitusstsenaariumide jaoks mitmeid võrdlusuuringuid, et näidata praktilist mõju koolituse üldkuludele ja tulemuslikkusele.

Natiivsed SageMakeri andmeallikad ja sisendrežiimid

Treeningandmete lihtne ja paindlik lugemine tulemuslikul viisil on ML-treeningu puhul tavaline korduv mure. SageMaker lihtsustab andmete sisestamist tõhusate, suure läbilaskevõimega andmetöötlusmehhanismide, mida nimetatakse andmeallikateks, ja nende vastavate sisestusrežiimide valikuga. See võimaldab teil treeningkoodi tegelikust andmeallikast lahti siduda, failisüsteeme automaatselt ühendada, suure jõudlusega lugeda, andmete paralleelsuse võimaldamiseks lihtsalt sisse lülitada andmete jagamist GPU-de ja eksemplaride vahel ning andmeid automaatselt segada iga perioodi alguses.

SageMakeri koolituse allaneelamismehhanism integreerub natiivselt kolme AWS-i hallatava salvestusteenusega:

Amazoni lihtne salvestusteenus (Amazon S3) on objektide salvestusteenus, mis pakub valdkonna juhtivat mastaapsust, andmete kättesaadavust, turvalisust ja jõudlust.
Amazon FSx Lusteri jaoks on täielikult hallatav jagatud salvestusruum, millel on populaarse Lusteri failisüsteemi skaleeritavus ja jõudlus. Tavaliselt on see lingitud olemasoleva S3 ämbriga.
Amazon elastne failisüsteem (Amazon EFS) on üldotstarbeline, skaleeritav ja suure kättesaadavusega jagatud failisüsteem mitme hinnatasemega. Amazon EFS on serverita ning kasvab ja kahaneb failide lisamisel ja eemaldamisel automaatselt.

SageMakeri koolitus võimaldab teie treeningskriptil juurdepääsu Amazon S3, FSx for Lustre või Amazon EFS-i salvestatud andmekogumitele, nagu oleks see saadaval kohalikus failisüsteemis (POSIX-iga ühilduva failisüsteemi liidese kaudu).

Kui andmeallikana on Amazon S3, saate valida failirežiimi, FastFile režiimi ja torurežiimi vahel.

Failirežiim – SageMaker kopeerib andmestiku Amazon S3-st ML-eksemplari salvestusruumi, mis on lisatud Amazoni elastsete plokkide pood (Amazon EBS) helitugevust või NVMe SSD helitugevust enne treeningskripti käivitamist.
FastFile režiim – SageMaker paljastab Amazon S3-s asuva andmestiku koolituseksemplaris POSIX-failisüsteemina. Andmestikufailid voogesitatakse Amazon S3-st nõudmisel, kui teie treeningskript neid loeb.
Toru režiim – SageMaker voogesitab Amazon S3-s asuva andmestiku ML-i koolituseksemplarile Unixi toruna, mis voogesitab Amazon S3-st nõudmisel, kui teie treeningskript loeb torust andmeid.

Kui andmeallikana on FSx for Luster või Amazon EFS, ühendab SageMaker failisüsteemi enne treeningskripti käivitamist.

Treeningu sisendkanalid

SageMakeri koolitustöö käivitamisel saate määrata kuni 20 hallatavat koolituse sisendkanalid. Võite mõelda kanalitest kui abstraktsiooniüksusest, mis annab koolitustööle teada, kuidas ja kust saada andmeid, mis on tehtud algoritmi koodi jaoks kättesaadavaks, et lugeda failisüsteemi teelt (näiteks /opt/ml/input/data/input-channel-name) ML eksemplaril. Valitud koolituskanalid jäädvustatakse koolitustöö metaandmete osana, et võimaldada täielikku mudeliliini jälgimist kasutusjuhtudel, nagu koolitustööde reprodutseeritavus või mudeli haldamise eesmärgid.

Amazon S3 kasutamiseks andmeallikana määrate a Koolituse sisend et täpsustada järgmist:

Teie sisestusrežiim (Faili-, FastFile- või Torurežiim)
jaotus ja segamine konfiguratsioon
An S3DataType kui üks kolmest meetodist teie andmestiku moodustavate objektide määramiseks Amazon S3-s:
- S3Prefix (kõik objektid S3 eesliite all)
- Manifesti fail (S3 objektide loend)
- Laiendatud manifesti fail (S3 objektide ja nende vastavate siltide loend)

Teise võimalusena määrate FSx for Lusteri või Amazon EFS jaoks a Failisüsteemi sisend.

Järgmine diagramm näitab viit koolitustööd, millest igaüks on konfigureeritud erineva andmeallika ja sisendrežiimi kombinatsiooniga.

Andmeallikad ja sisendrežiimid

Järgmised jaotised annavad põhjaliku ülevaate Amazon S3 (failirežiim, FastFile režiim ja torurežiim), FSx for Lustre ja Amazon EFS kui SageMakeri neelamismehhanismide erinevustest.

Amazon S3 failirežiim

Failirežiim on vaikesisestusrežiim (kui te seda selgelt ei määranud) ja seda on lihtsam kasutada. Kui kasutate seda sisestusvalikut, laadib SageMaker teie nimel enne mudelikoolituse käivitamist alla andmestiku Amazon S3-st ML-i koolituseksemplari salvestusruumi (olenevalt eksemplari tüübist Amazon EBS või kohalik NVMe), et koolitusskript saaks andmestikku lugeda kohalik failisüsteem. Sel juhul peab eksemplaril olema kogu andmestiku mahutamiseks piisavalt salvestusruumi.

Saate konfigureerida andmestiku failirežiimi jaoks, esitades kas S3 prefiksi, manifesti faili või täiendatud manifesti faili.

Peaksite kasutama S3-eesliidet, kui kõik teie andmekogumi failid asuvad ühises S3-eesliites (alamkaustad on korras).

Manifestifailis on loetletud failid, mis sisaldavad teie andmestikku. Tavaliselt kasutate manifesti siis, kui andmete eeltöötlustöö väljastab manifestifaili või kui teie andmestikufailid on hajutatud mitme S3 prefiksi vahel. Täiustatud manifest on JSON-i reafail, kus iga rida sisaldab atribuutide loendit, näiteks viidet Amazon S3 failile, koos täiendavate atribuutidega, enamasti siltidega. Selle kasutusjuhud on sarnased manifestiga.

Failirežiim ühildub SageMakeri kohalik režiim (SageMakeri treeningkonteineri käivitamine interaktiivselt sekunditega). Jaotatud koolituse jaoks saate andmestiku mitme eksemplari jaoks killustada rakendusega ShardedByS3Key valik.

Failirežiimi allalaadimise kiirus sõltub andmestiku suurusest, keskmisest faili suurusest ja failide arvust. Näiteks mida suurem on andmestik (või mida rohkem faile selles on), seda pikem on allalaadimisetapp, mille jooksul eksemplari arvutusressurss jääb sisuliselt jõude. Punktjuhtumitega treenides laaditakse andmestik alla iga kord, kui töö jätkub pärast Spot-katkestust. Tavaliselt toimub andmete allalaadimine suurte failide puhul (näiteks 200 minutit/5 GB) umbes 50 MB/s. See, kas see käivituskulu on vastuvõetav, sõltub peamiselt teie koolitustöö üldisest kestusest, sest pikem koolitusetapp tähendab proportsionaalselt väiksemat allalaadimisetappi.

Amazon S3 FastFile režiim

FastFile režiim paljastab S3 objektid POSIX-ühilduva failisüsteemi liidese kaudu, nagu oleksid failid saadaval teie treeningeksemplari kohalikul kettal, ja voogesitab nende sisu nõudmisel, kui treeningskripti andmeid tarbib. See tähendab, et teie andmestik ei pea enam mahtuma koolituseksemplari salvestusruumi ja te ei pea enne koolituse alustamist ootama, kuni andmestik koolituseksemplari alla laaditakse.

Selle hõlbustamiseks loetleb SageMaker kõik objekti metaandmed, mis on salvestatud määratud S3 prefiksi alla enne treeningskripti käitamist. Neid metaandmeid kasutatakse kirjutuskaitstud andmete loomiseks FUSE (failisüsteem kasutajaruumis) mis on teie treeningskripti jaoks saadaval /opt/ml/data/training-channel-name. S3 objektide loetlemine töötab kuni 5,500 objekti sekundis olenemata nende suurusest. See on palju kiirem kui failide esialgne allalaadimine, nagu failirežiimi puhul. Treeningskripti töötamise ajal saab see faile loetleda või lugeda nii, nagu need oleksid kohapeal saadaval. Iga lugemistoiming delegeeritakse FUSE-teenusele, mis edastab GET-i päringud Amazon S3-le, et edastada helistajale tegelik failisisu. Nagu kohalik failisüsteem, käsitleb FastFile faile baitidena, seega on see failivormingute suhtes agnostiline. FastFile režiim võib jõuda rohkem kui ühe GB/s läbilaskevõimeni, kui loete suuri faile järjest, kasutades mitut töötajat. FastFile'i saate kasutada väikeste failide lugemiseks või juhuslike baidivahemike toomiseks, kuid selliste juurdepääsumustrite puhul peaksite eeldama väiksemat läbilaskevõimet. Saate optimeerida lugemisjuurdepääsu mustrit, jadades paljud väikesed failid suurematesse failikonteineritesse ja lugedes neid järjestikku.

FastFile toetab praegu ainult S3 eesliiteid (manifesti ja täiendatud manifesti ei toeta) ning FastFile režiim ühildub SageMakeri kohaliku režiimiga.

Amazon S3 torurežiim

Torurežiim on veel üks voogedastusrežiim, mis on suures osas asendatud uuema ja lihtsamini kasutatava FastFile režiimiga.

Torurežiimis hangitakse andmed Amazon S3-st suure samaaegsuse ja läbilaskevõimega eeltoode ning voogesitatakse Unixi nimega FIFO torudesse. Iga toru saab lugeda ainult ühe protsessiga. SageMakeri spetsiifiline laiendus TensorFlow'le mugavalt integreerib torurežiimi natiivsesse TensorFlow andmelaadijasse teksti, TFRecordsi või RecordIO failivormingute voogesitamiseks. Torurežiim toetab ka hallatud andmete jagamist ja segamist.

FSx Lusteri jaoks

FSx for Lusteri läbilaskevõime ulatub sadadesse GB/s ja miljonitesse IOPS-i madala latentsusajaga failiotsingu abil.

Treeningtöö alustamisel ühendab SageMaker FSx for Lusteri failisüsteemi koolituseksemplari failisüsteemi ja käivitab seejärel teie koolitusskripti. Paigaldamine ise on suhteliselt kiire toiming, mis ei sõltu FSx for Lustre'i jaoks salvestatud andmestiku suurusest.

Paljudel juhtudel loote FSx jaoks Lusteri failisüsteemi ja linkige see S3 ämbri ja eesliitega. Kui see on lingitud allikana S3 ämbriga, laaditakse failid failisüsteemi laisalt, kui teie treeningskript neid loeb. See tähendab, et kohe pärast teie esimese treeningu esimest epohhi kopeeritakse kogu andmestik Amazon S3-st FSx-i Lusteri salvestamiseks (eeldusel, et epohh on määratletud ühe täieliku pühkimise mõttena treeningnäidetes ja eraldatud FSx Läikehoidla on piisavalt suur). See võimaldab juurdepääsu madala latentsusajaga failidele kõigi järgnevate perioodide ja sama andmestikuga koolitustööde jaoks.

Te saate ka failide eellaadimine failisüsteemi enne treeningtöö alustamist, mis leevendab laisast laadimisest tingitud külmkäivitust. Samuti on võimalik paralleelselt käivitada mitut koolitustööd, mida teenindab sama FSx for Luster failisüsteem. FSx for Lustre juurdepääsuks peab teie treeningtöö olema ühendatud VPC-ga (vt VPCConfigi seaded), mis nõuab DevOpsi seadistamist ja kaasamist. Andmeedastuskulude vältimiseks kasutab failisüsteem ühte Kättesaadavustsooni ja koolitustöö käivitamisel peate selle Kättesaadavustsooni ID määrama. Kuna kasutate Amazon S3 oma pikaajalise andmesalvestusena, soovitame kasutada oma FSx for Luster koos Scratch 2 salvestusruumiga, kuna see on kulutõhus ja lühiajaline salvestusvõimalus suure läbilaskevõime jaoks, mis tagab baastaseme 200 MB/s. ja katkestus kuni 1300 MB/s varustatud salvestusruumi TB kohta.

Kui teie FSx for Luster failisüsteem töötab pidevalt, saate alustada uusi koolitustöid, ootamata failisüsteemi loomist ja te ei pea muretsema külmkäivituse pärast juba esimesel etapil (kuna faile võib siiski vahemällu salvestada FSx for Luster failisüsteem). Selle stsenaariumi negatiivne külg on failisüsteemi töös hoidmisega seotud lisakulud. Teise võimalusena võite failisüsteemi luua ja kustutada enne ja pärast iga treeningtööd (tõenäoliselt abiks skriptitud automatiseerimine), kuid FSx for Luster failisüsteemi lähtestamine võtab aega, mis on võrdeline selles sisalduvate failide arvuga (näiteks Näiteks umbes 2 miljoni Amazon S3 objekti indekseerimiseks kulub umbes tund).

Amazon EFS

Soovitame kasutada Amazon EFS-i, kui teie treeningandmed asuvad juba Amazon EFS-is, kuna lisaks ML-treeningule on kasutusjuhtumeid. Amazon EFS-i kasutamiseks andmeallikana peavad andmed olema juba enne koolitust Amazon EFS-is. SageMaker ühendab määratud Amazon EFS-failisüsteemi koolituseksemplari ja käivitab seejärel teie treeningskripti. Amazon EFS-i failisüsteemi konfigureerimisel peate valima vaikimisi üldotstarbelise jõudlusrežiimi vahel, mis on optimeeritud latentsusaja jaoks (sobib väikeste failide jaoks), ja Max I/O jõudlusrežiimi vahel, mida saab skaleerida kõrgemale koondläbilaskevõimele ja operatsioone sekundis (parem paljude I/O töötajatega töökohtade koolitamiseks). Lisateabe saamiseks vaadake Õige jõudlusrežiimi kasutamine.

Lisaks saate valida kahe mõõdetud läbilaskevõime vahel: sarivõte ja ette nähtud läbilaskevõime. 1 TB failisüsteemi purske läbilaskevõime tagab lähtetaseme 150 MB/s, samas kui see suudab 300 tunni jooksul päevas kasutada kiirust 12 MB/s. Kui vajate suuremat algtaseme läbilaskevõimet või avastate, et sarivõtte krediit on liiga palju kordi otsa lõppemas, võite failisüsteemi suurust suurendada või lülituda varustatud läbilaskevõimele. Ettevalmistatud läbilaskevõime korral maksate soovitud algtaseme läbilaskevõime eest kuni maksimaalselt 3072 MB/s lugemiseni.

Teie koolitustöö peab olema ühendatud VPC-ga (vt VPCConfigi seaded), et pääseda juurde Amazon EFS-ile.

Parima andmeallika valimine

Parim andmeallikas teie koolitustöö jaoks sõltub töökoormuse omadustest, nagu andmestiku suurus, failivorming, keskmine faili suurus, treeningu kestus, järjestikune või juhuslik andmelaaduri lugemismuster ja sellest, kui kiiresti teie mudel suudab treeningandmeid tarbida.

Järgmine vooskeemis on mõned juhised, mis aitavad teil alustada.

Millal kasutada Amazon EFS-i

Kui teie andmestik on peamiselt salvestatud Amazon EFS-i, võib teil olla eeltöötlus- või märkuste rakendus, mis kasutab salvestamiseks Amazon EFS-i. Saate hõlpsasti käivitada koolitustöö, mis on konfigureeritud Amazon EFS-failisüsteemile osutava andmekanaliga (lisateabe saamiseks vaadake Kiirendage Amazon SageMakeri koolitust, kasutades Amazon FSx for Lusteri ja Amazon EFS failisüsteemide jaoks). Kui jõudlus ei ole päris nii hea, kui ootasite, kontrollige optimeerimisvalikuid rakendusega Amazon EFS-i jõudlusjuhendvõi kaaluge muid sisestusrežiime.

Kasutage väikeste andmekogumite jaoks failirežiimi

Kui andmestik on salvestatud Amazon S3-sse ja selle kogumaht on suhteliselt väike (näiteks alla 50–100 GB), proovige kasutada failirežiimi. 50 GB suuruse andmestiku allalaadimise üldkulud võivad olenevalt failide koguarvust erineda (näiteks umbes 5 minutit, kui need on jaotatud 100 MB tükkideks). See, kas see käivituskulu on vastuvõetav, sõltub peamiselt teie koolitustöö üldisest kestusest, sest pikem koolitusetapp tähendab proportsionaalselt väiksemat allalaadimisetappi.

Paljude väikeste failide järjestamine koos

Kui teie andmestiku maht on väike (alla 50–100 GB), kuid koosneb paljudest väikestest failidest (alla 50 MB), suureneb failirežiimi allalaadimiskulu, kuna iga fail tuleb Amazon S3-st eraldi alla laadida koolituseksemplari maht. Selle üldkulude vähendamiseks ja üldiselt andmete läbimise kiirendamiseks kaaluge väiksemate failide rühmade järjestamist vähematesse suurematesse failimahutitesse (nt 150 MB faili kohta), kasutades selliseid failivorminguid nagu TFRrecord TensorFlow jaoks, Veebiandmekogum PyTorchi jaoks või RecordIO MXNeti jaoks. Need vormingud nõuavad, et teie andmelaadija kordaks näiteid järjestikku. Endiselt saate oma andmeid segada, järjestades TFRecord-failide loendi juhuslikult pärast iga epohhi ja valides andmeid juhuslikult kohalikust segamispuhvrist (vt järgmist TensorFlow näide).

Millal kasutada FastFile režiimi?

Suuremate failidega (üle 50 MB) suuremate andmekogumite puhul on esimene võimalus proovida FastFile režiimi, mida on lihtsam kasutada kui FSx for Lusteri jaoks, kuna see ei nõua failisüsteemi loomist ega VPC-ga ühenduse loomist. FastFile režiim sobib ideaalselt suurte failikonteinerite jaoks (üle 150 MB) ja võib hästi toimida ka üle 50 MB failidega. Kuna FastFile režiim pakub POSIX-liidest, toetab see juhuslikku lugemist (mittejärjestikuliste baitvahemike lugemine). See pole aga ideaalne kasutusjuht ja teie läbilaskevõime oleks tõenäoliselt väiksem kui järjestikuste lugemiste puhul. Kui teil on aga suhteliselt suur ja arvutusmahukas ML-mudel, võib FastFile-režiim siiski olla võimeline treeningkonveieri efektiivset ribalaiust küllastama ja mitte tekitada sisend-väljundi kitsaskohta. Peate katsetama ja nägema. Õnneks on failirežiimilt FastFile'ile (ja tagasi) lülitumine sama lihtne kui faili lisamine (või eemaldamine). input_mode='FastFile' parameeter sisendkanali määramisel SageMaker Python SDK abil:

sagemaker.inputs.TrainingInput(S3_INPUT_FOLDER, input_mode='FastFile')

Ühtegi muud koodi ega konfiguratsiooni pole vaja muuta.

Millal kasutada FSx-i Lusteri jaoks?

Kui teie andmekogum on failirežiimi jaoks liiga suur või sisaldab palju väikeseid faile (mida te ei saa kergesti serialiseerida) või teil on juhusliku lugemise juurdepääsu muster, on FSx for Luster hea võimalus kaaluda. Selle failisüsteem ulatub sadade GB/s läbilaskevõimeni ja miljoniteni IOPS-ni, mis on ideaalne, kui teil on palju väikeseid faile. Kuid nagu juba varem mainitud, pidage meeles külmkäivitusprobleeme, mis on tingitud laisklaadimisest ning FSx for Lusteri failisüsteemi seadistamise ja initsialiseerimise kuludest.

Kulude kaalutlused

Enamiku ML-koolitustööde puhul, eriti tööde puhul, mis kasutavad GPU-sid või spetsiaalselt ehitatud ML-kiipe, moodustavad enamiku koolituskuludest ML-i koolituseksemplari arveldatavad sekundid. Salvestusmaht GB kuus, API taotlused ja ette nähtud läbilaskevõime on lisakulud, mis on otseselt seotud teie kasutatavate andmeallikatega.

Salvestusruumi GB kuus

Salvestusmaht GB kuus võib olla märkimisväärne suuremate andmekogumite (nt videod, LiDAR-andurite andmed ja AdTechi reaalajas pakkumislogid) jaoks. Näiteks 1 TB salvestamine Amazon S3 intelligentse tasemega sagedase juurdepääsu tase maksab 23 dollarit kuus. Failisüsteemi FSx for Luster lisamine Amazon S3-le toob kaasa lisakulusid. Näiteks SSD-ga toetatud Scratch 1.2 tüüpi 2 TB failisüsteemi loomine, mille andmete tihendamine on keelatud, maksab täiendavalt 168 dollarit kuus (140 dollarit TB kohta kuus).

Amazon S3 ja Amazon EFS-iga maksate ainult selle eest, mida kasutate, mis tähendab, et teilt võetakse tasu vastavalt tegelikule andmestiku suurusele. FSx for Lustre puhul võetakse teilt tasu etteantud failisüsteemi suuruse järgi (vähemalt 1.2 TB). EBS-i mahtudega ML-eksemplaride käitamisel võetakse Amazon EBS-i tasu ML-i eksemplarist sõltumatult. See on tavaliselt palju väiksem kulu võrreldes eksemplari käitamise kuludega. Näiteks 3.2 GB EBS-mahuga ml.p100xlarge eksemplari käitamine ühe tunni jooksul maksab eksemplari jaoks 1 dollarit ja EBS-i mahu jaoks 3.825 dollarit.

API taotlused ja ette nähtud läbilaskevõime maksumus

Sel ajal, kui teie koolitustöö andmestikku läbib, loetleb ja toob see faile, saates Amazon S3 API päringuid. Näiteks iga miljoni GET-i päringu hind on 0.4 dollarit (intelligentse taseme klassiga). Te ei tohiks oodata andmeedastuskulusid Amazon S3-sse ja sealt väljuva ribalaiuse eest, sest koolitus toimub ühes saadavuse tsoonis.

Kui kasutate FSx for Lusteri, mis on lingitud S3 ämbriga, tekivad teile Amazon S3 API päringukulud andmete lugemise eest, mis pole veel failisüsteemi vahemällu salvestatud, kuna FSx For Luster edastab päringu Amazon S3-le (ja salvestab tulemuse vahemällu). ). Lusteri enda jaoks FSx-i jaoks otseseid päringukulusid ei kaasne. Kui kasutate FSx for Lusteri failisüsteemi, vältige saadavuse tsoonidevahelise andmeedastuse kulusid, käivitades oma koolitustööd sama Kättesaadavustsooniga, milles failisüsteemi varustasite. Ettenähtud läbilaskevõimega Amazon EFS lisab tarbijale lisakulusid. GB kuus.

Tulemuslikkuse juhtumiuuring

Varem mainitud treeningu tulemuslikkuse kaalutluste demonstreerimiseks viisime läbi rea võrdlusaluseid realistlikuks kasutusjuhtumiks arvutinägemise valdkonnas. Selle jaotise etalon (ja väljavõtted) ei pruugi kõigi stsenaariumide puhul kehtida ja seda mõjutavad mitmed meie kasutatud eelnevalt kindlaksmääratud tegurid, näiteks DNN. Testisime 12 järgmiste kombinatsioonide jaoks:

Sisendrežiimid – FSx Lustre'i jaoks, failirežiim, FastFile režiim
Andmestiku suurus – väiksem andmestik (1 GB), suurem andmestik (54 GB)
Faili suurus - Väiksemad failid (JPG-d, umbes 39 KB), suuremad failid (TFRecord, umbes 110 MB)

Selle juhtumiuuringu jaoks valisime kõige laialdasemalt kasutatavad sisestusrežiimid ja seetõttu jätsime välja Amazon EFS-i ja torurežiimi.

Juhtumiuuringu etalonid töötati välja täielike SageMaker TensorFlow koolitustöödena ml.p3.2xsuurel ühe GPU-ga eksemplaril. Valisime klassifitseerimisülesande põhimudeliks tuntud ResNet-50 ja väiksemaks koolitusandmestikuks Caltech-256 (mida kopeerisime 50 korda, et luua selle suurem andmekogumi versioon). Tegime koolituse läbi ühe epohhi, mis on määratletud ühe täieliku pühkimisena koolitusnäidetes.

Järgmised graafikud näitavad SageMakeri koolitustööde arveldatavat koguaega iga võrdlusstsenaariumi jaoks. Kogu tööaeg koosneb allalaadimisest, koolitusest ja muudest etappidest (nt konteineri käivitamine ja koolitatud mudeliartefaktide üleslaadimine Amazon S3-sse). Lühemad arveldusajad toovad kaasa kiiremad ja odavamad koolitustööd.

Esmalt arutame Stsenaarium A ja stsenaarium C, mis demonstreerivad mugavalt sisendrežiimide jõudluse erinevust, kui andmestik koosneb paljudest väikestest failidest.

Stsenaarium A. (väiksemad failid, väiksem andmestik) näitab, et FSx for Lusteri failisüsteemiga koolitustööl on väikseim arveldatav aeg. Sellel on lühim allalaadimise faas ja selle treeningetapp on sama kiire kui failirežiim, kuid kiirem kui FastFile. FSx for Luster on selle ühe epohhi testi võitja. Sellegipoolest võtke arvesse sarnast töökoormust, kuid mitme perioodiga – allalaadimisetapist tulenev failirežiimi suhteline ülekoormus väheneb, kui lisandub uusi ajajärke. Sel juhul eelistame selle kasutusmugavuse tõttu failirežiimi. Lisaks võite avastada, et failirežiimi kasutamine ja 100 arveldatava lisasekundi eest tasumine on parem valik kui FSx for Luster failisüsteemi eest tasumine ja varustamine.

Stsenaarium C (väiksemad failid, suurem andmekogum) näitab FSx for Lusteri kiireimaks režiimiks, mille kogu arveldatav aeg on vaid 5,000 sekundit. Sellel on ka kõige lühem allalaadimisetapp, kuna FSx for Luster failisüsteemi paigaldamine ei sõltu failisüsteemis olevate failide arvust (antud juhul 1.5 miljonit faili). FastFile'i allalaadimise üldkulud on samuti väikesed; see hangib ainult määratud S3 ämbri prefiksi all olevate failide metaandmed, samal ajal kui failide sisu loetakse koolitusetapi ajal. Failirežiim on kõige aeglasem režiim, kulutades kogu andmekogumi allalaadimiseks enne treeningu alustamist 10,000 3 sekundit. Kui vaatame treeningetappi, näitavad FSx for Lusteri ja failirežiim sarnast suurepärast jõudlust. Mis puutub režiimi FastFile, siis väiksemate failide voogesitamisel otse Amazon SXNUMX-st muutub iga faili jaoks uue GET-päringu saatmise üldkulud failiedastuse kogukestuse suhtes märkimisväärseks (hoolimata sellest, et kasutatakse eellaadimispuhvriga väga paralleelset andmelaadijat). Selle tulemuseks on FastFile režiimi üldine madalam läbilaskevõime, mis loob koolitustöö jaoks I/O kitsaskoha. FSx for Luster on selles stsenaariumis selge võitja.

Stsenaariumid B ja D näidata sisendrežiimide jõudluse erinevust, kui andmestik koosneb vähematest suurematest failidest. Järjestikune lugemine suuremate failide abil annab tavaliselt parema I/O jõudluse, kuna võimaldab tõhusat puhverdamist ja vähendab I/O toimingute arvu.

Stsenaarium B (suuremad failid, väiksem andmestik) näitab kõigi režiimide jaoks sarnast treeningetapi aega (mis tõendab, et treening ei ole I/O-ga seotud). Selle stsenaariumi korral eelistame režiimi FastFile režiimile FastFile lühema allalaadimisetapi tõttu ja eelistame FastFile režiimi FSx jaoks Lusteri jaoks, kuna seda on lihtne kasutada.

Stsenaarium D (suuremad failid, suurem andmekogum) näitab kõigi kolme režiimi jaoks suhteliselt sarnast arveldusaega. Failirežiimi allalaadimise faas on pikem kui FSx-i puhul Lusteri ja FastFile'i jaoks. Failirežiim laadib kogu andmestiku (54 GB) Amazon S3-st treeningeksemplari alla enne treeningetapi alustamist. Kõik kolm režiimi kulutavad treeningfaasis sarnast aega, sest kõik režiimid saavad andmeid piisavalt kiiresti hankida ja on GPU-ga seotud. Kui kasutame ML-i eksemplare koos täiendavate CPU- või GPU-ressurssidega, näiteks ml.p4d.24xlarge, kasvab arvutusressursside küllastamiseks vajalik andmete sisend-/väljundvõimsus. Sellistel juhtudel võime eeldada, et FastFile ja FSx for Lusteri läbilaskevõimet skaleerivad edukalt (samas sõltub FSx for Lusteri läbilaskevõime etteantud failisüsteemi suurusest). Failirežiimi suutlikkus oma läbilaskevõimet skaleerida sõltub eksemplariga ühendatud ketta mahu läbilaskevõimest. Näiteks Amazon EBS-i toetatud eksemplarid (nt ml.p3.2xlarge, ml.p3.8xlarge ja ml.p3.16xlarge) on piiratud maksimaalse läbilaskevõimega 250 MB/s, samas kui kohalike NVMe-toega eksemplaride (nt ml. g5.* või ml.p4d.24xlarge) mahutab palju suurema läbilaskevõime.

Kokkuvõtteks usume, et FastFile on selle stsenaariumi võitja, kuna see on kiirem kui failirežiim ja sama kiire kui FSx for Lustre, kuid seda on lihtsam kasutada, see maksab vähem ja suudab oma läbilaskevõimet vajaduse korral hõlpsalt suurendada.

Lisaks, kui meil oleks palju suurem andmestik (mitu TB suurust), kulutaks failirežiimis andmestiku allalaadimiseks mitu tundi enne treeningu algust, samas kui FastFile saaks treenimist oluliselt kiiremini alustada.

Tooge oma andmete sissevõtt

SageMakeri loomulik andmeallikas sobib enamiku, kuid mitte kõigi võimalike ML-treeningu stsenaariumitega. Olukorrad, kus peate võib-olla otsima muid andmete sisestamise võimalusi, võivad hõlmata andmete otse lugemist kolmanda osapoole salvestustootest (eeldusel, et lihtne ja õigeaegne eksportimine Amazon S3-sse pole võimalik) või sama koolituse nõudmine. skript, mis töötab muutmata kujul nii SageMakeris kui ka Amazon Elastic Compute Cloud (Amazon EC2) või Amazoni elastse Kubernetese teenus (Amazon EKS). Saate neid juhtumeid lahendada, rakendades oma andmete sisestamise mehhanismi koolitusskripti. See mehhanism vastutab andmekogumite lugemise eest välistest andmeallikatest koolituseksemplari. Näiteks TFRecordDataset TensorFlow'st tf.data raamatukogu saab lugeda otse Amazon S3 salvestusruumist.

Kui teie andmete sisestamise mehhanism peab helistama mis tahes AWS-i teenustele, näiteks Amazoni relatsioonide andmebaasiteenus (Amazon RDS), veenduge, et AWS-i identiteedi- ja juurdepääsuhaldus (IAM) teie koolitustöö roll hõlmab asjakohaseid IAM-eeskirju. Kui andmeallikas asub Amazoni virtuaalne privaatpilv (Amazon VPC), peate oma koolitustööd tegema sama VPC-ga ühendatud.

Kui haldate ise andmestiku sissevõtmist, ei saa SageMakeri päritolu jälgimine treeningu ajal kasutatud andmekogumeid automaatselt logida. Seetõttu kaaluge oma asjakohaste metaandmete jäädvustamiseks alternatiivseid mehhanisme, nagu koolitustööde sildid või hüperparameetrid.

Järeldus

Õige SageMakeri koolitusandmete allika valimine võib oluliselt mõjutada ML-mudelite treenimise kiirust, kasutuslihtsust ja maksumust. Kasutage kaasasolevat vooskeemi kiireks alustamiseks, tulemuste jälgimiseks ja vajadusel lisakonfiguratsiooniga katsetamiseks. Pidage meeles iga andmeallika plusse, miinuseid ja piiranguid ning seda, kui hästi need vastavad teie koolitustöö individuaalsetele nõuetele. Lisateabe ja abi saamiseks võtke ühendust AWS-i kontaktisikuga.

Autoritest

Gili Nachum on vanem AI/ML spetsialistilahenduste arhitekt, kes töötab EMEA Amazonase masinõppe meeskonna osana. Gili tunneb kirglikult süvaõppe mudelite koolitamise väljakutseid ja seda, kuidas masinõpe muudab maailma sellisel kujul, nagu me seda teame. Vabal ajal mängib Gili meelsasti lauatennist.

Dr Aleksandr Aržanov on AI/ML spetsialistilahenduste arhitekt, mis asub Saksamaal Frankfurdis. Ta aitab AWS-i klientidel kavandada ja juurutada oma ML-lahendusi kogu EMEA piirkonnas. Enne AWS-iga liitumist uuris Alexander raskete elementide päritolu meie universumis ja sai ML-i vastu kirglikuks pärast seda, kui kasutas seda oma laiaulatuslikes teaduslikes arvutustes.

Ajatempel: Veebruar 23, 2022

Ajatempel: Mar 29, 2023

Taasavaldanud Platon

AWS Localization kasutab lokaliseerimise skaleerimiseks Amazon Translate'i

Kuidas VMware lõi nullist MLOps torujuhtme, kasutades GitLabi, Amazon MWAA ja Amazon SageMaker

Looge mitmekeelne dokumenditõlke töövoog domeeni- ja keelepõhise kohandamisega

Chronomics tuvastab COVID-19 testi tulemused Amazon Rekognitioni kohandatud siltide abil

Tugev aegridade prognoosimine MLOps-iga teenuses Amazon SageMaker | Amazoni veebiteenused

Amazon Lookout for Visioni kujutise suurendamise torustik

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto