Izboljšanje stabilnosti in prilagodljivosti cevovodov ML pri Amazon Packaging Innovation s cevovodi Amazon SageMaker

Ponovno objavil Platon

Spremljevalci: 0

Da bi razveselil stranke in zmanjšal količino odpadne embalaže, mora Amazon izbrati optimalno vrsto embalaže za milijarde paketov, poslanih vsako leto. Če se za lomljiv predmet, kot je skodelica za kavo, uporabi premalo zaščite, bo izdelek prispel poškodovan in Amazon tvega zaupanje svojih strank. Uporaba preveč zaščite bo povzročila višje stroške in prepolne zabojnike za recikliranje. Ker je na voljo več sto milijonov izdelkov, je potreben razširljiv mehanizem odločanja za nenehno učenje iz testiranja izdelkov in povratnih informacij strank.

Da bi rešili te težave, je skupina Amazon Packaging Innovation razvila modele strojnega učenja (ML), ki razvrščajo, ali so izdelki primerni za vrste embalaže Amazon, kot so poštne pošiljke, vrečke ali škatle, ali pa jih je mogoče celo poslati brez dodatne embalaže. Prej je ekipa razvila cevovod po meri, ki temelji na Korak funkcije AWS za izvajanje tedenskega usposabljanja in dnevnih ali mesečnih opravil sklepanja. Vendar sčasoma cevovod ni zagotovil zadostne prilagodljivosti za lansiranje modelov z novimi arhitekturami. Razvoj novih cevovodov je predstavljal dodatne stroške in zahteval usklajevanje med podatkovnimi znanstveniki in razvijalci. Da bi premagali te težave in izboljšali hitrost uvajanja novih modelov in arhitektur, se je ekipa odločila, da bo organizirala usposabljanje in sklepanje modelov z Amazonski cevovodi SageMaker.

V tem prispevku razpravljamo o prejšnji arhitekturi orkestracije, ki temelji na funkcijah korakov, opisujemo arhitekture učenja in sklepanja z uporabo cevovodov ter poudarjamo prilagodljivost, ki jo je dosegla ekipa Amazon Packaging Innovation.

Izzivi nekdanjega cevovoda ML pri Amazon Packaging Innovation

Da bi vključili stalne povratne informacije o učinkovitosti paketov, se vsak teden usposablja nov model z uporabo vedno večjega števila oznak. Sklepanje za celotno zalogo izdelkov se izvaja mesečno, dnevno sklepanje pa se izvaja za zagotavljanje pravočasnih napovedi za novo dodano zalogo.

Za avtomatizacijo procesa usposabljanja več modelov in zagotavljanje napovedi je ekipa razvila cevovod po meri, ki temelji na funkcijah korakov za orkestracijo naslednjih korakov:

Priprava podatkov za usposabljanje in opravila sklepanja ter nalaganje napovedi v podatkovno bazo (Amazon RedShift) Z AWS lepilo.
Usposabljanje modela in sklepanje z Amazon SageMaker.
Izračun meritev uspešnosti modela na validacijskem nizu z Serija AWS.
Uporaba Amazon DynamoDB za shranjevanje konfiguracij modela (kot je razmerje delitve podatkov za usposabljanje in validacijo, lokacija artefakta modela, vrsta modela in število primerkov za usposabljanje in sklepanje), metrike zmogljivosti modela in najnovejša uspešno usposobljena različica modela.
Izračun razlik v rezultatih uspešnosti modela, spremembe v porazdelitvi oznak usposabljanja in primerjava velikosti vhodnih podatkov med prejšnjo in novo različico modela z AWS Lambda funkcije.
Zaradi velikega števila korakov je plinovod zahteval tudi zanesljiv alarmni sistem na vsakem koraku, da bi zainteresirane strani opozoril na morebitne težave. To je bilo doseženo s kombinacijo Storitev Amazon Simple Queue Service (Amazon SQS) in Amazon Simple notification Service (Amazon SNS). Alarmi so bili ustvarjeni za obveščanje poslovnih deležnikov, podatkovnih znanstvenikov in razvijalcev o kakršnih koli neuspelih korakih in velikih odstopanjih v modelu in meritvah podatkov.

Po skoraj 2-letni uporabi te rešitve je ekipa ugotovila, da je ta izvedba dobro delovala samo za tipičen potek dela ML, kjer je bil en sam model usposobljen in ocenjen na naboru validacijskih podatkov. Vendar pa rešitev ni bila dovolj prilagodljiva za kompleksne modele in ni bila odporna na okvare. Na primer, arhitektura se ni zlahka prilagodila zaporednemu usposabljanju modelov. Težko je bilo dodati ali odstraniti korak brez podvajanja celotnega cevovoda in spreminjanja infrastrukture. Celo preproste spremembe v korakih obdelave podatkov, kot je prilagoditev razmerja delitve podatkov ali izbira drugačnega nabora funkcij, so zahtevale usklajevanje podatkovnega znanstvenika in razvijalca. Ko je cevovod v katerem koli koraku odpovedal, ga je bilo treba znova zagnati od začetka, kar je povzročilo ponavljajoče se zagone in višje stroške. Da bi se izognili ponavljajočim se zagonom in ponovnemu zagonu iz neuspelega koraka, bi ekipa ustvarila novo kopijo skrajšanega stroja stanja. To odpravljanje težav je povzročilo širjenje državnih avtomatov, od katerih se je vsak začel s običajno neuspešnimi koraki. Nazadnje, če je delo usposabljanja naletelo na odstopanje v porazdelitvi oznak, rezultatu modela ali številu oznak, je moral podatkovni znanstvenik ročno pregledati model in njegove meritve. Nato bi podatkovni znanstvenik dostopal do tabele DynamoDB z različicami modela in posodobil tabelo, da bi zagotovil, da je bil za naslednje opravilo sklepanja uporabljen pravilen model.

Vzdrževanje te arhitekture je zahtevalo vsaj en namenski vir in dodaten vir za polni delovni čas za razvoj. Glede na težave pri razširitvi cevovoda za prilagoditev novim primerom uporabe so podatkovni znanstveniki začeli razvijati lastne poteke dela, kar je posledično privedlo do rastoče kodne baze, več podatkovnih tabel s podobnimi podatkovnimi shemami in decentraliziranega spremljanja modela. Kopičenje teh težav je povzročilo nižjo produktivnost ekipe in povečane režijske stroške.

Za reševanje teh izzivov je ekipa Amazon Packaging Innovation ocenila druge obstoječe rešitve za MLOps, vključno s cevovodi SageMaker (Obvestilo o izdaji decembra 2020). Cevovodi so zmožnost SageMakerja za gradnjo, upravljanje, avtomatizacijo in skaliranje delovnih tokov ML od konca do konca. Cevovodi vam omogočajo zmanjšanje števila korakov v celotnem poteku dela ML in so dovolj prilagodljivi, da podatkovnim znanstvenikom omogočajo definiranje poteka dela ML po meri. Skrbi za spremljanje in beleženje korakov. Priložen je tudi register modelov, ki samodejno izda nove modele. Register modelov ima vgrajene poteke dela za odobritev za izbiro modelov za sklepanje v proizvodnji. Cevovodi omogočajo tudi predpomnjenje korakov, ki so klicani z enakimi argumenti. Če je najden prejšnji zagon, se ustvari predpomnilnik, ki omogoča enostaven ponovni zagon namesto ponovnega izračunavanja uspešno izvedenih korakov.

V procesu ocenjevanja je Pipelines izstopal od drugih rešitev po svoji prilagodljivosti in razpoložljivosti funkcij za podporo in razširitev trenutnih in prihodnjih delovnih tokov. Prehod na cevovode je razvijalcem sprostil čas za vzdrževanje platforme in odpravljanje težav ter preusmeril pozornost k dodajanju novih funkcij. V tej objavi predstavljamo zasnovo za usposabljanje in delovne tokove sklepanja v skupini Amazon Packaging Innovation z uporabo cevovodov. Razpravljamo tudi o prednostih in zmanjšanju stroškov, ki jih je ekipa dosegla s prehodom na Pipelines.

Cevovod za usposabljanje

Ekipa Amazon Packaging Innovation usposablja modele za vsako vrsto paketa z uporabo vse večjega števila oznak. Naslednji diagram prikazuje celoten postopek.

Delovni tok se začne z ekstrahiranjem nalepk in funkcij iz baze podatkov Amazon Redshift in razlaganjem podatkov vanjo Preprosta storitev shranjevanja Amazon (Amazon S3) prek načrtovanega opravila ekstrahiranja, preoblikovanja in nalaganja (ETL). Skupaj z vhodnimi podatki se v vedro S3 postavi datotečni objekt s tipom modela in parametri. Ta datoteka služi kot sprožilec cevovoda prek funkcije Lambda.

Naslednji koraki so povsem prilagodljivi in jih v celoti definira podatkovni znanstvenik z uporabo SDK-ja SageMaker Python za cevovode. V scenariju, ki ga predstavljamo v tej objavi, so vhodni podatki razdeljeni na nize za usposabljanje in preverjanje ter shranjeni nazaj v vedro S3 z zagonom opravila SageMaker Processing.

Ko so podatki pripravljeni v Amazon S3, se začne izobraževalno delo SageMaker. Ko je model uspešno usposobljen in ustvarjen, se na validacijskih podatkih izvede korak vrednotenja modela prek opravila paketnega preoblikovanja SageMaker. Meritve modela se nato primerjajo z meritvami modela prejšnjega tedna z uporabo opravila SageMaker Processing. Skupina je določila več meril po meri za ocenjevanje odstopanj v delovanju modela. Na podlagi teh meril je model zavrnjen ali odobren. Če je model zavrnjen, se za naslednja opravila sklepanja uporabi prejšnji odobreni model. Če je model odobren, je njegova različica registrirana in ta model se uporablja za opravila sklepanja. Deležniki prejmejo obvestilo o izidu prek amazoncloudwatch alarmi.

Naslednji posnetek zaslona iz Amazon SageMaker Studio prikazuje korake cevovoda usposabljanja.

Cevovodi spremljajo vsak potek cevovoda, ki ga lahko spremljate v Studiu. Druga možnost je, da poizvedujete o napredku teka z uporabo Boto3 ali Vmesnik ukazne vrstice AWS (AWS CLI). V Studiu si lahko vizualizirate meritve modela in primerjate različne različice modela.

Sklepni cevovod

Ekipa Amazon Packaging Innovation mesečno osvežuje napovedi za celotno zalogo izdelkov. Dnevne napovedi so ustvarjene za zagotavljanje pravočasnih priporočil za pakiranje za novo dodane zaloge z uporabo najnovejšega usposobljenega modela. To zahteva, da se cevovod sklepanja dnevno izvaja z različnimi količinami podatkov. Naslednji diagram ponazarja ta potek dela.

Podobno kot pri usposabljanju se sklepanje začne z razkladanjem podatkov iz Amazon Redshift v vedro S3. Objekt datoteke, postavljen v Amazon S3, sproži funkcijo Lambda, ki sproži cevovod sklepanja. Funkcije so pripravljene za sklepanje in podatki so razdeljeni v datoteke ustrezne velikosti s pomočjo opravila SageMaker Processing. Nato cevovod identificira najnovejši odobreni model za izvajanje napovedi in jih naloži v vedro S3. Nazadnje se napovedi naložijo nazaj v Amazon Redshift z uporabo boto3-data API znotraj opravila SageMaker Processing.

Naslednji posnetek zaslona iz Studia prikazuje podrobnosti sklepnega cevovoda.

Prednosti izbire načrtovanja delovnih tokov ML s SageMaker Pipelines

V tem razdelku razpravljamo o pridobitvah, ki jih je skupina Amazon Packaging Innovation dosegla s prehodom na cevovode za modelno usposabljanje in sklepanje.

Že pripravljene funkcije MLOps na produkcijski ravni

Med primerjavo različnih notranjih in zunanjih rešitev za naslednjo rešitev cevovoda ML je en sam podatkovni znanstvenik uspel izdelati prototip in razviti polno različico delovnega toka ML s cevovodi v okolju Studio Jupyter v manj kot 3 tednih. Celo v fazi izdelave prototipov je postalo jasno, da Pipelines zagotavlja vse potrebne infrastrukturne komponente, ki so potrebne za potek dela na produkcijski ravni: modeliranje različic, predpomnjenje in alarmi. Takojšnja razpoložljivost teh funkcij je pomenila, da ne boste porabili dodatnega časa za njihov razvoj in prilagajanje. To je bil jasen dokaz vrednosti, ki je ekipo Amazon Packaging Innovation prepričal, da je Pipelines prava rešitev.

Prilagodljivost pri razvoju modelov ML

Največja pridobitev za podatkovne znanstvenike v ekipi je bila zmožnost enostavnega eksperimentiranja in ponavljanja skozi različne modele. Ne glede na to, kakšen okvir so imeli raje za svoje delo ML ter število korakov in funkcij, ki jih je vključevalo, je Pipelines zadovoljil njihove potrebe. Podatkovni znanstveniki so bili pooblaščeni za eksperimentiranje, ne da bi morali čakati, da se vključijo v sprint razvoja programske opreme in dodajo dodatno funkcijo ali korak.

Zmanjšani stroški

Zmogljivost cevovodov SageMakerja je brezplačno: plačate samo za računalniške vire in shranjevanje, povezano z usposabljanjem in sklepanjem. Ko pa razmišljate o stroških, morate upoštevati ne le stroške uporabljenih storitev, temveč tudi ure razvijalcev, ki so potrebne za vzdrževanje poteka dela, odpravljanje napak in popravke. Orkestriranje s cevovodi je enostavnejše, ker je sestavljeno iz manj delov in znane infrastrukture. Prej sta bila za dodajanje nove funkcije potrebni vsaj dve osebi (podatkovni znanstvenik in programski inženir) v ekipi Amazon Packaging Innovation, ki sta jo implementirali. S preoblikovanim cevovodom so inženirska prizadevanja zdaj usmerjena v dodatno prilagojeno infrastrukturo okoli cevovoda, kot je ustvarjanje enotnega repozitorija za sledenje kodi strojnega učenja, poenostavitev uvajanja modela v računih AWS, razvoj integriranih opravil ETL in skupnih funkcije za večkratno uporabo.

Zmožnost predpomnilnika korakov s podobnim vnosom je prav tako prispevala k zmanjšanju stroškov, ker je bilo manj verjetno, da bodo ekipe ponovno zagnale celoten cevovod. Namesto tega bi ga zlahka začeli od točke neuspeha.

zaključek

Ekipa Amazon Packaging Innovation mesečno usposablja modele ML in redno posodablja napovedi za priporočene vrste embalaže izdelkov. Ta priporočila so jim pomagala doseči številne cilje za celotno ekipo in podjetje z zmanjšanjem odpadkov in razveseljevanjem strank z vsakim naročilom. Cevovodi za usposabljanje in sklepanje morajo redno delovati zanesljivo, hkrati pa omogočati nenehno izboljševanje modelov.

Prehod na cevovode je ekipi omogočil uvedbo štirih novih arhitektur večmodalnih modelov v proizvodnjo v manj kot 2 mesecih. Uvedba novega modela s prejšnjo arhitekturo bi zahtevala 5 dni (z isto arhitekturo modela) do 1 mesec (z novo arhitekturo modela). Uvedba istega modela z uporabo cevovodov je ekipi omogočila skrajšanje časa razvoja na 4 ure z isto arhitekturo modela in na 5 dni z novo arhitekturo modela. To pomeni prihranek skoraj 80 % delovnih ur.

Dodatni viri

Za več informacij glejte naslednje vire:

O avtorjih

Ankur Šukla je glavni podatkovni znanstvenik pri AWS-ProServe s sedežem v Palo Altu. Ankur ima več kot 15 let svetovalnih izkušenj pri neposrednem delu s stranko in ji pomaga rešiti poslovni problem s tehnologijo. Vodi številne globalne uporabne znanosti in pobude ML-Ops znotraj AWS. V prostem času rada bere in preživlja čas z družino.

Akash Singla je višji sistemski inženir pri skupini Amazon Packaging Innovation. Ima več kot 17 let izkušenj pri reševanju kritičnih poslovnih problemov s tehnologijo za več poslovnih vertikal. Trenutno se osredotoča na nadgradnjo infrastrukture NAWS za različne aplikacije, osredotočene na embalažo, da bi jih bolje prilagodil.

Vitalina Komaško je podatkovni znanstvenik pri AWS Professional Services. Ima doktorat iz farmakologije in toksikologije, vendar je z eksperimentalnega dela prešla na podatkovno znanost, ker je želela »lastiti ustvarjanje podatkov in interpretacijo rezultatov«. Na začetku svoje kariere je sodelovala z biotehnološkimi in farmacevtskimi podjetji. Pri AWS uživa v reševanju problemov strank iz različnih panog in spoznavanju njihovih edinstvenih izzivov.

Prasanth Meiyappan je starejši uporabni znanstvenik pri Amazon Packaging Innovation že 4+ leta. Ima več kot 6 let industrijskih izkušenj na področju strojnega učenja in je pošiljal izdelke za izboljšanje uporabniške izkušnje pri iskanju in pakiranja strank. Prasanth je navdušen nad trajnostjo in ima doktorat iz statističnega modeliranja podnebnih sprememb.

Matthew Bales je višji raziskovalec, ki se ukvarja z optimizacijo izbire vrste paketa z uporabo povratnih informacij strank in strojnega učenja. Pred Amazonom je Matt delal kot podoktor in izvajal simulacije fizike delcev v Nemčiji, v prejšnjem življenju pa je bil vodja proizvodnje radioaktivnih medicinskih vsadkov v zagonskem podjetju. Ima doktorat znanosti. doktor fizike na Univerzi v Michiganu.