ML-i torujuhtmete stabiilsuse ja paindlikkuse parandamine Amazoni pakendiinnovatsioonis Amazon SageMakeri torujuhtmetega

Taasavaldanud Platon

järgijaid: 0

Klientide rõõmustamiseks ja pakendijäätmete minimeerimiseks peab Amazon valima igal aastal saadetavate miljardite pakendite jaoks optimaalse pakenditüübi. Kui hapra eseme, näiteks kohvikruusi puhul kasutatakse liiga vähe kaitset, saabub ese kahjustatud ja Amazon ohustab oma kliendi usaldust. Liiga suure kaitse kasutamine toob kaasa kulude suurenemise ja prügikastide ületäitumise. Kuna saadaval on sadu miljoneid tooteid, on vaja skaleeritavat otsustusmehhanismi, et pidevalt õppida toodete testimisest ja klientide tagasisidest.

Nende probleemide lahendamiseks töötas Amazon Packaging Innovationi meeskond välja masinõppe (ML) mudelid, mis klassifitseerivad, kas tooted sobivad Amazoni pakenditüüpidele, nagu postisaadetised, kotid või karbid, või kas neid saab tarnida ilma täiendava pakendita. Varem töötas meeskond välja kohandatud torujuhtme, mis põhineb AWS-i astmefunktsioonid iganädalaste koolituste ja igapäevaste või igakuiste järeldustööde tegemiseks. Kuid aja jooksul ei pakkunud torujuhe piisavalt paindlikkust uue arhitektuuriga mudelite käivitamiseks. Uute torujuhtmete arendamine tõi kaasa üldkulud ja nõutava koordineerimise andmeteadlaste ja arendajate vahel. Nendest raskustest ülesaamiseks ning uute mudelite ja arhitektuuride juurutamise kiiruse suurendamiseks otsustas meeskond korraldada mudelikoolituse ja järelduste tegemise Amazon SageMakeri torujuhtmed.

Selles postituses käsitleme eelmist astmefunktsioonidel põhinevat orkestreerimisarhitektuuri, kirjeldame torujuhtmeid kasutades koolitus- ja järeldusarhitektuure ning tõstame esile Amazon Packaging Innovationi meeskonna saavutatud paindlikkuse.

Amazon Packaging Innovationi endise ML-i torujuhtme väljakutsed

Pideva tagasiside andmiseks pakendite toimivuse kohta koolitatakse iga nädal uut mudelit, kasutades üha rohkem silte. Järeldused kogu tootevaru kohta tehakse iga kuu ja iga päev, et pakkuda äsja lisatud laoseisu õigeaegseid ennustusi.

Mitme mudeli väljaõppe protsessi automatiseerimiseks ja prognooside esitamiseks töötas meeskond välja kohandatud konveieri, mis põhineb sammufunktsioonidel, et korraldada järgmised sammud.

Andmete ettevalmistamine koolitus- ja järeldustöödeks ning prognooside laadimine andmebaasi (Amazoni punane nihe) koos AWS liim.
Mudelikoolitus ja järeldused Amazon SageMaker.
Mudeli toimivusmõõdikute arvutamine valideerimiskomplektis koos AWS partii.
Kasutamine Amazon DynamoDB mudeli konfiguratsioonide (nt andmete jaotussuhe koolituse ja valideerimise jaoks, mudeli artefakti asukoht, mudeli tüüp ja eksemplaride arv koolituse ja järelduste tegemiseks), mudeli jõudlusmõõdikute ja uusima edukalt koolitatud mudeliversiooni salvestamiseks.
Mudeli jõudlusskooride erinevuste arvutamine, koolitusmärgiste jaotumise muutused ning sisendandmete suuruse võrdlemine eelmise ja uue mudeliversiooni vahel AWS Lambda funktsioone.
Arvestades sammude suurt arvu, vajas torujuhtme igas etapis ka usaldusväärset häiresüsteemi, et teavitada sidusrühmi probleemidest. See saavutati kombinatsiooni abil Amazoni lihtsa järjekorra teenus (Amazon SQS) ja Amazoni lihtne teavitusteenus (Amazon SNS). Häired loodi selleks, et teavitada ettevõtte sidusrühmi, andmeteadlasi ja arendajaid ebaõnnestunud sammudest ning suurtest kõrvalekalletest mudelis ja andmemõõdikutes.

Pärast selle lahenduse kasutamist peaaegu 2 aastat, mõistis meeskond, et see rakendus toimis hästi ainult tüüpilise ML-i töövoo jaoks, kus koolitati ühte mudelit ja hinnati valideerimisandmestiku alusel. Kuid lahendus ei olnud keerukate mudelite jaoks piisavalt paindlik ega olnud rikete suhtes vastupidav. Näiteks ei sobinud arhitektuur kergesti järjestikuse mudelikoolitusega. Astme lisamine või eemaldamine ilma kogu torujuhtme dubleerimiseta ja infrastruktuuri muutmata oli keeruline. Isegi lihtsad muudatused andmetöötlusetappides, nagu andmete jaotussuhte reguleerimine või erineva funktsioonide komplekti valimine, nõudsid koordineerimist nii andmeteadlaselt kui ka arendajalt. Kui torujuhe ühelgi etapil ebaõnnestus, tuli see algusest peale taaskäivitada, mis tõi kaasa korduvaid käike ja kallinesid. Korduvate käitamiste ja ebaõnnestunud sammust taaskäivitamise vältimiseks loob meeskond lühendatud olekumasina uue koopia. See tõrkeotsing tõi kaasa olekumasinate leviku, millest igaüks sai alguse tavaliselt ebaõnnestunud sammudest. Lõpuks, kui koolitustöö käigus ilmnes kõrvalekalle siltide jaotuses, mudeli skooris või siltide arvus, pidi andmeteadlane mudeli ja selle mõõdikud käsitsi üle vaatama. Seejärel pääseb andmeteadlane juurde DynamoDB tabelile mudeli versioonidega ja värskendab tabelit, et tagada järgmise järeldustöö jaoks õige mudeli kasutamine.

Selle arhitektuuri hooldamine nõudis arendamiseks vähemalt ühte sihtotstarbelist ressurssi ja täiendavat täiskohaga ressurssi. Arvestades torujuhtme laiendamise raskusi uute kasutusjuhtumitega, olid andmeteadlased hakanud välja töötama oma töövooge, mis omakorda tõi kaasa kasvava koodibaasi, mitmete sarnaste andmeskeemidega andmetabelite ja mudelite detsentraliseeritud jälgimise. Nende probleemide kuhjumine oli toonud kaasa meeskonna madalama tootlikkuse ja suurenenud üldkulud.

Nende väljakutsetega tegelemiseks hindas Amazon Packaging Innovationi meeskond teisi olemasolevaid MLO-de lahendusi, sealhulgas SageMaker Pipelines (2020. aasta detsembri väljalaskmisteade). Pipelines on SageMakeri võimalus täielike ML-i töövoogude loomiseks, haldamiseks, automatiseerimiseks ja skaleerimiseks. Konveierid võimaldavad teil vähendada kogu ML-i töövoo etappide arvu ja on piisavalt paindlikud, et andmeteadlased saaksid määratleda kohandatud ML-i töövoo. See hoolitseb sammude jälgimise ja logimise eest. Kaasas ka mudeliregister, mis loob automaatselt uued mudelid versioonid. Mudelite registris on sisseehitatud kinnitamise töövood mudelite valimiseks tootmises järelduste tegemiseks. Konveierid võimaldavad ka vahemällu salvestada samme, mida kutsutakse samade argumentidega. Kui leitakse eelmine käitamine, luuakse vahemälu, mis võimaldab edukalt sooritatud sammude ümberarvutamise asemel lihtsat taaskäivitamist.

Hindamisprotsessis paistis Pipelines teistest lahendustest silma oma paindlikkuse ja praeguste ja tulevaste töövoogude toetamise ja laiendamise funktsioonide kättesaadavuse poolest. Pipelinesile üleminek vabastas arendajate aja platvormi hooldusest ja tõrkeotsingust ning suunas tähelepanu uute funktsioonide lisamisele. Selles postituses tutvustame Pipelinesi kasutava Amazon Packaging Innovationi meeskonna koolituse ja järelduste töövoogude kujundust. Arutame ka eeliseid ja kulude vähenemist, mille meeskond saavutas torujuhtmetele üleminekuga.

Koolitustorustik

Amazon Packaging Innovationi meeskond koolitab mudeleid iga pakenditüübi jaoks, kasutades kasvavat hulka etikette. Järgmine diagramm kirjeldab kogu protsessi.

Töövoog algab Amazon Redshifti andmebaasist siltide ja funktsioonide ekstraheerimisega ning andmete mahalaadimisega Amazoni lihtne salvestusteenus (Amazon S3) ajastatud ekstraktimise, teisendamise ja laadimise (ETL) töö kaudu. Koos sisendandmetega paigutatakse S3 ämbrisse failiobjekt mudelitüübi ja parameetritega. See fail toimib lambda-funktsiooni kaudu konveieri käivitajana.

Järgmised sammud on täielikult kohandatavad ja täielikult määratletud andmeteadlase poolt, kes kasutab SageMaker Python SDK for Pipelines. Selles postituses esitatud stsenaariumi korral jagatakse sisendandmed koolitus- ja valideerimiskomplektideks ning salvestatakse tagasi S3 ämbrisse, käivitades SageMakeri töötlemistöö.

Kui andmed on Amazon S3-s valmis, algab SageMakeri koolitustöö. Pärast mudeli edukat väljaõpetamist ja loomist viiakse mudeli hindamise etapp läbi valideerimisandmetele SageMakeri partii teisendustöö kaudu. Seejärel võrreldakse mudelimõõdikuid eelmise nädala mudelimõõdikutega, kasutades SageMakeri töötlemistööd. Meeskond on määratlenud mitu kohandatud kriteeriumi mudeli jõudluse kõrvalekallete hindamiseks. Mudel lükatakse nende kriteeriumide alusel tagasi või kiidetakse heaks. Kui mudel lükatakse tagasi, kasutatakse eelmist kinnitatud mudelit järgmiste järeldustööde jaoks. Kui mudel on heaks kiidetud, registreeritakse selle versioon ja seda mudelit kasutatakse järeldustöödeks. Sidusrühmad saavad tulemuse kohta teate Amazon CloudWatch äratused.

Järgmine ekraanipilt pärit Amazon SageMaker Studio näitab koolitustorustiku samme.

Pipelines jälgib iga konveieri käitamist, mida saate Studios jälgida. Teise võimalusena saate jooksu edenemise kohta päringuid teha kasutades Boto3 või AWS-i käsurea liides (AWS CLI). Saate visualiseerida mudeli mõõdikuid Studios ja võrrelda erinevaid mudeliversioone.

Järelduste torujuhe

Amazon Packaging Innovationi meeskond värskendab igakuiselt ennustusi kogu tootevaru kohta. Igapäevased prognoosid luuakse, et pakkuda just-in-time pakkimissoovitusi äsja lisatud varude jaoks, kasutades uusimat koolitatud mudelit. See nõuab, et järelduskonveier töötaks iga päev erineva andmemahuga. Järgmine diagramm illustreerib seda töövoogu.

Sarnaselt koolituskonveieriga algab järeldus andmete mahalaadimisega Amazon Redshiftist S3 ämbrisse. Amazon S3-sse paigutatud failiobjekt käivitab Lambda funktsiooni, mis käivitab järelduskonveieri. Funktsioonid on ette valmistatud järelduste tegemiseks ja andmed jagatakse SageMakeri töötlemistöö abil sobiva suurusega failideks. Järgmisena tuvastab torujuhe ennustuste käitamiseks ja S3 ämbrisse laadimiseks uusima heakskiidetud mudeli. Lõpuks laaditakse ennustused tagasi Amazon Redshifti, kasutades Boto3-andmete API-t SageMakeri töötlemistöö raames.

Järgmine Studio ekraanipilt näitab järelduste konveieri üksikasju.

SageMakeri torujuhtmete abil ML-i töövoogude kavandamise eelised

Selles jaotises käsitleme kasu, mida Amazon Packaging Innovationi meeskond saavutas mudelikoolituse ja järelduste tegemiseks Pipelinesile üleminekul.

Valminud tootmistaseme MLOps-funktsioonid

Võrreldes erinevaid sisemisi ja väliseid lahendusi järgmise ML-i konveierilahenduse jaoks, suutis üks andmeteadlane Studio Jupyteri keskkonnas prototüüpida ja arendada ML-i töövoo täisversiooni koos Pipelinesiga vähem kui 3 nädalaga. Isegi prototüüpide loomise etapis sai selgeks, et Pipelines pakkus kõiki tootmistaseme töövoo jaoks vajalikke taristukomponente: mudeli versioonide loomine, vahemällu salvestamine ja häired. Nende funktsioonide kohene kättesaadavus tähendas, et nende arendamisele ja kohandamisele ei kulunud lisaaega. See oli selge tõestus väärtusest, mis veenis Amazon Packaging Innovationi meeskonda, et Pipelines on õige lahendus.

Paindlikkus ML mudelite väljatöötamisel

Meeskonna andmeteadlaste suurim kasu oli võimalus hõlpsalt katsetada ja erinevate mudelite kaudu itereerida. Olenemata sellest, millist raamistikku nad oma ML-töö jaoks eelistasid ning sellega seotud etappide ja funktsioonide arvust, rahuldasid Pipelines nende vajadused. Andmeteadlastel oli õigus katsetada, ilma et nad peaksid ootama tarkvaraarenduse sprindi, et lisada täiendavaid funktsioone või etappe.

Vähendatud kulud

SageMakeri torujuhtmete võimekus on tasuta: maksate ainult koolituse ja järeldustega seotud arvutusressursside ja salvestusruumi eest. Kuid kuludele mõeldes peate arvestama mitte ainult kasutatud teenuste maksumusega, vaid ka töövoo hooldamiseks, silumiseks ja parandamiseks vajalike arendaja tundidega. Torujuhtmetega orkestreerimine on lihtsam, kuna see koosneb vähemast osast ja tuttavast infrastruktuurist. Varem oli uue funktsiooni lisamiseks vaja vähemalt kahte inimest (andmeteadlane ja tarkvarainsener) Amazon Packaging Innovationi meeskonnas selle juurutamiseks. Uuendatud torujuhtmega on insenertehnilised jõupingutused nüüd suunatud täiendavale kohandatud infrastruktuurile torujuhtme ümber, nagu ühe hoidla loomine masinõppe koodi jälgimiseks, mudeli juurutamise lihtsustamine AWS-i kontode vahel, integreeritud ETL-i töökohtade arendamine ja ühised korduvkasutatavad funktsioonid.

Võimalus sarnase sisendiga samme vahemällu salvestada aitas kaasa ka kulude vähenemisele, sest meeskonnad ei tahtnud kogu konveieri uuesti käivitada. Selle asemel võiksid nad seda hõlpsalt alustada ebaõnnestumise punktist.

Järeldus

Amazon Packaging Innovationi meeskond koolitab igakuiselt ML-mudeleid ja värskendab regulaarselt ennustusi soovitatud tootepakenditüüpide kohta. Need soovitused aitasid neil saavutada mitmeid meeskonna- ja ettevõtteüleseid eesmärke, vähendades jäätmeid ja rõõmustades kliente iga tellimusega. Koolitus- ja järeldustorustikud peavad regulaarselt töötama usaldusväärselt, kuid võimaldama mudelite pidevat täiustamist.

Pipelinesile üleminek võimaldas meeskonnal vähem kui kahe kuu jooksul tootmisse juurutada neli uut multimodaalset mudeliarhitektuuri. Uue mudeli juurutamine varasema arhitektuuriga oleks nõudnud 2 päeva (sama mudeliarhitektuuriga) kuni 5 kuuni (uue mudeliarhitektuuriga). Sama mudeli juurutamine torujuhtmete abil võimaldas meeskonnal vähendada arendusaega 1 tunnini sama mudeliarhitektuuriga ja 4 päevani uue mudeliarhitektuuriga. See võimaldab säästa peaaegu 5% töötundidest.

Lisaressursid

Lisateabe saamiseks vaadake järgmisi ressursse:

Autoritest

Ankur Shukla on Palo Altos asuva AWS-ProServe'i peamine andmeteadlane. Ankuril on enam kui 15-aastane nõustamiskogemus, töötades otse kliendiga ja aidates neil lahendada äriprobleeme tehnoloogiaga. Ta juhib AWS-is mitmeid ülemaailmseid rakendusteaduse ja ML-Opsi algatusi. Vabal ajal meeldib talle lugeda ja perega aega veeta.

Akash Singla on vanem System Dev insener koos Amazon Packaging Innovation meeskonnaga. Tal on enam kui 17-aastane kogemus kriitiliste äriprobleemide lahendamisel tehnoloogia abil mitme ärivaldkonna jaoks. Praegu keskendub ta NAWS-i infrastruktuuri uuendamisele erinevate pakendikesksete rakenduste jaoks, et neid paremini skaleerida.

Vitalina Komashko on AWS-i professionaalsete teenustega andmeteadlane. Tal on doktorikraad farmakoloogias ja toksikoloogias, kuid ta läks eksperimentaalsest tööst üle andmeteadusele, kuna soovis "omada andmete genereerimist ja tulemuste tõlgendamist". Oma karjääri alguses töötas ta biotehnoloogia- ja farmaatsiaettevõtetega. AWS-is naudib ta erinevate tööstusharude klientide probleemide lahendamist ja nende ainulaadsete väljakutsete tundmaõppimist.

Prasanth Meiyappan on vanem rakendusteadlane, kes tegeleb Amazoni pakendiinnovatsiooniga 4+ aastat. Tal on üle 6-aastane tööstuskogemus masinõppe vallas ning ta on tarninud tooteid, et parandada otsingukliendi kogemust ja parandada klientide pakkimiskogemust. Prasanth on kirglik jätkusuutlikkuse vastu ja tal on doktorikraad kliimamuutuste statistilise modelleerimise alal.

Matthew Bales on vanemteadur, kes töötab klientide tagasiside ja masinõppe abil pakenditüübi valiku optimeerimise nimel. Enne Amazoni töötas Matt Saksamaal osakestefüüsika simulatsioone teostades järeldoktorina ja eelmises elus radioaktiivsete meditsiiniliste implantaatide tootmisjuhina startupis. Tal on Ph.D. füüsikas Michigani ülikoolist.

Ajatempel: November 3, 2022November 5, 2022

Ajatempel: September 30, 2022

ML torujuhtmete stabiilsuse ja paindlikkuse parandamine Amazon Packaging Innovationis Amazon SageMaker Pipelinesiga

Taasavaldanud Platon

Amazon Packaging Innovationi endise ML-i torujuhtme väljakutsed

Koolitustorustik

Järelduste torujuhe

SageMakeri torujuhtmete abil ML-i töövoogude kavandamise eelised

Valminud tootmistaseme MLOps-funktsioonid

Paindlikkus ML mudelite väljatöötamisel

Vähendatud kulud

Järeldus

Lisaressursid

Autoritest

Veel alates AWS-i masinõpe

Uus – koodita genereerivad AI-võimalused on nüüd saadaval Amazon SageMaker Canvas | Amazoni veebiteenused

Õppige Renate abil närvivõrke automaatselt ümber

Looge partii-soovituskonveier, kasutades Amazon Personalize'i ilma koodita

Järjestage oma ärakirjad lõikudeks rakendusega Amazon Transcribe | Amazoni veebiteenused

Hübriidse ML-i töövoogude lubamine Amazon EKS-is ja Amazon SageMakeris ühe klõpsuga Kubeflow AWS-i juurutamisel

Treenige ja juurutage ML-mudeleid mitme pilvekeskkonnas, kasutades Amazon SageMaker | Amazoni veebiteenused

Boschi suuremahuline tuluprognoos Amazon Forecasti ja Amazon SageMakeri kohandatud mudelitega

Automatiseerige Amazon Comprehend | jaoks PDF-i eelmärgistamine Amazoni veebiteenused

Bundesliga mängu fakti surve käsitlemine: mängijate esituse hindamine AWS-i kõrgsurveolukordades

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto