Ehitage, jagage, juurutage: kuidas ärianalüütikud ja andmeteadlased saavutavad koodita ML-i ja Amazon SageMakeri lõuendi abil kiiremini turule jõudmise

Taasavaldanud Platon

järgijaid: 0

Masinõpe (ML) aitab organisatsioonidel suurendada tulusid, kiirendada ettevõtte kasvu ja vähendada kulusid, optimeerides põhilisi ärifunktsioone mitmes vertikaalis, nagu nõudluse prognoosimine, krediidiskoor, hinnakujundus, klientide vähenemise ennustamine, parimate järgmiste pakkumiste tuvastamine, hilinenud saadetiste prognoosimine ja tootmiskvaliteedi parandamine. Traditsioonilised ML-i arendustsüklid kestavad kuid ja nõuavad nappe andmeteaduse ja ML-inseneri oskusi. Analüütikute ideed ML-mudelite kohta seisavad sageli pikkades mahajäämustes, oodates andmeteaduse meeskonna ribalaiust, samas kui andmeteadlased keskenduvad keerukamatele ML-projektidele, mis nõuavad nende täielikku oskusteavet.

Et aidata sellest ummikseisust välja tulla, oleme tutvustas Amazon SageMaker Canvas, koodita ML-lahendus, mis aitab ettevõtetel kiirendada ML-lahenduste tarnimist tundide või päevadeni. SageMaker Canvas võimaldab analüütikutel hõlpsasti kasutada olemasolevaid andmeid andmejärvedes, andmeladudes ja operatiivsetes andmehoidlates; ehitada ML mudeleid; ja kasutage neid interaktiivsete ennustuste tegemiseks ja hulgiandmekogumite partiide hindamiseks – seda kõike ilma ühtki koodirida kirjutamata.

Selles postituses näitame, kuidas SageMaker Canvas võimaldab koostööd andmeteadlaste ja ärianalüütikute vahel, saavutades kiirema turuletuleku aja ja kiirendades ML-lahenduste väljatöötamist. Analüütikud saavad SageMaker Canvasis oma koodita ML-i tööruumi, ilma et peaksid saama ML-i eksperdiks. Analüütikud saavad seejärel mõne klõpsuga jagada oma mudeleid Canvasest, millega andmeteadlased saavad töötada Amazon SageMaker Studio, täielik ML-i integreeritud arenduskeskkond (IDE). Koostööd tehes saavad ärianalüütikud tuua oma valdkonnateadmised ja katsete tulemused, samas kui andmeteadlased saavad tõhusalt luua torujuhtmeid ja protsessi sujuvamaks muuta.

Sukeldume sügavalt sellesse, kuidas töövoog välja näeks.

Ärianalüütikud loovad mudeli ja jagavad seda

Et mõista, kuidas SageMaker Canvas lihtsustab koostööd ärianalüütikute ja andmeteadlaste (või ML-i inseneride) vahel, läheneme protsessile esmalt ärianalüütikuna. Enne alustamist vaadake Amazon SageMaker Canvase väljakuulutamine – visuaalne, koodita masinõppevõimalus ärianalüütikutele juhised mudeli ehitamiseks ja testimiseks SageMaker Canvasega.

Selle postituse jaoks kasutame muudetud versiooni Krediitkaardipettuste tuvastamise andmestik Kaggle'ist, tuntud binaarse klassifikatsiooniprobleemi andmestikku. Andmekogum on algselt väga tasakaalustamata – selles on väga vähe negatiivsesse klassi klassifitseeritud kirjeid (anomaalsed tehingud). Olenemata sihtfunktsioonide jaotusest saame seda andmestikku siiski kasutada, sest SageMaker Canvas tegeleb selle tasakaalustamatusega, kui ta treenib ja häälestab mudelit automaatselt. See andmestik koosneb umbes 9 miljonist lahtrist. Samuti saate alla laadida a selle andmestiku vähendatud versioon. Andmestiku suurus on palju väiksem, umbes 500,000 0 lahtrit, kuna sellest on võetud juhuslikult alavalimitud ja seejärel SMOTE-tehnikaga ülevalimitud, et tagada selle protsessi käigus võimalikult vähe teavet. Kogu katse läbiviimine selle vähendatud andmestikuga maksab teile SageMaker Canvas Free Tier raames XNUMX dollarit.

Pärast mudeli loomist saavad analüütikud seda kasutada, et teha ennustusi otse Canvases kas üksikute päringute või kogu sisendandmestiku hulgi jaoks.

Canvas Standard Buildiga loodud mudeleid saab ühe nupuvajutusega hõlpsasti jagada ka andmeteadlaste ja ML-i inseneridega, kes kasutavad SageMaker Studiot. See võimaldab andmeteadlasel teie loodud mudeli toimivust kinnitada ja tagasisidet anda. ML-i insenerid saavad teie mudeli üles võtta ja integreerida olemasolevate töövoogude ja teie ettevõttele ja klientidele saadaolevate toodetega. Pange tähele, et kirjutamise ajal ei ole Canvas Quick Buildiga loodud mudelit ega aegridade prognoosimudelit võimalik jagada.

Mudeli jagamine Canvas kasutajaliidese kaudu on lihtne:

Valige mudel lehel, kus kuvatakse teie loodud mudelid.
Vali Jaga.
Valige mudelist üks või mitu versiooni, mida soovite jagada.
Soovi korral lisage märkus, mis annab mudeli või otsitava abi kohta rohkem konteksti.
Vali Looge SageMaker Studio link.
Kopeerige loodud link.

Ja see ongi kõik! Nüüd saate linki oma kolleegidega jagada Slacki, e-posti või mõne muu teie eelistatud meetodi kaudu. Andmeteadlane peab teie mudelile juurdepääsuks asuma samas SageMaker Studio domeenis, seega veenduge, et see oleks teie organisatsiooni administraatori puhul nii.

Andmeteadlased pääsevad SageMaker Studio mudeliteabele juurde

Mängime nüüd andmeteadlase või ML-inseneri rolli ja vaatame SageMaker Studio abil asju nende vaatenurgast.

Analüütiku jagatud link viib meid SageMaker Studiosse, mis on esimene pilvepõhine IDE täieliku ML-i töövoo jaoks.

Vahekaart avaneb automaatselt ja näitab ülevaadet SageMaker Canvas analüütiku loodud mudelist. Näete kiiresti mudeli nime, ML probleemi tüüpi, mudeli versiooni ja seda, milline kasutaja mudeli lõi (väljal Canvas user ID). Samuti on teil juurdepääs sisendandmestiku üksikasjadele ja parimale mudelile, mille SageMaker suutis toota. Sukeldume sellesse hiljem postituses.

Kohta Sisendandmekogum vahekaardil näete ka andmevoogu allikast sisendandmekomplekti. Sel juhul kasutatakse ainult ühte andmeallikat ja liitumistoiminguid pole rakendatud, seega kuvatakse üks allikas. Valides saate analüüsida andmestiku statistikat ja üksikasju Avage andmete uurimise märkmik. See märkmik võimaldab teil uurida andmeid, mis olid saadaval enne mudeli väljaõpet, ja sisaldab sihtmuutuja analüüsi, sisendandmete näidist, statistikat ning veergude ja ridade kirjeldusi ning muud kasulikku teavet andmeteadlasele. saada rohkem teavet andmestiku kohta. Selle aruande kohta lisateabe saamiseks vaadake Andmete uurimise aruanne.

Pärast sisendandmestiku analüüsimist liigume edasi mudeli ülevaate teisele vahekaardile, AutoML töö. See vahekaart sisaldab AutoML-i töö kirjeldust, kui valisite rakenduses SageMaker Canvas suvandi Standardversioon.

SageMaker Canvase all olev AutoML-tehnoloogia välistab ML-mudelite ehitamise raske tõstmise. See koostab, treenib ja häälestab automaatselt teie andmete põhjal parima ML-mudeli, kasutades automatiseeritud lähenemist, võimaldades teil säilitada täielikku kontrolli ja nähtavust. See nähtavus genereeritud kandidaatmudelitel ja AutoML-i protsessi ajal kasutatud hüperparameetrid sisalduvad kandidaatide põlvkonna märkmik, mis on saadaval sellel vahekaardil.

. AutoML töö Vahekaart sisaldab ka kõigi AutoML-i protsessi osana loodud mudelite loendit, mis on sorteeritud F1 eesmärgimõõdiku järgi. Parima mudeli esiletõstmiseks käivitatud koolitustööde hulgast kasutatakse rohelise ringiga silti Parim mudel veerg. Saate hõlpsasti visualiseerida ka muid koolitus- ja hindamisfaasis kasutatud mõõdikuid, nagu täpsusskoor ja kõveraalune pindala (AUC). Lisateavet mudelite kohta, mida saate AutoML-i töö käigus koolitada, ja koolitatud mudeli jõudluse hindamiseks kasutatavate mõõdikute kohta leiate Mudelite tugi, mõõdikud ja valideerimine.

Mudeli kohta lisateabe saamiseks võite nüüd paremklõpsata parimal mudelil ja valida Ava mudeli üksikasjades. Teise võimalusena saate valida Parim mudel link ülaosas Mudeli ülevaade jaotist, mida esmakordselt külastasite.

Mudeli üksikasjade leht sisaldab hulgaliselt kasulikku teavet selle mudeli kohta, mis nende sisendandmetega kõige paremini toimis. Keskendume esmalt lehe ülaosas olevale kokkuvõttele. Eelnev ekraanipilt näitab, et sadadest mudelitreeningutest toimis XGBoosti mudel sisendandmestiku kõige paremini. Selle kirjutamise ajal saab SageMaker Canvas treenida kolme tüüpi ML-algoritme: lineaarne õppija, XGBoost ja mitmekihiline perceptron (MLP), millest igaühel on lai valik eeltöötluskonveieri ja hüperparameetreid. Iga algoritmi kohta lisateabe saamiseks vaadake toetatud algoritmide leht.

SageMaker sisaldab ka selgitavat funktsiooni tänu skaleeritavale ja tõhusale rakendamisele KernelSHAP, mis põhineb koostöömängude teooria valdkonnast pärit Shapley väärtuse kontseptsioonil, mis määrab igale funktsioonile konkreetse ennustuse jaoks tähtsuse väärtuse. See annab läbipaistvuse selle kohta, kuidas mudel oma ennustusteni jõudis, ja funktsioonide olulisuse määratlemine on väga kasulik. Täielik selgitatavusaruanne, mis sisaldab funktsioonide tähtsust, on allalaaditav PDF-i, märkmiku või töötlemata andmevormingus. Selles aruandes kuvatakse laiem mõõdikute kogum ja ka täielik loend AutoML-i töö käigus kasutatud hüperparameetritest. Lisateavet selle kohta, kuidas SageMaker pakub AutoML-i lahenduste ja standardsete ML-algoritmide jaoks integreeritud selgitamistööriistu, vt Kasutage integreeritud selgitamistööriistu ja parandage mudeli kvaliteeti, kasutades Amazon SageMaker Autopilot.

Lõpuks näitavad selle vaate teised vahekaardid teavet jõudluse üksikasjade (segadusmaatriks, täppiskutsumise kõver, ROC-kõver), sisenditeks kasutatud ja AutoML-i töö käigus genereeritud artefaktide ning võrgu üksikasjade kohta.

Praegu on andmeteadlasel kaks valikut: juurutada mudel otse või luua koolituskonveier, mida saab ajastada või käivitada käsitsi või automaatselt. Järgmised jaotised annavad ülevaate mõlemast valikust.

Rakendage mudel otse

Kui andmeteadlane on AutoML-i tööga saadud tulemustega rahul, saab ta mudeli otse juurutada Mudeli üksikasjad lehel. See on sama lihtne kui valimine Mudeli juurutamine mudeli nime kõrval.

SageMaker näitab teile kahte juurutamisvõimalust: reaalajas lõpp-punkt, mida toidab Amazon SageMakeri lõpp-punktid, ja partii järeldus, toiteallikaks Amazon SageMaker partii teisendus.

SageMaker pakub ka muid järeldusviise. Lisateabe saamiseks vaadake Mudelite juurutamine järelduste tegemiseks.

Reaalajas ennustusrežiimi lubamiseks andke lõpp-punktile lihtsalt nimi, eksemplari tüüp ja eksemplaride arv. Kuna see mudel ei vaja suuri arvutusressursse, saate kasutada CPU-põhist eksemplari, mille esialgne arv on 1. Lisateavet saadaolevate erinevat tüüpi eksemplaride ja nende spetsifikatsioonide kohta leiate veebisaidilt Amazon SageMakeri hinnakujundusleht (aastal Nõudmisel hinnakujundus jaotises valige Reaalajas järeldus vahekaart). Kui te ei tea, millise eksemplari peaksite oma juurutamiseks valima, võite ka paluda SageMakeril leida teie jaoks parim teie KPI-de põhjal, kasutades SageMakeri järelduste soovitus. Saate esitada ka täiendavaid valikulisi parameetreid selle kohta, kas soovite jäädvustada päringu ja vastuse andmeid lõpp-punktile või lõpp-punktist või mitte. See võib osutuda kasulikuks, kui plaanite oma mudeli jälgimine. Samuti saate valida, millist sisu soovite vastuse osana esitada – kas see on ainult ennustus või prognoosimise tõenäosus, kõigi klasside tõenäosus ja sihtmärgised.

Pakettskoorimistöö käitamiseks, saades ennustusi terve sisendikomplekti kohta korraga, saate käivitada partii teisendustöö AWS-i juhtimiskonsool või SageMaker Python SDK kaudu. Pakti teisenduse kohta lisateabe saamiseks vaadake Kasutage partii teisendust ja märkmikud.

Määratlege koolitustoru

ML-mudeleid võib väga harva, kui üldse, pidada staatiliseks ja muutumatuks, kuna need kalduvad kõrvale algtasemest, mille järgi neid on koolitatud. Reaalse maailma andmed arenevad aja jooksul ning nendest ilmneb rohkem mustreid ja arusaamu, mida võib, kuid ei pruugi, jäädvustada ajalooliste andmete põhjal treenitud esialgne mudel. Selle probleemi lahendamiseks saate seadistada koolituskonveieri, mis õpetab teie mudelid automaatselt ümber uusimate saadaolevate andmete alusel.

Selle konveieri määratlemisel on andmeteadlase üheks võimaluseks kasutada õppekonveieri jaoks taas AutoML-i. Saate käivitada AutoML-i töö programmiliselt, kutsudes välja create_auto_ml_job() API AWS Boto3 SDK. Seda toimingut saate helistada aadressilt AWS Lambda funktsioon an AWS-i astmefunktsioonid töövoo või LambdaStep in Amazon SageMakeri torujuhtmed.

Teise võimalusena võib andmeteadlane kasutada AutoML-i tööst saadud teadmisi, artefakte ja hüperparameetreid, et määratleda täielik koolituskonveier. Teil on vaja järgmisi ressursse.

Algoritm, mis töötas antud kasutusjuhtumi puhul kõige paremini – Saite selle teabe juba lõuendi loodud mudeli kokkuvõttest. Sel juhul on see XGBoost sisseehitatud algoritm. Juhiseid selle kohta, kuidas kasutada SageMaker Python SDK-d XGBoosti algoritmi SageMakeriga treenimiseks, vaadake Kasutage XGBoosti koos SageMaker Python SDK-ga.

AutoML-i tööga tuletatud hüperparameetrid – Need on saadaval aadressil Seletatavus osa. Saate neid kasutada sisenditena SageMaker Python SDK-ga treeningtöö määratlemisel.

Funktsiooni insenerikood, mis on esitatud jaotises Artefaktid – Saate seda koodi kasutada nii andmete eeltöötlemiseks enne treenimist (näiteks Amazon SageMaker Processingi kaudu) kui ka enne järelduste tegemist (näiteks SageMakeri järelduskonveieri osana).

Saate neid ressursse kombineerida SageMakeri torustiku osana. Jätame sellest postitusest välja juurutamise üksikasjad – olge kursis, et sellel teemal on rohkem sisu.

Järeldus

SageMaker Canvas võimaldab teil kasutada ML-i ennustuste loomiseks ilma koodi kirjutamata. Ärianalüütik saab seda iseseisvalt hakata kasutama kohalike andmekogumite ja juba salvestatud andmetega Amazoni lihtne salvestusteenus (Amazon S3), Amazoni punane nihevõi Lumehelves. Vaid mõne klõpsuga saavad nad oma andmekogumeid ette valmistada ja liita, analüüsida hinnangulist täpsust, kontrollida, millised veerud on mõjusad, treenida kõige paremini toimivaid mudeleid ja luua uusi individuaalseid või pakettprognoose, ilma et oleks vaja kaasata asjatundlikku andmeteadlast. Seejärel saavad nad vajaduse korral mudelit jagada andmeteadlaste või MLOpsi inseneride meeskonnaga, kes impordivad mudelid SageMaker Studiosse ja töötavad koos analüütikuga, et pakkuda tootmislahendust.

Ärianalüütikud saavad iseseisvalt oma andmetest ülevaate saada, ilma et neil oleks kõrgharidust ML-is ja nad ei peaks kirjutama ühtki koodirida. Andmeteadlastel on nüüd lisaaega, et töötada keerukamate projektidega, mis saavad paremini kasutada oma ulatuslikke teadmisi tehisintellekti ja ML kohta.

Usume, et see uus koostöö avab ukse teie ettevõtte jaoks paljude võimsamate ML-lahenduste loomisele. Nüüd on teil analüütikud, kes toovad väärtuslikku äriteavet, võimaldades samal ajal andmeteadlastel ja ML-inseneridel aidata vastavalt vajadusele täpsustada, häälestada ja laiendada.

Täiendavad ressursid

Lisateavet selle kohta, kuidas SageMaker saab ärianalüütikuid veelgi aidata, leiate artiklist Amazon SageMaker ärianalüütikutele.
Lisateavet selle kohta, kuidas SageMaker võimaldab andmeteadlastel oma ML-mudeleid arendada, koolitada ja juurutada, vaadake Amazon SageMaker andmeteadlastele.
Lisateavet selle kohta, kuidas SageMaker saab aidata MLOps-i inseneridel ML-i elutsüklit MLOps-i abil sujuvamaks muuta, vaadake jaotisest Amazon SageMaker MLOpsi inseneridele.

Autoritest

Davide Gallitelli on tehisintellekti/ML-i spetsialiseerunud lahenduste arhitekt EMEA piirkonnas. Ta asub Brüsselis ja teeb tihedat koostööd klientidega üle kogu Beneluxi. Ta on olnud arendaja juba väga noorest peale, alustades kodeerimisega 7-aastaselt. Ta alustas AI/ML-i õppimist ülikoolis ja on sellest ajast peale sellesse armunud.

Mark Roy on AWS-i peamine masinõppearhitekt, kes aitab klientidel AI/ML-lahendusi kavandada ja luua. Marki töö hõlmab laia valikut ML-i kasutusjuhtumeid, mille peamine huvi on arvutinägemine, sügav õpe ja ML-i skaleerimine kogu ettevõttes. Ta on aidanud ettevõtteid paljudes tööstusharudes, sealhulgas kindlustus, finantsteenused, meedia ja meelelahutus, tervishoid, kommunaalteenused ja tootmine. Markil on kuus AWS-i sertifikaati, sealhulgas ML Specialty Certification. Enne AWS-iga liitumist oli Mark arhitekt, arendaja ja tehnoloogiajuht üle 25 aasta, sealhulgas 19 aastat finantsteenuste valdkonnas.

Ajatempel: Märtsil 10, 2022

Ajatempel: Juuli 20, 2022

Taasavaldanud Platon

Valge raamat: masinõppe parimad tavad tervishoius ja bioteadustes

Vähendage kulusid ja arendusaega Amazon SageMaker Pipelinesi kohaliku režiimiga

MLO-d partiide järeldamiseks koos mudeli jälgimise ja ümberõppega Amazon SageMakeri, HashiCorp Terraformi ja GitLab CI/CD abil | Amazoni veebiteenused

Andmekogemuse taasleiutamine: kasutage generatiivset AI-d ja kaasaegset andmearhitektuuri, et saada ülevaadet | Amazoni veebiteenused

Modereerige, klassifitseerige ja töötlege dokumente Amazon Rekognitioni ja Amazon Textracti abil

Looge taksonoomiapõhine kontekstuaalne sihtimine, kasutades AWS Media Intelligence'i ja Hugging Face BERTi

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto