Build, Share, Deploy: How Business Analysts And Data Scientists Achieve Faster Time-to-market Using No-code ML And Amazon SageMaker Canvas

Ponovno objavil Platon

Spremljevalci: 0

Strojno učenje (ML) pomaga organizacijam povečati prihodke, spodbuditi rast poslovanja in zmanjšati stroške z optimizacijo osnovnih poslovnih funkcij v več vertikalah, kot so napovedovanje povpraševanja, kreditno točkovanje, določanje cen, predvidevanje odliva strank, prepoznavanje naslednjih najboljših ponudb, predvidevanje zamud pri pošiljanju in izboljšanje kakovosti izdelave. Tradicionalni razvojni cikli ML trajajo mesece in zahtevajo redke podatkovne znanosti in inženirske spretnosti ML. Zamisli analitikov za modele ML se pogosto nahajajo v dolgih zaostankih in čakajo na pasovno širino ekipe za podatkovno znanost, medtem ko se podatkovni znanstveniki osredotočajo na bolj zapletene projekte ML, ki zahtevajo njihov celoten nabor znanj.

Da bi pomagali preseči ta zastoj, smo predstavil Amazon SageMaker Canvas, rešitev ML brez kode, ki lahko podjetjem pomaga pospešiti dostavo rešitev ML na ure ali dni. SageMaker Canvas analitikom omogoča enostavno uporabo razpoložljivih podatkov v podatkovnih jezerih, podatkovnih skladiščih in shrambah operativnih podatkov; izdelati modele ML; in jih uporabite za interaktivno napovedovanje in za paketno točkovanje množičnih naborov podatkov – vse brez pisanja ene vrstice kode.

V tej objavi prikazujemo, kako SageMaker Canvas omogoča sodelovanje med podatkovnimi znanstveniki in poslovnimi analitiki, s čimer doseže hitrejši čas za trženje in pospeši razvoj rešitev ML. Analitiki dobijo lasten delovni prostor ML brez kode v SageMaker Canvas, ne da bi jim bilo treba postati strokovnjak za ML. Analitiki lahko nato z nekaj kliki delijo svoje modele iz Canvasa, s katerimi bodo podatkovni znanstveniki lahko delali v Amazon SageMaker Studio, integrirano razvojno okolje ML (IDE) od konca do konca. S sodelovanjem lahko poslovni analitiki prinesejo svoje znanje o domeni in rezultate eksperimentiranja, medtem ko lahko podatkovni znanstveniki učinkovito ustvarjajo cevovode in racionalizirajo proces.

Poglobimo se v to, kako bi izgledal potek dela.

Poslovni analitiki zgradijo model in ga nato delijo

Da bi razumeli, kako SageMaker Canvas poenostavlja sodelovanje med poslovnimi analitiki in podatkovnimi znanstveniki (ali inženirji ML), najprej pristopimo k procesu kot poslovni analitik. Preden začnete, si oglejte Predstavljamo Amazon SageMaker Canvas – vizualno zmožnost strojnega učenja brez kodiranja za poslovne analitike za navodila o izdelavi in testiranju modela s SageMaker Canvas.

Za to objavo uporabljamo spremenjeno različico Nabor podatkov o odkrivanju goljufij s kreditnimi karticami iz Kaggla, dobro znanega nabora podatkov za problem binarne klasifikacije. Nabor podatkov je prvotno zelo neuravnotežen – ima zelo malo vnosov, ki so razvrščeni kot negativni razred (nenormalne transakcije). Ne glede na porazdelitev ciljne funkcije lahko še vedno uporabljamo ta nabor podatkov, ker SageMaker Canvas obravnava to neravnovesje, ko samodejno usposablja in prilagaja model. Ta niz podatkov je sestavljen iz približno 9 milijonov celic. Lahko tudi prenesete a zmanjšana različica tega nabora podatkov. Velikost nabora podatkov je veliko manjša, približno 500,000 celic, ker je bila naključno premalo vzorčena in nato preveč vzorčena s tehniko SMOTE, da se zagotovi, da se med tem postopkom izgubi čim manj informacij. Izvajanje celotnega poskusa s tem zmanjšanim naborom podatkov vas stane 0 USD v okviru brezplačne stopnje SageMaker Canvas.

Ko je model izdelan, ga lahko analitiki uporabijo za izdelavo napovedi neposredno v Canvasu za posamezne zahteve ali za celoten nabor vhodnih podatkov v velikem obsegu.

Modele, zgrajene s Canvas Standard Build, je mogoče preprosto deliti z enim klikom gumba s podatkovnimi znanstveniki in inženirji ML, ki uporabljajo SageMaker Studio. To omogoča podatkovnemu znanstveniku, da potrdi učinkovitost modela, ki ste ga zgradili, in zagotovi povratne informacije. Inženirji ML lahko izberejo vaš model in ga integrirajo z obstoječimi poteki dela in izdelki, ki so na voljo vašemu podjetju in vašim strankam. Upoštevajte, da v času pisanja ni mogoče dati v skupno rabo modela, zgrajenega s Canvas Quick Build, ali modela napovedovanja časovne vrste.

Skupna raba modela prek uporabniškega vmesnika Canvas je enostavna:

Na strani, ki prikazuje modele, ki ste jih ustvarili, izberite model.
Izberite Delite s prijatelji, znanci, družino in partnerji :-).
Izberite eno ali več različic modela, ki ga želite dati v skupno rabo.
Po želji vključite opombo z več konteksta o modelu ali pomoči, ki jo iščete.
Izberite Ustvari povezavo SageMaker Studio.
Kopirajte ustvarjeno povezavo.

In to je to! Zdaj lahko delite povezavo s svojimi sodelavci prek storitve Slack, e-pošte ali katerega koli drugega načina po vaši želji. Podatkovni znanstvenik mora biti v isti domeni SageMaker Studio, da lahko dostopa do vašega modela, zato se prepričajte, da je tako pri skrbniku vaše organizacije.

Podatkovni znanstveniki dostopajo do informacij o modelu iz studia SageMaker

Zdaj pa igrajmo vlogo podatkovnega znanstvenika ali inženirja ML in si oglejmo stvari z njihovega vidika s SageMaker Studio.

Povezava, ki jo deli analitik, nas popelje v SageMaker Studio, prvi IDE v oblaku za potek dela ML od konca do konca.

Zavihek se odpre samodejno in prikazuje pregled modela, ki ga je ustvaril analitik v SageMaker Canvas. Hitro lahko vidite ime modela, vrsto težave ML, različico modela in uporabnik, ki je ustvaril model (pod poljem ID uporabnika Canvas). Imate tudi dostop do podrobnosti o vhodnem naboru podatkov in najboljšem modelu, ki ga je SageMaker uspel izdelati. O tem se bomo poglobili pozneje v objavi.

o Vhodni nabor podatkov lahko vidite tudi pretok podatkov od vira do vhodnega nabora podatkov. V tem primeru je uporabljen samo en vir podatkov in niso bile uporabljene nobene operacije združevanja, zato je prikazan en sam vir. Z izbiro lahko analizirate statistiko in podrobnosti o naboru podatkov Odprite beležnico za raziskovanje podatkov. Ta zvezek vam omogoča raziskovanje podatkov, ki so bili na voljo pred usposabljanjem modela, in vsebuje analizo ciljne spremenljivke, vzorec vhodnih podatkov, statistiko in opise stolpcev in vrstic ter druge uporabne informacije za podatkovne znanstvenike. izvedeti več o naboru podatkov. Če želite izvedeti več o tem poročilu, glejte Poročilo o raziskovanju podatkov.

Po analizi vhodnega nabora podatkov pojdimo na drugi zavihek pregleda modela, AutoML Job. Ta zavihek vsebuje opis opravila AutoML, ko ste v SageMaker Canvas izbrali možnost Standard Build.

Tehnologija AutoML, ki je pod SageMaker Canvas, odpravlja težko delo pri gradnji modelov ML. Samodejno gradi, usposablja in prilagaja najboljši model ML na podlagi vaših podatkov z uporabo avtomatiziranega pristopa, hkrati pa vam omogoča, da ohranite popoln nadzor in vidljivost. Ta vidnost na ustvarjenih kandidatnih modelih kot tudi hiperparametri, uporabljeni med postopkom AutoML, so vsebovani v zvezek za generacijo kandidatov, ki je na voljo na tem zavihku.

O AutoML Job zavihek vsebuje tudi seznam vseh modelov, zgrajenih kot del procesa AutoML, razvrščenih po metriki cilja F1. Za poudarjanje najboljšega modela izmed uvedenih delovnih mest za usposabljanje je v njem uporabljena oznaka z zelenim krogom Najboljši model stolpec. Prav tako lahko preprosto vizualizirate druge meritve, uporabljene med fazo usposabljanja in ocenjevanja, kot sta ocena natančnosti in površina pod krivuljo (AUC). Če želite izvedeti več o modelih, ki jih lahko usposabljate med opravilom AutoML, in metrikah, ki se uporabljajo za ocenjevanje zmogljivosti treniranega modela, glejte Podpora za modele, meritve in validacija.

Če želite izvedeti več o modelu, lahko zdaj z desno miškino tipko kliknete najboljši model in izberete Odpri v podrobnostih modela. Lahko pa izberete tudi Najboljši model povezava na vrhu Pregled modela razdelek, ki ste ga prvič obiskali.

Stran s podrobnostmi o modelu vsebuje obilico uporabnih informacij o modelu, ki se je najbolje obnesel s temi vhodnimi podatki. Najprej se osredotočimo na povzetek na vrhu strani. Prejšnji primer posnetka zaslona kaže, da se je od več sto modelov usposabljanja model XGBoost najbolje izkazal pri vhodnem naboru podatkov. V času tega pisanja lahko SageMaker Canvas usposablja tri vrste algoritmov ML: linearni učenec, XGBoost in večplastni perceptron (MLP), od katerih ima vsak širok nabor cevovodov za predprocesiranje in hiperparametrov. Če želite izvedeti več o vsakem algoritmu, glejte stran s podprtimi algoritmi.

SageMaker vključuje tudi razlagalno funkcijo zahvaljujoč razširljivi in učinkoviti izvedbi KernelSHAP, ki temelji na konceptu Shapleyjeve vrednosti s področja kooperativne teorije iger, ki vsaki lastnosti dodeli vrednost pomembnosti za določeno napoved. To omogoča preglednost glede tega, kako je model prišel do svojih napovedi, in zelo koristno je določiti pomembnost lastnosti. Celotno poročilo o razlagi, vključno s pomembnostjo funkcij, je mogoče prenesti v formatu PDF, zvezka ali neobdelanih podatkov. V tem poročilu je prikazan širši nabor meritev in celoten seznam hiperparametrov, uporabljenih med opravilom AutoML. Če želite izvedeti več o tem, kako SageMaker zagotavlja integrirana razložljiva orodja za rešitve AutoML in standardne algoritme ML, glejte Uporabite integrirana orodja za razlago in izboljšajte kakovost modela z uporabo Amazon SageMaker Autopilot.

Drugi zavihki v tem pogledu prikazujejo informacije o podrobnostih delovanja (matrika zmede, krivulja natančnega priklica, krivulja ROC), artefaktih, uporabljenih za vnose in ustvarjenih med opravilom AutoML, ter podrobnostih omrežja.

Na tej točki ima podatkovni znanstvenik dve možnosti: neposredno uvesti model ali ustvariti cevovod za usposabljanje, ki ga je mogoče načrtovati ali sprožiti ročno ali samodejno. Naslednji razdelki ponujajo nekaj vpogledov v obe možnosti.

Neposredno namesti model

Če je podatkovni znanstvenik zadovoljen z rezultati, pridobljenimi z opravilom AutoML, lahko neposredno uvede model iz Podrobnosti o modelu strani. To je tako preprosto kot izbira Razmesti model poleg imena modela.

SageMaker vam pokaže dve možnosti za uvajanje: končno točko v realnem času, ki jo poganja Končne točke Amazon SageMakerin paketno sklepanje, ki ga poganja Paketno preoblikovanje Amazon SageMaker.

SageMaker ponuja tudi druge načine sklepanja. Če želite izvedeti več, glejte Razmestite modele za sklepanje.

Če želite omogočiti način predvidevanja v realnem času, preprosto daste končni točki ime, vrsto primerka in število primerkov. Ker ta model ne zahteva težkih računalniških virov, lahko uporabite primerek, ki temelji na procesorju, z začetnim številom 1. Več o različnih vrstah primerkov, ki so na voljo, in njihovih specifikacijah lahko izveste na Stran s cenami Amazon SageMaker (v Cene na zahtevo v razdelku izberite Sklepanje v realnem času zavihek). Če ne veste, kateri primerek bi morali izbrati za svojo uvedbo, lahko tudi prosite SageMaker, da poišče najboljšega za vas glede na vaše KPI-je z uporabo SageMaker Inference Recommender. Zagotovite lahko tudi dodatne izbirne parametre glede na to, ali želite zajeti podatke o zahtevah in odzivih v končno točko ali od nje. To se lahko izkaže za koristno, če nameravate spremljanje vašega modela. Izberete lahko tudi, katero vsebino želite zagotoviti kot del svojega odgovora – ali je to samo napoved ali verjetnost napovedi, verjetnost vseh razredov in ciljne oznake.

Če želite zagnati opravilo paketnega točkovanja in pridobiti napovedi za celoten nabor vnosov hkrati, lahko zaženete opravilo paketnega preoblikovanja iz Konzola za upravljanje AWS ali prek SDK-ja SageMaker Python. Če želite izvedeti več o paketnem preoblikovanju, glejte Uporabite paketno preoblikovanje in primeri zvezkov.

Določite cevovod usposabljanja

Modele ML je zelo redko, če sploh kdaj, mogoče obravnavati kot statične in nespremenljive, ker se odmikajo od osnovne linije, na kateri so bili urjeni. Podatki iz resničnega sveta se sčasoma razvijajo in iz njih izhaja več vzorcev in vpogledov, ki jih lahko ali pa tudi ne zajame izvirni model, usposobljen na zgodovinskih podatkih. Če želite rešiti to težavo, lahko nastavite cevovod usposabljanja, ki samodejno ponovno usposobi vaše modele z najnovejšimi razpoložljivimi podatki.

Pri definiranju tega cevovoda je ena od možnosti podatkovnega znanstvenika, da znova uporabi AutoML za cevovod usposabljanja. Opravilo AutoML lahko zaženete programsko tako, da pokličete API create_auto_ml_job() iz AWS Boto3 SDK. To operacijo lahko pokličete iz AWS Lambda funkcijo znotraj an Korak funkcije AWS potek dela ali iz LambdaStep in Amazonski cevovodi SageMaker.

Druga možnost je, da podatkovni znanstvenik uporabi znanje, artefakte in hiperparametre, pridobljene iz opravila AutoML, da definira celoten cevovod usposabljanja. Potrebujete naslednje vire:

Algoritem, ki je najbolje deloval za primer uporabe – Te informacije ste že pridobili iz povzetka modela, ustvarjenega s Canvas. Za ta primer uporabe je to vgrajeni algoritem XGBoost. Za navodila o uporabi SDK-ja SageMaker Python za urjenje algoritma XGBoost s SageMakerjem glejte Uporabite XGBoost s SDK-jem SageMaker Python.

Hiperparametri, ki jih izpelje opravilo AutoML – Te so na voljo v Pojasnjevanje razdelek. Uporabite jih lahko kot vnose pri definiranju delovnega mesta usposabljanja s SDK SageMaker Python.

Koda inženiringa funkcij je navedena v razdelku Artefakti – To kodo lahko uporabite za predhodno obdelavo podatkov pred usposabljanjem (na primer prek Amazon SageMaker Processing) ali pred sklepanjem (na primer kot del cevovoda sklepanja SageMaker).

Te vire lahko združite kot del cevovoda SageMaker. V tej objavi smo izpustili podrobnosti o izvajanju – spremljajte nas za več vsebine na to temo.

zaključek

SageMaker Canvas vam omogoča uporabo ML za ustvarjanje napovedi, ne da bi vam bilo treba napisati kodo. Poslovni analitik ga lahko samostojno začne uporabljati z lokalnimi nabori podatkov, pa tudi s podatki, ki so že shranjeni Preprosta storitev shranjevanja Amazon (Amazon S3), Amazon RedShift, ali Snežinka. S samo nekaj kliki lahko pripravijo in združijo svoje nabore podatkov, analizirajo ocenjeno natančnost, preverijo, kateri stolpci so vplivni, usposobijo najuspešnejši model in ustvarijo nove posamezne ali skupinske napovedi, vse brez kakršne koli potrebe po vključevanju strokovnega podatkovnega znanstvenika. Nato lahko po potrebi delijo model z ekipo podatkovnih znanstvenikov ali inženirjev MLOps, ki uvozijo modele v SageMaker Studio in sodelujejo z analitikom pri zagotavljanju proizvodne rešitve.

Poslovni analitiki lahko neodvisno pridobijo vpogled iz svojih podatkov, ne da bi imeli diplomo iz strojnega upravljanja in ne da bi morali napisati eno vrstico kode. Podatkovni znanstveniki imajo zdaj lahko dodaten čas za delo na zahtevnejših projektih, ki lahko bolje uporabijo svoje obsežno znanje o AI in ML.

Verjamemo, da to novo sodelovanje odpira vrata gradnji veliko zmogljivejših rešitev ML za vaše podjetje. Zdaj imate analitike, ki ustvarjajo dragocene poslovne vpoglede, hkrati pa dovolite podatkovnim znanstvenikom in inženirjem ML, da po potrebi pomagajo izboljšati, prilagoditi in razširiti.

Dodatni viri

Če želite izvedeti več o tem, kako lahko SageMaker dodatno pomaga poslovnim analitikom, glejte Amazon SageMaker za poslovne analitike.
Če želite izvedeti več o tem, kako SageMaker podatkovnim znanstvenikom omogoča razvoj, usposabljanje in uvajanje njihovih modelov ML, si oglejte Amazon SageMaker za podatkovne znanstvenike.
Za več informacij o tem, kako lahko SageMaker pomaga inženirjem MLOps pri racionalizaciji življenjskega cikla ML z uporabo MLOps, glejte Amazon SageMaker za inženirje MLOps.

O avtorjih

Davide Gallitelli je specializirani arhitekt rešitev za AI/ML v regiji EMEA. Ima sedež v Bruslju in tesno sodeluje s strankami po vsem Beneluksu. Razvijalec je že od malih nog, kodirati je začel pri 7 letih. AI/ML se je začel učiti na univerzi in od takrat se je vanj zaljubil.

Mark Roy je glavni arhitekt strojnega učenja za AWS, ki strankam pomaga pri oblikovanju in izdelavi rešitev AI / ML. Markovo delo zajema široko paleto primerov uporabe ML, predvsem pa računalniški vid, poglobljeno učenje in razširjanje ML v celotnem podjetju. Pomagal je podjetjem v številnih panogah, vključno z zavarovalništvom, finančnimi storitvami, mediji in zabavo, zdravstvom, komunalnimi storitvami in proizvodnjo. Mark ima šest certifikatov AWS, vključno s certifikatom ML Specialty. Preden se je Mark pridružil AWS, je bil več kot 25 let arhitekt, razvijalec in vodja tehnologije, vključno z 19 leti v finančnih storitvah.

Časovni žig: Marec 10, 2022

Časovni žig: Julij 20, 2022

Ponovno objavil Platon

Bela knjiga: najboljše prakse strojnega učenja v zdravstvu in znanostih o življenju

Zmanjšajte stroške in čas razvoja z lokalnim načinom Amazon SageMaker Pipelines

MLOps za paketno sklepanje s spremljanjem modela in ponovnim usposabljanjem z uporabo Amazon SageMaker, HashiCorp Terraform in GitLab CI/CD | Spletne storitve Amazon

Ponovno odkrivanje podatkovne izkušnje: uporabite generativno umetno inteligenco in sodobno podatkovno arhitekturo za odklepanje vpogledov | Spletne storitve Amazon

Moderirajte, klasificirajte in obdelujte dokumente z uporabo Amazon Rekognition in Amazon Texttract

Zgradite kontekstualno ciljanje na podlagi taksonomije z uporabo AWS Media Intelligence in Hugging Face BERT

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun