Illustrative Notebooks In Amazon SageMaker JumpStart

Taasavaldanud Platon

järgijaid: 0

Amazon SageMaker JumpStart on SageMakeri masinõppe (ML) keskus, mis pakub eelkoolitatud, avalikult kättesaadavaid mudeleid mitmesuguste probleemide jaoks, mis aitavad teil masinõppega alustada.

JumpStart pakub ka näidismärkmikke, mis kasutavad Amazon SageMaker funktsioone, nagu kohapealse eksemplari koolitus ja katsed suurel hulgal mudelitüüpidel ja kasutusjuhtudel. Need näidismärkmikud sisaldavad koodi, mis näitab, kuidas rakendada ML-lahendusi SageMakeri ja JumpStarti abil. Neid saab kohandada vastavalt teie vajadustele ja seega kiirendada rakenduste arendamist.

Hiljuti lisasime JumpStart in 10 uut märkmikku Amazon SageMaker Studio. See postitus keskendub nendele uutele märkmikele. Selle kirjutamise seisuga pakub JumpStart 56 sülearvutit, alates moodsate loomuliku keele töötlemise (NLP) mudelite kasutamisest kuni mudelite treenimisel andmehulkade fikseerimiseni.

10 uut märkmikku võivad teid aidata järgmistel viisidel.

Nad pakuvad teile näidiskoodi, mida saate Studio JumpStart kasutajaliideses käivitada ja vaadata, kuidas kood töötab
Need näitavad erinevate SageMakeri ja JumpStart API-de kasutamist
Nad pakuvad tehnilist lahendust, mida saate vastavalt oma vajadustele veelgi kohandada

JumpStarti kaudu pakutavate märkmike arv suureneb regulaarselt, kui märkmikke lisandub. Need märkmikud on saadaval ka aadressil github.

Märkmike ülevaade

10 uut märkmikku on järgmised:

Kontekstisisene õpe AlexaTM 20B-ga – Näitab, kuidas kasutada AlexaTM 20B kontekstipõhiseks õppimiseks null- ja mõne võttega õppimiseks viie näidisülesandega: teksti kokkuvõte, loomuliku keele genereerimine, masintõlge, küsimustele vastamine ning loomuliku keele järeldamine ja klassifitseerimine.
Õigluse lineaarne õppija SageMakeris – Hiljuti on olnud muret ML-algoritmide kallutatuse pärast, mis on tingitud olemasolevate inimeste eelarvamuste jäljendamisest. See märkmik rakendab mudeli prognooside sobivaks kohandamiseks õigluse kontseptsioone.
Hallake ML-i katsetamist SageMaker Searchi abil – Amazon SageMaker Search võimaldab teil kiiresti leida ja hinnata kõige asjakohasemaid mudelikoolitusi potentsiaalselt sadade ja tuhandete SageMakeri mudelikoolitustööde kohta.
SageMakeri närviteema mudel – SageMaker Neural Topic Model (NTM) on järelevalveta õppimisalgoritm, mis püüab kirjeldada vaatluste komplekti erinevate kategooriate seguna.
Ennusta sõidukiiruse rikkumisi – SageMaker DeepAR algoritmi saab kasutada mudeli koolitamiseks samaaegselt mitme tänava jaoks ja mitme tänavakaamera rikkumiste ennustamiseks.
Rinnavähi ennustus - See märkmik kasutab UCI rinnavähi diagnostika andmestikku, et luua ennustav mudel selle kohta, kas rinnamassi kujutis viitab hea- või pahaloomulisele kasvajale.
Ansambli ennustused mitmest mudelist – Mitme allika ja mudeli ennustusi kombineerides või keskmistades saame tavaliselt parema prognoosi. See märkmik illustreerib seda kontseptsiooni.
SageMakeri asünkroonne järeldus – Asünkroonne järeldus on uus järeldusvõimalus peaaegu reaalajas järelduste tegemiseks. Taotluste töötlemine võib kesta kuni 15 minutit ja nende kandevõime on kuni 1 GB.
TensorFlow tooge oma mudel - Siit saate teada, kuidas TensorFlow mudelit kohapeal koolitada ja SageMakeris selle sülearvuti abil juurutada.
Scikit-lear too oma mudel – See märkmik näitab, kuidas kasutada eelkoolitatud Scikit-learn mudelit koos SageMaker Scikit-learn konteineriga, et luua kiiresti selle mudeli hostitud lõpp-punkt.

Eeldused

Nende märkmike kasutamiseks veenduge, et teil on juurdepääs Studiole täitmisrolliga, mis võimaldab teil käitada SageMakeri funktsioone. Allolev lühike video aitab teil liikuda JumpStart märkmike juurde.

Järgmistes osades käsitleme kõiki 10 uut lahendust ja arutame nende huvitavaid detaile.

Kontekstisisene õpe AlexaTM 20B-ga

AlexaTM 20B on mitme ülesandega, mitmekeelne, laiaulatuslik järjestusest järjestusse (seq2seq) mudel, mis on treenitud Common Crawli (mC4) ja Wikipedia andmete segul 12 keeles, kasutades müra vähendamise ja põhjusliku keele modelleerimise (CLM) ülesandeid. See saavutab tipptasemel jõudluse tavaliste kontekstisiseste keeleülesannete puhul, nagu ühekordne kokkuvõte ja ühekordne masintõlge, edestades ainult dekoodrite mudeleid, nagu Open AI GPT3 ja Google'i PaLM, mis on üle kaheksa korra suuremad.

Kontekstisisene õpe, tuntud ka kui viipamine, viitab meetodile, mille puhul kasutate uue ülesande puhul NLP-mudelit, ilma et peaksite seda täpsustama. Mõned ülesandenäited esitatakse mudelile ainult osana järeldussisendist, paradigma, mida tuntakse kui väheste võtetega kontekstisisene õpe. Mõnel juhul võib mudel hästi toimida ka ilma treeningandmeteta, andes ainult selgituse selle kohta, mida tuleks ennustada. Seda nimetatakse null-shot kontekstis õppimine.

See märkmik näitab, kuidas AlexaTM 20B JumpStart API kaudu juurutada ja järeldusi teha. Samuti demonstreerib see, kuidas AlexaTM 20B saab kasutada kontekstis õppimiseks viie näidisülesandega: teksti kokkuvõte, loomuliku keele genereerimine, masintõlge, küsimustele vastamine ning loomuliku keele järeldamine ja klassifitseerimine.

Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Märkmik näitab järgmist:

Ühekordne teksti kokkuvõte, loomuliku keele genereerimine ja masintõlge, kasutades iga ülesande jaoks ühte koolitusnäidet
Nullküsimusele vastamine ja loomuliku keele järeldus pluss klassifikatsioon, kasutades mudelit sellisel kujul, ilma et oleks vaja koolitusnäiteid esitada.

Proovige oma teksti selle mudeliga võrrelda ja vaadake, kuidas see teksti kokku võtab, küsimusi ja vastuseid välja võtab või ühest keelest teise tõlgib.

Õigluse lineaarne õppija SageMakeris

Hiljuti on olnud muret ML-algoritmide kallutatuse pärast, mis on tingitud olemasolevate inimeste eelarvamuste jäljendamisest. Tänapäeval on mitmetel ML-meetoditel tugev sotsiaalne mõju, näiteks kasutatakse neid pangalaenude, kindlustusmäärade või reklaami ennustamiseks. Kahjuks pärib ajaloolistest andmetest õppiv algoritm loomulikult varasemad eelarvamused. See märkmik tutvustab, kuidas sellest probleemist üle saada, kasutades SageMakeri ja õiglasi algoritme lineaarsete õppijate kontekstis.

Alustuseks tutvustatakse mõningaid õigluse taga olevaid mõisteid ja matemaatikat, seejärel laaditakse alla andmed, treenitakse mudel ja lõpuks rakendatakse õigluse kontseptsioone, et mudeli ennustusi asjakohaselt kohandada.

Märkmik näitab järgmist:

Standardse lineaarse mudeli käitamine UCI täiskasvanute andmekogumis.
Näidates mudeli prognoosides ebaõiglust
Andmete parandamine eelarvamuste eemaldamiseks
Modelli ümberõpe

Proovige selle näidiskoodi abil oma andmeid käitada ja tuvastada, kas tegemist on kallutatusega. Pärast seda proovige oma andmestikust eemaldada eelarvamus, kui see on olemas, kasutades selles näidismärkmikus pakutavaid funktsioone.

Hallake ML-i katsetamist SageMaker Searchi abil

SageMaker Search võimaldab teil kiiresti leida ja hinnata kõige asjakohasemaid mudelikoolitusi potentsiaalselt sadade ja tuhandete SageMakeri mudelikoolitustööde kohta. ML-mudeli väljatöötamine nõuab pidevat katsetamist, uute õppimisalgoritmide proovimist ja hüperparameetrite häälestamist, jälgides samal ajal selliste muudatuste mõju mudeli jõudlusele ja täpsusele. See iteratiivne harjutus viib sageli sadade mudelikoolituskatsete ja mudeliversioonide plahvatusliku kasvuni, aeglustades lähenemist ja võidumudeli avastamist. Lisaks muudab teabeplahvatus väga raskeks mudeliversiooni päritolu jälitamise – see on ainulaadne andmekogumite, algoritmide ja parameetrite kombinatsioon, mis selle mudeli algselt koostas.

See märkmik näitab, kuidas kasutada SageMaker Searchit, et kiiresti ja hõlpsalt korraldada, jälgida ja hinnata oma mudelikoolitustöid SageMakeris. Saate otsida kasutatavast õppealgoritmist, hüperparameetrite sätetest, kasutatud treeninguandmekogumitest ja isegi mudelite koolitustöödele lisatud siltidest kõiki määratlevaid atribuute. Samuti saate kiiresti võrrelda ja järjestada oma treeninguid nende jõudlusmõõdikute (nt treeningu kaotuse ja valideerimise täpsuse) alusel, luues seeläbi edetabeleid, et tuvastada võitnud mudelid, mida saab tootmiskeskkondades juurutada. SageMaker Search suudab kiiresti jälgida reaalajas keskkonnas juurutatud mudeliversiooni täielikku päritolu kuni väljaõppeks ja mudeli valideerimiseks kasutatavate andmekogumiteni.

Märkmik näitab järgmist:

Lineaarse mudeli treenimine kolm korda
SageMaker Searchi kasutamine nende katsete korraldamiseks ja hindamiseks
Tulemuste visualiseerimine edetabelis
Mudeli juurutamine lõpp-punkti
Mudeli liini jälgimine alates lõpp-punktist

Ennustavate mudelite väljatöötamisel võite teha mitmeid katseid. Proovige sellistes katsetes kasutada SageMaker Searchi ja kogege, kuidas see saab teid mitmel viisil aidata.

SageMakeri neuraalse teema mudel

SageMaker Neural Topic Model (NTM) on järelevalveta õppimisalgoritm, mis püüab kirjeldada vaatluste komplekti erinevate kategooriate seguna. NTM-i kasutatakse kõige sagedamini kasutaja määratud arvu teemade leidmiseks, mida tekstikorpuses olevad dokumendid jagavad. Siin on iga vaatlus dokument, tunnused on iga sõna olemasolu (või esinemiste arv) ja kategooriad on teemad. Kuna meetod on järelevalveta, ei ole teemad eelnevalt kindlaks määratud ja ei ole garanteeritud, et need ühtivad sellega, kuidas inimene võib dokumente loomulikult kategoriseerida. Teemasid õpitakse igas dokumendis esinevate sõnade tõenäosusjaotusena. Iga dokumenti kirjeldatakse omakorda teemade seguna.

See märkmik kasutab SageMaker NTM-i algoritmi, et treenida 20NewsGroupsi andmestiku mudelit. Seda andmekogumit on laialdaselt kasutatud teemade modelleerimise võrdlusalusena.

Märkmik näitab järgmist:

Andmestikule SageMakeri koolitustöö loomine NTM-mudeli loomiseks
Mudeli kasutamine SageMakeri lõpp-punktiga järelduste tegemiseks
Koolitatud mudeliga tutvumine ja õpitud teemade visualiseerimine

Saate seda märkmikku hõlpsasti muuta, et see töötaks oma tekstidokumentidega ja jagada need erinevateks teemadeks.

Ennusta sõidukiiruse rikkumisi

See märkmik demonstreerib aegridade prognoosimist, kasutades algoritmi SageMaker DeepAR, analüüsides Chicago linna kiiruskaamerate rikkumise andmestikku. Andmestikku haldab Data.gov ja seda haldab USA üldteenuste administratsioon, tehnoloogiate ümberkujundamise teenus.

Need rikkumised fikseerivad kaamerasüsteemid ja need on avalikkuse elu parandamiseks kättesaadavad Chicago linna andmeportaali kaudu. Kiiruskaamera rikkumise andmestikku saab kasutada andmete mustrite tuvastamiseks ja tähendusliku ülevaate saamiseks.

Andmekogum sisaldab mitut kaamera asukohta ja igapäevaseid rikkumiste loendeid. Iga kaamera päevast rikkumiste arvu võib pidada eraldi aegreaks. Saate kasutada SageMaker DeepAR algoritmi, et treenida mudelit korraga mitme tänava jaoks ja ennustada rikkumisi mitme tänavakaamera puhul.

Märkmik näitab järgmist:

SageMaker DeepAR algoritmi koolitamine aegridade andmestiku kohta, kasutades kohapealseid eksemplare
Koolitatud mudeli kohta järelduste tegemine liiklusrikkumiste prognoosimiseks

Selle märkmiku abil saate teada, kuidas saab SageMakeri DeepAR-algoritmi abil aegridade probleeme lahendada, ja proovida seda oma aegridade andmekogudele rakendada.

Rinnavähi ennustus

See märkmik on näide rinnavähi ennustamisest, kasutades UCI rinnavähi diagnostilist andmekogumit. Ta kasutab seda andmekogumit, et luua ennustav mudel selle kohta, kas rindade massi kujutis näitab hea- või pahaloomulist kasvajat.

Märkmik näitab järgmist:

SageMakeri kasutamise põhiseaded
Andmekogumite teisendamine Protobufi vormingusse, mida kasutavad SageMakeri algoritmid, ja üleslaadimine Amazoni lihtne salvestusteenus (Amazon S3)
SageMakeri lineaarse õppija mudeli koolitamine andmekogumis
Koolitatud modelli majutamine
Hindamine koolitatud mudeli abil

Saate seda märkmikku läbi lugeda, et õppida, kuidas SageMakeri abil äriprobleeme lahendada, ning mõista väljaõppe ja mudeli hostimise etappe.

Ansambli ennustused mitmest mudelist

ML-i praktilistes rakendustes ennustavate ülesannete puhul ühest mudelist sageli ei piisa. Enamik ennustusvõistlusi nõuab tavaliselt mitmest allikast pärinevate prognooside kombineerimist, et saada parem prognoos. Mitme allika või mudeli ennustusi kombineerides või keskmistades saame tavaliselt parema prognoosi. Selle põhjuseks on asjaolu, et mudeli valikul on märkimisväärne ebakindlus ja paljudes praktilistes rakendustes puudub üks õige mudel. Seetõttu on kasulik kombineerida erinevate mudelite ennustusi. Bayesi kirjanduses nimetatakse seda ideed Bayesi mudeli keskmistamiseks ja see on näidanud, et see töötab palju paremini kui lihtsalt ühe mudeli valimine.

See märkmik esitab illustreeriva näite, et ennustada, kas inimene teenib aastas üle 50,000 XNUMX dollari, tuginedes teabele oma hariduse, töökogemuse, soo ja muu kohta.

Märkmik näitab järgmist:

SageMakeri märkmiku ettevalmistamine
Andmestiku laadimine Amazon S3-st, kasutades SageMakerit
Andmete uurimine ja teisendamine nii, et neid saaks SageMakeri algoritmidele edastada
Mudeli hindamine SageMaker XGBoost (Extreme Gradient Boosting) algoritmi abil
Mudeli hostimine SageMakeris pidevate prognooside tegemiseks
Teise mudeli hindamine SageMakeri lineaarse õppija meetodi abil
Mõlema mudeli ennustuste kombineerimine ja kombineeritud ennustuse hindamine
Lõplike ennustuste loomine testiandmestiku kohta

Proovige seda sülearvutit oma andmestikul käitada ja kasutada mitut algoritmi. Proovige katsetada SageMakeri ja JumpStarti pakutavate erinevate mudelite kombinatsioonidega ja vaadake, milline mudelite komplekteerimise kombinatsioon annab teie andmetel parimaid tulemusi.

SageMakeri asünkroonne järeldus

SageMakeri asünkroonne järeldus on SageMakeri uus võimalus, mis seab sissetulevad päringud järjekorda ja töötleb neid asünkroonselt. SageMaker pakub praegu klientidele ML-mudelite juurutamiseks kahte järeldusvõimalust: reaalajas võimalust madala latentsusega töökoormuste jaoks ja pakkteisendust, võrguühenduseta valikut, et töödelda järeldustaotlusi eelnevalt saadaolevate andmehulkade kohta. Reaalajas järeldamine sobib töökoormustele, mille kasulik koormus on alla 6 MB ja nõuab järeldustaotluste töötlemist 60 sekundi jooksul. Partii teisendus sobib andmepakettide võrguühenduseta järelduste tegemiseks.

Asünkroonne järeldus on uus järeldusvõimalus peaaegu reaalajas järelduste tegemiseks. Taotluste töötlemine võib kesta kuni 15 minutit ja nende kandevõime on kuni 1 GB. Asünkroonne järeldamine sobib töökoormuste jaoks, millel ei ole alamsekundi latentsusnõudeid ja millel on leebemad latentsusnõuded. Näiteks peate võib-olla töötlema järeldust suure, mitme MB suuruse kujutise kohta 5 minuti jooksul. Lisaks võimaldavad asünkroonsete järelduste lõpp-punktid teil kulusid kontrollida, vähendades lõpp-punkti eksemplaride arvu nullini, kui need on jõude, nii et maksate ainult siis, kui teie lõpp-punktid töötlevad taotlusi.

Märkmik näitab järgmist:

SageMakeri mudeli loomine
Lõpp-punkti loomine selle mudeli ja asünkroonse järelduse konfiguratsiooni abil
Selle asünkroonse lõpp-punkti ennustuste tegemine

See märkmik näitab teile toimivat näidet SageMakeri mudeli asünkroonse lõpp-punkti kokkupanemisest.

TensorFlow tooge oma mudel

TensorFlow mudelit koolitatakse kohapeal klassifitseerimisülesande jaoks, kus seda sülearvutit käitatakse. Seejärel juurutatakse see SageMakeri lõpp-punktis.

Märkmik näitab järgmist:

TensorFlow mudeli koolitamine kohapeal IRIS-i andmestikul
Selle mudeli importimine SageMakerisse
Selle lõpp-punktis hostimine

Kui teil on TensorFlow mudelid, mille olete ise välja töötanud, võib see näidismärkmik aidata teil oma mudelit majutada SageMakeri hallatavas lõpp-punktis.

Scikit-lear too oma mudel

SageMaker sisaldab funktsioone hostitud sülearvuti keskkonna, hajutatud, serverita koolituse ja reaalajas hostimise toetamiseks. See toimib kõige paremini, kui kõiki neid kolme teenust kasutatakse koos, kuid neid saab kasutada ka eraldi. Mõni kasutusjuht võib nõuda ainult hostimist. Võib-olla koolitati mudelit enne SageMakeri olemasolu teises teenuses.

Märkmik näitab järgmist:

Eelkoolitatud Scikit-learn mudeli kasutamine koos SageMaker Scikit-learn konteineriga, et luua kiiresti selle mudeli hostitud lõpp-punkt

Kui teil on Scikit-learni mudeleid, mille olete ise välja töötanud, võib see näidismärkmik aidata teil oma mudelit majutada SageMakeri hallatavas lõpp-punktis.

Puhastage ressursse

Kui olete KiirStartis märkmiku käitamise lõpetanud, tehke seda kindlasti Kustutage kõik ressursid nii et kõik protsessi käigus loodud ressursid kustutatakse ja teie arveldamine peatatakse. Nende märkmike viimane lahter kustutab tavaliselt loodud lõpp-punktid.

kokkuvõte

See postitus juhatas teid läbi 10 uue näidismärkmiku, mis lisati hiljuti KiirStarti. Kuigi see postitus keskendus neile 10 uuele märkmikule, on selle kirjutamise seisuga saadaval kokku 56 märkmikku. Soovitame teil Studiosse sisse logida ja ise JumpStart märkmikega tutvuda ning hakata neist vahetut väärtust ammutama. Lisateabe saamiseks vaadake Amazon SageMaker Studio ja SageMaker KiirStart.

Teave Autor

Dr Raju Penmatcha on AWS-i tehisintellekti platvormide AI/ML spetsialistilahenduste arhitekt. Ta sai doktorikraadi Stanfordi ülikoolist. Ta teeb tihedat koostööd SageMakeri madala/koodita komplekti teenustega, mis aitavad klientidel hõlpsasti masinõppemudeleid ja -lahendusi luua ja juurutada.

Ajatempel: Detsember 1, 2022Detsember 2, 2022

Ajatempel: Oktoober 2, 2023

Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart

Taasavaldanud Platon

Märkmike ülevaade

Eeldused

Kontekstisisene õpe AlexaTM 20B-ga

Õigluse lineaarne õppija SageMakeris

Hallake ML-i katsetamist SageMaker Searchi abil

SageMakeri neuraalse teema mudel

Ennusta sõidukiiruse rikkumisi

Rinnavähi ennustus

Ansambli ennustused mitmest mudelist

SageMakeri asünkroonne järeldus

TensorFlow tooge oma mudel

Scikit-lear too oma mudel

Puhastage ressursse

kokkuvõte

Teave Autor

Veel alates AWS-i masinõpe

Juurutage BLOOM-176B ja OPT-30B Amazon SageMakeris suure mudelijäreldamisega Deep Learning Containers ja DeepSpeed

Amazon SageMaker Profileri eelvaate väljakuulutamine: jälgige ja visualiseerige üksikasjalikke riistvara jõudlusandmeid oma mudelitreeningu töökoormuse jaoks | Amazoni veebiteenused

Kuidas Synamedia kasutab teenust Amazon Rekognition Video, et luua pikaajaliste videote jaoks täpsemaid videootsingu võimalusi

Arvutinägemine, kasutades sünteetilisi andmekogumeid koos Amazon Rekognitioni kohandatud siltidega ja Dassault Systèmes 3DEXCITE

Lugege veebilehti ja tõstke sisu esile Amazon Polly abil

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto