Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart

Amazon SageMaker JumpStart on SageMakeri masinõppe (ML) keskus, mis pakub eelkoolitatud, avalikult kättesaadavaid mudeleid mitmesuguste probleemide jaoks, mis aitavad teil masinõppega alustada.

JumpStart pakub ka näidismärkmikke, mis kasutavad Amazon SageMaker funktsioone, nagu kohapealse eksemplari koolitus ja katsed suurel hulgal mudelitüüpidel ja kasutusjuhtudel. Need näidismärkmikud sisaldavad koodi, mis näitab, kuidas rakendada ML-lahendusi SageMakeri ja JumpStarti abil. Neid saab kohandada vastavalt teie vajadustele ja seega kiirendada rakenduste arendamist.

Hiljuti lisasime JumpStart in 10 uut märkmikku Amazon SageMaker Studio. See postitus keskendub nendele uutele märkmikele. Selle kirjutamise seisuga pakub JumpStart 56 sülearvutit, alates moodsate loomuliku keele töötlemise (NLP) mudelite kasutamisest kuni mudelite treenimisel andmehulkade fikseerimiseni.

10 uut märkmikku võivad teid aidata järgmistel viisidel.

  • Nad pakuvad teile näidiskoodi, mida saate Studio JumpStart kasutajaliideses käivitada ja vaadata, kuidas kood töötab
  • Need näitavad erinevate SageMakeri ja JumpStart API-de kasutamist
  • Nad pakuvad tehnilist lahendust, mida saate vastavalt oma vajadustele veelgi kohandada

JumpStarti kaudu pakutavate märkmike arv suureneb regulaarselt, kui märkmikke lisandub. Need märkmikud on saadaval ka aadressil github.

Märkmike ülevaade

10 uut märkmikku on järgmised:

  • Kontekstisisene õpe AlexaTM 20B-ga – Näitab, kuidas kasutada AlexaTM 20B kontekstipõhiseks õppimiseks null- ja mõne võttega õppimiseks viie näidisülesandega: teksti kokkuvõte, loomuliku keele genereerimine, masintõlge, küsimustele vastamine ning loomuliku keele järeldamine ja klassifitseerimine.
  • Õigluse lineaarne õppija SageMakeris – Hiljuti on olnud muret ML-algoritmide kallutatuse pärast, mis on tingitud olemasolevate inimeste eelarvamuste jäljendamisest. See märkmik rakendab mudeli prognooside sobivaks kohandamiseks õigluse kontseptsioone.
  • Hallake ML-i katsetamist SageMaker Searchi abil – Amazon SageMaker Search võimaldab teil kiiresti leida ja hinnata kõige asjakohasemaid mudelikoolitusi potentsiaalselt sadade ja tuhandete SageMakeri mudelikoolitustööde kohta.
  • SageMakeri närviteema mudel – SageMaker Neural Topic Model (NTM) on järelevalveta õppimisalgoritm, mis püüab kirjeldada vaatluste komplekti erinevate kategooriate seguna.
  • Ennusta sõidukiiruse rikkumisi – SageMaker DeepAR algoritmi saab kasutada mudeli koolitamiseks samaaegselt mitme tänava jaoks ja mitme tänavakaamera rikkumiste ennustamiseks.
  • Rinnavähi ennustus - See märkmik kasutab UCI rinnavähi diagnostika andmestikku, et luua ennustav mudel selle kohta, kas rinnamassi kujutis viitab hea- või pahaloomulisele kasvajale.
  • Ansambli ennustused mitmest mudelist – Mitme allika ja mudeli ennustusi kombineerides või keskmistades saame tavaliselt parema prognoosi. See märkmik illustreerib seda kontseptsiooni.
  • SageMakeri asünkroonne järeldus – Asünkroonne järeldus on uus järeldusvõimalus peaaegu reaalajas järelduste tegemiseks. Taotluste töötlemine võib kesta kuni 15 minutit ja nende kandevõime on kuni 1 GB.
  • TensorFlow tooge oma mudel - Siit saate teada, kuidas TensorFlow mudelit kohapeal koolitada ja SageMakeris selle sülearvuti abil juurutada.
  • Scikit-lear too oma mudel – See märkmik näitab, kuidas kasutada eelkoolitatud Scikit-learn mudelit koos SageMaker Scikit-learn konteineriga, et luua kiiresti selle mudeli hostitud lõpp-punkt.

Eeldused

Nende märkmike kasutamiseks veenduge, et teil on juurdepääs Studiole täitmisrolliga, mis võimaldab teil käitada SageMakeri funktsioone. Allolev lühike video aitab teil liikuda JumpStart märkmike juurde.

Järgmistes osades käsitleme kõiki 10 uut lahendust ja arutame nende huvitavaid detaile.

Kontekstisisene õpe AlexaTM 20B-ga

AlexaTM 20B on mitme ülesandega, mitmekeelne, laiaulatuslik järjestusest järjestusse (seq2seq) mudel, mis on treenitud Common Crawli (mC4) ja Wikipedia andmete segul 12 keeles, kasutades müra vähendamise ja põhjusliku keele modelleerimise (CLM) ülesandeid. See saavutab tipptasemel jõudluse tavaliste kontekstisiseste keeleülesannete puhul, nagu ühekordne kokkuvõte ja ühekordne masintõlge, edestades ainult dekoodrite mudeleid, nagu Open AI GPT3 ja Google'i PaLM, mis on üle kaheksa korra suuremad.

Kontekstisisene õpe, tuntud ka kui viipamine, viitab meetodile, mille puhul kasutate uue ülesande puhul NLP-mudelit, ilma et peaksite seda täpsustama. Mõned ülesandenäited esitatakse mudelile ainult osana järeldussisendist, paradigma, mida tuntakse kui väheste võtetega kontekstisisene õpe. Mõnel juhul võib mudel hästi toimida ka ilma treeningandmeteta, andes ainult selgituse selle kohta, mida tuleks ennustada. Seda nimetatakse null-shot kontekstis õppimine.

See märkmik näitab, kuidas AlexaTM 20B JumpStart API kaudu juurutada ja järeldusi teha. Samuti demonstreerib see, kuidas AlexaTM 20B saab kasutada kontekstis õppimiseks viie näidisülesandega: teksti kokkuvõte, loomuliku keele genereerimine, masintõlge, küsimustele vastamine ning loomuliku keele järeldamine ja klassifitseerimine.

Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Märkmik näitab järgmist:

  • Ühekordne teksti kokkuvõte, loomuliku keele genereerimine ja masintõlge, kasutades iga ülesande jaoks ühte koolitusnäidet
  • Nullküsimusele vastamine ja loomuliku keele järeldus pluss klassifikatsioon, kasutades mudelit sellisel kujul, ilma et oleks vaja koolitusnäiteid esitada.

Proovige oma teksti selle mudeliga võrrelda ja vaadake, kuidas see teksti kokku võtab, küsimusi ja vastuseid välja võtab või ühest keelest teise tõlgib.

Õigluse lineaarne õppija SageMakeris

Hiljuti on olnud muret ML-algoritmide kallutatuse pärast, mis on tingitud olemasolevate inimeste eelarvamuste jäljendamisest. Tänapäeval on mitmetel ML-meetoditel tugev sotsiaalne mõju, näiteks kasutatakse neid pangalaenude, kindlustusmäärade või reklaami ennustamiseks. Kahjuks pärib ajaloolistest andmetest õppiv algoritm loomulikult varasemad eelarvamused. See märkmik tutvustab, kuidas sellest probleemist üle saada, kasutades SageMakeri ja õiglasi algoritme lineaarsete õppijate kontekstis.

Alustuseks tutvustatakse mõningaid õigluse taga olevaid mõisteid ja matemaatikat, seejärel laaditakse alla andmed, treenitakse mudel ja lõpuks rakendatakse õigluse kontseptsioone, et mudeli ennustusi asjakohaselt kohandada.

Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Märkmik näitab järgmist:

  • Standardse lineaarse mudeli käitamine UCI täiskasvanute andmekogumis.
  • Näidates mudeli prognoosides ebaõiglust
  • Andmete parandamine eelarvamuste eemaldamiseks
  • Modelli ümberõpe

Proovige selle näidiskoodi abil oma andmeid käitada ja tuvastada, kas tegemist on kallutatusega. Pärast seda proovige oma andmestikust eemaldada eelarvamus, kui see on olemas, kasutades selles näidismärkmikus pakutavaid funktsioone.

Hallake ML-i katsetamist SageMaker Searchi abil

SageMaker Search võimaldab teil kiiresti leida ja hinnata kõige asjakohasemaid mudelikoolitusi potentsiaalselt sadade ja tuhandete SageMakeri mudelikoolitustööde kohta. ML-mudeli väljatöötamine nõuab pidevat katsetamist, uute õppimisalgoritmide proovimist ja hüperparameetrite häälestamist, jälgides samal ajal selliste muudatuste mõju mudeli jõudlusele ja täpsusele. See iteratiivne harjutus viib sageli sadade mudelikoolituskatsete ja mudeliversioonide plahvatusliku kasvuni, aeglustades lähenemist ja võidumudeli avastamist. Lisaks muudab teabeplahvatus väga raskeks mudeliversiooni päritolu jälitamise – see on ainulaadne andmekogumite, algoritmide ja parameetrite kombinatsioon, mis selle mudeli algselt koostas.

See märkmik näitab, kuidas kasutada SageMaker Searchit, et kiiresti ja hõlpsalt korraldada, jälgida ja hinnata oma mudelikoolitustöid SageMakeris. Saate otsida kasutatavast õppealgoritmist, hüperparameetrite sätetest, kasutatud treeninguandmekogumitest ja isegi mudelite koolitustöödele lisatud siltidest kõiki määratlevaid atribuute. Samuti saate kiiresti võrrelda ja järjestada oma treeninguid nende jõudlusmõõdikute (nt treeningu kaotuse ja valideerimise täpsuse) alusel, luues seeläbi edetabeleid, et tuvastada võitnud mudelid, mida saab tootmiskeskkondades juurutada. SageMaker Search suudab kiiresti jälgida reaalajas keskkonnas juurutatud mudeliversiooni täielikku päritolu kuni väljaõppeks ja mudeli valideerimiseks kasutatavate andmekogumiteni.

Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Märkmik näitab järgmist:

  • Lineaarse mudeli treenimine kolm korda
  • SageMaker Searchi kasutamine nende katsete korraldamiseks ja hindamiseks
  • Tulemuste visualiseerimine edetabelis
  • Mudeli juurutamine lõpp-punkti
  • Mudeli liini jälgimine alates lõpp-punktist

Ennustavate mudelite väljatöötamisel võite teha mitmeid katseid. Proovige sellistes katsetes kasutada SageMaker Searchi ja kogege, kuidas see saab teid mitmel viisil aidata.

SageMakeri neuraalse teema mudel

SageMaker Neural Topic Model (NTM) on järelevalveta õppimisalgoritm, mis püüab kirjeldada vaatluste komplekti erinevate kategooriate seguna. NTM-i kasutatakse kõige sagedamini kasutaja määratud arvu teemade leidmiseks, mida tekstikorpuses olevad dokumendid jagavad. Siin on iga vaatlus dokument, tunnused on iga sõna olemasolu (või esinemiste arv) ja kategooriad on teemad. Kuna meetod on järelevalveta, ei ole teemad eelnevalt kindlaks määratud ja ei ole garanteeritud, et need ühtivad sellega, kuidas inimene võib dokumente loomulikult kategoriseerida. Teemasid õpitakse igas dokumendis esinevate sõnade tõenäosusjaotusena. Iga dokumenti kirjeldatakse omakorda teemade seguna.

See märkmik kasutab SageMaker NTM-i algoritmi, et treenida 20NewsGroupsi andmestiku mudelit. Seda andmekogumit on laialdaselt kasutatud teemade modelleerimise võrdlusalusena.

Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Märkmik näitab järgmist:

  • Andmestikule SageMakeri koolitustöö loomine NTM-mudeli loomiseks
  • Mudeli kasutamine SageMakeri lõpp-punktiga järelduste tegemiseks
  • Koolitatud mudeliga tutvumine ja õpitud teemade visualiseerimine

Saate seda märkmikku hõlpsasti muuta, et see töötaks oma tekstidokumentidega ja jagada need erinevateks teemadeks.

Ennusta sõidukiiruse rikkumisi

See märkmik demonstreerib aegridade prognoosimist, kasutades algoritmi SageMaker DeepAR, analüüsides Chicago linna kiiruskaamerate rikkumise andmestikku. Andmestikku haldab Data.gov ja seda haldab USA üldteenuste administratsioon, tehnoloogiate ümberkujundamise teenus.

Need rikkumised fikseerivad kaamerasüsteemid ja need on avalikkuse elu parandamiseks kättesaadavad Chicago linna andmeportaali kaudu. Kiiruskaamera rikkumise andmestikku saab kasutada andmete mustrite tuvastamiseks ja tähendusliku ülevaate saamiseks.

Andmekogum sisaldab mitut kaamera asukohta ja igapäevaseid rikkumiste loendeid. Iga kaamera päevast rikkumiste arvu võib pidada eraldi aegreaks. Saate kasutada SageMaker DeepAR algoritmi, et treenida mudelit korraga mitme tänava jaoks ja ennustada rikkumisi mitme tänavakaamera puhul.

Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Märkmik näitab järgmist:

  • SageMaker DeepAR algoritmi koolitamine aegridade andmestiku kohta, kasutades kohapealseid eksemplare
  • Koolitatud mudeli kohta järelduste tegemine liiklusrikkumiste prognoosimiseks

Selle märkmiku abil saate teada, kuidas saab SageMakeri DeepAR-algoritmi abil aegridade probleeme lahendada, ja proovida seda oma aegridade andmekogudele rakendada.

Rinnavähi ennustus

See märkmik on näide rinnavähi ennustamisest, kasutades UCI rinnavähi diagnostilist andmekogumit. Ta kasutab seda andmekogumit, et luua ennustav mudel selle kohta, kas rindade massi kujutis näitab hea- või pahaloomulist kasvajat.

Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Märkmik näitab järgmist:

  • SageMakeri kasutamise põhiseaded
  • Andmekogumite teisendamine Protobufi vormingusse, mida kasutavad SageMakeri algoritmid, ja üleslaadimine Amazoni lihtne salvestusteenus (Amazon S3)
  • SageMakeri lineaarse õppija mudeli koolitamine andmekogumis
  • Koolitatud modelli majutamine
  • Hindamine koolitatud mudeli abil

Saate seda märkmikku läbi lugeda, et õppida, kuidas SageMakeri abil äriprobleeme lahendada, ning mõista väljaõppe ja mudeli hostimise etappe.

Ansambli ennustused mitmest mudelist

ML-i praktilistes rakendustes ennustavate ülesannete puhul ühest mudelist sageli ei piisa. Enamik ennustusvõistlusi nõuab tavaliselt mitmest allikast pärinevate prognooside kombineerimist, et saada parem prognoos. Mitme allika või mudeli ennustusi kombineerides või keskmistades saame tavaliselt parema prognoosi. Selle põhjuseks on asjaolu, et mudeli valikul on märkimisväärne ebakindlus ja paljudes praktilistes rakendustes puudub üks õige mudel. Seetõttu on kasulik kombineerida erinevate mudelite ennustusi. Bayesi kirjanduses nimetatakse seda ideed Bayesi mudeli keskmistamiseks ja see on näidanud, et see töötab palju paremini kui lihtsalt ühe mudeli valimine.

See märkmik esitab illustreeriva näite, et ennustada, kas inimene teenib aastas üle 50,000 XNUMX dollari, tuginedes teabele oma hariduse, töökogemuse, soo ja muu kohta.

Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Märkmik näitab järgmist:

  • SageMakeri märkmiku ettevalmistamine
  • Andmestiku laadimine Amazon S3-st, kasutades SageMakerit
  • Andmete uurimine ja teisendamine nii, et neid saaks SageMakeri algoritmidele edastada
  • Mudeli hindamine SageMaker XGBoost (Extreme Gradient Boosting) algoritmi abil
  • Mudeli hostimine SageMakeris pidevate prognooside tegemiseks
  • Teise mudeli hindamine SageMakeri lineaarse õppija meetodi abil
  • Mõlema mudeli ennustuste kombineerimine ja kombineeritud ennustuse hindamine
  • Lõplike ennustuste loomine testiandmestiku kohta

Proovige seda sülearvutit oma andmestikul käitada ja kasutada mitut algoritmi. Proovige katsetada SageMakeri ja JumpStarti pakutavate erinevate mudelite kombinatsioonidega ja vaadake, milline mudelite komplekteerimise kombinatsioon annab teie andmetel parimaid tulemusi.

SageMakeri asünkroonne järeldus

SageMakeri asünkroonne järeldus on SageMakeri uus võimalus, mis seab sissetulevad päringud järjekorda ja töötleb neid asünkroonselt. SageMaker pakub praegu klientidele ML-mudelite juurutamiseks kahte järeldusvõimalust: reaalajas võimalust madala latentsusega töökoormuste jaoks ja pakkteisendust, võrguühenduseta valikut, et töödelda järeldustaotlusi eelnevalt saadaolevate andmehulkade kohta. Reaalajas järeldamine sobib töökoormustele, mille kasulik koormus on alla 6 MB ja nõuab järeldustaotluste töötlemist 60 sekundi jooksul. Partii teisendus sobib andmepakettide võrguühenduseta järelduste tegemiseks.

Asünkroonne järeldus on uus järeldusvõimalus peaaegu reaalajas järelduste tegemiseks. Taotluste töötlemine võib kesta kuni 15 minutit ja nende kandevõime on kuni 1 GB. Asünkroonne järeldamine sobib töökoormuste jaoks, millel ei ole alamsekundi latentsusnõudeid ja millel on leebemad latentsusnõuded. Näiteks peate võib-olla töötlema järeldust suure, mitme MB suuruse kujutise kohta 5 minuti jooksul. Lisaks võimaldavad asünkroonsete järelduste lõpp-punktid teil kulusid kontrollida, vähendades lõpp-punkti eksemplaride arvu nullini, kui need on jõude, nii et maksate ainult siis, kui teie lõpp-punktid töötlevad taotlusi.

Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Märkmik näitab järgmist:

  • SageMakeri mudeli loomine
  • Lõpp-punkti loomine selle mudeli ja asünkroonse järelduse konfiguratsiooni abil
  • Selle asünkroonse lõpp-punkti ennustuste tegemine

See märkmik näitab teile toimivat näidet SageMakeri mudeli asünkroonse lõpp-punkti kokkupanemisest.

TensorFlow tooge oma mudel

TensorFlow mudelit koolitatakse kohapeal klassifitseerimisülesande jaoks, kus seda sülearvutit käitatakse. Seejärel juurutatakse see SageMakeri lõpp-punktis.

Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Märkmik näitab järgmist:

  • TensorFlow mudeli koolitamine kohapeal IRIS-i andmestikul
  • Selle mudeli importimine SageMakerisse
  • Selle lõpp-punktis hostimine

Kui teil on TensorFlow mudelid, mille olete ise välja töötanud, võib see näidismärkmik aidata teil oma mudelit majutada SageMakeri hallatavas lõpp-punktis.

Scikit-lear too oma mudel

SageMaker sisaldab funktsioone hostitud sülearvuti keskkonna, hajutatud, serverita koolituse ja reaalajas hostimise toetamiseks. See toimib kõige paremini, kui kõiki neid kolme teenust kasutatakse koos, kuid neid saab kasutada ka eraldi. Mõni kasutusjuht võib nõuda ainult hostimist. Võib-olla koolitati mudelit enne SageMakeri olemasolu teises teenuses.

Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Märkmik näitab järgmist:

  • Eelkoolitatud Scikit-learn mudeli kasutamine koos SageMaker Scikit-learn konteineriga, et luua kiiresti selle mudeli hostitud lõpp-punkt

Kui teil on Scikit-learni mudeleid, mille olete ise välja töötanud, võib see näidismärkmik aidata teil oma mudelit majutada SageMakeri hallatavas lõpp-punktis.

Puhastage ressursse

Kui olete KiirStartis märkmiku käitamise lõpetanud, tehke seda kindlasti Kustutage kõik ressursid nii et kõik protsessi käigus loodud ressursid kustutatakse ja teie arveldamine peatatakse. Nende märkmike viimane lahter kustutab tavaliselt loodud lõpp-punktid.

kokkuvõte

See postitus juhatas teid läbi 10 uue näidismärkmiku, mis lisati hiljuti KiirStarti. Kuigi see postitus keskendus neile 10 uuele märkmikule, on selle kirjutamise seisuga saadaval kokku 56 märkmikku. Soovitame teil Studiosse sisse logida ja ise JumpStart märkmikega tutvuda ning hakata neist vahetut väärtust ammutama. Lisateabe saamiseks vaadake Amazon SageMaker Studio ja SageMaker KiirStart.


Teave Autor

Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Dr Raju Penmatcha on AWS-i tehisintellekti platvormide AI/ML spetsialistilahenduste arhitekt. Ta sai doktorikraadi Stanfordi ülikoolist. Ta teeb tihedat koostööd SageMakeri madala/koodita komplekti teenustega, mis aitavad klientidel hõlpsasti masinõppemudeleid ja -lahendusi luua ja juurutada.

Ajatempel:

Veel alates AWS-i masinõpe