Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Ilustrativni zvezki v Amazon SageMaker JumpStart

Amazon SageMaker JumpStart je središče za strojno učenje (ML) podjetja SageMaker, ki ponuja vnaprej usposobljene, javno dostopne modele za širok nabor vrst težav, ki vam pomagajo pri začetku strojnega učenja.

JumpStart ponuja tudi primere zvezkov, ki uporabljajo Amazon SageMaker funkcije, kot so usposabljanje na kraju samem in poskusi na številnih vrstah modelov in primerih uporabe. Ti primeri zvezkov vsebujejo kodo, ki prikazuje, kako uporabiti rešitve ML z uporabo SageMaker in JumpStart. Lahko jih prilagodite svojim potrebam in tako pospešite razvoj aplikacij.

Pred kratkim smo v JumpStart dodali 10 novih zvezkov Amazon SageMaker Studio. Ta objava se osredotoča na te nove prenosnike. Od tega pisanja JumpStart ponuja 56 zvezkov, od uporabe najsodobnejših modelov za obdelavo naravnega jezika (NLP) do odpravljanja pristranskosti v nizih podatkov pri usposabljanju modelov.

10 novih zvezkov vam lahko pomaga na naslednje načine:

  • Ponujajo primer kode, ki jo lahko zaženete tako, kot je, iz uporabniškega vmesnika JumpStart v Studiu in si ogledate, kako deluje koda
  • Prikazujejo uporabo različnih API-jev SageMaker in JumpStart
  • Ponujajo tehnično rešitev, ki jo lahko dodatno prilagodite svojim potrebam

Število zvezkov, ki jih ponuja JumpStart, se redno povečuje, ko je dodanih več zvezkov. Ti zvezki so na voljo tudi na github.

Pregled zvezkov

10 novih zvezkov je naslednjih:

  • Učenje v kontekstu z AlexaTM 20B – Demonstrira, kako uporabljati AlexaTM 20B za učenje v kontekstu z učenjem brez in nekajkrat na petih primerih nalog: povzemanje besedila, ustvarjanje naravnega jezika, strojno prevajanje, ekstrakcijsko odgovarjanje na vprašanja ter sklepanje in klasifikacija naravnega jezika.
  • Pravičnost linearnega učenca v SageMakerju – Nedavno so se pojavili pomisleki glede pristranskosti algoritmov ML zaradi posnemanja obstoječih človeških predsodkov. Ta zvezek uporablja koncepte pravičnosti za ustrezno prilagajanje napovedi modela.
  • Upravljajte eksperimentiranje z ML z uporabo SageMaker Search – Amazon SageMaker Search vam omogoča hitro iskanje in ovrednotenje najustreznejših tečajev usposabljanja modelov iz potencialno na stotine in tisoče delovnih mest usposabljanja modelov SageMaker.
  • Nevralni tematski model SageMaker – SageMaker Neural Topic Model (NTM) je algoritem za nenadzorovano učenje, ki poskuša nabor opazovanj opisati kot mešanico različnih kategorij.
  • Napovedujte prekoračitve hitrosti vožnje – Algoritem SageMaker DeepAR se lahko uporablja za usposabljanje modela za več ulic hkrati in predvidevanje kršitev za več uličnih kamer.
  • Napoved raka dojke – Ta prenosni računalnik uporablja UCI-jev nabor diagnostičnih podatkov o raku dojke za izdelavo napovednega modela, ali slika mase dojke kaže na benigni ali maligni tumor.
  • Napovedi skupine iz več modelov – S kombiniranjem ali povprečenjem napovedi iz več virov in modelov običajno dobimo izboljšano napoved. Ta zvezek ponazarja ta koncept.
  • Asinhroni sklep SageMaker – Asinhrono sklepanje je nova možnost sklepanja za potrebe sklepanja v skoraj realnem času. Obdelava zahtev lahko traja do 15 minut in imajo velikost koristnega tovora do 1 GB.
  • TensorFlow prinesite svoj model – Naučite se, kako lokalno usposobiti model TensorFlow in ga namestiti v SageMaker s pomočjo tega prenosnika.
  • Scikit-learn prinesite svoj model – Ta zvezek prikazuje, kako uporabiti vnaprej usposobljen model Scikit-learn s vsebnikom Scikit-learn SageMaker za hitro ustvarjanje gostujoče končne točke za ta model.

Predpogoji

Če želite uporabljati te zvezke, se prepričajte, da imate dostop do programa Studio z izvajalsko vlogo, ki vam omogoča zagon funkcije SageMaker. Spodnji kratek videoposnetek vam bo pomagal pri navigaciji do zvezkov JumpStart.

V naslednjih razdelkih gremo skozi vsako od 10 novih rešitev in razpravljamo o nekaterih njihovih zanimivih podrobnostih.

Učenje v kontekstu z AlexaTM 20B

AlexaTM 20B je večopravilni, večjezični model velikega obsega od zaporedja do zaporedja (seq2seq), usposobljen na mešanici podatkov Common Crawl (mC4) in Wikipedije v 12 jezikih, z uporabo nalog za odstranjevanje šumov in vzročno jezikovno modeliranje (CLM). Dosega najsodobnejšo zmogljivost pri običajnih jezikovnih nalogah v kontekstu, kot sta enkratno povzemanje in enkratno strojno prevajanje, pri čemer prekaša modele samo dekodirnikov, kot sta GPT3 Open AI in Googlov PaLM, ki sta več kot osemkrat večja.

Učenje v kontekstu, znano tudi kot spodbuden, se nanaša na metodo, pri kateri uporabite model NLP pri novi nalogi, ne da bi ga morali natančno prilagoditi. Nekaj ​​primerov nalog je na voljo modelu samo kot del vnosa sklepanja, paradigme, znane kot nekajkratno učenje v kontekstu. V nekaterih primerih se lahko model dobro obnese brez kakršnih koli podatkov o usposabljanju, le če dobi razlago, kaj je treba predvideti. To se imenuje zero-shot učenje v kontekstu.

Ta prenosni računalnik prikazuje, kako uvesti AlexaTM 20B prek API-ja JumpStart in zagnati sklepanje. Prav tako prikazuje, kako se lahko AlexaTM 20B uporablja za učenje v kontekstu s petimi primeri nalog: povzemanje besedila, ustvarjanje naravnega jezika, strojno prevajanje, ekstrakcijsko odgovarjanje na vprašanja ter sklepanje in klasifikacija naravnega jezika.

Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Beležnica prikazuje naslednje:

  • Enkratno povzemanje besedila, ustvarjanje naravnega jezika in strojno prevajanje z uporabo enega samega primera usposabljanja za vsako od teh nalog
  • Hitro odgovarjanje na vprašanja in sklepanje o naravnem jeziku ter klasifikacija z uporabo modela, kot je, brez potrebe po zagotavljanju primerov za usposabljanje.

Poskusite primerjati svoje besedilo s tem modelom in si oglejte, kako povzema besedilo, izloča vprašanja in odgovore ali prevaja iz enega jezika v drugega.

Pravičnostni linearni učenec v SageMakerju

Nedavno so se pojavili pomisleki glede pristranskosti algoritmov ML zaradi posnemanja obstoječih človeških predsodkov. Dandanes ima več metod ML močne družbene posledice, na primer uporabljajo se za napovedovanje bančnih posojil, zavarovalnih stopenj ali oglaševanja. Na žalost bo algoritem, ki se uči iz zgodovinskih podatkov, seveda podedoval pretekle pristranskosti. Ta zvezek predstavlja, kako premagati to težavo z uporabo SageMakerja in poštenih algoritmov v kontekstu linearnih učencev.

Začne se z uvedbo nekaterih konceptov in matematike, ki stojijo za poštenostjo, nato prenese podatke, usposobi model in na koncu uporabi koncepte poštenosti, da ustrezno prilagodi napovedi modela.

Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Beležnica prikazuje naslednje:

  • Izvajanje standardnega linearnega modela na UCI-jevem naboru podatkov za odrasle.
  • Kazanje nepravičnosti v napovedih modela
  • Popravljanje podatkov za odstranitev pristranskosti
  • Preusposabljanje modela

Poskusite zagnati lastne podatke s to vzorčno kodo in ugotovite, ali obstaja pristranskost. Po tem poskusite odstraniti morebitno pristranskost v svojem naboru podatkov z uporabo ponujenih funkcij v tem vzorčnem zvezku.

Upravljajte eksperimentiranje z ML z uporabo SageMaker Search

SageMaker Search vam omogoča hitro iskanje in ovrednotenje najustreznejših tečajev usposabljanja modelov iz potencialno na stotine in tisoče delovnih mest usposabljanja modelov SageMaker. Razvijanje modela ML zahteva nenehno eksperimentiranje, preizkušanje novih učnih algoritmov in prilagajanje hiperparametrov, pri čemer je treba opazovati vpliv takšnih sprememb na zmogljivost in natančnost modela. Ta ponavljajoča se vaja pogosto vodi do eksplozije na stotine eksperimentov za usposabljanje modelov in različic modelov, kar upočasni konvergenco in odkrivanje zmagovalnega modela. Poleg tega je zaradi eksplozije informacij zelo težko slediti izvoru različice modela – edinstveni kombinaciji naborov podatkov, algoritmov in parametrov, ki so ta model sploh ustvarili.

Ta zvezek prikazuje, kako uporabljati SageMaker Search za hitro in preprosto organiziranje, sledenje in ocenjevanje vaših nalog usposabljanja modelov na SageMakerju. Iščete lahko po vseh definirajočih atributih iz uporabljenega učnega algoritma, nastavitev hiperparametrov, uporabljenih nizov podatkov o usposabljanju in celo po oznakah, ki ste jih dodali opravilom usposabljanja modela. Prav tako lahko hitro primerjate in razvrstite svoje treninge glede na njihove meritve uspešnosti, kot sta izguba treninga in natančnost validacije, s čimer ustvarite lestvice najboljših za prepoznavanje zmagovalnih modelov, ki jih je mogoče namestiti v produkcijska okolja. Iskanje SageMaker lahko hitro izsledi celotno linijo različice modela, uvedene v živo okolje, vse do nizov podatkov, uporabljenih pri usposabljanju in potrjevanju modela.

Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Beležnica prikazuje naslednje:

  • Trikratno usposabljanje linearnega modela
  • Uporaba SageMaker Search za organiziranje in vrednotenje teh poskusov
  • Vizualizacija rezultatov na lestvici najboljših
  • Razmestitev modela na končno točko
  • Sledenje rodu modela, ki se začne od končne točke

Pri lastnem razvoju napovednih modelov lahko izvajate več poskusov. Poskusite uporabiti SageMaker Search v takih poskusih in preizkusite, kako vam lahko pomaga na več načinov.

Nevralni tematski model SageMaker

SageMaker Neural Topic Model (NTM) je algoritem za nenadzorovano učenje, ki poskuša nabor opazovanj opisati kot mešanico različnih kategorij. NTM se najpogosteje uporablja za odkrivanje uporabniško določenega števila tem, ki si jih delijo dokumenti v besedilnem korpusu. Tu je vsako opazovanje dokument, funkcije so prisotnost (ali število pojavitev) vsake besede, kategorije pa teme. Ker je metoda nenadzorovana, teme niso določene vnaprej in ni zagotovljeno, da bodo usklajene s tem, kako lahko človek naravno kategorizira dokumente. Teme se naučijo kot porazdelitev verjetnosti besed, ki se pojavljajo v posameznem dokumentu. Vsak dokument je po vrsti opisan kot mešanica tem.

Ta prenosni računalnik uporablja algoritem SageMaker NTM za usposabljanje modela na naboru podatkov 20NewsGroups. Ta nabor podatkov se pogosto uporablja kot merilo modeliranja teme.

Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Beležnica prikazuje naslednje:

  • Ustvarjanje učnega opravila SageMaker na naboru podatkov za izdelavo modela NTM
  • Uporaba modela za izvajanje sklepanja s končno točko SageMaker
  • Raziskovanje izurjenega modela in vizualizacija naučenih tem

Ta zvezek lahko preprosto spremenite tako, da se bo izvajal na vaših besedilnih dokumentih in jih razdelite na različne teme.

Napovedujte prekoračitve hitrosti vožnje

Ta prenosni računalnik prikazuje napovedovanje časovnih vrst z uporabo algoritma SageMaker DeepAR z analizo nabora podatkov o kršitvah prometnih kamer za mesto Chicago. Nabor podatkov gosti Data.gov, upravlja pa ga Uprava za splošne službe ZDA, Služba za preobrazbo tehnologije.

Te kršitve zajamejo sistemi kamer in so na voljo za izboljšanje življenja javnosti prek podatkovnega portala mesta Chicago. Nabor podatkov o kršitvah prometnih kamer se lahko uporablja za odkrivanje vzorcev v podatkih in pridobivanje pomembnih vpogledov.

Nabor podatkov vsebuje več lokacij kamer in dnevno število kršitev. Vsako dnevno število kršitev za kamero je mogoče obravnavati kot ločeno časovno vrsto. Algoritem SageMaker DeepAR lahko uporabite za usposabljanje modela za več ulic hkrati in predvidevanje kršitev za več uličnih kamer.

Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Beležnica prikazuje naslednje:

  • Usposabljanje algoritma SageMaker DeepAR na naboru podatkov časovne serije z uporabo točkovnih primerkov
  • Sklepanje na usposobljenem modelu za napovedovanje prometnih prekrškov

S tem zvezkom se lahko naučite, kako je mogoče težave s časovnimi vrstami rešiti z uporabo algoritma DeepAR v SageMakerju, in ga poskusite uporabiti na svojih naborih podatkov o časovnih vrstah.

Napoved raka dojke

Ta zvezek vzame primer za napovedovanje raka dojke z uporabo diagnostičnega nabora podatkov UCI o raku dojke. Ta nabor podatkov uporablja za izdelavo napovednega modela, ali slika mase dojke kaže na benigni ali maligni tumor.

Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Beležnica prikazuje naslednje:

  • Osnovna nastavitev za uporabo SageMakerja
  • Pretvarjanje nizov podatkov v format Protobuf, ki ga uporabljajo algoritmi SageMaker, in nalaganje v Preprosta storitev shranjevanja Amazon (Amazon S3)
  • Usposabljanje linearnega učenčevega modela SageMaker na naboru podatkov
  • Gostovanje usposobljenega modela
  • Točkovanje z uporabo izurjenega modela

Ta zvezek si lahko ogledate, če želite izvedeti, kako rešiti poslovni problem s SageMakerjem, in razumeti korake, vključene v usposabljanje in gostovanje modela.

Napovedi ansambla iz več modelov

V praktičnih aplikacijah ML na napovednih nalogah en model pogosto ne zadošča. Večina tekmovanj v napovedovanju običajno zahteva združevanje napovedi iz več virov, da dobimo izboljšano napoved. S kombiniranjem ali povprečenjem napovedi iz več virov ali modelov običajno dobimo izboljšano napoved. To se zgodi, ker obstaja precejšnja negotovost pri izbiri modela in v mnogih praktičnih aplikacijah ni enega pravega modela. Zato je koristno kombinirati napovedi iz različnih modelov. V Bayesovi literaturi se ta ideja imenuje povprečenje Bayesovega modela in se je izkazalo, da deluje veliko bolje kot le izbira enega modela.

Ta zvezek predstavlja ilustrativen primer za napovedovanje, ali oseba zasluži več kot 50,000 USD na leto na podlagi informacij o njeni izobrazbi, delovnih izkušnjah, spolu in drugem.

Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Beležnica prikazuje naslednje:

  • Priprava vašega prenosnika SageMaker
  • Nalaganje nabora podatkov iz Amazon S3 s pomočjo SageMaker
  • Preiskovanje in preoblikovanje podatkov, tako da jih je mogoče vnesti v algoritme SageMaker
  • Ocenjevanje modela z algoritmom SageMaker XGBoost (Extreme Gradient Boosting)
  • Gostovanje modela na SageMakerju za sprotne napovedi
  • Ocenjevanje drugega modela z metodo linearnega učenca SageMaker
  • Združevanje napovedi iz obeh modelov in vrednotenje kombinirane napovedi
  • Ustvarjanje končnih napovedi na testnem naboru podatkov

Poskusite zagnati ta zvezek na svojem naboru podatkov in uporabiti več algoritmov. Poskusite eksperimentirati z različnimi kombinacijami modelov, ki jih ponujata SageMaker in JumpStart, in preverite, katera kombinacija združevanja modelov daje najboljše rezultate na vaših lastnih podatkih.

Asinhroni sklep SageMaker

Asinhrono sklepanje SageMaker je nova zmožnost v SageMakerju, ki postavlja v čakalno vrsto dohodne zahteve in jih asinhrono obdeluje. SageMaker trenutno ponuja dve možnosti sklepanja za stranke za uvajanje modelov ML: možnost v realnem času za delovne obremenitve z nizko zakasnitvijo in paketno transformacijo, možnost brez povezave za obdelavo zahtev za sklepanje na paketih podatkov, ki so na voljo vnaprej. Sklepanje v realnem času je primerno za delovne obremenitve z velikostjo koristnega tovora manj kot 6 MB in zahteva, da se zahteve za sklepanje obdelajo v 60 sekundah. Paketna transformacija je primerna za sklepanje brez povezave na paketih podatkov.

Asinhrono sklepanje je nova možnost sklepanja za potrebe sklepanja v skoraj realnem času. Obdelava zahtev lahko traja do 15 minut in imajo velikost koristnega tovora do 1 GB. Asinhrono sklepanje je primerno za delovne obremenitve, ki nimajo zahtev za manj sekundne zakasnitve in imajo sproščene zahteve za zakasnitev. Na primer, morda boste morali obdelati sklep o veliki sliki z nekaj MB v 5 minutah. Poleg tega vam končne točke asinhronega sklepanja omogočajo nadzor nad stroški tako, da zmanjšajo število instanc končne točke na nič, ko so nedejavne, tako da plačate le, ko vaše končne točke obdelujejo zahteve.

Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Beležnica prikazuje naslednje:

  • Ustvarjanje modela SageMaker
  • Ustvarjanje končne točke z uporabo tega modela in konfiguracije asinhronega sklepanja
  • Izdelava napovedi glede na to asinhrono končno točko

Ta zvezek vam prikazuje delujoč primer sestavljanja asinhrone končne točke za model SageMaker.

TensorFlow prinesite svoj model

Model TensorFlow se usposablja lokalno na nalogi klasifikacije, kjer se izvaja ta prenosni računalnik. Nato je nameščen na končni točki SageMaker.

Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Beležnica prikazuje naslednje:

  • Usposabljanje modela TensorFlow lokalno na naboru podatkov IRIS
  • Uvoz tega modela v SageMaker
  • Gostovanje na končni točki

Če imate modele TensorFlow, ki ste jih razvili sami, vam lahko ta primer prenosnega računalnika pomaga gostiti vaš model na končni točki, ki jo upravlja SageMaker.

Scikit-learn prinesite svoj model

SageMaker vključuje funkcionalnost za podporo okolju gostujočih prenosnih računalnikov, porazdeljeno usposabljanje brez strežnika in gostovanje v realnem času. Najbolje deluje, če se vse te tri storitve uporabljajo skupaj, lahko pa se uporabljajo tudi neodvisno. Nekateri primeri uporabe lahko zahtevajo samo gostovanje. Mogoče je bil model usposobljen, preden je SageMaker obstajal, v drugi storitvi.

Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Beležnica prikazuje naslednje:

  • Uporaba vnaprej usposobljenega modela Scikit-learn s vsebnikom Scikit-learn SageMaker za hitro ustvarjanje gostujoče končne točke za ta model

Če imate modele Scikit-learn, ki ste jih razvili sami, vam lahko ta primer prenosnega računalnika pomaga gostiti vaš model na končni točki, ki jo upravlja SageMaker.

Očistite vire

Ko končate z zagonom zvezka v JumpStartu, poskrbite, da Izbriši vse vire tako da se vsi viri, ki ste jih ustvarili v procesu, izbrišejo in vaše zaračunavanje ustavi. Zadnja celica v teh zvezkih običajno izbriše ustvarjene končne točke.

Povzetek

Ta objava vas je vodila skozi 10 novih primerov zvezkov, ki so bili nedavno dodani v JumpStart. Čeprav se je ta objava osredotočala na teh 10 novih zvezkov, je od tega pisanja na voljo skupno 56 zvezkov. Spodbujamo vas, da se prijavite v Studio in sami raziščete zvezke JumpStart ter začnete iz njih pridobivati ​​takojšnjo vrednost. Za več informacij glejte Amazon SageMaker Studio in SageMaker JumpStart.


O Author

Ilustrativni zvezki v Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Dr. Raju Penmatcha je specialist za rešitve AI/ML za platforme AI pri AWS. Doktoriral je na univerzi Stanford. Tesno sodeluje pri nizkih/brez kodnih paketih storitev v SageMakerju, ki strankam pomagajo preprosto zgraditi in uvesti modele in rešitve strojnega učenja.

Časovni žig:

Več od Strojno učenje AWS