Illustrative Notebooks In Amazon SageMaker JumpStart

Újra kiadta Platón

Követő: 0

Amazon SageMaker JumpStart a SageMaker gépi tanulási (ML) központja, amely előre betanított, nyilvánosan elérhető modelleket kínál számos problématípushoz, hogy segítsen elkezdeni a gépi tanulást.

A JumpStart példákat is kínál olyan notebookokra, amelyek használnak Amazon SageMaker olyan funkciók, mint a helyszíni példányok képzése és a kísérletek sokféle modelltípuson és használati eseten. Ezek a példajegyzetfüzetek olyan kódot tartalmaznak, amely bemutatja, hogyan kell ML megoldásokat alkalmazni a SageMaker és a JumpStart használatával. A saját igényeihez igazíthatók, és így felgyorsíthatják az alkalmazásfejlesztést.

Nemrég 10 új notebookot adtunk a JumpStart-hoz Amazon SageMaker Studio. Ez a bejegyzés ezekre az új notebookokra összpontosít. Jelen pillanatban a JumpStart 56 notebookot kínál, a legmodernebb természetes nyelvi feldolgozási (NLP) modellek használatától kezdve az adatkészletek torzításának javításáig a modellek betanítása során.

A 10 új notebook a következő módokon segíthet Önnek:

Példakódot kínálnak, amelyet a Studio JumpStart felhasználói felületén futtathat, és megtekintheti, hogyan működik a kód
Különféle SageMaker és JumpStart API-k használatát mutatják be
Olyan műszaki megoldást kínálnak, amelyet saját igényei szerint tovább szabhat

A JumpStarton keresztül kínált notebookok száma rendszeresen növekszik, ahogy egyre több notebook kerül be. Ezek a notebookok a következő helyen is elérhetők GitHub.

Notebookok áttekintése

A 10 új notebook a következő:

Kontextusban tanulás az AlexaTM 20B segítségével – Bemutatja, hogyan kell az AlexaTM 20B-t kontextuson belüli tanulásra használni nulla és néhány felvételes tanulással öt példafeladaton: szövegösszegzés, természetes nyelv generálása, gépi fordítás, kivonatoló kérdések megválaszolása, valamint természetes nyelvű következtetés és osztályozás.
Fairness lineáris tanuló a SageMakerben – A közelmúltban aggodalmak merültek fel az ML algoritmusok torzításával kapcsolatban, ami a meglévő emberi előítéletek utánzásának eredménye. Ez a jegyzetfüzet a méltányossági elveket alkalmazza a modell előrejelzéseinek megfelelő beállításához.
Kezelje az ML-kísérleteket a SageMaker Search segítségével – Az Amazon SageMaker Search segítségével gyorsan megtalálhatja és kiértékelheti a legrelevánsabb modellképzési futásokat a potenciálisan több száz és több ezer SageMaker modellképzési munkából.
SageMaker neurális témamodell – A SageMaker Neural Topic Model (NTM) egy felügyelt tanulási algoritmus, amely megkísérli a megfigyelések halmazát külön kategóriák keverékeként leírni.
Vezetési sebesség megsértésének előrejelzése – A SageMaker DeepAR algoritmus használható egy modell egyidejű betanítására több utcára, és több utcai kamera szabálysértéseinek előrejelzésére.
Az emlőrák előrejelzése - Ez a notebook az UCI emlőrák-diagnosztikai adatkészletét használja annak prediktív modelljének felépítésére, hogy az emlőtömeg-kép jóindulatú vagy rosszindulatú daganatot jelez-e.
Együttes előrejelzések több modellből – Több forrásból és modellből származó előrejelzések kombinálásával vagy átlagolásával általában jobb előrejelzést kapunk. Ez a jegyzetfüzet ezt a koncepciót illusztrálja.
SageMaker aszinkron következtetés – Az aszinkron következtetés egy új következtetési lehetőség a közel valós idejű következtetési igényekhez. A kérelmek feldolgozása akár 15 percet is igénybe vehet, a rakomány mérete pedig legfeljebb 1 GB.
A TensorFlow hozza el saját modelljét – Tanulja meg, hogyan taníthat be helyben egy TensorFlow-modellt, és hogyan telepítheti a SageMaker-en a notebook segítségével.
Scikit-learn hozza el saját modelljét – Ez a jegyzetfüzet bemutatja, hogyan lehet egy előre betanított Scikit-learn modellt a SageMaker Scikit-learn tárolóval együtt használni, hogy gyorsan létrehozhasson egy hosztolt végpontot az adott modellhez.

Előfeltételek

E jegyzetfüzetek használatához győződjön meg arról, hogy olyan végrehajtási szerepkörrel fér hozzá a Studióhoz, amely lehetővé teszi a SageMaker funkciók futtatását. Az alábbi rövid videó segít eligazodni a JumpStart notebookokhoz.

A következő részekben végigmegyünk a 10 új megoldáson, és megvitatjuk néhány érdekes részletüket.

Kontextusban tanulás az AlexaTM 20B segítségével

Az AlexaTM 20B egy többfeladatos, többnyelvű, nagy léptékű szekvenciákról szekvenciára (seq2seq) modell, amely a Common Crawl (mC4) és a Wikipédia adatainak keverékén, 12 nyelven, zajcsökkentési és oksági nyelvi modellezési (CLM) feladatokon keresztül készült. A legmodernebb teljesítményt éri el az olyan gyakori, szövegkörnyezeten belüli nyelvi feladatokban, mint az egyszeri összegzés és az egyszeri gépi fordítás, felülmúlva a csak dekódoló modelleket, mint például az Open AI GPT3 és a Google PaLM, amelyek több mint nyolcszor nagyobbak.

Kontextusban tanulás, más néven sugalmazás, olyan módszerre utal, amelyben NLP-modellt használ egy új feladathoz anélkül, hogy finomhangolnia kellene azt. Néhány feladatpélda csak a következtetési bemenet részeként jelenik meg a modellben, ez az úgynevezett paradigma néhány felvételes kontextus szerinti tanulás. Egyes esetekben a modell jól teljesíthet oktatási adatok nélkül is, csak magyarázatot ad arra, hogy mit kell előre jelezni. Ezt nevezik nullapontos kontextuson belüli tanulás.

Ez a jegyzetfüzet bemutatja, hogyan telepítheti az AlexaTM 20B-t a JumpStart API-n keresztül, és hogyan futtathatja a következtetést. Azt is bemutatja, hogyan használható az AlexaTM 20B kontextuson belüli tanuláshoz, öt példafeladattal: szövegösszegzés, természetes nyelv generálása, gépi fordítás, kivonatoló kérdésválasz, valamint természetes nyelvű következtetés és osztályozás.

Illustrative notebooks in Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A notebook a következőket mutatja be:

Egyszeri szövegösszegzés, természetes nyelv generálása és gépi fordítás egyetlen betanítási példa használatával mindegyik feladathoz
Zero-shot kérdésmegválaszolás és természetes nyelvi következtetés, valamint osztályozás a jelenlegi modell használatával, anélkül, hogy bármilyen képzési példát kellene megadni.

Próbálja meg futtatni saját szövegét ehhez a modellhez, és nézze meg, hogyan foglalja össze a szöveget, hogyan vonja ki a kérdéseket és válaszokat, vagy hogyan fordítja le egyik nyelvről a másikra.

Fairness lineáris tanuló a SageMakerben

A közelmúltban aggodalmak merültek fel az ML algoritmusok torzításával kapcsolatban, ami a meglévő emberi előítéletek utánzásának eredménye. Napjainkban számos ML-módszernek erős társadalmi vonatkozásai vannak, például banki hitelek, biztosítási kamatláb vagy reklám előrejelzésére használják. Sajnos egy algoritmus, amely tanul a korábbi adatokból, természetesen örökli a múltbeli torzításokat. Ez a jegyzetfüzet bemutatja, hogyan lehet leküzdeni ezt a problémát a SageMaker és fair algoritmusok használatával lineáris tanulók kontextusában.

Először bemutatja a méltányosság mögött meghúzódó néhány fogalmat és matematikát, majd letölti az adatokat, betanítja a modellt, végül pedig méltányossági fogalmakat alkalmaz a modell előrejelzéseinek megfelelő beállításához.

A notebook a következőket mutatja be:

Szabványos lineáris modell futtatása az UCI felnőtt adatkészletén.
Tisztességtelenség kimutatása a modell-előrejelzésekben
Adatok javítása a torzítás eltávolításához
A modell átképzése

Próbálja meg futtatni saját adatait ezzel a példakóddal, és észlelje, hogy van-e torzítás. Ezt követően próbálja meg eltávolítani a torzítást, ha van ilyen, az ebben a példajegyzetfüzetben megadott függvények segítségével.

Kezelje az ML-kísérleteket a SageMaker Search segítségével

A SageMaker Search segítségével gyorsan megtalálhatja és kiértékelheti a legrelevánsabb modellképzési futásokat a potenciálisan több száz és több ezer SageMaker modellképzési munkából. Az ML-modell fejlesztése folyamatos kísérletezést, új tanulási algoritmusok kipróbálását és hiperparaméterek hangolását követeli meg, miközben figyeli az ilyen változtatások hatását a modell teljesítményére és pontosságára. Ez az iteratív gyakorlat gyakran több száz modellképzési kísérlet és modellváltozat robbanásához vezet, lelassítva a konvergenciát és a nyertes modell felfedezését. Ezenkívül az információrobbanás nagyon megnehezíti a modellváltozat származásának visszakövetését – az adatkészletek, algoritmusok és paraméterek egyedülálló kombinációját, amely a modellt először is létrehozta.

Ez a jegyzetfüzet bemutatja, hogyan használja a SageMaker Search alkalmazást a SageMaker modellképzési munkáinak gyors és egyszerű rendszerezésére, nyomon követésére és értékelésére. Kereshet az összes meghatározó attribútumra a használt tanulási algoritmusból, a hiperparaméter-beállításokból, a használt betanítási adatkészletekből, és még a modelltanítási feladatokhoz hozzáadott címkékből is. Gyorsan összehasonlíthatja és rangsorolhatja edzéseit teljesítménymutatóik, például az edzési veszteség és az érvényesítési pontosság alapján, ezáltal ranglisták hozhatók létre az éles környezetekben telepíthető nyertes modellek azonosításához. A SageMaker Search gyorsan vissza tudja követni az élő környezetben telepített modellverzió teljes származását egészen a betanításhoz és a modell érvényesítéséhez használt adatkészletekig.

A notebook a következőket mutatja be:

Lineáris modell háromszori betanítása
A SageMaker Search használata a kísérletek rendszerezésére és értékelésére
Az eredmények megjelenítése ranglistán
Modell telepítése egy végpontra
A modell vonalának nyomkövetése a végponttól kezdve

A prediktív modellek saját fejlesztése során előfordulhat, hogy több kísérletet is futtat. Próbálkozzon a SageMaker Search használatával az ilyen kísérletekben, és tapasztalja meg, hogyan tud többféle módon segíteni.

SageMaker neurális témamodell

A SageMaker Neural Topic Model (NTM) egy felügyelt tanulási algoritmus, amely megkísérli a megfigyelések halmazát külön kategóriák keverékeként leírni. Az NTM-et leggyakrabban a szövegkorpuszon belüli dokumentumok által megosztott, felhasználó által megadott számú téma felfedezésére használják. Itt minden megfigyelés egy dokumentum, a jellemzők az egyes szavak jelenléte (vagy előfordulási száma), a kategóriák pedig a témák. Mivel a módszer nem felügyelt, a témák nincsenek előre meghatározva, és nem garantált, hogy összhangban vannak azzal, ahogyan az ember természetes módon kategorizálja a dokumentumokat. A témákat az egyes dokumentumokban előforduló szavak valószínűségi eloszlásaként tanulja meg. Az egyes dokumentumokat pedig témák keverékeként írják le.

Ez a notebook a SageMaker NTM algoritmust használja a modell betanításához a 20NewsGroups adatkészleten. Ezt az adatkészletet széles körben használják témamodellezési benchmarkként.

A notebook a következőket mutatja be:

SageMaker képzési feladat létrehozása egy adatkészleten NTM-modell előállításához
A modell használata a SageMaker végponttal való következtetés végrehajtására
A betanított modell feltárása és a tanult témák vizualizálása

Könnyedén módosíthatja ezt a jegyzetfüzetet, hogy a szöveges dokumentumokon fusson, és különböző témákra oszthatja fel őket.

A vezetési sebesség megsértésének előrejelzése

Ez a jegyzetfüzet a SageMaker DeepAR algoritmussal történő idősoros előrejelzést mutatja be Chicago városának sebességmérő kameráinak megsértése adatkészletének elemzésével. Az adatkészletet a Data.gov üzemelteti, és az US General Services Administration, Technology Transformation Service kezeli.

Ezeket a jogsértéseket kamerarendszerek rögzítik, és Chicago város adatportálján keresztül elérhetők a nyilvánosság életének javítása érdekében. A sebességmérő kamera megsértése adatkészlet felhasználható az adatok mintáinak felismerésére, és értelmes betekintésre.

Az adatkészlet több kamerahelyet és napi szabálysértési számokat tartalmaz. Minden egyes kamera napi szabálysértési száma külön idősornak tekinthető. A SageMaker DeepAR algoritmus segítségével egyszerre több utcára is betaníthat egy modellt, és megjósolhatja a szabálysértéseket több utcai kameránál.

A notebook a következőket mutatja be:

A SageMaker DeepAR algoritmus betanítása az idősoros adatkészletre spot példányok használatával
Következtetések levonása a betanított modellből közlekedési szabálysértési előrejelzések készítéséhez

Ezzel a jegyzetfüzettel megtudhatja, hogyan oldhatók meg az idősor-problémák a SageMaker DeepAR algoritmusával, és megpróbálhatja alkalmazni azt saját idősor-adatkészletein.

A mellrák előrejelzése

Ez a jegyzetfüzet példát mutat az emlőrák előrejelzésére az UCI mellrákdiagnosztikai adatkészletével. Ezt az adatkészletet arra használja, hogy prediktív modellt építsen fel arra vonatkozóan, hogy az emlőtömeg-kép jóindulatú vagy rosszindulatú daganatot jelez-e.

A notebook a következőket mutatja be:

A SageMaker használatának alapvető beállításai
Adatkészletek konvertálása a SageMaker algoritmusok által használt Protobuf formátumba és feltöltése ide Amazon egyszerű tárolási szolgáltatás (Amazon S3)
SageMaker lineáris tanulómodell betanítása az adatkészleten
A betanított modell fogadása
Pontozás a betanított modell segítségével

Ebben a jegyzetfüzetben megtudhatja, hogyan lehet megoldani egy üzleti problémát a SageMaker használatával, és megértheti a modell betanításának és üzemeltetésének lépéseit.

Együttes előrejelzések több modellből

Az ML prediktív feladatokra vonatkozó gyakorlati alkalmazásaiban egy modell gyakran nem elegendő. A legtöbb előrejelzési verseny általában több forrásból származó előrejelzések kombinálását igényli, hogy jobb előrejelzést kapjon. Több forrásból vagy modellből származó előrejelzések kombinálásával vagy átlagolásával általában jobb előrejelzést kapunk. Ez azért van így, mert a modellválasztást illetően jelentős a bizonytalanság, és sok gyakorlati alkalmazásban nincs egyetlen igaz modell. Ezért előnyös a különböző modellekből származó előrejelzések kombinálása. A Bayes-irodalomban ezt az elképzelést Bayes-féle modellátlagolásnak nevezik, és bebizonyosodott, hogy sokkal jobban működik, mint egy modell kiválasztása.

Ez a jegyzetfüzet szemléltető példát mutat be annak előrejelzésére, ha egy személy évente 50,000 XNUMX dollár felett keres, a végzettségére, munkatapasztalatára, nemére és egyebekre vonatkozó információk alapján.

A notebook a következőket mutatja be:

A SageMaker notebook előkészítése
Adatkészlet betöltése az Amazon S3-ból a SageMaker segítségével
Az adatok vizsgálata és átalakítása úgy, hogy azokat a SageMaker algoritmusokba be lehessen táplálni
Modell becslése a SageMaker XGBoost (Extreme Gradient Boost) algoritmus segítségével
A modell tárolása a SageMakeren, hogy folyamatos előrejelzéseket készítsen
Egy második modell becslése a SageMaker lineáris tanuló módszerrel
A két modellből származó előrejelzések kombinálása és a kombinált előrejelzés értékelése
Végső előrejelzések generálása a tesztadatkészleten

Próbálja meg futtatni ezt a jegyzetfüzetet az adatkészletén, és több algoritmust használjon. Kísérletezzen a SageMaker és a JumpStart által kínált modellek különféle kombinációival, és nézze meg, hogy a modellegyüttesek melyik kombinációja adja a legjobb eredményeket saját adatain.

SageMaker aszinkron következtetés

A SageMaker aszinkron következtetés a SageMaker új képessége, amely sorba állítja és aszinkron módon feldolgozza a bejövő kéréseket. A SageMaker jelenleg két következtetési lehetőséget kínál az ügyfeleknek az ML-modellek üzembe helyezéséhez: egy valós idejű opciót az alacsony késleltetésű munkaterhelésekhez, és egy kötegelt átalakítást, egy offline lehetőséget a következtetési kérések feldolgozásához az előzetesen rendelkezésre álló adatok kötegeire. A valós idejű következtetés alkalmas a 6 MB-nál kisebb hasznos terhelésű munkaterhelésekhez, és a következtetési kérelmeket 60 másodpercen belül kell feldolgozni. A kötegelt átalakítás alkalmas adatkötegekre vonatkozó offline következtetésekre.

Az aszinkron következtetés egy új következtetési lehetőség a közel valós idejű következtetési igényekhez. A kérelmek feldolgozása akár 15 percet is igénybe vehet, a rakomány mérete pedig legfeljebb 1 GB. Az aszinkron következtetés olyan munkaterhelésekhez alkalmas, amelyekhez nem tartoznak a másodperc alatti késleltetési követelmények, és laza késleltetési követelmények vannak. Előfordulhat például, hogy egy több MB-os nagy képre vonatkozó következtetést 5 percen belül kell feldolgoznia. Ezenkívül az aszinkron következtetési végpontok lehetővé teszik a költségek szabályozását azáltal, hogy nullára csökkentik a végpontpéldányok számát, amikor tétlen, így csak akkor kell fizetnie, ha a végpontok kéréseket dolgoznak fel.

A notebook a következőket mutatja be:

SageMaker modell készítése
Végpont létrehozása ezzel a modellel és aszinkron következtetési konfigurációval
Előrejelzések készítése ezzel az aszinkron végponttal szemben

Ez a jegyzetfüzet egy működő példát mutat be egy SageMaker modell aszinkron végpontjának összeállítására.

A TensorFlow hozza el saját modelljét

A TensorFlow-modellt helyileg betanítják egy osztályozási feladatra, ahol ez a notebook fut. Ezután egy SageMaker végponton kerül üzembe.

A notebook a következőket mutatja be:

TensorFlow modell helyi betanítása az IRIS adatkészleten
A modell importálása a SageMakerbe
Tárolása egy végponton

Ha vannak TensorFlow modelljei, amelyeket saját maga fejlesztett ki, ez a példafüzet segíthet a modell SageMaker által felügyelt végponton való tárolásában.

Scikit-learn hozza el saját modelljét

A SageMaker olyan funkciókat tartalmaz, amelyek támogatják a hosztolt notebook környezetet, az elosztott, szerver nélküli képzést és a valós idejű hostingot. Akkor működik a legjobban, ha mindhárom szolgáltatást együtt használják, de külön-külön is használhatók. Egyes használati esetek csak tárhelyet igényelhetnek. Lehet, hogy a modellt a SageMaker létezése előtt betanították egy másik szolgáltatásban.

A notebook a következőket mutatja be:

Egy előre betanított Scikit-learn modell használata a SageMaker Scikit-learn tárolóval, hogy gyorsan hozzon létre egy hostolt végpontot az adott modellhez

Ha vannak Scikit-learn modelljei, amelyeket saját maga fejlesztett ki, ez a példafüzet segíthet a modell egy SageMaker által felügyelt végponton való tárolásában.

Tisztítsa meg az erőforrásokat

Miután befejezte a jegyzetfüzet futtatását a JumpStartban, mindenképpen tegye meg Törölje az összes erőforrást így a folyamat során létrehozott összes erőforrás törlődik, és a számlázás leáll. A jegyzetfüzetek utolsó cellája általában törli a létrehozott végpontokat.

Összegzésként

Ez a bejegyzés 10 új példafüzetet mutatott be, amelyeket a közelmúltban adtunk hozzá a JumpStarthoz. Bár ez a bejegyzés erre a 10 új jegyzetfüzetre összpontosított, az írás pillanatában összesen 56 jegyzetfüzet áll rendelkezésre. Javasoljuk, hogy jelentkezzen be a Stúdióba, és fedezze fel a JumpStart notebookokat, és kezdjen el azonnali értéket levonni belőlük. További információkért lásd: Amazon SageMaker Studio és a SageMaker JumpStart.

A szerzőről

Dr. Raju Penmatcha az AWS mesterséges intelligencia-platformjainak AI/ML-specialista megoldásainak építésze. PhD fokozatát a Stanford Egyetemen szerezte. Szorosan együttműködik a SageMaker alacsony/kód nélküli csomagszolgáltatásaival, amelyek segítségével az ügyfelek könnyen építhetnek és telepíthetnek gépi tanulási modelleket és megoldásokat.

Időbélyeg: December 1, 2022December 2, 2022

Időbélyeg: 2. október 2023.

Szemléltető jegyzetfüzetek az Amazon SageMaker JumpStartban

Újra kiadta Platón

Notebookok áttekintése

Előfeltételek

Kontextusban tanulás az AlexaTM 20B segítségével

Fairness lineáris tanuló a SageMakerben

Kezelje az ML-kísérleteket a SageMaker Search segítségével

SageMaker neurális témamodell

A vezetési sebesség megsértésének előrejelzése

A mellrák előrejelzése

Együttes előrejelzések több modellből

SageMaker aszinkron következtetés

A TensorFlow hozza el saját modelljét

Scikit-learn hozza el saját modelljét

Tisztítsa meg az erőforrásokat

Összegzésként

A szerzőről

Még több AWS gépi tanulás

Telepítse a BLOOM-176B-t és az OPT-30B-t az Amazon SageMaker-en a nagy modellkövetkeztetésekkel, Deep Learning Container-ekkel és DeepSpeed-del

Bejelentjük az Amazon SageMaker Profiler előnézetét: Kövesse nyomon és jelenítse meg a részletes hardverteljesítmény-adatokat a modell képzési terheléseihez | Amazon webszolgáltatások

Hogyan használja a Synamedia az Amazon Rekognition Video-t a fejlett videókeresési lehetőségek kiépítésére a hosszú formátumú videókhoz

Számítógépes látás szintetikus adatkészletekkel Amazon Rekognition Custom Labels és Dassault Systemes 3DEXCITE segítségével

Olvasson weboldalakat és emeljen ki tartalmat az Amazon Polly segítségével

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók