Build, Share, Deploy: How Business Analysts And Data Scientists Achieve Faster Time-to-market Using No-code ML And Amazon SageMaker Canvas

Újra kiadta Platón

Követő: 0

A gépi tanulás (ML) segít a szervezeteknek növelni a bevételt, ösztönözni az üzleti növekedést és csökkenteni a költségeket azáltal, hogy több ágazatban optimalizálja az alapvető üzleti funkciókat, mint például a kereslet-előrejelzés, a hitelbírálat, az árképzés, az ügyfelek lemorzsolódásának előrejelzése, a következő legjobb ajánlatok azonosítása, a késedelmes szállítások előrejelzése, és a gyártás minőségének javítása. A hagyományos ML fejlesztési ciklusok hónapokig tartanak, és szűkös adattudományi és ML mérnöki készségeket igényelnek. Az elemzők ML-modellekre vonatkozó ötletei gyakran hosszú lemaradásokban hevernek az adattudományi csapat sávszélességére várva, míg az adatkutatók az összetettebb ML-projektekre összpontosítanak, amelyek teljes készségeiket igénylik.

Hogy segítsünk kitörni ebből a patthelyzetből, megtettük bemutatta az Amazon SageMaker Canvast, egy kód nélküli ML-megoldás, amely segíthet a vállalatoknak órákra vagy napokra felgyorsítani az ML-megoldások szállítását. A SageMaker Canvas lehetővé teszi az elemzők számára, hogy könnyen felhasználják a rendelkezésre álló adatokat az adattókban, adattárházakban és operatív adattárolókban; ML modelleket készíteni; és használja őket interaktív előrejelzések készítésére és tömeges adatkészletek kötegelt pontozására – mindezt egyetlen kódsor megírása nélkül.

Ebben a bejegyzésben bemutatjuk, hogy a SageMaker Canvas hogyan teszi lehetővé az adattudósok és az üzleti elemzők közötti együttműködést, gyorsabb piacra jutási időt és felgyorsítja az ML-megoldások fejlesztését. Az elemzők saját kód nélküli ML munkaterületet kapnak a SageMaker Canvasban anélkül, hogy ML szakértővé kellene válniuk. Az elemzők ezután néhány kattintással megoszthatják a Canvas modelljeiket, amelyekkel az adattudósok dolgozhatnak majd Amazon SageMaker Studio, egy end-to-end ML integrált fejlesztői környezet (IDE). A közös munkával az üzleti elemzők elhozhatják területi ismereteiket és a kísérletek eredményeit, míg az adatkutatók hatékonyan csővezetékeket hozhatnak létre és egyszerűsíthetik a folyamatot.

Nézzük meg alaposan, hogyan nézne ki a munkafolyamat.

Az üzleti elemzők felállítanak egy modellt, majd megosztják azt

Ahhoz, hogy megértsük, hogyan egyszerűsíti le a SageMaker Canvas az üzleti elemzők és adattudósok (vagy ML mérnökök) közötti együttműködést, először üzleti elemzőként közelítjük meg a folyamatot. Mielőtt elkezdené, olvassa el a Bejelentik az Amazon SageMaker Canvast – egy vizuális, kód nélküli gépi tanulási képesség üzleti elemzők számára a modell SageMaker Canvas segítségével történő felépítéséhez és teszteléséhez.

Ehhez a bejegyzéshez a módosított változatát használjuk Hitelkártyacsalás-észlelési adatkészlet a Kaggle-től, egy bináris osztályozási probléma jól ismert adatkészletétől. Az adatkészlet eredetileg erősen kiegyensúlyozatlan – nagyon kevés negatív osztályba sorolt bejegyzést tartalmaz (rendellenes tranzakciók). A céljellemzők eloszlásától függetlenül továbbra is használhatjuk ezt az adatkészletet, mert a SageMaker Canvas kezeli ezt az egyensúlyhiányt, miközben automatikusan betanítja és hangolja a modellt. Ez az adatkészlet körülbelül 9 millió cellát tartalmaz. Le is töltheti a ennek az adatkészletnek a csökkentett változata. Az adatkészlet mérete jóval kisebb, körülbelül 500,000 0 cella, mivel véletlenszerűen alulmintavételezésre került, majd a SMOTE technikával túlmintavételre került, hogy a lehető legkevesebb információ vesszen el a folyamat során. Egy teljes kísérlet futtatása ezzel a csökkentett adatkészlettel XNUMX dollárba kerül a SageMaker Canvas Free Tier alatt.

A modell felépítése után az elemzők közvetlenül a Canvasban előrejelzéseket készíthetnek akár egyedi kérésekre, akár egy teljes bemeneti adatkészletre tömegesen.

A Canvas Standard Build programmal készült modellek egy gombnyomással egyszerűen megoszthatók a SageMaker Studiot használó adattudósokkal és ML mérnökökkel. Ez lehetővé teszi az adatkutató számára, hogy érvényesítse az Ön által felépített modell teljesítményét, és visszajelzést adjon. Az ML mérnökei felvehetik az Ön modelljét, és integrálhatják azt meglévő munkafolyamatokkal és termékekkel, amelyek az Ön vállalata és ügyfelei rendelkezésére állnak. Vegye figyelembe, hogy a cikk írásakor nem lehet megosztani a Canvas Quick Builddel épített modellt vagy idősoros előrejelzési modellt.

A modell megosztása a Canvas UI-n keresztül egyszerű:

Az Ön által létrehozott modelleket bemutató oldalon válasszon modellt.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Megosztás.
Válassza ki a megosztani kívánt modell egy vagy több verzióját.
Opcionálisan mellékeljen egy megjegyzést, amely bővebb kontextust biztosít a modellről vagy a keresett segítségről.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Hozzon létre SageMaker Studio hivatkozást.
Másold ki a generált linket.

És ez az! Mostantól megoszthatja a linket kollégáival Slack-en, e-mailben vagy bármilyen más módon, amit szeretne. Az adattudósnak ugyanabban a SageMaker Studio-tartományban kell lennie ahhoz, hogy hozzáférjen a modelljéhez, ezért győződjön meg róla, hogy ez a helyzet a szervezet rendszergazdájával.

Az adattudósok a SageMaker Studio modellinformációit érik el

Most játsszuk el egy adattudós vagy ML-mérnök szerepét, és lássuk a dolgokat az ő szemszögükből a SageMaker Studio segítségével.

Az elemző által megosztott hivatkozás a SageMaker Studióba vezet, amely az első felhő alapú IDE a végpontok közötti ML munkafolyamathoz.

A lap automatikusan megnyílik, és áttekintést nyújt a SageMaker Canvas elemzője által létrehozott modellről. Gyorsan megtekintheti a modell nevét, az ML probléma típusát, a modell verzióját és azt, hogy melyik felhasználó hozta létre a modellt (a Canvas felhasználói azonosító mezőben). Ezenkívül hozzáférhet a bemeneti adatkészlet részleteihez és a legjobb modellhez, amelyet a SageMaker tudott előállítani. A bejegyzés későbbi részében erre is kitérünk.

A Bemeneti adatkészlet lapon láthatja az adatfolyamot is a forrástól a bemeneti adatkészletig. Ebben az esetben csak egy adatforrást használnak, és nem alkalmaztak egyesítési műveleteket, így egyetlen forrás jelenik meg. Kiválasztásával elemezheti az adatkészletre vonatkozó statisztikákat és részleteket Nyitott adatfeltáró jegyzetfüzet. Ez a jegyzetfüzet lehetővé teszi a modell betanítása előtt rendelkezésre álló adatok felfedezését, és tartalmazza a célváltozó elemzését, mintát a bemeneti adatokból, statisztikákat, oszlopok és sorok leírását, valamint egyéb hasznos információkat az adatkutató számára. többet megtudni az adatkészletről. Ha többet szeretne megtudni erről a jelentésről, lásd: Adatfeltárási jelentés.

A bemeneti adatkészlet elemzése után térjünk át a modell áttekintésének második lapjára, AutoML munka. Ez a lap az AutoML-feladat leírását tartalmazza, amikor a SageMaker Canvasban a Standard Build beállítást választotta.

A SageMaker Canvas alatt található AutoML technológia kiküszöböli az ML-modellek építésének nehéz terheit. Automatikus megközelítéssel automatikusan összeállítja, betanítja és hangolja a legjobb ML-modellt az Ön adatai alapján, miközben lehetővé teszi a teljes ellenőrzés és láthatóság fenntartását. Ezt a láthatóságot a generált jelölt modelleken, valamint az AutoML folyamat során használt hiperparamétereken a jelölt generációs jegyzetfüzet, amely ezen a lapon érhető el.

A AutoML munka lap az AutoML folyamat részeként felépített összes modell listáját is tartalmazza, az F1 célmutató szerint rendezve. Az elindított képzési munkák közül a legjobb modell kiemelésére egy zöld körrel ellátott címkét használnak a Legjobb Modell oszlop. Könnyen megjelenítheti a képzési és értékelési szakaszban használt egyéb mutatókat is, például a pontossági pontszámot és a görbe alatti területet (AUC). Ha többet szeretne megtudni az AutoML-feladat során betanítható modellekről és a betanított modell teljesítményének értékelésére használt mérőszámokról, tekintse meg a következőt: Modelltámogatás, mérőszámok és érvényesítés.

Ha többet szeretne megtudni a modellről, kattintson a jobb gombbal a legjobb modellre, és válassza ki Nyissa meg a modell részleteinél. Alternatív megoldásként kiválaszthatja a A legjobb modell link a tetején A modell áttekintése szakaszt, amelyet először látogatott meg.

A modell részleteinek oldala rengeteg hasznos információt tartalmaz azzal a modellel kapcsolatban, amelyik a legjobban teljesített ezekkel a bemeneti adatokkal. Először koncentráljunk az oldal tetején található összefoglalóra. Az előző példa képernyőképe azt mutatja, hogy a több száz modell betanítási futtatás közül az XGBoost modell teljesített a legjobban a bemeneti adatkészleten. Az írás idején a SageMaker Canvas háromféle ML algoritmust képes tanítani: lineáris tanuló, XGBoost és többrétegű perceptron (MLP), amelyek mindegyike számos előfeldolgozó csővezetékkel és hiperparaméterrel rendelkezik. Ha többet szeretne megtudni az egyes algoritmusokról, lásd: támogatott algoritmusok oldala.

A SageMaker egy magyarázó funkciót is tartalmaz a méretezhető és hatékony megvalósításnak köszönhetően KernelSHAP, a kooperatív játékelmélet területéről származó Shapley-érték koncepciója alapján, amely minden egyes jellemzőhöz egy fontossági értéket rendel egy adott előrejelzéshez. Ez átláthatóságot tesz lehetővé azzal kapcsolatban, hogy a modell hogyan jutott el az előrejelzésekhez, és nagyon hasznos a jellemzők fontosságának meghatározása. A funkciók fontosságát is tartalmazó teljes magyarázhatósági jelentés letölthető PDF, notebook vagy nyers adatformátumban. Ebben a jelentésben a metrikák szélesebb készlete, valamint az AutoML-feladat során használt hiperparaméterek teljes listája látható. Ha többet szeretne megtudni arról, hogy a SageMaker hogyan biztosít integrált magyarázó eszközöket az AutoML-megoldásokhoz és a szabványos ML-algoritmusokhoz, lásd: Használjon integrált magyarázó eszközöket, és javítsa a modell minőségét az Amazon SageMaker Autopilot segítségével.

Végül a nézet többi lapja a teljesítmény részleteiről (zavarmátrix, precíziós visszahívási görbe, ROC-görbe), a bemenetekhez használt és az AutoML-feladat során generált melléktermékekről, valamint a hálózati részletekről jelenít meg információkat.

Ezen a ponton az adattudósnak két lehetősége van: közvetlenül telepíti a modellt, vagy létrehozhat egy képzési folyamatot, amely manuálisan vagy automatikusan ütemezhető vagy indítható. A következő szakaszok betekintést nyújtanak mindkét lehetőségbe.

Telepítse a modellt közvetlenül

Ha az adattudós elégedett az AutoML-feladat által elért eredményekkel, közvetlenül telepítheti a modellt a Modell részletei oldalon. Ez olyan egyszerű, mint a választás Modell telepítése a modell neve mellett.

A SageMaker két telepítési lehetőséget mutat meg: egy valós idejű végpontot, amelyet az üzemeltet Amazon SageMaker végpontok, és kötegelt következtetés, üzemeltetője Amazon SageMaker kötegelt transzformáció.

A SageMaker más következtetési módokat is biztosít. További információért lásd Következtetési modellek telepítése.

A valós idejű előrejelzési mód engedélyezéséhez egyszerűen adjon nevet a végpontnak, egy példánytípust és egy példányszámot. Mivel ez a modell nem igényel nagy számítási erőforrásokat, használhat CPU-alapú példányt, amelynek kezdeti száma 1. A különböző típusú példányokról és azok specifikációiról a következő oldalon tájékozódhat. Amazon SageMaker árképzési oldal (ban,-ben Igény szerinti árképzés szakaszban válassza a Valós idejű következtetés lap). Ha nem tudja, melyik példányt válassza a telepítéshez, megkérheti a SageMaker-t, hogy a KPI-k alapján találja meg az Ön számára legmegfelelőbbet a SageMaker Inference Recommender. További opcionális paramétereket is megadhat arra vonatkozóan, hogy kíván-e kérés- és válaszadatokat rögzíteni a végponthoz vagy onnan. Ez hasznos lehet, ha tervezi modelljének figyelése. Kiválaszthatja azt is, hogy melyik tartalmat kívánja megadni a válasz részeként – legyen az csak az előrejelzés vagy az előrejelzés valószínűsége, az összes osztály valószínűsége és a célcímkék.

Egy kötegelt pontozási feladat futtatásához a bemenetek teljes készletére vonatkozó előrejelzéseket kapva egyszerre, elindíthatja a kötegelt átalakítási feladatot a AWS felügyeleti konzol vagy a SageMaker Python SDK-n keresztül. Ha többet szeretne megtudni a kötegelt átalakításról, lásd: Kötegelt transzformáció használata és a példafüzetek.

Határozzon meg egy képzési folyamatot

Az ML modellek nagyon ritkán tekinthetők statikusnak és változatlannak, ha egyáltalán nem, mert eltávolodnak attól az alapvonaltól, amelyre kiképezték őket. A valós adatok idővel fejlődnek, és több minta és betekintés bontakozik ki belőlük, amelyeket az eredeti, történelmi adatokra képzett modell megragadhat, de lehet, hogy nem. A probléma megoldásához beállíthat egy oktatási folyamatot, amely automatikusan áttanítja a modelleket a legfrissebb rendelkezésre álló adatokkal.

Ennek a folyamatnak a meghatározásakor az adattudós egyik lehetősége az, hogy ismét az AutoML-t használja a képzési folyamathoz. Automatikusan elindíthat egy AutoML-feladatot, ha meghívja a create_auto_ml_job() API-t a AWS Boto3 SDK. Ezt a műveletet egy AWS Lambda funkció egy AWS lépésfunkciók munkafolyamatból, vagy egy LambdaStep in Amazon SageMaker csővezetékek.

Alternatív megoldásként az adattudós felhasználhatja az AutoML-feladatból nyert ismereteket, műtermékeket és hiperparamétereket egy teljes képzési folyamat meghatározásához. A következő erőforrásokra van szüksége:

Az algoritmus, amely a legjobban működött az adott használati esetre – Ezt az információt már megkapta a Canvas által generált modell összefoglalójából. Ebben az esetben ez a beépített XGBoost algoritmus. A SageMaker Python SDK használatával az XGBoost algoritmus SageMakerrel való betanításához lásd: Az XGBoost használata a SageMaker Python SDK-val.

Az AutoML-feladat által származtatott hiperparaméterek – Ezek elérhetők a Magyarázatosság szakasz. Használhatja őket bemenetként, amikor a SageMaker Python SDK-val meghatározza a képzési feladatot.

A Műtermékek szakaszban megadott jellemző mérnöki kód – Ezt a kódot használhatja az adatok betanítás előtti előfeldolgozására (például az Amazon SageMaker Processing segítségével), vagy a következtetés előtt (például egy SageMaker következtetési folyamat részeként).

Ezeket az erőforrásokat kombinálhatja egy SageMaker folyamat részeként. Ebből a bejegyzésből kihagyjuk a megvalósítás részleteit – maradjon velünk a témával kapcsolatos további tartalomért.

Következtetés

A SageMaker Canvas segítségével az ML segítségével előrejelzéseket generálhat anélkül, hogy kódot kellene írnia. Az üzleti elemző önállóan elkezdheti használni a helyi adatkészletekkel, valamint a már tárolt adatokkal Amazon egyszerű tárolási szolgáltatás (Amazon S3), Amazon RedShift, vagy Hópehely. Csupán néhány kattintással elkészíthetik és egyesíthetik adatkészleteiket, elemezhetik a becsült pontosságot, ellenőrizhetik, mely oszlopok hatásosak, megtaníthatják a legjobban teljesítő modellt, és új egyéni vagy csoportos előrejelzéseket hozhatnak létre – mindezt anélkül, hogy szakértő adatkutatót kellene bevonni. Ezután szükség szerint megoszthatják a modellt egy adattudósokból vagy MLOps-mérnökökből álló csapattal, akik importálják a modelleket a SageMaker Stúdióba, és az elemzővel együtt dolgoznak a gyártási megoldáson.

Az üzleti elemzők önállóan nyerhetnek betekintést adataikból anélkül, hogy ML diplomával rendelkeznének, és egyetlen kódsort sem kellene írniuk. Az adattudósok most több időt kaphatnak, hogy nagyobb kihívást jelentő projekteken dolgozzanak, amelyek jobban ki tudják használni a mesterséges intelligencia és az ML széleskörű tudását.

Meggyőződésünk, hogy ez az új együttműködés megnyitja az ajtót számos erőteljesebb ML-megoldás kiépítéséhez az Ön vállalkozása számára. Mostantól az elemzők értékes üzleti betekintést nyújtanak, miközben lehetővé teszi, hogy az adattudósok és az ML mérnökök segítsenek finomítani, hangolni és szükség szerint bővíteni.

További források

Ha többet szeretne megtudni arról, hogy a SageMaker hogyan tud további segítséget nyújtani az üzleti elemzőknek, tekintse meg a következőt Amazon SageMaker üzleti elemzőknek.
Ha többet szeretne megtudni arról, hogy a SageMaker hogyan teszi lehetővé az adattudósok számára ML modelljeik fejlesztését, képzését és telepítését, tekintse meg Amazon SageMaker adattudósoknak.
További információért arról, hogy a SageMaker hogyan segítheti az MLOps mérnököket az ML életciklusának egyszerűsítésében az MLOps használatával, tekintse meg a következőt: Amazon SageMaker MLOps mérnökök számára.

A szerzőkről

Davide Gallitelli az EMEA régióban az AI/ML speciális megoldások építésze. Székhelye Brüsszelben van, és szorosan együttműködik az ügyfelekkel a Benelux államokban. Egészen kicsi kora óta fejlesztő, 7 évesen kezdett el kódolni. Az AI/ML-t az egyetemen kezdte tanulni, és azóta beleszeretett.

Mark Roy az AWS fő gépi tanulási építésze, aki segít az ügyfeleknek AI/ML megoldások tervezésében és kivitelezésében. Mark munkája az ML felhasználási esetek széles skáláját fedi le, elsősorban a számítógépes látás, a mély tanulás és az ML méretezése a vállalaton belül. Számos iparágban segített cégeknek, beleértve a biztosítást, a pénzügyi szolgáltatásokat, a médiát és a szórakoztatást, az egészségügyet, a közműveket és a gyártást. Mark hat AWS-tanúsítvánnyal rendelkezik, köztük az ML Specialty Certification-vel. Mielőtt csatlakozott az AWS-hez, Mark építész, fejlesztő és technológiai vezető volt több mint 25 éven át, ebből 19 évig pénzügyi szolgáltatásokkal foglalkozott.

Időbélyeg: Március 10, 2022

Időbélyeg: 20. július 2022.

Újra kiadta Platón

Fehér könyv: Bevált gépi tanulási gyakorlatok az egészségügyben és az élettudományokban

Csökkentse a költségeket és a fejlesztési időt az Amazon SageMaker Pipelines helyi móddal

MLOps kötegelt következtetéshez modellfigyeléssel és átképzéssel az Amazon SageMaker, a HashiCorp Terraform és a GitLab CI/CD használatával | Amazon webszolgáltatások

Újra feltalálni az adatszolgáltatást: Használjon generatív mesterséges intelligenciát és modern adatarchitektúrát a betekintések megnyitásához | Amazon webszolgáltatások

Moderáljon, osztályozzon és dolgozzon fel dokumentumokat az Amazon Rekognition és az Amazon Textract segítségével

Taxonómia alapú kontextus szerinti célzás az AWS Media Intelligence és Hugging Face BERT segítségével

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók