Identifying And Avoiding Common Data Issues While Building No Code ML Models With Amazon SageMaker Canvas

Újra kiadta Platón

Követő: 0

Az üzleti elemzők adatokkal dolgoznak, és szeretnek elemezni, feltárni és megérteni az adatokat a hatékony üzleti eredmények elérése érdekében. Az üzleti problémák megoldása érdekében gyakran támaszkodnak a gépi tanulást (ML) gyakorló szakemberekre, például adattudósokra, akik olyan technikákban segítenek, mint például az ML felhasználása a meglévő adatok felhasználásával modellek felépítéséhez és előrejelzések generálásához. Ez azonban nem mindig lehetséges, mivel az adattudósok általában le vannak kötve a feladataikkal, és nincs elegendő sávszélességük ahhoz, hogy segítsék az elemzőket.

Ahhoz, hogy független legyen és üzleti elemzőként elérje céljait, ideális lenne olyan könnyen használható, intuitív és vizuális eszközökkel dolgozni, amelyek az ML-t használják anélkül, hogy ismerniük kellene a részleteket és kódot kellene használniuk. Ezen eszközök használata segít megoldani üzleti problémáit és elérni a kívánt eredményeket.

Azzal a céllal, hogy segítsük Önt és szervezetét hatékonyabbá tenni, és az ML-t kódírás nélkül használni bemutatta az Amazon SageMaker Canvast. Ez egy kód nélküli ML-megoldás, amely segít pontos ML-modellek felépítésében anélkül, hogy meg kellene ismerkednie az olyan technikai részletekkel, mint az ML algoritmusok és kiértékelési metrikák. A SageMaker Canvas vizuális, intuitív felületet kínál, amely lehetővé teszi adatok importálását, ML-modellek betanítását, modellelemzést és ML-előrejelzések generálását, mindezt egyetlen kódsor megírása nélkül.

Ha a SageMaker Canvast kísérletezésre használja, adatminőségi problémákba ütközhet, például hiányzó értékek vagy rossz problématípus. Előfordulhat, hogy ezeket a problémákat csak a folyamat késői szakaszában fedezik fel az ML-modell betanítása után. A kihívás enyhítésére a SageMaker Canvas mostantól támogatja az adatellenőrzést. Ez a funkció proaktívan ellenőrzi az adatokkal kapcsolatos problémákat, és útmutatást ad a megoldásokhoz.

Ebben a bejegyzésben bemutatjuk, hogyan használhatja a SageMaker Canvas adatellenőrzési képességét a modellépítés előtt. Ahogy a neve is sugallja, ez a funkció ellenőrzi az adatkészletet, jelenti a problémákat, és hasznos mutatókat kínál azok kijavításához. A jobb minőségű adatok használatával egy jobban teljesítő ML modellt kap.

Érvényesítse az adatokat a SageMaker Canvasban

Az adatérvényesítés a SageMaker Canvas új funkciója, amellyel proaktívan ellenőrzi az esetleges adatminőségi problémákat. Az adatok importálása és egy céloszlop kiválasztása után lehetősége nyílik az adatok érvényesítésére az alábbiak szerint:

Ha úgy dönt, hogy érvényesíti adatait, a Canvas számos körülmény szempontjából elemzi az adatokat, többek között:

Túl sok egyedi címke a céloszlopban – a kategória-előrejelzési modelltípushoz
Túl sok egyedi címke van a céloszlopban az adatok sorainak számához képest – a kategória-előrejelzési modelltípushoz
Hibás modelltípus az adatokhoz – a modell típusa nem illeszkedik a Cél oszlopban előre jelzett adatokhoz
Túl sok érvénytelen sor – hiányzó értékek a céloszlopban
Minden jellemző oszlop szövegoszlop – standard buildeknél el fognak dobni
Túl kevés oszlop – túl kevés oszlop van az adatokban
Nincsenek teljes sorok – az adatok összes sora hiányzó értékeket tartalmaz
Egy vagy több oszlopnév dupla aláhúzást tartalmaz – A SageMaker nem tudja kezelni a (__) jelet az oszlopfejlécben

Az egyes érvényesítési kritériumok részleteit a bejegyzés későbbi szakaszai tartalmazzák.

Ha az összes ellenőrzés sikeres, akkor a következő megerősítést kapja: „Nem találtunk problémát az adatkészletben”.

Ha bármilyen problémát észlel, értesítést kap, hogy megtekinthesse és megértse. Ez korán felszínre hozza az adatminőségi problémákat, és lehetővé teszi, hogy közvetlenül kezelje azokat, mielőtt további időt és erőforrásokat veszítene a folyamatban.

Elvégezheti a módosításokat, és folytathatja az adatkészlet érvényesítését, amíg az összes problémát meg nem oldják.

Érvényesítse a céloszlop- és modelltípusokat

Amikor ML-modellt készít a SageMaker Canvasban, számos adatminőségi probléma kapcsolódik a céloszlop a modell felépítése meghiúsulhat. A SageMaker Canvas különböző típusú problémákat keres, amelyek hatással lehetnek az Ön számára céloszlop.

A céloszlophoz ellenőrizze a Hibás modelltípus az adatokhoz. Például, ha egy 2 kategóriás előrejelzési modell van kiválasztva, de a céloszlop 2-nél több egyedi címkét tartalmaz, akkor a SageMaker Canvas a következő érvényesítési figyelmeztetést jeleníti meg.
Ha a modell típusa 2 vagy 3+ kategória előrejelzés, akkor érvényesíteni kell túl sok egyedi címke a céloszlophoz. Az egyedi osztályok maximális száma 2000. Ha 2000-nél több egyedi értéket tartalmazó oszlopot választ ki a Cél oszlopban, akkor a Canvas a következő érvényesítési figyelmeztetést jeleníti meg.
A túl sok egyedi célcímke mellett vigyáznia kell azokra is számos egyedi célcímke az adatok sorainak számához. A SageMaker Canvas kikényszeríti, hogy a célcímke és az összes sor számának aránya 10% alatt legyen. Ez biztosítja, hogy minden kategória elegendő képviselete legyen egy kiváló minőségű modellhez, és csökkenti a túlszerelés lehetőségét. Az Ön modellje akkor tekinthető túlillesztettnek, ha jól előre jelez a képzési adatokon, de nem az új adatokon, amelyeket korábban nem látott. Utal itt és tudjon meg többet!
Végül a céloszlop utolsó ellenőrzése az túl sok érvénytelen sor. Ha a céloszlopban az adatok több mint 10%-a hiányzik vagy érvénytelen, akkor ez hatással lesz a modell teljesítményére, és bizonyos esetekben a modell összeállításának meghiúsulását okozza. A következő példában sok hiányzó érték található (>90% hiányzik) a céloszlopban, és a következő érvényesítési figyelmeztetést kapja.

Ha a fenti figyelmeztetések bármelyikét kapja a céloszlopra vonatkozóan, kövesse az alábbi lépéseket a problémák enyhítésére:

A megfelelő céloszlopot használja?
A megfelelő modelltípust választotta?
Növelheti a sorok számát az adatkészletben célcímkénként?
Össze lehet vonni/csoportosítani a hasonló címkéket?
Be tudod tölteni a hiányzó/érvénytelen értékeket?
Van elég adatod a hiányzó/érvénytelen értékek eldobásához?
Ha a fenti lehetőségek mindegyike nem törli a figyelmeztetést, fontolja meg egy másik adatkészlet használatát.

Utal SageMaker Canvas adatátalakítási dokumentáció a fent említett imputációs lépések végrehajtásához.

Érvényesítse az összes oszlopot

A céloszlopon kívül más adatoszlopokkal (szolgáltatásoszlopokkal) is adatminőségi problémákba ütközhet. A jellemzők oszlopai az ML előrejelzés elkészítéséhez használt bemeneti adatok.

Minden adatkészletnek legalább 1 jellemzőoszlopnak és 1 céloszlopnak kell lennie (összesen 2 oszlop). Ellenkező esetben a SageMaker Canvas megadja a Túl kevés oszlop van az adatokban Figyelem. Ennek a követelménynek eleget kell tennie, mielőtt folytathatná a modell elkészítését.
Ezt követően meg kell győződnie arról, hogy az adatok legalább 1 numerikus oszlopot tartalmaznak. Ha nem, akkor megkapod minden jellemző oszlop szövegoszlop Figyelem. Ennek az az oka, hogy a szövegoszlopokat általában eldobják a szabványos összeállítások során, így a modellnek nem maradnak betanítható tulajdonságai. Ezért ez a modellépítés kudarcát okozza. A SageMaker Canvas segítségével kódolhat egyes szövegoszlopokat számokká, vagy használhatja a gyors összeállítást a szabványos felépítés helyett.
A harmadik típusú figyelmeztetés, amelyet a jellemzőoszlopokkal kapcsolatban kaphat, az Nincsenek teljes sorok. Ez az ellenőrzés ellenőrzi, hogy van-e legalább egy olyan sora, amelyben nincsenek hiányzó értékek. A SageMaker Canvashoz legalább egy teljes sor szükséges, különben a te gyors felépítés el fog bukni. A modell elkészítése előtt próbálja meg pótolni a hiányzó értékeket.
Az érvényesítés utolsó típusa a Egy vagy több oszlopnév dupla aláhúzást tartalmaz. Ez a SageMaker Canvas speciális követelménye. Ha dupla aláhúzásjelek (__) vannak az oszlopfejlécekben, akkor ez a gyors felépítés megbukni. Nevezze át az oszlopokat a dupla aláhúzás eltávolításához, majd próbálkozzon újra.

Tisztítsuk meg

Hogy elkerüljük a jövőbeli eseményeket munkamenet díjak, jelentkezzen ki a SageMaker Canvasból.

Következtetés

A SageMaker Canvas egy kód nélküli ML-megoldás, amely lehetővé teszi az üzleti elemzők számára, hogy pontos ML-modelleket hozzanak létre, és előrejelzéseket generáljanak egy vizuális, point-and-click felületen keresztül. Megmutattuk, hogyan segít a SageMaker Canvas megbizonyosodni az adatok minőségéről és csökkenteni az adatproblémákat az adatkészlet proaktív érvényesítésével. A problémák korai azonosításával a SageMaker Canvas segít minőségi ML-modellek felépítésében és az adattudományi és programozási szakértelem nélkül az építési iterációk csökkentésében. Ha többet szeretne megtudni erről az új funkcióról, tekintse meg a SageMaker Canvas dokumentáció.

A SageMaker Canvas használatának megkezdéséhez és további információihoz tekintse meg a következő forrásokat:

A szerzőkről

Hariharan Suresh az AWS vezető megoldási építésze. Szenvedélye az adatbázisok, a gépi tanulás és az innovatív megoldások tervezése. Mielőtt csatlakozott az AWS-hez, Hariharan terméktervező, központi banki implementációs specialista és fejlesztő volt, és több mint 11 évig dolgozott a BFSI szervezeteivel. A technikán kívül szeret siklóernyőzni és kerékpározni.

Sainath Miriyala az AWS vezető műszaki ügyfélmenedzsere, autóipari ügyfeleknek dolgozik az Egyesült Államokban. A Sainath szenvedélyesen foglalkozik nagyszabású elosztott alkalmazások tervezésével és építésével az AI/ML segítségével. Szabadidejében Sainath családjával és barátaival tölti az idejét.

James Wu az AWS vezető AI/ML specialista megoldástervezője. segít az ügyfeleknek AI/ML megoldások tervezésében és kivitelezésében. James munkája az ML felhasználási esetek széles skáláját fedi le, elsősorban a számítógépes látás, a mély tanulás és az ML méretezése a vállalaton belül. Mielőtt csatlakozott az AWS-hez, James több mint 10 évig építész, fejlesztő és technológiai vezető volt, ebből 6 évig mérnöki és 4 évig marketing és reklámiparban dolgozott.

Időbélyeg: November 10, 2022November 11, 2022

A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas segítségével kód nélküli ML modellek készítése során

Újra kiadta Platón

Érvényesítse az adatokat a SageMaker Canvasban

Érvényesítse a céloszlop- és modelltípusokat

Érvényesítse az összes oszlopot

Tisztítsuk meg

Következtetés

A szerzőkről

Még több AWS gépi tanulás

Tesztelési megközelítések Amazon SageMaker ML modellekhez

Hozzon létre megismételhető, biztonságos és bővíthető végpontok közötti gépi tanulási munkafolyamatokat a Kubeflow segítségével az AWS-en

Használja az ADFS OIDC-t IdP-ként az Amazon SageMaker Ground Truth magánszemélyek számára

Javítsa az Amazon Rekognition állapot nélküli API-k méretezhetőségét több régió használatával

Bemutatjuk az egylépcsős osztályozást és entitásfelismerést az Amazon Comprehend segítségével az intelligens dokumentumfeldolgozás érdekében

ML modellek készítése és betanítása adatháló-architektúra segítségével az AWS-en: 2. rész

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók