A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai.

A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas segítségével kód nélküli ML modellek készítése során

Az üzleti elemzők adatokkal dolgoznak, és szeretnek elemezni, feltárni és megérteni az adatokat a hatékony üzleti eredmények elérése érdekében. Az üzleti problémák megoldása érdekében gyakran támaszkodnak a gépi tanulást (ML) gyakorló szakemberekre, például adattudósokra, akik olyan technikákban segítenek, mint például az ML felhasználása a meglévő adatok felhasználásával modellek felépítéséhez és előrejelzések generálásához. Ez azonban nem mindig lehetséges, mivel az adattudósok általában le vannak kötve a feladataikkal, és nincs elegendő sávszélességük ahhoz, hogy segítsék az elemzőket.

Ahhoz, hogy független legyen és üzleti elemzőként elérje céljait, ideális lenne olyan könnyen használható, intuitív és vizuális eszközökkel dolgozni, amelyek az ML-t használják anélkül, hogy ismerniük kellene a részleteket és kódot kellene használniuk. Ezen eszközök használata segít megoldani üzleti problémáit és elérni a kívánt eredményeket.

Azzal a céllal, hogy segítsük Önt és szervezetét hatékonyabbá tenni, és az ML-t kódírás nélkül használni bemutatta az Amazon SageMaker Canvast. Ez egy kód nélküli ML-megoldás, amely segít pontos ML-modellek felépítésében anélkül, hogy meg kellene ismerkednie az olyan technikai részletekkel, mint az ML algoritmusok és kiértékelési metrikák. A SageMaker Canvas vizuális, intuitív felületet kínál, amely lehetővé teszi adatok importálását, ML-modellek betanítását, modellelemzést és ML-előrejelzések generálását, mindezt egyetlen kódsor megírása nélkül.

Ha a SageMaker Canvast kísérletezésre használja, adatminőségi problémákba ütközhet, például hiányzó értékek vagy rossz problématípus. Előfordulhat, hogy ezeket a problémákat csak a folyamat késői szakaszában fedezik fel az ML-modell betanítása után. A kihívás enyhítésére a SageMaker Canvas mostantól támogatja az adatellenőrzést. Ez a funkció proaktívan ellenőrzi az adatokkal kapcsolatos problémákat, és útmutatást ad a megoldásokhoz.

Ebben a bejegyzésben bemutatjuk, hogyan használhatja a SageMaker Canvas adatellenőrzési képességét a modellépítés előtt. Ahogy a neve is sugallja, ez a funkció ellenőrzi az adatkészletet, jelenti a problémákat, és hasznos mutatókat kínál azok kijavításához. A jobb minőségű adatok használatával egy jobban teljesítő ML modellt kap.

Érvényesítse az adatokat a SageMaker Canvasban

Az adatérvényesítés a SageMaker Canvas új funkciója, amellyel proaktívan ellenőrzi az esetleges adatminőségi problémákat. Az adatok importálása és egy céloszlop kiválasztása után lehetősége nyílik az adatok érvényesítésére az alábbiak szerint:

Ha úgy dönt, hogy érvényesíti adatait, a Canvas számos körülmény szempontjából elemzi az adatokat, többek között:

  • Túl sok egyedi címke a céloszlopban – a kategória-előrejelzési modelltípushoz
  • Túl sok egyedi címke van a céloszlopban az adatok sorainak számához képest – a kategória-előrejelzési modelltípushoz
  • Hibás modelltípus az adatokhoz – a modell típusa nem illeszkedik a Cél oszlopban előre jelzett adatokhoz
  • Túl sok érvénytelen sor – hiányzó értékek a céloszlopban
  • Minden jellemző oszlop szövegoszlop – standard buildeknél el fognak dobni
  • Túl kevés oszlop – túl kevés oszlop van az adatokban
  • Nincsenek teljes sorok – az adatok összes sora hiányzó értékeket tartalmaz
  • Egy vagy több oszlopnév dupla aláhúzást tartalmaz – A SageMaker nem tudja kezelni a (__) jelet az oszlopfejlécben

Az egyes érvényesítési kritériumok részleteit a bejegyzés későbbi szakaszai tartalmazzák.

Ha az összes ellenőrzés sikeres, akkor a következő megerősítést kapja: „Nem találtunk problémát az adatkészletben”.

A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai.

Ha bármilyen problémát észlel, értesítést kap, hogy megtekinthesse és megértse. Ez korán felszínre hozza az adatminőségi problémákat, és lehetővé teszi, hogy közvetlenül kezelje azokat, mielőtt további időt és erőforrásokat veszítene a folyamatban.

A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai. A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai.

Elvégezheti a módosításokat, és folytathatja az adatkészlet érvényesítését, amíg az összes problémát meg nem oldják.

Érvényesítse a céloszlop- és modelltípusokat

Amikor ML-modellt készít a SageMaker Canvasban, számos adatminőségi probléma kapcsolódik a céloszlop a modell felépítése meghiúsulhat. A SageMaker Canvas különböző típusú problémákat keres, amelyek hatással lehetnek az Ön számára céloszlop.

A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai.

  1. A céloszlophoz ellenőrizze a Hibás modelltípus az adatokhoz. Például, ha egy 2 kategóriás előrejelzési modell van kiválasztva, de a céloszlop 2-nél több egyedi címkét tartalmaz, akkor a SageMaker Canvas a következő érvényesítési figyelmeztetést jeleníti meg.
    A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai.
  2. Ha a modell típusa 2 vagy 3+ kategória előrejelzés, akkor érvényesíteni kell túl sok egyedi címke a céloszlophoz. Az egyedi osztályok maximális száma 2000. Ha 2000-nél több egyedi értéket tartalmazó oszlopot választ ki a Cél oszlopban, akkor a Canvas a következő érvényesítési figyelmeztetést jeleníti meg.
    A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai.
  3. A túl sok egyedi célcímke mellett vigyáznia kell azokra is számos egyedi célcímke az adatok sorainak számához. A SageMaker Canvas kikényszeríti, hogy a célcímke és az összes sor számának aránya 10% alatt legyen. Ez biztosítja, hogy minden kategória elegendő képviselete legyen egy kiváló minőségű modellhez, és csökkenti a túlszerelés lehetőségét. Az Ön modellje akkor tekinthető túlillesztettnek, ha jól előre jelez a képzési adatokon, de nem az új adatokon, amelyeket korábban nem látott. Utal itt és tudjon meg többet!
    A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai.
  4. Végül a céloszlop utolsó ellenőrzése az túl sok érvénytelen sor. Ha a céloszlopban az adatok több mint 10%-a hiányzik vagy érvénytelen, akkor ez hatással lesz a modell teljesítményére, és bizonyos esetekben a modell összeállításának meghiúsulását okozza. A következő példában sok hiányzó érték található (>90% hiányzik) a céloszlopban, és a következő érvényesítési figyelmeztetést kapja.
    A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai.
    A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai.

Ha a fenti figyelmeztetések bármelyikét kapja a céloszlopra vonatkozóan, kövesse az alábbi lépéseket a problémák enyhítésére:

  1. A megfelelő céloszlopot használja?
  2. A megfelelő modelltípust választotta?
  3. Növelheti a sorok számát az adatkészletben célcímkénként?
  4. Össze lehet vonni/csoportosítani a hasonló címkéket?
  5. Be tudod tölteni a hiányzó/érvénytelen értékeket?
  6. Van elég adatod a hiányzó/érvénytelen értékek eldobásához?
  7. Ha a fenti lehetőségek mindegyike nem törli a figyelmeztetést, fontolja meg egy másik adatkészlet használatát.

Utal SageMaker Canvas adatátalakítási dokumentáció a fent említett imputációs lépések végrehajtásához.

Érvényesítse az összes oszlopot

A céloszlopon kívül más adatoszlopokkal (szolgáltatásoszlopokkal) is adatminőségi problémákba ütközhet. A jellemzők oszlopai az ML előrejelzés elkészítéséhez használt bemeneti adatok.

  • Minden adatkészletnek legalább 1 jellemzőoszlopnak és 1 céloszlopnak kell lennie (összesen 2 oszlop). Ellenkező esetben a SageMaker Canvas megadja a Túl kevés oszlop van az adatokban Figyelem. Ennek a követelménynek eleget kell tennie, mielőtt folytathatná a modell elkészítését.
    A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai.
  • Ezt követően meg kell győződnie arról, hogy az adatok legalább 1 numerikus oszlopot tartalmaznak. Ha nem, akkor megkapod minden jellemző oszlop szövegoszlop Figyelem. Ennek az az oka, hogy a szövegoszlopokat általában eldobják a szabványos összeállítások során, így a modellnek nem maradnak betanítható tulajdonságai. Ezért ez a modellépítés kudarcát okozza. A SageMaker Canvas segítségével kódolhat egyes szövegoszlopokat számokká, vagy használhatja a gyors összeállítást a szabványos felépítés helyett.
    A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai.
  • A harmadik típusú figyelmeztetés, amelyet a jellemzőoszlopokkal kapcsolatban kaphat, az Nincsenek teljes sorok. Ez az ellenőrzés ellenőrzi, hogy van-e legalább egy olyan sora, amelyben nincsenek hiányzó értékek. A SageMaker Canvashoz legalább egy teljes sor szükséges, különben a te gyors felépítés el fog bukni. A modell elkészítése előtt próbálja meg pótolni a hiányzó értékeket.
    A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai.
  • Az érvényesítés utolsó típusa a Egy vagy több oszlopnév dupla aláhúzást tartalmaz. Ez a SageMaker Canvas speciális követelménye. Ha dupla aláhúzásjelek (__) vannak az oszlopfejlécekben, akkor ez a gyors felépítés megbukni. Nevezze át az oszlopokat a dupla aláhúzás eltávolításához, majd próbálkozzon újra.
    A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai.

Tisztítsuk meg

Hogy elkerüljük a jövőbeli eseményeket munkamenet díjak, jelentkezzen ki a SageMaker Canvasból.

A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai.

Következtetés

A SageMaker Canvas egy kód nélküli ML-megoldás, amely lehetővé teszi az üzleti elemzők számára, hogy pontos ML-modelleket hozzanak létre, és előrejelzéseket generáljanak egy vizuális, point-and-click felületen keresztül. Megmutattuk, hogyan segít a SageMaker Canvas megbizonyosodni az adatok minőségéről és csökkenteni az adatproblémákat az adatkészlet proaktív érvényesítésével. A problémák korai azonosításával a SageMaker Canvas segít minőségi ML-modellek felépítésében és az adattudományi és programozási szakértelem nélkül az építési iterációk csökkentésében. Ha többet szeretne megtudni erről az új funkcióról, tekintse meg a SageMaker Canvas dokumentáció.

A SageMaker Canvas használatának megkezdéséhez és további információihoz tekintse meg a következő forrásokat:


A szerzőkről

A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai. Hariharan Suresh az AWS vezető megoldási építésze. Szenvedélye az adatbázisok, a gépi tanulás és az innovatív megoldások tervezése. Mielőtt csatlakozott az AWS-hez, Hariharan terméktervező, központi banki implementációs specialista és fejlesztő volt, és több mint 11 évig dolgozott a BFSI szervezeteivel. A technikán kívül szeret siklóernyőzni és kerékpározni.

A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai.Sainath Miriyala az AWS vezető műszaki ügyfélmenedzsere, autóipari ügyfeleknek dolgozik az Egyesült Államokban. A Sainath szenvedélyesen foglalkozik nagyszabású elosztott alkalmazások tervezésével és építésével az AI/ML segítségével. Szabadidejében Sainath családjával és barátaival tölti az idejét.

A gyakori adatproblémák azonosítása és elkerülése az Amazon SageMaker Canvas PlatoBlockchain Data Intelligence segítségével kód nélküli ML modellek készítése során. Függőleges keresés. Ai.James Wu az AWS vezető AI/ML specialista megoldástervezője. segít az ügyfeleknek AI/ML megoldások tervezésében és kivitelezésében. James munkája az ML felhasználási esetek széles skáláját fedi le, elsősorban a számítógépes látás, a mély tanulás és az ML méretezése a vállalaton belül. Mielőtt csatlakozott az AWS-hez, James több mint 10 évig építész, fejlesztő és technológiai vezető volt, ebből 6 évig mérnöki és 4 évig marketing és reklámiparban dolgozott.

Időbélyeg:

Még több AWS gépi tanulás