Yleisten tietoongelmien tunnistaminen ja välttäminen luotaessa koodittomia ML-malleja Amazon SageMaker Canvasilla

Julkaissut Platon

seuraajia: 0

Liiketoimintaanalyytikot työskentelevät tietojen parissa ja haluavat analysoida, tutkia ja ymmärtää dataa tehokkaiden liiketulosten saavuttamiseksi. Yritysten ongelmien ratkaisemiseksi he luottavat usein koneoppimisen (ML) harjoittajiin, kuten datatieteilijöihin, jotka auttavat tekniikoissa, kuten ML:n hyödyntämisessä mallien rakentamisessa olemassa olevasta datasta ja ennusteiden luomisesta. Aina se ei kuitenkaan ole mahdollista, sillä datatieteilijät ovat yleensä sidoksissa tehtäviinsä, eikä heillä ole kaistanleveyttä auttaakseen analyytikoita.

Jos haluat olla riippumaton ja saavuttaa tavoitteesi liiketoimintaanalyytikona, olisi ihanteellista työskennellä helppokäyttöisten, intuitiivisten ja visuaalisten työkalujen kanssa, jotka käyttävät ML:ää ilman, että sinun tarvitsee tietää yksityiskohtia ja käyttää koodia. Näiden työkalujen avulla voit ratkaista yrityksesi ongelmat ja saavuttaa halutut tulokset.

Tavoitteenamme on auttaa sinua ja organisaatiotasi tulemaan tehokkaammiksi ja käyttämään ML:ää ilman koodin kirjoittamista esitteli Amazon SageMaker Canvasin. Tämä on kooditon ML-ratkaisu, jonka avulla voit rakentaa tarkkoja ML-malleja ilman, että sinun tarvitsee oppia teknisistä yksityiskohdista, kuten ML-algoritmeista ja arviointimittareista. SageMaker Canvas tarjoaa visuaalisen, intuitiivisen käyttöliittymän, jonka avulla voit tuoda tietoja, kouluttaa ML-malleja, suorittaa mallianalyysiä ja luoda ML-ennusteita ilman yhden koodirivin kirjoittamista.

Kun käytät SageMaker Canvaa kokeiluun, saatat kohdata tietojen laatuongelmia, kuten puuttuvia arvoja tai väärän ongelmatyypin. Nämä ongelmat voidaan havaita vasta prosessin myöhäisessä vaiheessa ML-mallin harjoittamisen jälkeen. Tämän haasteen helpottamiseksi SageMaker Canvas tukee nyt tietojen validointia. Tämä ominaisuus tarkistaa ennakoivasti tiedoissasi olevat ongelmat ja antaa ohjeita ratkaisuihin.

Tässä viestissä näytämme, kuinka voit käyttää SageMaker Canvasin tietojen validointiominaisuutta ennen mallin rakentamista. Kuten nimestä voi päätellä, tämä ominaisuus vahvistaa tietojoukkosi, raportoi ongelmista ja tarjoaa hyödyllisiä ohjeita niiden korjaamiseen. Käyttämällä laadukkaampaa dataa saat tehokkaamman ML-mallin.

Vahvista tiedot SageMaker Canvasissa

Data Validation on SageMaker Canvasin uusi ominaisuus, joka tarkistaa ennakoivasti mahdollisten tietojen laatuongelmien varalta. Kun olet tuonut tiedot ja valinnut kohdesarakkeen, voit vahvistaa tietosi tässä esitetyllä tavalla:

Jos päätät vahvistaa tietosi, Canvas analysoi tietosi useiden olosuhteiden varalta, mukaan lukien:

Liian monta yksilöllistä tunnistetta kohdesarakkeessa – kategorian ennustemallin tyypille
Liian monta yksilöllistä tunnistetta kohdesarakkeessa tietojesi rivien määrään nähden – kategorian ennustemallin tyypille
Väärä mallityyppi tiedoillesi – Mallin tyyppi ei sovi Kohde-sarakkeessa ennustamiisi tietoihin
Liian monta virheellistä riviä – puuttuvat arvot kohdesarakkeesta
Kaikki ominaisuussarakkeet ovat tekstisarakkeita – ne hylätään vakiokokonaisuuksissa
Liian vähän sarakkeita – liian vähän sarakkeita tiedoissasi
Ei täydellisiä rivejä – kaikki tietojesi rivit sisältävät puuttuvia arvoja
Yksi tai useampi sarakkeen nimi sisältää kaksoisalaviivat – SageMaker ei voi käsitellä (__) sarakeotsikossa

Jokaisen validointikriteerin yksityiskohdat annetaan tämän viestin myöhemmissä osissa.

Jos kaikki tarkastukset läpäisevät, saat seuraavan vahvistuksen: "Tietojoukostasi ei löytynyt ongelmia".

Jos ongelmia havaitaan, saat ilmoituksen, jonka avulla voit tarkastella ja ymmärtää. Tämä paljastaa tiedon laatuongelmat varhaisessa vaiheessa ja antaa sinun ratkaista ne välittömästi ennen kuin tuhlaa aikaa ja resursseja prosessiin.

Voit tehdä säätöjä ja jatkaa tietojoukkosi vahvistamista, kunnes kaikki ongelmat on ratkaistu.

Tarkista kohdesarake- ja mallityypit

Kun rakennat ML-mallia SageMaker Canvasissa, useita tietojen laatuongelmia liittyy kohdesarakkeessa saattaa aiheuttaa mallin rakentamisen epäonnistumisen. SageMaker Canvas tarkistaa erilaisia ongelmia, jotka voivat vaikuttaa sinun kohdesarake.

Tarkista kohdesarakkeesi Väärä mallityyppi tiedoillesi. Jos esimerkiksi on valittu 2-luokan ennustemalli, mutta kohdesarakkeessa on enemmän kuin kaksi yksilöllistä tunnistetta, SageMaker Canvas antaa seuraavan vahvistusvaroituksen.
Jos mallityyppi on 2 tai 3+ luokan ennuste, sinun on vahvistettava liian monta ainutlaatuista etikettiä kohdesarakkeeseesi. Yksilöllisten luokkien enimmäismäärä on 2000 2000. Jos valitset Kohde-sarakkeessa sarakkeen, jossa on yli XNUMX XNUMX yksilöllistä arvoa, Canvas antaa seuraavan vahvistusvaroituksen.
Liian monien ainutlaatuisten kohdeetikettien lisäksi sinun tulee myös varoa useita yksilöllisiä kohdetunnisteita tietojesi rivien lukumäärälle. SageMaker Canvas pakottaa kohdetunnisteen suhteen rivien kokonaismäärään olemaan alle 10 %. Tämä varmistaa, että sinulla on riittävästi edustusta jokaisessa kategoriassa korkealaatuisen mallin saamiseksi ja vähentää yliasennusten mahdollisuutta. Malliasi katsotaan ylisovitettavaksi, kun se ennustaa hyvin harjoitusdataa, mutta ei uutta dataa, jota se ei ole nähnyt ennen. Viitata tätä lisätietoja.
Lopuksi viimeinen tarkistus kohdesarakkeelle on liian monta virheellistä riviä. Jos kohdesarakkeesta puuttuu yli 10 % tiedoista tai ne ovat virheellisiä, se vaikuttaa mallin suorituskykyyn ja saattaa joissain tapauksissa aiheuttaa mallinkoontiversion epäonnistumisen. Seuraavassa esimerkissä on monia puuttuvia arvoja (>90 % puuttuu) kohdesarakkeesta, ja saat seuraavan vahvistusvaroituksen.

Jos saat jonkin yllä olevista varoituksista kohdesarakkeessasi, käytä seuraavia ohjeita ongelmien lieventämiseksi:

Käytätkö oikeaa kohdesaraketta?
Valitsitko oikean mallityypin?
Voitko lisätä tietojoukkosi rivien määrää kohdetunnistetta kohden?
Voitko yhdistää/ryhmitellä samanlaisia tarroja yhteen?
Voitko täyttää puuttuvat/virheelliset arvot?
Onko sinulla tarpeeksi dataa, jotta voit pudottaa puuttuvat/virheelliset arvot?
Jos kaikki yllä olevat vaihtoehdot eivät poista varoitusta, sinun kannattaa harkita toisen tietojoukon käyttöä.

Viittaavat SageMaker Canvas -tietojen muunnosdokumentaatio suorittaaksesi edellä mainitut imputointivaiheet.

Vahvista kaikki sarakkeet

Kohdesarakkeen lisäksi saatat kohdata tietojen laatuongelmia myös muiden tietosarakkeiden (ominaisuussarakkeiden) kanssa. Ominaisuussarakkeet ovat syöttötietoja, joita käytetään ML-ennusteen tekemiseen.

Jokaisessa tietojoukossa tulee olla vähintään 1 ominaisuussarake ja 1 kohdesarake (yhteensä 2 saraketta). Muuten SageMaker Canvas antaa sinulle a Liian vähän sarakkeita tiedoissasi Varoitus. Sinun on täytettävä tämä vaatimus ennen kuin voit jatkaa mallin rakentamista.
Tämän jälkeen sinun on varmistettava, että tiedoissasi on vähintään yksi numeerinen sarake. Jos ei, niin saat sen kaikki ominaisuussarakkeet ovat tekstisarakkeita Varoitus. Tämä johtuu siitä, että tekstisarakkeet yleensä jätetään pois standardikoonnosten aikana, jolloin mallille ei jää opetettavia ominaisuuksia. Siksi tämä aiheuttaa mallinrakennuksen epäonnistumisen. Voit käyttää SageMaker Canvasia koodaamaan osan tekstisarakkeista numeroiksi tai käyttää pikakoontiversiota tavallisen koon sijaan.
Kolmas varoitustyyppi, jonka voit saada ominaisuussarakkeista, on Ei täydellisiä rivejä. Tämä tarkistus tarkistaa, onko sinulla vähintään yksi rivi, josta puuttuu arvoja. SageMaker Canvas vaatii vähintään yhden täydellisen rivin, muuten sinun nopea rakentaminen tulee epäonnistumaan. Yritä täyttää puuttuvat arvot ennen mallin rakentamista.
Viimeinen vahvistustyyppi on Yksi tai useampi sarakkeen nimi sisältää kaksoisalaviivat. Tämä on SageMaker Canvas -kohtainen vaatimus. Jos sarakeotsikoissasi on kaksoisalaviivat (__), tämä aiheuttaa sinun nopea rakentaminen epäonnistua. Nimeä sarakkeet uudelleen poistaaksesi kaksoisalaviivat ja yritä sitten uudelleen.

Puhdistaa

Välttääksesi tulevaisuuden istuntomaksut, kirjaudu ulos SageMaker Canvasista.

Yhteenveto

SageMaker Canvas on kooditon ML-ratkaisu, jonka avulla yritysanalyytikot voivat luoda tarkkoja ML-malleja ja ennusteita visuaalisen, osoita ja napsauta -käyttöliittymän kautta. Näimme sinulle, kuinka SageMaker Canvas auttaa sinua varmistamaan tietojen laadun ja lieventämään tietoongelmia vahvistamalla tietojoukon ennakoivasti. Tunnistamalla ongelmat ajoissa, SageMaker Canvas auttaa sinua rakentamaan laadukkaita ML-malleja ja vähentämään rakennusten iteraatioita ilman tietotieteen ja ohjelmoinnin asiantuntemusta. Lisätietoja tästä uudesta ominaisuudesta on kohdassa SageMaker Canvas -dokumentaatio.

Aloita ja saat lisätietoja SageMaker Canvasista tutustumalla seuraaviin resursseihin:

Tietoja kirjoittajista

Hariharan Suresh on AWS:n vanhempi ratkaisuarkkitehti. Hän on intohimoinen tietokantoihin, koneoppimiseen ja innovatiivisten ratkaisujen suunnitteluun. Ennen AWS:ään liittymistään Hariharan oli tuotearkkitehti, ydinpankkitoiminnan toteutusasiantuntija ja kehittäjä, ja työskenteli BFSI-organisaatioiden kanssa yli 11 vuoden ajan. Tekniikan ulkopuolella hän harrastaa varjoliitoa ja pyöräilyä.

Sainath Miriyala on vanhempi tekninen asiakaspäällikkö AWS:ssä ja työskentelee autoalan asiakkaille Yhdysvalloissa. Sainath on intohimoinen suurten hajautettujen sovellusten suunnittelussa ja rakentamisessa AI/ML:n avulla. Vapaa-ajallaan Sainath viettää aikaa perheen ja ystävien kanssa.

James Wu on AWS:n vanhempi AI/ML-asiantuntijaratkaisuarkkitehti. auttaa asiakkaita suunnittelemaan ja rakentamaan AI/ML-ratkaisuja. Jamesin työ kattaa laajan valikoiman ML-käyttötapauksia, ja hänen ensisijaisena kiinnostuksena ovat tietokonenäkö, syväoppiminen ja ML:n skaalaaminen koko yrityksessä. Ennen AWS:ään liittymistään James oli arkkitehti, kehittäjä ja teknologiajohtaja yli 10 vuoden ajan, joista 6 vuotta suunnittelussa ja 4 vuotta markkinointi- ja mainontateollisuudessa.

Aikaleima: Marraskuussa 10, 2022Marraskuussa 11, 2022

Aikaleima: Voi 5, 2022

Tunnistaa ja välttää yleisiä tietoongelmia luotaessa koodittomia ML-malleja Amazon SageMaker Canvasilla

Julkaissut Platon

Vahvista tiedot SageMaker Canvasissa

Tarkista kohdesarake- ja mallityypit

Vahvista kaikki sarakkeet

Puhdistaa

Yhteenveto

Tietoja kirjoittajista

Lisää aiheesta AWS-koneoppiminen

Julkistamme uusia työkaluja ja ominaisuuksia vastuullisen tekoälyinnovoinnin mahdollistamiseksi | Amazon Web Services

Ota käyttöön usean alueen Amazon SageMaker -päätepisteiden CI/CD

Älykäs asiakirjojen käsittely AWS AI- ja Analytics-palveluilla vakuutusalalla: Osa 2

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili