Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.

Tunnista kuviot tekstitiedoista Amazon SageMaker Data Wranglerin avulla

Tässä viestissä esittelemme uuden analyysin Data Quality and Insights -raportti of Amazon SageMaker Data Wrangler. Tämä analyysi auttaa sinua tarkistamaan tekstiominaisuuksien oikeellisuuden ja paljastamaan virheellisiä rivejä korjausta tai puuttumista varten.

Data Wrangler vähentää aikaa, joka kuluu tietojen kokoamiseen ja valmisteluun koneoppimista (ML) varten viikoista minuutteihin. Voit yksinkertaistaa tietojen valmistelua ja ominaisuuksien suunnittelua ja suorittaa tietojen valmistelutyönkulun jokaisen vaiheen, mukaan lukien tietojen valinnan, puhdistamisen, tutkimisen ja visualisoinnin, yhdestä visuaalisesta käyttöliittymästä.

Ratkaisun yleiskatsaus

Tietojen esikäsittelyyn kuuluu usein tekstitietojen, kuten sähköpostiosoitteiden, puhelinnumeroiden ja tuotteiden nimien, puhdistaminen. Näillä tiedoilla voi olla taustalla olevia eheysrajoituksia, jotka voidaan kuvata säännöllisillä lausekkeilla. Esimerkiksi, jotta paikallisen puhelinnumeron katsottaisiin olevan kelvollinen, sen on ehkä noudatettava kaltaista mallia [1-9][0-9]{2}-[0-9]{4}, joka vastaa nollasta poikkeavaa numeroa, jota seuraa kaksi muuta numeroa, jota seuraa viiva ja neljä muuta numeroa.

Yleisiä skenaarioita, jotka johtavat virheellisiin tietoihin, voivat sisältää epäjohdonmukaisia ​​ihmisten syötteitä, esimerkiksi puhelinnumeroita eri muodoissa (5551234 vs. 555 1234 vs. 555-1234) tai odottamattomia tietoja, kuten 0, 911 tai 411. Asiakaspalvelukeskus: on tärkeää jättää pois numerot, kuten 0, 911 tai 411, ja vahvistaa (ja mahdollisesti oikeat) merkinnät, kuten 5551234 tai 555 1234.

Valitettavasti, vaikka tekstillisiä rajoituksia on olemassa, niitä ei välttämättä toimiteta tietojen mukana. Siksi tietojoukkoa valmistelevan datatieteilijän on löydettävä rajoitukset manuaalisesti tarkastelemalla tietoja. Tämä voi olla työlästä, virhealtista ja aikaa vievää.

Kuvioiden oppiminen analysoi tietosi automaattisesti ja paljastaa tietojoukkoasi mahdollisesti koskevat tekstirajoitukset. Puhelinnumeroiden esimerkissä mallioppiminen voi analysoida tiedot ja tunnistaa, että suurin osa puhelinnumeroista noudattaa tekstirajoitusta [1-9][0-9]{2}-[0-9][4]. Se voi myös varoittaa, että on esimerkkejä virheellisistä tiedoista, jotta voit sulkea pois tai korjata ne.

Seuraavissa osissa esittelemme, kuinka mallioppimista käytetään Data Wranglerissa käyttämällä fiktiivinen tietojoukko tuoteluokista ja SKU (stock keeping unit) -koodeista.

Tämä tietojoukko sisältää ominaisuuksia, jotka kuvaavat tuotteita yrityksen, tuotemerkin ja energiankulutuksen mukaan. Erityisesti se sisältää ominaisuus SKU:n, joka on huonosti muotoiltu. Kaikki tämän tietojoukon tiedot ovat kuvitteellisia ja luotu satunnaisesti satunnaisten tuotemerkkien ja laitenimien avulla.

Edellytykset

Ennen kuin aloitat Data Wranglerin käytön, download näytetietojoukon ja lataa se sijaintiin Amazonin yksinkertainen tallennuspalvelu (Amazon S3). Katso ohjeet kohdasta Ladataan kohteita.

Tuo tietojoukkosi

Voit tuoda tietojoukon suorittamalla seuraavat vaiheet:

  1. Valitse Data Wranglerissa Import & Explore Data for ML.
  2. Valita Tuo.
    Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.
  3. varten Tuo päivämäärät, valitse Amazon S3.
    Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.
  4. Etsi tiedosto Amazon S3:sta ja valitse Tuo.
    Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.

Tuonnin jälkeen voimme siirtyä tietovirtaan.

Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.

Hanki datatietoja

Tässä vaiheessa luomme tietotilanneraportin, joka sisältää tietoja tietojen laadusta. Lisätietoja on kohdassa Hanki näkemyksiä datasta ja tiedon laadusta. Suorita seuraavat vaiheet:

  1. On Tietovirta -välilehti, valitse vieressä oleva plusmerkki Tietotyypit.
  2. Valita Hanki datatietoja.
    Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.
  3. varten Analyysityyppi, valitse Data Quality and Insights -raportti.
  4. Poistu tästä postauksesta Kohdesarake ja Ongelman tyyppi tyhjä.Jos aiot käyttää tietojoukkoasi regressio- tai luokittelutehtävään kohdeominaisuuden kanssa, voit valita kyseiset vaihtoehdot ja raportti sisältää analyysin siitä, kuinka syöteominaisuudet liittyvät kohteeseen. Se voi esimerkiksi tuottaa raportteja tavoitevuodosta. Lisätietoja on kohdassa Kohdesarake.
  5. Valita luoda.
    Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.

Meillä on nyt Data Quality and Data Insights -raportti. Jos vieritämme alas kohtaan SKU -osiossa voimme nähdä esimerkin mallioppimisesta, joka kuvaa SKU:ta. Tässä ominaisuudessa näyttää olevan virheellisiä tietoja, ja toimenpiteitä tarvitaan.

Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.

Ennen kuin puhdistamme SKU-ominaisuuden, vieritämme ylös kohtaan Brändi -osio nähdäksesi lisää näkemyksiä. Tässä on havaittu kaksi mallia, jotka osoittavat, että suurin osa tuotenimistä on yksittäisiä sanoja, jotka koostuvat sanamerkeistä tai aakkosmerkeistä. A sana merkki on joko alaviiva tai merkki, joka voi esiintyä sanassa millä tahansa kielellä. Esimerkiksi jouset Hello_world ja écoute molemmat koostuvat sanamerkeistä: H ja é.

Tässä viestissä emme puhdista tätä ominaisuutta.

Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.

Katso kuvion oppimisen oivalluksia

Palataan SKU:iden puhdistamiseen ja lähennetään kuvioon ja varoitusviestiin.

Kuten seuraavassa kuvakaappauksessa näkyy, kuvion oppiminen tuo esiin erittäin tarkan kuvion, joka vastaa 97.78 % tiedoista. Se näyttää myös joitakin mallia vastaavia esimerkkejä sekä esimerkkejä, jotka eivät vastaa kuviota. Ei-osuvuuksissa näemme virheellisiä SKU:ita.

Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.

Pinnoitettujen kuvioiden lisäksi näyttöön saattaa tulla varoitus, joka ilmaisee mahdollisen toimenpiteen tietojen puhdistamiseksi, jos on erittäin tarkka kuvio, sekä joitakin tietoja, jotka eivät ole kuvion mukaisia.

Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.

Voimme jättää virheelliset tiedot pois. Jos valitsemme (napsauta hiiren oikealla painikkeella) säännöllistä lauseketta, voimme kopioida lausekkeen [A-Z]{3}-[0-9]{4,5}.

Poista virheelliset tiedot

Luodaan muunnos jättämään pois ei-yhteensopivia tietoja, jotka eivät vastaa tätä mallia.

  1. On Tietovirta -välilehti, valitse vieressä oleva plusmerkki Tietotyypit.
  2. Valita Lisää muunnos.
    Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.
  3. Valita Lisää vaihe.
  4. Etsi regex Ja valitse Etsi ja muokkaa.
    Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.
  5. varten Muuttaa, valitse Muunna ei-vastaavat puuttuvat.
  6. varten Syötä sarakkeet, valitse SKU.
  7. varten Kuvio, syötä säännöllinen lauseke.
  8. Valita preview, valitse sitten Lisää.
    Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.
    Nyt ylimääräiset tiedot on poistettu ominaisuuksista.
  9. Jos haluat poistaa rivit, lisää vaihe Kahva puuttuu ja valitse muunnos Pudotus puuttuu.
  10. Valita SKU syöttösarakkeena.
    Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.

Palaamme tietovirtaamme poistamalla virheelliset tiedot.

Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.

Yhteenveto

Tässä viestissä näytimme sinulle, kuinka voit käyttää mallin oppimisominaisuutta tietotiedoissa virheellisten tekstitietojen löytämiseksi tietojoukostasi sekä kuinka korjata tai jättää pois kyseisiä tietoja.

Nyt kun olet siivonnut tekstisarakkeen, voit visualisoida tietojoukon käyttämällä analyysi tai voit hakea sisäänrakennetut muunnokset käsitelläksesi tietojasi edelleen. Kun olet tyytyväinen tietoihisi, voit tehdä sen kouluttaa mallia with Amazon SageMaker -autopilottitai viedä tietosi tietolähteeseen, kuten Amazon S3.

Haluamme kiittää Nikita Ivkiniä hänen huomaavaisesta arvostelustaan.


Tietoja kirjoittajista

Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.Vishaal Kapoor on vanhempi sovellettu tutkija, jolla on AWS AI. Hän haluaa intohimoisesti auttaa asiakkaita ymmärtämään datansa Data Wranglerissa. Vapaa-ajallaan hän pyöräilee, lumilaudoi ja viettää aikaa perheensä kanssa.

Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.Zohar Karnin on Amazon AI:n johtava tutkija. Hänen tutkimusalueensa ovat laajamittaiset ja online-koneoppimisalgoritmit. Hän kehittää äärettömästi skaalautuvia koneoppimisalgoritmeja Amazon SageMakerille.

Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai.Ajai Sharma on Amazon SageMakerin päätuotepäällikkö, jossa hän keskittyy Data Wrangleriin, visuaaliseen tietojen valmistelutyökaluun datatieteilijöille. Ennen AWS:ää Ajai oli tietotieteen asiantuntija McKinsey and Companyssa, missä hän johti ML-painotteisia toimeksiantoja johtaville rahoitus- ja vakuutusyhtiöille maailmanlaajuisesti. Ajai on intohimoinen datatieteessä ja rakastaa uusimpien algoritmien ja koneoppimistekniikoiden tutkimista.

Tunnista kuvioita tekstitiedoissa Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -sovelluksella. Pystysuuntainen haku. Ai. Derek Baron on Amazon SageMaker Data Wranglerin ohjelmistokehityspäällikkö

Aikaleima:

Lisää aiheesta AWS-koneoppiminen