Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Asenna koulutetut parametrit uudelleen suuriin tietokokonaisuuksiin käyttämällä Amazon SageMaker Data Wrangleria

Amazon SageMaker Data Wrangler auttaa ymmärtämään, kokoamaan, muuntamaan ja valmistelemaan dataa koneoppimista (ML) varten yhdestä visuaalisesta käyttöliittymästä. Se sisältää yli 300 sisäänrakennettua tietomuunnosta, joten voit nopeasti normalisoida, muuntaa ja yhdistää ominaisuuksia ilman koodin kirjoittamista.

Datatieteen ammattilaiset luovat, tarkkailevat ja käsittelevät dataa ratkaistakseen liiketoimintaongelmia, joissa heidän on muutettava ja poimittava ominaisuuksia tietojoukoista. Muunnokset, kuten järjestyskoodaus tai one-hot-koodaus, oppivat koodauksia tietojoukossasi. Näitä koodattuja lähtöjä kutsutaan koulutetuiksi parametreiksi. Koska tietojoukot muuttuvat ajan myötä, saattaa olla tarpeen muuttaa koodauksia aiemmin näkemättömiin tietoihin, jotta muunnosvirta pysyy tietosi kannalta merkityksellisenä.

Olemme innoissamme voidessamme julkistaa uudelleen koulutetut parametrit -ominaisuuden, jonka avulla voit käyttää aiemmin koulutettuja parametreja ja muokata niitä haluamallasi tavalla. Tässä viestissä näytämme, kuinka tätä ominaisuutta käytetään.

Yleiskatsaus Data Wrangler -korjausominaisuudesta

Havainnollistamme tämän ominaisuuden toimintaa seuraavan esimerkin avulla, ennen kuin sukeltaamme uudelleenasennetun parametriominaisuuden ominaisuuksiin.

Oletetaan, että asiakastietojoukossasi on kategorinen ominaisuus country esitetään merkkijonoina Australia ja Singapore. ML-algoritmit vaativat numeerisia syötteitä; siksi nämä kategoriset arvot on koodattava numeerisiksi arvoiksi. Kategoristen tietojen koodaus on prosessi, jossa luokille luodaan numeerinen esitys. Jos esimerkiksi luokkamaassasi on arvoja Australia ja Singapore, voit koodata nämä tiedot kahteen vektoriin: [1, 0] edustamaan Australia ja [0, 1] edustamaan Singapore. Tässä käytetty muunnos on one-hot-koodaus ja uusi koodattu lähtö heijastaa koulutettuja parametreja.

Mallin koulutuksen jälkeen asiakkaat voivat ajan myötä lisääntyä ja maaluettelossasi on selkeämpiä arvoja. Uusi tietojoukko voi sisältää toisen luokan, India, joka ei ollut osa alkuperäistä tietojoukkoa, mikä voi vaikuttaa mallin tarkkuuteen. Siksi on välttämätöntä kouluttaa mallisi uudelleen ajan mittaan kerätyillä uusilla tiedoilla.

Tämän ongelman ratkaisemiseksi sinun on päivitettävä koodaus sisältämään uusi luokka ja päivitettävä vektoriesitys viimeisimmän tietojoukon mukaan. Esimerkissämme koodauksen tulee kuvastaa uutta luokkaa country, Joka on India. Tätä koodauksen päivitysprosessia kutsutaan yleensä korjausoperaatioksi. Kun olet suorittanut korjaustoiminnon, saat uuden koodauksen: Australia: [1, 0, 0], Singapore: [0, 1, 0] ja India: [0, 0, 1]. One-hot-koodauksen asentaminen uudelleen ja mallin uudelleenkoulutus uuteen tietojoukkoon johtaa laadukkaampiin ennusteisiin.

Data Wranglerin uudelleenasennettava parametriominaisuus on hyödyllinen seuraavissa tapauksissa:

  • Uusia tietoja lisätään tietojoukkoon – ML-mallin uudelleenkoulutus on tarpeen, kun tietojoukkoa rikastetaan uudella tiedolla. Parhaiden tulosten saavuttamiseksi meidän on sovitettava opetetut parametrit uuteen tietojoukkoon.
  • Koulutus koko tietojoukosta sen jälkeen, kun ominaisuussuunnittelu on suoritettu esimerkkitiedoista – Jos kyseessä on suuri tietojoukko, tietojoukon näyte otetaan huomioon koulutettujen parametrien oppimiseen, jotka eivät välttämättä edusta koko tietojoukkoasi. Meidän on opittava uudelleen koko tietojoukon opetetut parametrit.

Seuraavassa on joitain yleisimmistä tietojoukolle suoritettavista Data Wrangler -muunnoksista, jotka hyötyvät Fit trained parametri -vaihtoehdosta:

Lisätietoja Data Wranglerin muunnoksista on kohdassa Muuta tietoja.

Tässä viestissä näytämme, kuinka näitä koulutettuja parametreja käsitellään tietojoukoissa Data Wranglerin avulla. Voit käyttää Data Wrangler -virtoja tuotantotöissä tietojen uudelleenkäsittelyyn sen kasvaessa ja muuttuessa.

Ratkaisun yleiskatsaus

Tässä viestissä näytämme, kuinka Data Wranglerin uudelleenasennettavaa parametriominaisuutta käytetään julkisesti saatavilla olevan tietojoukon kanssa Kaggle: Yhdysvaltain asuntotiedot Zillowista, myytävät kiinteistöt Yhdysvalloissa. Sillä on asuntojen myyntihinnat eri asuntojen maantieteellisissä jakeluissa.

Seuraava kaavio havainnollistaa Data Wranglerin korkean tason arkkitehtuuria uudelleenasennetun parametriominaisuuden avulla. Näytämme myös vaikutuksen tietojen laatuun ilman uudelleenasennettua parametria ja vertaamme tuloksia lopussa.

Työnkulku sisältää seuraavat vaiheet:

  1. Suorita tutkiva data-analyysi – Luo uusi tietovirta Data Wrangleriin aloittaaksesi tutkivan data-analyysin (EDA). Tuo yritystietoja ymmärtääksesi, puhdistaaksesi, aggregoidaksesi, muuttaaksesi ja valmistellaksesi tietojasi koulutusta varten. Viitata Tutustu Amazon SageMaker Data Wranglerin ominaisuuksiin esimerkkitietojoukoilla saadaksesi lisätietoja EDA:n suorittamisesta Data Wranglerin kanssa.
  2. Luo tietojenkäsittelytyö – Tämä vaihe vie kaikki tietojoukolle tekemäsi muunnokset määritettyyn tiedostoon tallennettuna vuotiedostona Amazonin yksinkertainen tallennuspalvelu (Amazon S3) sijainti. Tietojenkäsittelytyö Data Wranglerin luoman vuotiedoston kanssa soveltaa tietojoukossasi opittuja muunnoksia ja koulutettuja parametreja. Kun tietojenkäsittelytyö on valmis, tulostustiedostot ladataan Amazon S3 -sijaintiin, joka on määritetty kohdesolmussa. Huomaa, että korjausvaihtoehto on oletuksena pois päältä. Vaihtoehtona käsittelytyön suorittamiselle välittömästi, voit myös ajoita käsittelytyö muutamalla napsautuksella käyttämällä Data Wrangler - Create Job -ohjelmaa tiettyinä aikoina.
  3. Luo tietojenkäsittelytyö uudelleen koulutetun parametriominaisuuden avulla – Valitse uusi koulutettujen parametrien uudelleenasennusominaisuus luodessasi työn pakottaaksesi koulutettujen parametrien uudelleenoppimisen täydellisessä tai vahvistetussa tietojoukossasi. Amazon S3 -sijaintimäärityksen mukaisesti vuotiedoston tallentamista varten tietojenkäsittelytyö luo tai päivittää uuden vuotiedoston. Jos määrität saman Amazon S3 -sijainnin kuin vaiheessa 2, tietojenkäsittelytyö päivittää vaiheessa 2 luodun vuotiedoston, jota voidaan käyttää pitämään työnkulkusi osuvana tietoihisi. Käsittelytyön päätyttyä tulostiedostot ladataan kohdesolmun konfiguroituun S3-säihöön. Voit käyttää päivitettyä kulkua koko tietojoukossasi tuotannon työnkulkua varten.

Edellytykset

Ennen kuin aloitat, lataa tietojoukko S3-säihöön ja tuo se sitten Data Wrangleriin. Katso ohjeet kohdasta Tuo tiedot Amazon S3:sta.

Käydään nyt läpi arkkitehtuurikaaviossa mainitut vaiheet.

Suorita EDA Data Wranglerissa

Jos haluat kokeilla uudelleenasennettavaa parametriominaisuutta, määritä seuraava analyysi ja muunnos Data Wranglerissa. EDA:n asennuksen lopussa Data Wrangler luo vuotiedoston, joka on kaapattu tietojoukosta koulutetuilla parametreilla.

  1. Luo uusi kulku Amazon SageMaker Data Wrangleriin tutkivaa tietojen analysointia varten.
  2. Tuo Amazon S3:een lataamasi yritystiedot.
  3. Voit esikatsella tietoja ja vaihtoehtoja tiedostotyypin, erottimen, otannan ja niin edelleen valitsemiseksi. Tässä esimerkissä käytämme Ensin K Data Wranglerin tarjoama näytteenottovaihtoehto ensimmäisten 50,000 XNUMX tietueen tuomiseksi tietojoukosta.
  4. Valita Tuo.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

  1. Kun olet tarkistanut Data Wranglerin käyttämän tietotyyppivastaavuuden, lisää uusi analyysi.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

  1. varten Analyysityyppi, valitse Data Quality and Insights -raportti.
  2. Valita luoda.

Data Quality and Insights -raportin avulla saat lyhyen yhteenvedon tietojoukosta, joka sisältää yleisiä tietoja, kuten puuttuvia arvoja, virheellisiä arvoja, ominaisuustyyppejä, poikkeavien määrät ja paljon muuta. Voit valita ominaisuuksia property_type ja city muunnosten soveltamiseen tietojoukossa, jotta voidaan ymmärtää uudelleen koulutetun parametriominaisuuden.

Keskitytään ominaisuuteen property_type tietojoukosta. Raportissa Ominaisuustiedot -osiossa voit nähdä property_type, joka on kategorinen ominaisuus, ja kuusi ainutlaatuista arvoa, jotka on johdettu Data Wranglerin 50,000 XNUMX näyteaineistosta. Koko tietojoukossa voi olla enemmän luokkia ominaisuudelle property_type. Jos ominaisuudessa on monia ainutlaatuisia arvoja, voit suosia järjestyskoodausta. Jos ominaisuudella on muutama yksilöllinen arvo, voidaan käyttää one-hot-koodausta. Tässä esimerkissä valitsemme one-hot-koodauksen property_type.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Samoin varten city ominaisuus, joka on tekstitietotyyppi, jossa on suuri määrä yksilöllisiä arvoja, sovelletaan tähän ominaisuuteen järjestyskoodausta.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

  1. Siirry Data Wrangler -kulkuun, valitse plusmerkki ja valitse Lisää muunnos.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

  1. Valitse Koodaa kategorinen vaihtoehto kategoristen ominaisuuksien muuntamiseen.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Data Quality and Insights -raportin ominaisuus property_type näyttää kuusi ainutlaatuista luokkaa: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILYja TOWNHOUSE.

  1. varten Muuttaa, valitse Yksi kuuma koodaus.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Sen jälkeen, kun ominaisuuteen on käytetty yhden kuuman koodausta property_type, voit esikatsella kaikkia kuutta luokkaa erillisinä ominaisuuksina, jotka on lisätty uusina sarakkeina. Huomaa, että tämän esikatselun luomiseksi tietojoukostasi otettiin näyte 50,000 XNUMX tietueesta. Kun suoritat Data Wrangler -käsittelytyötä tällä kululla, näitä muunnoksia sovelletaan koko tietojoukkoon.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

  1. Lisää uusi muunnos ja valitse Koodaa kategorinen muuttaaksesi ominaisuutta city, jolla on suurempi määrä yksilöllisiä kategorisia tekstiarvoja.
  2. Jos haluat koodata tämän ominaisuuden numeeriseksi esitykseksi, valitse Järjestyskoodaus varten Muuttaa.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

  1. Valitse tämän muunnoksen esikatselu.

Voit nähdä, että kategorinen ominaisuus city on kartoitettu tulossarakkeen järjestysarvoihin e_city.

  1. Lisää tämä vaihe valitsemalla Päivitykset.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

  1. Voit asettaa kohteeksi Amazon S3 tallentaaksesi käytetyt muunnokset tietojoukkoon ja luodaksesi tulosteen CSV-tiedostona.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Data Wrangler tallentaa käyttöliittymässä määrittämäsi työnkulun vuotiedostona ja lataa määritetyn tietojenkäsittelytyön Amazon S3 -sijaintiin. Tätä vuotiedostoa käytetään, kun luot Data Wrangler -käsittelytöitä, jotta voit käyttää muunnoksia suuremmissa tietojoukoissa tai muuntaa uusia vahvistustietoja mallin uudelleenopettamiseksi.

Käynnistä Data Wrangler -tietojenkäsittelytyö ilman, että korjaus on käytössä

Nyt voit nähdä, kuinka korjausvaihtoehto käyttää koulutettuja parametreja uusissa tietojoukoissa. Tätä esittelyä varten määrittelemme kaksi Data Wrangler -käsittelytyötä, jotka toimivat samoilla tiedoilla. Ensimmäinen käsittelytyö ei ota korjausta käyttöön. toisessa käsittelytyössä käytämme korjaustyötä. Vertaamme vaikutuksia lopussa.

  1. Valita Luo työpaikka aloittaaksesi tietojenkäsittelytyön Data Wranglerilla.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

  1. varten Työn nimi, kirjoita nimi.
  2. Alle Koulutetut parametrit, älä valitse olla korjattavana.
  3. Valita Määritä työ.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

  1. Määritä työn parametrit, kuten ilmentymätyypit, tilavuuden koko ja Amazon S3 -sijainti tulosvuotiedoston tallentamista varten.
  2. Data Wrangler luo vuotiedoston vuotiedoston S3 sijaintiin. Vuo käyttää muunnoksia parametrien kouluttamiseen, ja käytämme myöhemmin korjausvaihtoehtoa näiden parametrien uudelleenopettamiseen.
  3. Valita luoda.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Odota tietojenkäsittelytyön valmistumista nähdäksesi muunnetut tiedot kohdesolmussa määritetyssä S3-säilössä.

Käynnistä Data Wrangler -tietojenkäsittelytyö uudelleenasennuksen ollessa käytössä

Luodaan toinen prosessointityö, joka on otettu käyttöön uudelleen koulutetun parametrin toiminnon ollessa käytössä. Tämä vaihtoehto pakottaa koko tietojoukossa uudelleen opetetut opetetut parametrit. Kun tämä tietojenkäsittelytyö on valmis, vuotiedosto luodaan tai päivitetään määritettyyn Amazon S3 -sijaintiin.

  1. Valita Luo työpaikka.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

  1. varten Työn nimi, kirjoita nimi.
  2. varten Koulutetut parametritvalitse olla korjattavana.
  3. Jos valitset Katso kaikki, voit tarkastella kaikkia koulutettuja parametreja.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

  1. Valita Määritä työ.
  2. Anna Amazon S3 -virtaustiedoston sijainti.
  3. Valita luoda.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Odota tietojenkäsittelytyön valmistumista.

Katso määritettyjä muunnoksia suorittavan tietojenkäsittelytyön luomat tiedot kohdesolmun konfiguroidusta S3-ryhmästä.

Vie Python-koodiin Data Wrangler -käsittelytöiden suorittamista varten

Vaihtoehtona käsittelytöiden aloittamiselle Data Wranglerin Luo työ -asetuksen avulla voit käynnistää tietojenkäsittelytyöt viemällä Data Wrangler -vuon Jupyter-muistikirjaan. Data Wrangler luo Jupyter-muistikirjan, jossa on tulot, lähdöt, prosessointitöiden kokoonpanot ja koodi työn tilan tarkistuksia varten. Voit muuttaa tai päivittää parametreja tietojen muunnosvaatimustesi mukaisesti.

  1. Valitse finaalin vierestä plusmerkki Muuttaa solmu.
  2. Valita Vie ja Amazon S3 (Jupyter Notebookin kautta).

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Näet avatun Jupyter-muistikirjan, jossa on syötteet, lähdöt, prosessointitöiden määritykset ja koodi työn tilantarkistusta varten.

  1. Jos haluat pakottaa uudelleen koulutetut parametrit -vaihtoehdon koodin avulla, aseta refit parametri True.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.Vertaile tietojenkäsittelytyön tuloksia

Kun Data Wrangler -käsittelytyöt on suoritettu, sinun on luotava kaksi uutta Data Wrangler -virtaa määritettyyn Amazon S3 -kohteeseen tallennettujen tietojenkäsittelytöiden tuottamien tulosteiden avulla.

Voit tarkastella määritettyä sijaintia Amazon S3 -kohdekansiossa nähdäksesi tietojenkäsittelytöiden tulosteet.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Voit tarkistaa käsittelytyön tulokset luomalla kaksi uutta Data Wrangler -kulkua käyttämällä Data Quality and Insights -raporttia muunnostulosten vertailua varten.

  1. Luo uusi kulku Amazon SageMaker Data Wranglerissa.
  2. Tuo tietojenkäsittelytyö ilman uudelleenasennuksen mahdollistavaa tulostustiedostoa Amazon S3:sta.
  3. Lisää uusi analyysi.
  4. varten Analyysityyppi, valitse Data Quality and Insights -raportti.
  5. Valita luoda.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.
Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Toista yllä olevat vaiheet ja luo uusi datawrangler-kulku analysoidaksesi tietojenkäsittelytyön tulosteen uudelleenasennuksen ollessa käytössä.

Katsotaanpa nyt ominaisuuden käsittelytöiden tuloksia property_type käyttämällä Data Quality- ja Insights -raportteja. Vieritä ominaisuuksien tietoihin Data and Insights -raportit -luettelossa feature_type.

Koulutetun parametrin uudelleenkäsittelytyö on asentanut opetetut parametrit uudelleen koko tietojoukolle ja koodannut uuden arvon APARTMENT seitsemän eri arvoa koko tietojoukossa.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Normaalissa käsittelytyössä käytettiin mallitietojoukon koulutettuja parametreja, joilla on vain kuusi erillistä arvoa property_type ominaisuus. Tietoja varten feature_type APARTMENT, The virheellinen käsittelystrategia Ohita käytetään, eikä tietojenkäsittelytyö opi tätä uutta luokkaa. One-hot-koodaus on ohittanut tämän uuden luokan uusissa tiedoissa, ja koodaus ohittaa luokan APARTMENT.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Keskitytään nyt toiseen ominaisuuteen, city. Uudelleenasennusharjoiteltu parametrinkäsittelytyö on oppinut uudelleen kaikki käytettävissä olevat arvot city ominaisuus, ottaen huomioon uudet tiedot.

Kuten kuvassa Ominaisuuksien yhteenveto raportin osa, uusi koodattu ominaisuussarake e_city on 100-prosenttisesti kelvolliset parametrit käyttämällä uudelleen koulutettua parametriominaisuutta.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Sitä vastoin normaalissa käsittelytyössä on 82.4 % puuttuvista arvoista uuden koodatun ominaisuuden sarakkeessa e_city. Tämä ilmiö johtuu siitä, että vain opittujen koulutettujen parametrien näytejoukkoa käytetään koko tietojoukossa, eikä tietojenkäsittelytyö käytä uudelleensovitusta.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Seuraavat histogrammit kuvaavat järjestyskoodattua ominaisuutta e_city. Ensimmäinen histogrammi on ominaisuudesta, joka on muunnettu korjausvaihtoehdolla.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Seuraava histogrammi on ominaisuudesta, joka on muunnettu ilman korjausvaihtoehtoa. Oranssi sarake näyttää puuttuvat arvot (NaN) Data Quality and Insights -raportissa. Uudet arvot, joita ei opittu näytetietojoukosta, korvataan nimellä Not a Number (NaN), kuten Data Wranglerin käyttöliittymässä on määritetty. virheellinen käsittelystrategia.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Tietojenkäsittelytyö uudelleen koulutetun parametrin kanssa oppi uudelleen property_type ja city ominaisuuksia ottaen huomioon uudet arvot koko tietojoukosta. Ilman Refit trained -parametria tietojenkäsittelytyö käyttää vain näytteitetyn tietojoukon valmiiksi opetettuja parametreja. Se soveltaa niitä sitten uusiin tietoihin, mutta uusia arvoja ei oteta huomioon koodauksessa. Tämä vaikuttaa mallin tarkkuuteen.

Puhdistaa

Kun et käytä Data Wrangleria, on tärkeää sulkea ilmentymä, jossa se toimii, jotta vältytään lisäkuluilta.

Välttääksesi työn menettämisen tallenna tietovirtasi ennen Data Wranglerin sammuttamista.

  1. Tallentaaksesi tietovirtasi sisään Amazon SageMaker Studio, valitse filee, valitse sitten Tallenna tiedot Wrangler Flow. Data Wrangler tallentaa tietovirtasi automaattisesti 60 sekunnin välein.
  2. Sulje Data Wrangler -esiintymä Studiossa valitsemalla Käynnistävät instanssit ja ytimet.
  3. Alle KÄYNNISSÄ SOVELLUKSET, valitse sammutuskuvake sagemaker-data-wrangler-1.0-sovelluksen vierestä.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

  1. Valita Sammuta kaikki vahvistaa.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.

Data Wrangler toimii ml.m5.4xlarge-esiintymässä. Tämä tapaus katoaa KÄYNNISSÄ kun suljet Data Wrangler -sovelluksen.

Kun sammutat Data Wrangler -sovelluksen, se on käynnistettävä uudelleen, kun seuraavan kerran avaat Data Wrangler -virtatiedoston. Tämä voi kestää muutaman minuutin.

Yhteenveto

Tässä viestissä annoimme yleiskatsauksen Data Wranglerin uudelleenasennetusta parametriominaisuudesta. Tämän uuden ominaisuuden avulla voit tallentaa opetetut parametrit Data Wrangler -virtaan, ja tietojenkäsittelytyöt käyttävät koulutettuja parametreja soveltaakseen opittuja muunnoksia suuriin tietosarjoihin tai vahvistustietosarjoihin. Voit käyttää tätä vaihtoehtoa tekstin ominaisuuksien, numeeristen tietojen vektorointiin ja poikkeamien käsittelyyn.

Koulutettujen parametrien säilyttäminen koko ML-elinkaarin tietojenkäsittelyn ajan yksinkertaistaa ja vähentää tietojenkäsittelyvaiheita, tukee vankkaa ominaisuussuunnittelua ja tukee mallin koulutusta ja uuden datan vahvistuskoulutusta.

Suosittelemme, että kokeilet tätä uutta ominaisuutta tietojenkäsittelyvaatimuksissasi.


Tietoja kirjoittajista

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai. Hariharan Suresh on AWS:n vanhempi ratkaisuarkkitehti. Hän on intohimoinen tietokantoihin, koneoppimiseen ja innovatiivisten ratkaisujen suunnitteluun. Ennen AWS:ään liittymistään Hariharan oli tuotearkkitehti, ydinpankkitoiminnan toteutusasiantuntija ja kehittäjä, ja työskenteli BFSI-organisaatioiden kanssa yli 11 vuoden ajan. Tekniikan ulkopuolella hän harrastaa varjoliitoa ja pyöräilyä.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.Santosh Kulkarni on Enterprise Solutions -arkkitehti Amazon Web Servicesissä, joka työskentelee urheiluasiakkaiden kanssa Australiassa. Hän on intohimoinen rakentaa laajamittaisia ​​hajautettuja sovelluksia liiketoiminnan ongelmien ratkaisemiseksi käyttämällä tietämystään AI/ML:stä, big datasta ja ohjelmistokehityksestä.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.Vishaal Kapoor on vanhempi sovellettu tutkija, jolla on AWS AI. Hän haluaa intohimoisesti auttaa asiakkaita ymmärtämään datansa Data Wranglerissa. Vapaa-ajallaan hän pyöräilee, lumilaudoi ja viettää aikaa perheensä kanssa.

Asenna uudelleen koulutetut parametrit suuriin tietojoukoihin Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence -tietotekniikan avulla. Pystysuuntainen haku. Ai.Aniketh Manjunath on ohjelmistokehitysinsinööri Amazon SageMakerissa. Hän auttaa tukemaan Amazon SageMaker Data Wrangleria ja on intohimoinen hajautetuista koneoppimisjärjestelmistä. Työn ulkopuolella hän pitää vaeltamisesta, elokuvien katselusta ja kriketin pelaamisesta.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen