Asenna koulutetut parametrit uudelleen suuriin tietokokonaisuuksiin käyttämällä Amazon SageMaker Data Wrangleria

Julkaissut Platon

seuraajia: 0

Amazon SageMaker Data Wrangler auttaa ymmärtämään, kokoamaan, muuntamaan ja valmistelemaan dataa koneoppimista (ML) varten yhdestä visuaalisesta käyttöliittymästä. Se sisältää yli 300 sisäänrakennettua tietomuunnosta, joten voit nopeasti normalisoida, muuntaa ja yhdistää ominaisuuksia ilman koodin kirjoittamista.

Datatieteen ammattilaiset luovat, tarkkailevat ja käsittelevät dataa ratkaistakseen liiketoimintaongelmia, joissa heidän on muutettava ja poimittava ominaisuuksia tietojoukoista. Muunnokset, kuten järjestyskoodaus tai one-hot-koodaus, oppivat koodauksia tietojoukossasi. Näitä koodattuja lähtöjä kutsutaan koulutetuiksi parametreiksi. Koska tietojoukot muuttuvat ajan myötä, saattaa olla tarpeen muuttaa koodauksia aiemmin näkemättömiin tietoihin, jotta muunnosvirta pysyy tietosi kannalta merkityksellisenä.

Olemme innoissamme voidessamme julkistaa uudelleen koulutetut parametrit -ominaisuuden, jonka avulla voit käyttää aiemmin koulutettuja parametreja ja muokata niitä haluamallasi tavalla. Tässä viestissä näytämme, kuinka tätä ominaisuutta käytetään.

Yleiskatsaus Data Wrangler -korjausominaisuudesta

Havainnollistamme tämän ominaisuuden toimintaa seuraavan esimerkin avulla, ennen kuin sukeltaamme uudelleenasennetun parametriominaisuuden ominaisuuksiin.

Oletetaan, että asiakastietojoukossasi on kategorinen ominaisuus country esitetään merkkijonoina Australia ja Singapore. ML-algoritmit vaativat numeerisia syötteitä; siksi nämä kategoriset arvot on koodattava numeerisiksi arvoiksi. Kategoristen tietojen koodaus on prosessi, jossa luokille luodaan numeerinen esitys. Jos esimerkiksi luokkamaassasi on arvoja Australia ja Singapore, voit koodata nämä tiedot kahteen vektoriin: [1, 0] edustamaan Australia ja [0, 1] edustamaan Singapore. Tässä käytetty muunnos on one-hot-koodaus ja uusi koodattu lähtö heijastaa koulutettuja parametreja.

Mallin koulutuksen jälkeen asiakkaat voivat ajan myötä lisääntyä ja maaluettelossasi on selkeämpiä arvoja. Uusi tietojoukko voi sisältää toisen luokan, India, joka ei ollut osa alkuperäistä tietojoukkoa, mikä voi vaikuttaa mallin tarkkuuteen. Siksi on välttämätöntä kouluttaa mallisi uudelleen ajan mittaan kerätyillä uusilla tiedoilla.

Tämän ongelman ratkaisemiseksi sinun on päivitettävä koodaus sisältämään uusi luokka ja päivitettävä vektoriesitys viimeisimmän tietojoukon mukaan. Esimerkissämme koodauksen tulee kuvastaa uutta luokkaa country, Joka on India. Tätä koodauksen päivitysprosessia kutsutaan yleensä korjausoperaatioksi. Kun olet suorittanut korjaustoiminnon, saat uuden koodauksen: Australia: [1, 0, 0], Singapore: [0, 1, 0] ja India: [0, 0, 1]. One-hot-koodauksen asentaminen uudelleen ja mallin uudelleenkoulutus uuteen tietojoukkoon johtaa laadukkaampiin ennusteisiin.

Data Wranglerin uudelleenasennettava parametriominaisuus on hyödyllinen seuraavissa tapauksissa:

Uusia tietoja lisätään tietojoukkoon – ML-mallin uudelleenkoulutus on tarpeen, kun tietojoukkoa rikastetaan uudella tiedolla. Parhaiden tulosten saavuttamiseksi meidän on sovitettava opetetut parametrit uuteen tietojoukkoon.
Koulutus koko tietojoukosta sen jälkeen, kun ominaisuussuunnittelu on suoritettu esimerkkitiedoista – Jos kyseessä on suuri tietojoukko, tietojoukon näyte otetaan huomioon koulutettujen parametrien oppimiseen, jotka eivät välttämättä edusta koko tietojoukkoasi. Meidän on opittava uudelleen koko tietojoukon opetetut parametrit.

Seuraavassa on joitain yleisimmistä tietojoukolle suoritettavista Data Wrangler -muunnoksista, jotka hyötyvät Fit trained parametri -vaihtoehdosta:

Lisätietoja Data Wranglerin muunnoksista on kohdassa Muuta tietoja.

Tässä viestissä näytämme, kuinka näitä koulutettuja parametreja käsitellään tietojoukoissa Data Wranglerin avulla. Voit käyttää Data Wrangler -virtoja tuotantotöissä tietojen uudelleenkäsittelyyn sen kasvaessa ja muuttuessa.

Ratkaisun yleiskatsaus

Tässä viestissä näytämme, kuinka Data Wranglerin uudelleenasennettavaa parametriominaisuutta käytetään julkisesti saatavilla olevan tietojoukon kanssa Kaggle: Yhdysvaltain asuntotiedot Zillowista, myytävät kiinteistöt Yhdysvalloissa. Sillä on asuntojen myyntihinnat eri asuntojen maantieteellisissä jakeluissa.

Seuraava kaavio havainnollistaa Data Wranglerin korkean tason arkkitehtuuria uudelleenasennetun parametriominaisuuden avulla. Näytämme myös vaikutuksen tietojen laatuun ilman uudelleenasennettua parametria ja vertaamme tuloksia lopussa.

Työnkulku sisältää seuraavat vaiheet:

Suorita tutkiva data-analyysi – Luo uusi tietovirta Data Wrangleriin aloittaaksesi tutkivan data-analyysin (EDA). Tuo yritystietoja ymmärtääksesi, puhdistaaksesi, aggregoidaksesi, muuttaaksesi ja valmistellaksesi tietojasi koulutusta varten. Viitata Tutustu Amazon SageMaker Data Wranglerin ominaisuuksiin esimerkkitietojoukoilla saadaksesi lisätietoja EDA:n suorittamisesta Data Wranglerin kanssa.
Luo tietojenkäsittelytyö – Tämä vaihe vie kaikki tietojoukolle tekemäsi muunnokset määritettyyn tiedostoon tallennettuna vuotiedostona Amazonin yksinkertainen tallennuspalvelu (Amazon S3) sijainti. Tietojenkäsittelytyö Data Wranglerin luoman vuotiedoston kanssa soveltaa tietojoukossasi opittuja muunnoksia ja koulutettuja parametreja. Kun tietojenkäsittelytyö on valmis, tulostustiedostot ladataan Amazon S3 -sijaintiin, joka on määritetty kohdesolmussa. Huomaa, että korjausvaihtoehto on oletuksena pois päältä. Vaihtoehtona käsittelytyön suorittamiselle välittömästi, voit myös ajoita käsittelytyö muutamalla napsautuksella käyttämällä Data Wrangler - Create Job -ohjelmaa tiettyinä aikoina.
Luo tietojenkäsittelytyö uudelleen koulutetun parametriominaisuuden avulla – Valitse uusi koulutettujen parametrien uudelleenasennusominaisuus luodessasi työn pakottaaksesi koulutettujen parametrien uudelleenoppimisen täydellisessä tai vahvistetussa tietojoukossasi. Amazon S3 -sijaintimäärityksen mukaisesti vuotiedoston tallentamista varten tietojenkäsittelytyö luo tai päivittää uuden vuotiedoston. Jos määrität saman Amazon S3 -sijainnin kuin vaiheessa 2, tietojenkäsittelytyö päivittää vaiheessa 2 luodun vuotiedoston, jota voidaan käyttää pitämään työnkulkusi osuvana tietoihisi. Käsittelytyön päätyttyä tulostiedostot ladataan kohdesolmun konfiguroituun S3-säihöön. Voit käyttää päivitettyä kulkua koko tietojoukossasi tuotannon työnkulkua varten.

Edellytykset

Ennen kuin aloitat, lataa tietojoukko S3-säihöön ja tuo se sitten Data Wrangleriin. Katso ohjeet kohdasta Tuo tiedot Amazon S3:sta.

Käydään nyt läpi arkkitehtuurikaaviossa mainitut vaiheet.

Suorita EDA Data Wranglerissa

Jos haluat kokeilla uudelleenasennettavaa parametriominaisuutta, määritä seuraava analyysi ja muunnos Data Wranglerissa. EDA:n asennuksen lopussa Data Wrangler luo vuotiedoston, joka on kaapattu tietojoukosta koulutetuilla parametreilla.

Luo uusi kulku Amazon SageMaker Data Wrangleriin tutkivaa tietojen analysointia varten.
Tuo Amazon S3:een lataamasi yritystiedot.
Voit esikatsella tietoja ja vaihtoehtoja tiedostotyypin, erottimen, otannan ja niin edelleen valitsemiseksi. Tässä esimerkissä käytämme Ensin K Data Wranglerin tarjoama näytteenottovaihtoehto ensimmäisten 50,000 XNUMX tietueen tuomiseksi tietojoukosta.
Valita Tuo.