Paigaldage väljaõppinud parameetrid suurtele andmekogudele, kasutades Amazon SageMaker Data Wrangleri

Taasavaldanud Platon

järgijaid: 0

Amazon SageMaker Data Wrangler aitab teil ühest visuaalsest liidesest andmeid mõista, koondada, teisendada ja masinõppeks (ML) ette valmistada. See sisaldab üle 300 sisseehitatud andmete teisenduse, et saaksite funktsioone kiiresti normaliseerida, teisendada ja kombineerida ilma koodi kirjutamata.

Andmeteaduse praktikud genereerivad, vaatlevad ja töötlevad andmeid äriprobleemide lahendamiseks, kui neil on vaja andmekogumitest funktsioone teisendada ja neist eraldada. Teisendused, nagu järjekorrakodeering või ühekuumkodeering, õpivad teie andmekogus kodeeringud selgeks. Neid kodeeritud väljundeid nimetatakse treenitud parameetriteks. Kuna andmestikud aja jooksul muutuvad, võib osutuda vajalikuks varem nägemata andmete kodeeringud ümber kohandada, et teisendusvoog oleks teie andmete jaoks asjakohane.

Meil on hea meel teatada koolitatud parameetrite ümberpaigutamise funktsioonist, mis võimaldab teil kasutada varem treenitud parameetreid ja neid vastavalt soovile ümber kohandada. Selles postituses näitame, kuidas seda funktsiooni kasutada.

Ülevaade Data Wrangleri taastamisfunktsioonist

Illustreerime selle funktsiooni toimimist järgmise näitega, enne kui sukeldume kohandatud parameetrifunktsiooni eripäradesse.

Oletame, et teie kliendiandmestikul on kategooriline funktsioon country kujutatud stringidena nagu Australia ja Singapore. ML-algoritmid nõuavad numbrilisi sisendeid; seetõttu tuleb need kategoorilised väärtused kodeerida arvväärtusteks. Kategooriliste andmete kodeerimine on kategooriate arvulise esituse loomise protsess. Näiteks kui teie kategooria riigil on väärtused Australia ja Singapore, saate selle teabe kodeerida kahte vektorisse: esitamiseks [1, 0] Australia ja [0, 1] tähistamiseks Singapore. Siin kasutatav teisendus on one-hot kodeering ja uus kodeeritud väljund peegeldab treenitud parameetreid.

Pärast mudeli väljaõpetamist võivad teie kliendid aja jooksul suureneda ja teil on riikide loendis selgemad väärtused. Uus andmestik võib sisaldada teist kategooriat, India, mis ei olnud algse andmekogumi osa, mis võib mõjutada mudeli täpsust. Seetõttu on vaja oma mudelit aja jooksul kogutud uute andmetega ümber õpetada.

Selle probleemi lahendamiseks peate värskendama kodeeringut, et kaasata uus kategooria, ja värskendada vektoresitlust vastavalt oma viimasele andmekogumile. Meie näites peaks kodeering kajastama uut kategooriat country, Mis on India. Tavaliselt viitame sellele kodeeringu värskendamise protsessile kui parandustoimingule. Pärast kohandamistoimingu sooritamist saate uue kodeeringu: Australia: [1, 0, 0], Singapore: [0, 1, 0] ja India: [0, 0, 1]. Ühe kuumuse kodeeringu uuesti paigaldamine ja seejärel mudeli uues andmekogumis ümberõpe annab parema kvaliteediga ennustusi.

Data Wrangleri kohandatud parameetrite funktsioon on kasulik järgmistel juhtudel:

Andmekomplekti lisatakse uued andmed – ML-mudeli ümberõpe on vajalik, kui andmekogumit rikastatakse uute andmetega. Optimaalsete tulemuste saavutamiseks peame koolitatud parameetrid uues andmekogumis ümber kohandama.
Täieliku andmestiku koolitus pärast funktsioonide projekteerimist näidisandmete põhjal – Suure andmestiku puhul võetakse koolitatud parameetrite õppimiseks arvesse andmestiku näidist, mis ei pruugi esindada kogu teie andmestikku. Peame kogu andmestiku koolitatud parameetrid uuesti õppima.

Järgmised on mõned kõige levinumad andmehulgaga tehtud Data Wrangleri teisendused, mis saavad kasu treenitud parameetrite suvandist.

Lisateavet Data Wrangleri teisenduste kohta leiate artiklist Andmete teisendamine.

Selles postituses näitame, kuidas töödelda neid treenitud parameetreid andmekogumites Data Wrangleri abil. Saate kasutada Data Wrangleri vooge tootmistöödes, et töödelda oma andmeid nende kasvades ja muutudes.

Lahenduse ülevaade

Selle postituse jaoks demonstreerime, kuidas kasutada Data Wrangleri kohandatud parameetrite funktsiooni koos avalikult kättesaadava andmestikuga Kaagutama: USA eluasemeandmed Zillow'st, Ameerika Ühendriikides müüdavad kinnisvarad. Sellel on kodude müügihinnad erinevates kodude geodistributsioonides.

Järgmine diagramm illustreerib Data Wrangleri kõrgetasemelist arhitektuuri, kasutades koolitatud parameetrifunktsiooni. Näitame ka mõju andmete kvaliteedile ilma koolitatud parameetrita ja võrdleme tulemusi lõpus.

Töövoog sisaldab järgmisi samme:

Tehke uurimuslik andmete analüüs – Uurimisandmete analüüsi (EDA) alustamiseks looge Data Wrangleris uus voog. Importige ettevõtte andmeid, et mõista, puhastada, koondada, teisendada ja koolituseks ette valmistada. Viitama Tutvuge näidisandmekogumitega Amazon SageMaker Data Wrangleri võimalustega Lisateavet Data Wrangleriga EDA teostamise kohta.
Looge andmetöötlustöö – See samm ekspordib kõik andmestikus tehtud teisendused konfigureeritud faili salvestatud voofailina Amazoni lihtne salvestusteenus (Amazon S3) asukoht. Andmetöötlustöö koos Data Wrangleri loodud voofailiga rakendab teie andmekogumis õpitud teisendusi ja treenitud parameetreid. Kui andmetöötlustöö on lõpetatud, laaditakse väljundfailid üles Amazon S3 asukohta, mis on konfigureeritud sihtsõlmes. Pange tähele, et taastamise valik on vaikimisi välja lülitatud. Alternatiivina töötlemistöö kohesele täitmisele saate seda teha ka planeerida töötlemistöö mõne klõpsuga, kasutades rakendust Data Wrangler – Looge töö konkreetsetel kellaaegadel töötamiseks.
Looge andmetöötlustöö koolitatud parameetri funktsiooniga – Valige töö loomise ajal uus väljaõppinud parameetrite ümberpaigutamise funktsioon, et jõustada koolitatud parameetrite ümberõppimine teie täielikus või tugevdatud andmekogus. Vastavalt Amazon S3 asukohakonfiguratsioonile voofaili salvestamiseks loob või värskendab andmetöötlustöö uue voofaili. Kui konfigureerite sama Amazon S3 asukoha nagu 2. sammus, värskendab andmetöötlustöö etapis 2 loodud voofaili, mida saab kasutada teie andmete voo asjakohasena hoidmiseks. Pärast töötlemistöö lõpetamist laaditakse väljundfailid üles sihtsõlme konfigureeritud S3 ämbrisse. Saate tootmistöövoo jaoks kasutada värskendatud voogu kogu oma andmekogumis.

Eeldused

Enne alustamist laadige andmestik üles S3 ämbrisse ja importige see seejärel Data Wranglerisse. Juhiste saamiseks vaadake Importige andmed Amazon S3-st.

Käime nüüd läbi arhitektuuriskeemil mainitud sammud.

Tehke EDA rakenduses Data Wrangler

Treenitud parameetrifunktsiooni proovimiseks seadistage Data Wrangleris järgmine analüüs ja teisendus. EDA seadistamise lõpus loob Data Wrangler voofaili, mis on salvestatud andmekogumist koolitatud parameetritega.

Looge Amazon SageMaker Data Wrangleris uus voog uurimuslikuks andmete analüüsiks.
Importige Amazon S3-sse üles laaditud äriandmed.
Saate eelvaadata andmeid ja suvandeid failitüübi, eraldaja, proovivõtu jms valimiseks. Selle näite jaoks kasutame Esiteks K Data Wrangleri pakutav proovivõtuvõimalus esimese 50,000 XNUMX kirje importimiseks andmekogumist.
Vali Import.