Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele Amazon SageMaker Data Wrangleri abil

Amazon SageMaker Data Wrangler aitab teil ühest visuaalsest liidesest andmeid mõista, koondada, teisendada ja masinõppeks (ML) ette valmistada. See sisaldab üle 300 sisseehitatud andmete teisenduse, et saaksite funktsioone kiiresti normaliseerida, teisendada ja kombineerida ilma koodi kirjutamata.

Andmeteaduse praktikud genereerivad, vaatlevad ja töötlevad andmeid äriprobleemide lahendamiseks, kui neil on vaja andmekogumitest funktsioone teisendada ja neist eraldada. Teisendused, nagu järjekorrakodeering või ühekuumkodeering, õpivad teie andmekogus kodeeringud selgeks. Neid kodeeritud väljundeid nimetatakse treenitud parameetriteks. Kuna andmestikud aja jooksul muutuvad, võib osutuda vajalikuks varem nägemata andmete kodeeringud ümber kohandada, et teisendusvoog oleks teie andmete jaoks asjakohane.

Meil on hea meel teatada koolitatud parameetrite ümberpaigutamise funktsioonist, mis võimaldab teil kasutada varem treenitud parameetreid ja neid vastavalt soovile ümber kohandada. Selles postituses näitame, kuidas seda funktsiooni kasutada.

Ülevaade Data Wrangleri taastamisfunktsioonist

Illustreerime selle funktsiooni toimimist järgmise näitega, enne kui sukeldume kohandatud parameetrifunktsiooni eripäradesse.

Oletame, et teie kliendiandmestikul on kategooriline funktsioon country kujutatud stringidena nagu Australia ja Singapore. ML-algoritmid nõuavad numbrilisi sisendeid; seetõttu tuleb need kategoorilised väärtused kodeerida arvväärtusteks. Kategooriliste andmete kodeerimine on kategooriate arvulise esituse loomise protsess. Näiteks kui teie kategooria riigil on väärtused Australia ja Singapore, saate selle teabe kodeerida kahte vektorisse: esitamiseks [1, 0] Australia ja [0, 1] tähistamiseks Singapore. Siin kasutatav teisendus on one-hot kodeering ja uus kodeeritud väljund peegeldab treenitud parameetreid.

Pärast mudeli väljaõpetamist võivad teie kliendid aja jooksul suureneda ja teil on riikide loendis selgemad väärtused. Uus andmestik võib sisaldada teist kategooriat, India, mis ei olnud algse andmekogumi osa, mis võib mõjutada mudeli täpsust. Seetõttu on vaja oma mudelit aja jooksul kogutud uute andmetega ümber õpetada.

Selle probleemi lahendamiseks peate värskendama kodeeringut, et kaasata uus kategooria, ja värskendada vektoresitlust vastavalt oma viimasele andmekogumile. Meie näites peaks kodeering kajastama uut kategooriat country, Mis on India. Tavaliselt viitame sellele kodeeringu värskendamise protsessile kui parandustoimingule. Pärast kohandamistoimingu sooritamist saate uue kodeeringu: Australia: [1, 0, 0], Singapore: [0, 1, 0] ja India: [0, 0, 1]. Ühe kuumuse kodeeringu uuesti paigaldamine ja seejärel mudeli uues andmekogumis ümberõpe annab parema kvaliteediga ennustusi.

Data Wrangleri kohandatud parameetrite funktsioon on kasulik järgmistel juhtudel:

  • Andmekomplekti lisatakse uued andmed – ML-mudeli ümberõpe on vajalik, kui andmekogumit rikastatakse uute andmetega. Optimaalsete tulemuste saavutamiseks peame koolitatud parameetrid uues andmekogumis ümber kohandama.
  • Täieliku andmestiku koolitus pärast funktsioonide projekteerimist näidisandmete põhjal – Suure andmestiku puhul võetakse koolitatud parameetrite õppimiseks arvesse andmestiku näidist, mis ei pruugi esindada kogu teie andmestikku. Peame kogu andmestiku koolitatud parameetrid uuesti õppima.

Järgmised on mõned kõige levinumad andmehulgaga tehtud Data Wrangleri teisendused, mis saavad kasu treenitud parameetrite suvandist.

Lisateavet Data Wrangleri teisenduste kohta leiate artiklist Andmete teisendamine.

Selles postituses näitame, kuidas töödelda neid treenitud parameetreid andmekogumites Data Wrangleri abil. Saate kasutada Data Wrangleri vooge tootmistöödes, et töödelda oma andmeid nende kasvades ja muutudes.

Lahenduse ülevaade

Selle postituse jaoks demonstreerime, kuidas kasutada Data Wrangleri kohandatud parameetrite funktsiooni koos avalikult kättesaadava andmestikuga Kaagutama: USA eluasemeandmed Zillow'st, Ameerika Ühendriikides müüdavad kinnisvarad. Sellel on kodude müügihinnad erinevates kodude geodistributsioonides.

Järgmine diagramm illustreerib Data Wrangleri kõrgetasemelist arhitektuuri, kasutades koolitatud parameetrifunktsiooni. Näitame ka mõju andmete kvaliteedile ilma koolitatud parameetrita ja võrdleme tulemusi lõpus.

Töövoog sisaldab järgmisi samme:

  1. Tehke uurimuslik andmete analüüs – Uurimisandmete analüüsi (EDA) alustamiseks looge Data Wrangleris uus voog. Importige ettevõtte andmeid, et mõista, puhastada, koondada, teisendada ja koolituseks ette valmistada. Viitama Tutvuge näidisandmekogumitega Amazon SageMaker Data Wrangleri võimalustega Lisateavet Data Wrangleriga EDA teostamise kohta.
  2. Looge andmetöötlustöö – See samm ekspordib kõik andmestikus tehtud teisendused konfigureeritud faili salvestatud voofailina Amazoni lihtne salvestusteenus (Amazon S3) asukoht. Andmetöötlustöö koos Data Wrangleri loodud voofailiga rakendab teie andmekogumis õpitud teisendusi ja treenitud parameetreid. Kui andmetöötlustöö on lõpetatud, laaditakse väljundfailid üles Amazon S3 asukohta, mis on konfigureeritud sihtsõlmes. Pange tähele, et taastamise valik on vaikimisi välja lülitatud. Alternatiivina töötlemistöö kohesele täitmisele saate seda teha ka planeerida töötlemistöö mõne klõpsuga, kasutades rakendust Data Wrangler – Looge töö konkreetsetel kellaaegadel töötamiseks.
  3. Looge andmetöötlustöö koolitatud parameetri funktsiooniga – Valige töö loomise ajal uus väljaõppinud parameetrite ümberpaigutamise funktsioon, et jõustada koolitatud parameetrite ümberõppimine teie täielikus või tugevdatud andmekogus. Vastavalt Amazon S3 asukohakonfiguratsioonile voofaili salvestamiseks loob või värskendab andmetöötlustöö uue voofaili. Kui konfigureerite sama Amazon S3 asukoha nagu 2. sammus, värskendab andmetöötlustöö etapis 2 loodud voofaili, mida saab kasutada teie andmete voo asjakohasena hoidmiseks. Pärast töötlemistöö lõpetamist laaditakse väljundfailid üles sihtsõlme konfigureeritud S3 ämbrisse. Saate tootmistöövoo jaoks kasutada värskendatud voogu kogu oma andmekogumis.

Eeldused

Enne alustamist laadige andmestik üles S3 ämbrisse ja importige see seejärel Data Wranglerisse. Juhiste saamiseks vaadake Importige andmed Amazon S3-st.

Käime nüüd läbi arhitektuuriskeemil mainitud sammud.

Tehke EDA rakenduses Data Wrangler

Treenitud parameetrifunktsiooni proovimiseks seadistage Data Wrangleris järgmine analüüs ja teisendus. EDA seadistamise lõpus loob Data Wrangler voofaili, mis on salvestatud andmekogumist koolitatud parameetritega.

  1. Looge Amazon SageMaker Data Wrangleris uus voog uurimuslikuks andmete analüüsiks.
  2. Importige Amazon S3-sse üles laaditud äriandmed.
  3. Saate eelvaadata andmeid ja suvandeid failitüübi, eraldaja, proovivõtu jms valimiseks. Selle näite jaoks kasutame Esiteks K Data Wrangleri pakutav proovivõtuvõimalus esimese 50,000 XNUMX kirje importimiseks andmekogumist.
  4. Vali Import.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

  1. Pärast Data Wrangleri rakendatud andmetüüpide sobitamise kontrollimist lisage uus analüüs.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

  1. eest Analüüsi tüüp, vali Andmekvaliteedi ja ülevaate aruanne.
  2. Vali Looma.

Andmekvaliteedi ja ülevaate aruandega saate andmestiku lühikokkuvõtte koos üldise teabega, nagu puuduvad väärtused, kehtetud väärtused, funktsioonide tüübid, kõrvalekallete arvud ja palju muud. Saate valida funktsioone property_type ja city andmestikule teisenduste rakendamiseks, et mõista koolitatud parameetri funktsiooni.

Keskendume funktsioonile property_type andmestikust. Aruandes Funktsiooni üksikasjad jaotises näete property_type, mis on kategooriline funktsioon, ja kuus ainulaadset väärtust, mis on tuletatud Data Wrangleri 50,000 XNUMX valimiga andmekogumist. Täielikus andmekogumis võib funktsiooni jaoks olla rohkem kategooriaid property_type. Paljude unikaalsete väärtustega funktsiooni puhul võite eelistada järjestikust kodeeringut. Kui funktsioonil on mõned kordumatud väärtused, saab kasutada ühekordset kodeeringut. Selle näite puhul valime ühe kuuma kodeeringu sisse lülitamise property_type.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Samamoodi jaoks city funktsiooni, mis on suure hulga kordumatute väärtustega tekstiandmetüüp, rakendame sellele funktsioonile järjekorrakodeeringut.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

  1. Liikuge Data Wrangleri voogu, valige plussmärk ja valige Lisa teisendus.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

  1. Vali Kodeeri kategooriline võimalus kategooriliste tunnuste teisendamiseks.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Andmekvaliteedi ja ülevaate aruande funktsioon property_type näitab kuut ainulaadset kategooriat: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILYja TOWNHOUSE.

  1. eest Muutma, vali Ühe kuuma kodeering.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Pärast ühe kuumuse kodeeringu rakendamist funktsioonile property_type, saate vaadata kõigi kuue kategooria eelvaadet eraldi funktsioonidena, mis lisatakse uute veergudena. Pange tähele, et selle eelvaate loomiseks valiti teie andmestikust 50,000 XNUMX kirjet. Kui käitate selle vooga Data Wrangleri töötlemistööd, rakendatakse neid teisendusi kogu teie andmestikule.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

  1. Lisage uus teisendus ja valige Kategooriline kodeerimine funktsioonile teisenduse rakendamiseks city, millel on suurem arv kordumatuid kategoorilisi tekstiväärtusi.
  2. Selle funktsiooni kodeerimiseks numbriliseks esituseks valige Ordinaalkodeering eest Muutma.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

  1. Valige selle teisenduse eelvaade.

Näete, et kategooriline omadus city vastendatakse väljundi veerus järjekorraväärtustega e_city.

  1. Lisage see samm valides Värskendused.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

  1. Saate määrata sihtkohaks Amazon S3, et salvestada rakendatud teisendused andmekomplekti, et genereerida väljund CSV-failina.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Data Wrangler salvestab teie kasutajaliideses määratletud töövoo voofailina ja laadib üles konfigureeritud andmetöötlustöö Amazon S3 asukohta. Seda voofaili kasutatakse Data Wrangleri töötlemistööde loomisel, et rakendada teisendusi suurematele andmekogumitele või teisendada uusi tugevdusandmeid, et mudelit ümber õpetada.

Käivitage Data Wrangleri andmetöötlustöö ilma ümberpaigutamist lubamata

Nüüd näete, kuidas taastamisvalik kasutab uutes andmekogumites treenitud parameetreid. Selle demonstratsiooni jaoks määratleme kaks Data Wrangleri töötlemistööd, mis töötavad samadel andmetel. Esimene töötlemistöö ei võimalda taastamist; teise töötlemistöö jaoks kasutame refiti. Lõpus võrdleme mõju.

  1. Vali Loo töökoht andmetöötlustöö algatamiseks Data Wrangleriga.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

  1. eest Töö nimi, sisestage nimi.
  2. alla Treenitud parameetrid, ära vali Paigalda.
  3. Vali Konfigureerige töö.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

  1. Konfigureerige tööparameetrid, nagu eksemplari tüübid, mahu suurus ja Amazon S3 asukoht väljundvoofaili salvestamiseks.
  2. Data Wrangler loob voofaili voofaili S3 asukohta. Voog kasutab parameetrite koolitamiseks teisendusi ja hiljem kasutame nende parameetrite ümberõpetamiseks ümberpaigutamise valikut.
  3. Vali Looma.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Oodake, kuni andmetöötlustöö on lõpule viidud, et näha teisendatud andmeid sihtsõlmes konfigureeritud S3 ämbris.

Käivitage Data Wrangleri andmetöötlustöö, mille ümberpaigutamine on lubatud

Loome uue töötlemistöö, mis on lubatud, kui parameetri ümberpaigutamise funktsioon on lubatud. See suvand jõustab kogu andmestikus uuesti õpitud parameetrid. Kui see andmetöötlustöö on lõpetatud, luuakse voofail või värskendatakse seda konfigureeritud Amazon S3 asukohta.

  1. Vali Loo töökoht.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

  1. eest Töö nimi, sisestage nimi.
  2. eest Treenitud parameetridvalige Paigalda.
  3. Kui valite Vaata kõiki, saate üle vaadata kõik treenitud parameetrid.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

  1. Vali Konfigureerige töö.
  2. Sisestage Amazon S3 voofaili asukoht.
  3. Vali Looma.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Oodake, kuni andmetöötlustöö on lõpule viidud.

Määratletud teisendusi käitava andmetöötlustöö genereeritud andmete vaatamiseks vaadake sihtsõlme konfigureeritud S3 ämbrit.

Data Wrangleri töötlemistööde käitamiseks eksportige Pythoni koodi

Alternatiivina töötlemistööde käivitamisele, kasutades Data Wrangleri suvandit Loo töö, saate käivitada andmetöötlustööd, eksportides Data Wrangleri voo Jupyteri sülearvutisse. Data Wrangler loob Jupyteri sülearvuti sisendite, väljundite, töötlemistööde konfiguratsioonide ja koodiga töö oleku kontrollimiseks. Saate parameetreid muuta või värskendada vastavalt oma andmete teisendamise nõuetele.

  1. Valige finaali kõrval plussmärk Muutma sõlm.
  2. Vali Eksport kuni ja Amazon S3 (Jupyteri sülearvuti kaudu).

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Näete Jupyteri märkmikku, mis on avatud sisendite, väljundite, töötlemistööde konfiguratsioonide ja koodiga töö oleku kontrollimiseks.

  1. Koolitatud parameetrite ümberpaigutamise suvandi jõustamiseks koodi kaudu määrake refit parameeter True.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.Võrrelge andmetöötlustöö tulemusi

Kui Data Wrangleri töötlemistööd on lõpetatud, peate looma kaks uut Data Wrangleri voogu, mille väljund genereerib konfigureeritud Amazon S3 sihtkohta salvestatud andmetöötlustööd.

Saate vaadata konfigureeritud asukohta Amazon S3 sihtkaustas, et vaadata üle andmetöötlustööde väljundid.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Töötlemistöö tulemuste kontrollimiseks looge teisendustulemuste võrdlemiseks kaks uut Data Wrangleri voogu, kasutades andmete kvaliteedi ja ülevaate aruannet.

  1. Looge Amazon SageMaker Data Wrangleris uus voog.
  2. Importige andmetöötlustöö Amazon S3-st ilma taastamise lubatud väljundfailita.
  3. Lisage uus analüüs.
  4. eest Analüüsi tüüp, vali Andmekvaliteedi ja ülevaate aruanne.
  5. Vali Looma.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.
Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Korrake ülaltoodud samme ja looge uus andmevahetusvoog, et analüüsida andmetöötlustöö väljundit, kui taastamine on lubatud.

Nüüd vaatame selle funktsiooni töötlemistööde väljundeid property_type kasutades andmekvaliteedi ja ülevaate aruandeid. Kerige loendis Data and Insights Reports funktsiooni üksikasjad feature_type.

Uuesti koolitatud parameetrite töötlemise töö on koolitatud parameetrid kogu andmestikule uuesti paigaldanud ja uue väärtuse kodeerinud APARTMENT seitsme erineva väärtusega kogu andmestikus.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Tavaline töötlemistöö rakendas näidisandmestiku koolitatud parameetreid, millel on ainult kuus erinevat väärtust property_type tunnusjoon. Andmete jaoks koos feature_type APARTMENT, kehtetu käsitsemisstrateegia Vahelejätmine rakendatakse ja andmetöötlustöö ei õpi seda uut kategooriat. Ühe kuuma kodeeringuga on see uus kategooria uutel andmetel vahele jäetud ja kodeering jätab kategooria vahele APARTMENT.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Keskendume nüüd teisele funktsioonile, city. Uuesti koolitatud parameetrite töötlemise töö on kõik parameetri jaoks saadaolevad väärtused uuesti selgeks õppinud city funktsioon, arvestades uusi andmeid.

Nagu joonisel näidatud Funktsioonide kokkuvõte aruande jaotises uus kodeeritud funktsiooni veerg e_city on 100% kehtivad parameetrid, kasutades väljaõppinud parameetrite funktsiooni.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Seevastu tavalisel töötlemistööl on uues kodeeritud funktsiooni veerus puudu 82.4% väärtustest e_city. See nähtus tuleneb sellest, et kogu andmestikule rakendatakse ainult õpitud treenitud parameetrite näidiskomplekti ja andmetöötlustöö ei rakenda ühtegi ümbersobitamist.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Järgmised histogrammid kujutavad järjestikust kodeeritud funktsiooni e_city. Esimene histogramm on funktsioonist, mis on muudetud ümberpaigutamise valikuga.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Järgmine histogramm on funktsioonist, mis on teisendatud ilma ümberpaigutamisvalikuta. Oranžis veerus kuvatakse andmete kvaliteedi ja ülevaate aruandes puuduvad väärtused (NaN). Uued väärtused, mida näidisandmestikust ei õpita, asendatakse Data Wrangleri kasutajaliideses konfigureeritud väärtusega Not a Number (NaN). kehtetu käsitsemisstrateegia.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Refit-koolitatud parameetriga andmetöötlustöö õppis uuesti property_type ja city funktsioone, võttes arvesse kogu andmestiku uusi väärtusi. Ilma ümberpaigutamise koolitatud parameetrita kasutab andmetöötlustöö ainult valimi andmestiku eelõpitud koolitatud parameetreid. Seejärel rakendab see need uutele andmetele, kuid uusi väärtusi ei võeta kodeerimisel arvesse. See mõjutab mudeli täpsust.

Koristage

Kui te Data Wranglerit ei kasuta, on lisatasude vältimiseks oluline sulgeda eksemplar, millel see töötab.

Töö kaotamise vältimiseks salvestage andmevoog enne Data Wrangleri väljalülitamist.

  1. Andmevoo salvestamiseks Amazon SageMaker Studio, vali fail, siis vali Salvesta andmete Wrangler Flow. Data Wrangler salvestab teie andmevoo automaatselt iga 60 sekundi järel.
  2. Data Wrangleri eksemplari sulgemiseks Studios valige Eksemplaride ja tuumade käitamine.
  3. alla RAKENDUSTE TÖÖTAMINE, valige rakenduse sagemaker-data-wrangler-1.0 kõrval seiskamise ikoon.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

  1. Vali Pange kõik kinni kinnitada.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.

Data Wrangler töötab ml.m5.4xsuurel eksemplaril. See juhtum kaob JOOKSUJUHTUMID kui sulgete rakenduse Data Wrangler.

Pärast Data Wrangleri rakenduse sulgemist peab see järgmisel korral Data Wrangleri voofaili avamisel taaskäivitama. Selleks võib kuluda mõni minut.

Järeldus

Selles postituses andsime ülevaate Data Wrangleri koolitatud parameetrifunktsioonist. Selle uue funktsiooniga saate salvestada õpetatud parameetreid Data Wrangleri voogu ja andmetöötlustööd kasutavad õpetatud parameetreid, et rakendada õpitud teisendusi suurtele andmehulkidele või tugevdusandmekogumitele. Seda suvandit saate rakendada tekstifunktsioonide, arvandmete vektoriseerimiseks ja kõrvalekallete käsitlemiseks.

Koolitatud parameetrite säilitamine kogu ML-i elutsükli andmetöötluse ajal lihtsustab ja vähendab andmetöötlusetappe, toetab tugevat funktsioonide kavandamist ning toetab mudelikoolitust ja uute andmete tugevdamise koolitust.

Soovitame teil seda uut funktsiooni oma andmetöötlusnõuete jaoks proovida.


Autoritest

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai. Hariharan Suresh on AWSi vanemlahenduste arhitekt. Ta on kirglik andmebaaside, masinõppe ja uuenduslike lahenduste kujundamise vastu. Enne AWS-iga liitumist oli Hariharan tootearhitekt, põhipanganduse juurutamise spetsialist ja arendaja ning töötas BFSI organisatsioonidega üle 11 aasta. Väljaspool tehnikat naudib ta paraplaaniga lendamist ja jalgrattasõitu.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.Santosh Kulkarni on ettevõtte Amazon Web Services Enterprise Solutionsi arhitekt, kes töötab spordiklientidega Austraalias. Ta on kirglik suuremahuliste hajutatud rakenduste loomise vastu, et lahendada äriprobleeme, kasutades oma teadmisi tehisintellekti/ML-i, suurandmete ja tarkvaraarenduse vallas.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.Vishaal Kapoor on AWS AI-ga vanemrakendusteadlane. Ta on kirglik aidata klientidel nende andmeid Data Wrangleris mõista. Vabal ajal sõidab ta maastikurattaga, sõidab lumelauaga ja veedab aega perega.

Paigaldage väljaõppinud parameetrid suurtele andmekogumitele, kasutades Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'i. Vertikaalne otsing. Ai.Aniketh Manjunath on Amazon SageMakeri tarkvaraarenduse insener. Ta aitab toetada Amazon SageMaker Data Wranglerit ja on kirglik hajutatud masinõppesüsteemide vastu. Väljaspool tööd meeldib talle matkata, filme vaadata ja kriketit mängida.

Ajatempel:

Veel alates AWS-i masinõpe