Amazon SageMaker Data Wrangler vähentää aikaa, joka kuluu tietojen kokoamiseen ja valmisteluun koneoppimista varten (ML) viikoista minuutteihin Amazon SageMaker Studio, ensimmäinen täysin integroitu kehitysympäristö (IDE) ML:lle. Data Wranglerin avulla voit yksinkertaistaa tietojen valmistelua ja ominaisuuksien suunnittelua ja suorittaa tietojen valmistelutyön jokaisen vaiheen, mukaan lukien tietojen valinnan, puhdistamisen, tutkimisen ja visualisoinnin, yhdestä visuaalisesta käyttöliittymästä. Voit tuoda tietoja useista tietolähteistä, kuten Amazonin yksinkertainen tallennuspalvelu (Amazon S3), Amazonin punainen siirto, Lumihiutaleja 26 yhdistettyä kyselytietolähdettä tukema Amazon Athena.
Tästä päivästä alkaen, kun tuot tietoja Athena-tietolähteistä, voit määrittää S3-kyselyn lähtöpaikan ja tietojen säilytysajan tuomaan tietoja Data Wrangleriin hallitaksesi, missä ja kuinka kauan Athena tallentaa välittäjätietoja. Tässä viestissä opastamme sinut tämän uuden ominaisuuden läpi.
Ratkaisun yleiskatsaus
Athena on interaktiivinen kyselypalvelu, jonka avulla on helppo selata AWS-liima Data Catalog ja analysoida tietoja Amazon S3:ssa ja 26 yhdistetyssä kyselytietolähteessä käyttämällä tavallista SQL:ää. Kun käytät Athenaa tietojen tuomiseen, voit käyttää Data Wranglerin oletusarvoista S3-sijaintia Athena-kyselyn lähtöön tai määrittää Athena-työryhmän pakottamaan mukautetun S3-sijainnin. Aiemmin sinun piti ottaa käyttöön puhdistustyönkulkuja näiden välitietojen poistamiseksi tai määrittää manuaalisesti S3-elinkaarimääritykset varastointikustannusten hallitsemiseksi ja organisaatiosi tietoturvavaatimusten täyttämiseksi. Tämä on suuri toiminnallinen lisäkustannus, eikä sitä voi skaalautua.
Data Wrangler tukee nyt mukautettuja S3-sijainteja ja tietojen säilytysaikoja Athena-kyselytulosteessasi. Tämän uuden ominaisuuden avulla voit muuttaa Athena-kyselyn tulostussijainnin mukautetuksi S3-säilöksi. Sinulla on nyt oletusarvoinen 5 päivän tietojen säilytyskäytäntö Athena-kyselyn lähdölle, ja voit muuttaa tätä vastaamaan organisaatiosi tietoturvavaatimuksia. Säilytysjakson perusteella Athena-kyselytulos S3-säilössä siivotaan automaattisesti. Kun olet tuonut tiedot, voit suorittaa tutkimustietoanalyysin tälle tietojoukolle ja tallentaa puhtaat tiedot takaisin Amazon S3:een.
Seuraava kaavio kuvaa tätä arkkitehtuuria.
Käyttötapauksessamme käytämme ratkaisun läpikäymiseen esimerkkipankkitietoaineistoa. Työnkulku koostuu seuraavista vaiheista:
- Lataa näytetiedosto ja lataa se S3-ämpäriin.
- Aseta AWS-liima tela indeksoidaksesi skeeman ja tallentaaksesi metatietoskeeman AWS Glue Data Catalogiin.
- Käytä Athenaa päästäksesi tietokatalogiin ja kysyäksesi tietoja S3-säilöstä.
- Luo uusi Data Wrangler -kulku yhdistääksesi Athenaan.
- Kun luot yhteyttä, aseta tietojoukolle säilytys-TTL.
- Käytä tätä yhteyttä työnkulussa ja tallenna puhtaat tiedot toiseen S3-ämpäriin.
Yksinkertaisuuden vuoksi oletamme, että olet jo määrittänyt Athena-ympäristön (vaiheet 1–3). Tässä viestissä kerromme yksityiskohtaisesti seuraavista vaiheista.
Edellytykset
Jos haluat määrittää Athena-ympäristön, katso Käyttöopas saadaksesi vaiheittaiset ohjeet ja suorita vaiheet 1–3 edellisen osan mukaisesti.
Tuo tietosi Athenasta Data Wrangleriin
Tuo tietosi suorittamalla seuraavat vaiheet:
- Valitse Studio-konsolista Esittelymateriaalit -kuvaketta navigointiruudussa.
- Valita Data Wrangler avattavasta valikosta.
- Valita Uusi virtaus.
- On Tuo välilehti, valitse Amazon Athena.
Näyttöön tulee tietosivu, jolla voit muodostaa yhteyden Athenaan ja kirjoittaa SQL-kyselyn tietokannasta tuotavaksi. - Anna yhteydellesi nimi.
- Laajentaa Lisäasetukset.
Yhdistettäessä Athenaan Data Wrangler käyttää Amazon S3:a kyselyn tietojen vaiheittamiseen. Oletuksena nämä tiedot lavastetaan S3-paikkaans3://sagemaker-{region}-{account_id}/athena/
joiden säilytysaika on 5 päivää. - varten Amazon S3 kyselyn tulosten sijainti, anna S3-sijaintisi.
- valita Tietojen säilytysaika ja aseta tietojen säilytysaika (tälle viestille 1 päivä).
Jos poistat tämän vaihtoehdon valinnan, tiedot säilyvät ikuisesti.Kulissien takana Data Wrangler liittää S3-elinkaarimäärityskäytännön kyseiseen S3-sijaintiin automaattisesti puhdistaakseen. Katso seuraava esimerkkikäytäntö:Tarvitset
s3:GetLifecycleConfiguration
jas3:PutLifecycleConfiguration
jotta SageMaker-suoritusrooli soveltaa elinkaaren määrityskäytäntöjä oikein. Ilman näitä oikeuksia saat virheilmoituksia, kun yrität tuoda tietoja.Seuraava virheilmoitus on esimerkki puuttuvasta
GetLifecycleConfiguration
lupa.Seuraava virheilmoitus on esimerkki puuttuvasta
PutLifecycleConfiguration
lupa. - Valinnaisesti Workgroup, voit määrittää Athena-työryhmän.
Athena-työryhmä eristää käyttäjät, ryhmät, sovellukset tai työkuormat ryhmiin, joilla kullakin on omat käyttöoikeutensa ja määritysasetukset. Kun määrität työryhmän, Data Wrangler perii Athenassa määritetyn työryhmäasetuksen. Jos työryhmällä on esimerkiksi S3-sijainti, joka on määritetty tallentamaan kyselyn tulokset ja ottaa käyttöön Ohita asiakaspuoli asetukset, et voi muokata S3-kyselyn tulosten sijaintia.Data Wrangler tallentaa oletuksena myös Athena-yhteyden puolestasi. Tämä näkyy uutena Athena-laatana Tuo -välilehti. Voit aina avata yhteyden uudelleen tehdäksesi kyselyitä ja tuodaksesi erilaisia tietoja Data Wrangleriin. - Poista valinta Tallenna yhteys jos et halua tallentaa yhteyttä.
- Määritä Athena-yhteys valitsemalla Ei eristetty varten Näytteenotto tuodaksesi koko tietojoukon.
Suurille tietojoukoille Data Wranglerin avulla voit tuoda osajoukon tiedoistasi muunnostyönkulun rakentamiseksi ja käsitellä koko tietojoukkoa vasta, kun olet valmis. Tämä nopeuttaa iterointisykliä ja säästää käsittelyaikaa ja kustannuksia. Saat lisätietoja erilaisista käytettävissä olevista datanäytteenottovaihtoehdoista osoitteessa Amazon SageMaker Data Wrangler tukee nyt satunnaisotantaa ja ositettua otantaa. - varten Tietoluettelo¸ valitse AwsDataCatalog.
- varten tietokanta, valitse tietokanta.
Data Wrangler näyttää käytettävissä olevat taulukot. Voit valita jokaisen taulukon tarkistaaksesi skeeman ja esikatsellaksesi tietoja. - Kirjoita kyselykenttään seuraava koodi:
- Valita ajaa esikatsellaksesi tietoja.
- Jos kaikki näyttää hyvältä, valitse Tuo.
- Anna tietojoukon nimi ja valitse Lisää tuodaksesi tiedot Data Wrangler -työtilaan.
Analysoi ja käsittele tietoja Data Wranglerilla
Kun olet ladannut tiedot Data Wrangleriin, voit tehdä tutkivan data-analyysin (EDA) ja valmistella tiedot koneoppimista varten.
- Valitse plusmerkki vierestä
bank-data
tietojoukko tietovirrassa ja valitse Lisää analyysi.
Data Wrangler tarjoaa sisäänrakennettuja analyysejä, kuten Data Quality and Insights -raportin, tietojen korrelaation, harjoittelua edeltävän harharaportin, yhteenvedon tietojoukostasi ja visualisointeja (kuten histogrammeja ja hajontakaavioita). Lisäksi voit luoda oman mukautetun visualisoinnin. - varten Analyysityyppi¸ valitse Tietojen laatu- ja tilastoraportti.
Tämä luo automaattisesti visualisointeja, analyyseja tietojen laatuongelmien tunnistamiseksi ja suosituksia tietojoukkollesi tarvittavista oikeista muunnoksista. - varten Kohdesarake, valitse Y.
- Koska tämä on luokitteluongelmalause Ongelman tyyppivalitse Luokittelu.
- Valita luoda.
Data Wrangler luo yksityiskohtaisen raportin tietojoukostasi. Voit myös ladata raportin paikalliselle koneellesi. - Valitse tietojen valmistelua varten plusmerkki tietokulussa pankkitietojoukon vierestä ja valitse Lisää muunnos.
- Valita Lisää vaihe aloittaaksesi muutosten rakentamisen.
Tätä kirjoitettaessa Data Wrangler tarjoaa yli 300 sisäänrakennettua muunnosa. Voit myös kirjoittaa omia muunnoksiasi Pandasin tai PySparkin avulla.
Nyt voit alkaa rakentaa muutoksiasi ja analyysejäsi yrityksesi vaatimusten perusteella.
Puhdistaa
Voit välttää jatkuvia kustannuksia poistamalla Data Wrangler -resurssit alla olevien ohjeiden mukaisesti, kun olet valmis.
- Valitse Suorittavat ilmentymät ja ytimet -kuvake.
- Napsauta KÄYNNISSÄ SOVELLUKSET -kohdassa sammutuskuvaketta -kohdan vieressä
sagemaker-data-wrangler-1.0 app
. - Vahvista valitsemalla Sammuta kaikki.
Yhteenveto
Tässä viestissä annoimme yleiskatsauksen S3-sijainnin mukauttamisesta ja S3-elinkaarikonfiguraatioiden sallimisesta tietojen tuomiseksi Athenasta Data Wrangleriin. Tämän ominaisuuden avulla voit tallentaa välittäjätietoja suojattuun S3-paikkaan ja poistaa datakopion automaattisesti säilytysajan jälkeen, jotta tietoihin pääsee luvatta. Suosittelemme kokeilemaan tätä uutta ominaisuutta. Onnellista rakentamista!
Saat lisätietoja Athenasta ja SageMakerista vierailemalla osoitteessa Athena -käyttöopas ja Amazon SageMaker -dokumentaatio.
Tietoja kirjoittajista
Meenakshisundaram Thandavarayan on vanhempi AI/ML-asiantuntija, jolla on AWS. Hän auttaa huipputeknologian strategisia tilejä heidän tekoäly- ja ML-matkallaan. Hän on erittäin intohimoinen tietopohjaiseen tekoälyyn.
Harish Rajagopalan on vanhempi ratkaisuarkkitehti Amazon Web Servicesissä. Harish työskentelee yritysasiakkaiden kanssa ja auttaa heitä heidän pilvimatkallaan.
James Wu on AWS:n vanhempi AI/ML-asiantuntijaratkaisuarkkitehti. auttaa asiakkaita suunnittelemaan ja rakentamaan AI/ML-ratkaisuja. Jamesin työ kattaa laajan valikoiman ML-käyttötapauksia, ja hänen ensisijaisena kiinnostuksena ovat tietokonenäkö, syväoppiminen ja ML:n skaalaaminen koko yrityksessä. Ennen AWS:ään liittymistään James oli arkkitehti, kehittäjä ja teknologiajohtaja yli 10 vuoden ajan, joista 6 vuotta suunnittelussa ja 4 vuotta markkinointi- ja mainontateollisuudessa.
- AI
- ai taide
- ai taiteen generaattori
- ai robotti
- Amazon Athena
- Amazon Sage Maker
- Amazon SageMaker Data Wrangler
- Amazon Simple Storage Service (S3)
- tekoäly
- tekoälyn sertifiointi
- tekoäly pankkitoiminnassa
- tekoäly robotti
- tekoälyrobotit
- tekoälyohjelmisto
- AWS-koneoppiminen
- blockchain
- blockchain-konferenssi ai
- coingenius
- keskustelullinen tekoäly
- kryptokonferenssi ai
- dall's
- syvä oppiminen
- google ai
- koneoppiminen
- Platon
- plato ai
- Platonin tietotieto
- Platon peli
- PlatonData
- platopeliä
- mittakaava ai
- syntaksi
- zephyrnet