Datatieteen ja tietotekniikan tiimit viettävät merkittävän osan ajastaan koneoppimisen (ML) elinkaaren tietojen valmisteluvaiheessa suorittaen tiedon valinta-, puhdistus- ja muunnosvaiheita. Se on välttämätön ja tärkeä vaihe missä tahansa ML-työnkulussa, jotta voidaan luoda merkityksellisiä oivalluksia ja ennusteita, koska huono tai heikkolaatuinen data vähentää suuresti johdettujen oivallusten merkitystä.
Tietojen suunnittelutiimit ovat perinteisesti vastuussa raakadatan vastaanottamisesta, yhdistämisestä ja muuntamisesta jatkokulutusta varten. Datatieteilijöiden on usein suoritettava lisäkäsittelyä datalle verkkotunnuskohtaisissa ML-käyttötapauksissa, kuten luonnollisessa kielessä ja aikasarjoissa. Esimerkiksi tietyt ML-algoritmit voivat olla herkkiä puuttuville arvoille, harvoille ominaisuuksille tai poikkeaville arvoille ja vaatia erityistä huomiota. Jopa tapauksissa, joissa tietojoukko on hyvässä kunnossa, datatutkijat saattavat haluta muuttaa ominaisuusjakaumia tai luoda uusia ominaisuuksia maksimoidakseen malleista saadut oivallukset. Saavuttaakseen nämä tavoitteet datatieteilijöiden on turvauduttava tietotekniikkaryhmiin, jotka mukautuvat pyydettyihin muutoksiin, mikä johtaa riippuvuuteen ja viivästymiseen mallin kehitysprosessissa. Vaihtoehtoisesti datatieteen tiimit voivat suorittaa tietojen valmistelun ja ominaisuuksien suunnittelun sisäisesti käyttämällä erilaisia ohjelmointiparadigmoja. Se vaatii kuitenkin aikaa ja vaivaa kirjastojen ja kehysten asennukseen ja konfigurointiin, mikä ei ole ihanteellinen, koska se aika voidaan käyttää paremmin mallin suorituskyvyn optimointiin.
Amazon SageMaker Data Wrangler yksinkertaistaa tietojen valmistelua ja ominaisuuksien suunnitteluprosessia, mikä vähentää tietojen kokoamiseen ja valmisteluun kuluvaa aikaa viikoista minuutteihin tarjoamalla yhden visuaalisen käyttöliittymän datatieteilijöille, jotka voivat valita, puhdistaa ja tutkia tietojoukkojaan. Data Wrangler tarjoaa yli 300 sisäänrakennettua datamuunnosa, jotka auttavat normalisoimaan, muuntamaan ja yhdistämään ominaisuuksia ilman koodin kirjoittamista. Voit tuoda tietoja useista tietolähteistä, kuten Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazonin punainen siirtoja Lumihiutale. Nyt voit myös käyttää Tietokannat Data Wranglerin tietolähteenä tietojen helpon valmistelemiseksi ML:ää varten.
Databricks Lakehouse Platform yhdistää datalakkien ja tietovarastojen parhaat elementit tarjotakseen tietovarastojen luotettavuuden, vahvan hallinnan ja suorituskyvyn sekä datalakkien avoimuuden, joustavuuden ja koneoppimisen tuen. Kun Databricks on Data Wranglerin tietolähde, voit muodostaa nyt nopeasti ja helposti yhteyden Databricksiin, tehdä interaktiivisia kyselyitä Databricksiin tallennetuista tiedoista SQL:n avulla ja esikatsella tietoja ennen tuontia. Lisäksi voit yhdistää Databricks-tietosi Amazon S3:een tallennettuihin tietoihin ja Amazon Athenan, Amazon Redshiftin ja Snowflaken kautta kysyttyihin tietoihin luodaksesi oikean tietojoukon ML-käyttötapaukseesi.
Tässä viestissä muunnamme Lending Club Loan -tietojoukon käyttämällä Amazon SageMaker Data Wrangleria käytettäväksi ML-mallikoulutuksessa.
Ratkaisun yleiskatsaus
Seuraava kaavio kuvaa ratkaisuarkkitehtuuriamme.
Lainaklubin lainatietoaineisto sisältää täydelliset lainatiedot kaikista vuosina 2007–2011 myönnetyistä lainoista, mukaan lukien lainan nykyinen tila ja viimeisimmät maksutiedot. Siinä on 39,717 22 riviä, 3 ominaisuussaraketta ja XNUMX kohdetunnistetta.
Muuntaaksemme tietomme Data Wranglerin avulla suoritamme seuraavat korkean tason vaiheet:
- Lataa ja jaa tietojoukko.
- Luo Data Wrangler -kulku.
- Tuo data Databricksistä Data Wrangleriin.
- Tuo tiedot Amazon S3:sta Data Wrangleriin.
- Yhdistä tiedot.
- Käytä muunnoksia.
- Vie tietojoukko.
Edellytykset
Viesti olettaa, että sinulla on käynnissä Databricks-klusteri. Jos klusterisi toimii AWS:ssä, varmista, että olet määrittänyt seuraavat:
Databricks-asetus
- An esiintymän profiili joilla on tarvittavat oikeudet käyttää S3-säilöä
- A ämpäripolitiikka vaadittavat oikeudet kohde-S3-säilölle
seurata S3-ryhmien suojattu käyttö ilmentymäprofiilien avulla vaaditulle AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) roolit, S3-säilön käytäntö ja Databricks-klusterin määritys. Varmista, että Databricks-klusteri on määritetty oikein Instance Profile
, joka on valittu lisäasetuksista päästäksesi haluttuun S3-alueeseen.
Kun Databricks-klusteri on valmis ja käytössä vaaditulla Amazon S3:n käyttöoikeudella, voit noutaa JDBC URL
Databricks-klusteristasi, jotta Data Wrangler voi muodostaa yhteyden siihen.
Hae JDBC URL
Voit hakea JDBC-URL-osoitteen suorittamalla seuraavat vaiheet:
- Siirry Databricksissä klusterien käyttöliittymään.
- Valitse klusteri.
- On Konfigurointi välilehti, valitse Lisäasetukset.
- Alle Lisäasetukset, Valitse JDBC/ODBC Tab.
- Kopioi JDBC-URL-osoite.
Muista korvata henkilökohtainen pääsysi symbolinen URL-osoitteessa.
Data Wrangler -asetukset
Tämä vaihe olettaa, että sinulla on pääsy Amazon SageMakeriin, joka on esiintymä Amazon SageMaker Studioja Studion käyttäjä.
Studion käyttäjä tarvitsee seuraavan luvan salliakseen pääsyn Databricks JDBC -yhteyteen Data Wranglerista:
secretsmanager:PutResourcePolicy
Noudata alla olevia ohjeita päivittääksesi Studio-käyttäjälle, jolla on yllä oleva lupa, IAM-järjestelmänvalvojana määritetty IAM-suoritusrooli.
- Valitse IAM-konsolista Roolit navigointipaneelissa.
- Valitse Studio-käyttäjällesi määritetty rooli.
- Valita Lisää käyttöoikeudet.
- Valita Luo sisäinen käytäntö.
- Valitse Palveluksi Salaisuuksien johtaja.
- On Toiminnot, valitse Käyttöoikeustaso.
- Valita Käyttöoikeuksien hallinta.
- Valita PutResourcePolicy.
- varten Esittelymateriaalit, valitse Erityinen ja valitse Mikä tahansa tällä tilillä.
Lataa ja jaa tietojoukko
Voit aloittaa tietojoukon lataaminen. Esittelytarkoituksessa jaoimme tietojoukon kopioimalla ominaisuussarakkeet id
, emp_title
, emp_length
, home_owner
ja annual_inc
luodaksesi toisen lainat_2.csv tiedosto. Poistamme edellä mainitut sarakkeet alkuperäisestä lainatiedostosta paitsi id
sarake ja nimeä alkuperäinen tiedosto uudelleen lainat_1.csv. Lataa lainat_1.csv tiedosto Tietokannat taulukon luomiseen loans_1
ja lainat_2.csv S3-ämpäriin.
Luo Data Wrangler -kulku
Lisätietoja Data Wranglerin edellytyksistä, katso Aloita Data Wranglerin käyttö.
Aloitetaan luomalla uusi tietovirta.
- Studio-konsolissa filee valikosta, valitse Uusi.
- Valita Data Wrangler -virtaus.
- Nimeä kulku uudelleen haluamallasi tavalla.
Vaihtoehtoisesti voit luoda uuden tietovirran käynnistysohjelmasta.
Uuden työnkulun luominen voi kestää muutaman minuutin. Kun virta on luotu, näet Tuo päivämäärät sivu.
Tuo data Databricksistä Data Wrangleriin
Seuraavaksi määritimme Databricksin (JDBC) tietolähteeksi Data Wranglerissa. Tietojen tuomiseksi Databricksistä meidän on ensin lisättävä Databricks tietolähteeksi.
- On Tuo päivämäärät Data Wrangler -kulkusi välilehti, valitse Lisää tietolähde.
- Valitse avattavasta valikosta Databricks (JDBC).
On Tuo data Databricksistä sivulla, annat klusterin tiedot.
- varten Tietojoukon nimi, kirjoita nimi, jota haluat käyttää vuotiedostossa.
- varten kuljettaja, valitse kuljettaja
com.simba.spark.jdbc.Driver
. - varten JDBC URL, anna aiemmin hankitun Databricks-klusterin URL-osoite.
URL-osoitteen tulee muistuttaa seuraavaa muotoa jdbc:spark://<serve- hostname>:443/default;transportMode=http;ssl=1;httpPath=<http- path>;AuthMech=3;UID=token;PWD=<personal-access-token>
.
- Määritä SQL-kyselyeditorissa seuraava SQL SELECT -käsky:
Jos valitsit toisen taulukon nimen lataaessasi tietoja Databricksiin, korvaa lainat_1 yllä olevassa SQL-kyselyssä vastaavasti.
In SQL-kysely Data Wranglerin osiossa voit tehdä kyselyn mistä tahansa JDBC Databricks -tietokantaan yhdistetystä taulukosta. Esivalitut Ota otanta käyttöön asetus hakee oletuksena tietojoukon ensimmäiset 50,000 XNUMX riviä. Tietojoukon koosta riippuen valinta poistetaan Ota otanta käyttöön voi johtaa pidemmän tuontiajan.
- Valita ajaa.
Kyselyn suorittaminen antaa esikatselun Databricks-tietojoukosta suoraan Data Wranglerissa.
Data Wrangler tarjoaa joustavuuden muodostaa useita samanaikaisia yhteyksiä yhteen Databricks-klusteriin tai tarvittaessa useisiin klustereihin, mikä mahdollistaa yhdistettyjen tietojoukkojen analysoinnin ja valmistelun.
Tuo tiedot Amazon S3:sta Data Wrangleriin
Tuodaan seuraavaksi loan_2.csv
tiedosto Amazon S3:sta.
Kun valitset CSV-tiedoston, voit esikatsella tietoja.
- In Lisätiedot ruutu, valitse Lisäasetukset varmistaa Ota otanta käyttöön on valittu ja KOHTA on valittu delimiter.
- Valita Tuo.
Jälkeen loans_2.csv
tietojoukon tuonti onnistui, tietovirran käyttöliittymä näyttää sekä Databricks JDBC- että Amazon S3 -tietolähteet.
Yhdistä tiedot
Nyt kun olemme tuoneet dataa Databricksistä ja Amazon S3:sta, yhdistetään tietojoukot käyttämällä yhteistä yksilöivää tunnistesaraketta.
- On Tietovirta välilehti Tietotyypit, valitse plusmerkki
loans_1
. - Valita Liity.
- Valitse
loans_2.csv
tiedosto nimellä Oikea aineisto. - Valita Configure asettaaksesi liittymiskriteerit.
- varten Nimi, anna liitoksen nimi.
- varten Liity tyyppi, valitse Sisempi tätä postausta varten.
- Valitse
id
sarake, johon voit liittyä. - Valita käyttää esikatsellaksesi yhdistettyä tietojoukkoa.
- Valita Lisää lisätäksesi sen tietovirtaan.
Käytä muunnoksia
Data Wrangler sisältää yli 300 sisäänrakennettua muunnosa, jotka eivät vaadi koodausta. Käytetään sisäänrakennettuja muunnoksia tietojoukon valmistelemiseen.
Pudota sarake
Ensin pudotetaan tarpeeton ID-sarake.
- Valitse liitetyn solmun plusmerkki.
- Valita Lisää muunnos.
- Alle Muuntaa, valita + Lisää vaihe.
- Valita Hallitse sarakkeita.
- varten Muuttaa, valitse Pudota sarake.
- varten Pudotettavat sarakkeet, valitse sarake
id_0
. - Valita preview.
- Valita Lisää.
Alusta merkkijono
Sovelletaan merkkijonomuotoilua prosenttisymbolin poistamiseksi int_rate
ja revol_util
sarakkeita.
- On Päiväys välilehti muunnokset, valitse + Lisää vaihe.
- Valita Alusta merkkijono.
- varten Muuttaa, valitse Poista merkit oikealta.
Data Wranglerin avulla voit käyttää valitsemaasi muunnosa useissa sarakkeissa samanaikaisesti.
- varten Syötä sarakkeet, valitse
int_rate
jarevol_util
. - varten Poistettavat merkit, tulla sisään
%
. - Valita preview.
- Valita Lisää.
Esittele tekstiä
Nyt vektorisoidaan verification_status
, tekstiominaisuussarake. Muunnamme tekstisarakkeen termitaajuus–käänteisasiakirjataajuus (TF-IDF) -vektoreiksi käyttämällä laskentavektoria ja standardia tokenisoijaa alla kuvatulla tavalla. Data Wrangler tarjoaa myös mahdollisuuden tuoda halutessasi oman tokenisaattorisi.
- Alle Muuntajat, valitse + Lisää vaihe.
- Valita Esittele tekstiä.
- varten Muuttaa, valitse Vektorisoida.
- varten Syötä sarakkeet, valitse
verification_status
. - Valita preview.
- Valita Lisää.
Vie tietojoukko
Kun olemme käyttäneet useita muunnoksia eri saraketyypeissä, mukaan lukien teksti, kategorinen ja numeerinen, olemme valmiita käyttämään muunnettua tietojoukkoa ML-mallin harjoittamiseen. Viimeinen vaihe on viedä muunnettu tietojoukko Amazon S3:een. Data Wranglerissa voit valita useista vaihtoehdoista muunnosten loppupään kulutukseen:
- Valita Vie vaihe luodaan automaattisesti Jupyter-muistikirja SageMaker Processing -koodilla prosessointia varten ja viedään muunnettu tietojoukko S3-ämpäriin. Lisätietoja on kohdassa Käynnistä käsittelytyöt muutamalla napsautuksella Amazon SageMaker Data Wrangler -sovelluksella.
- Vie Studio-muistikirja, joka luo a SageMaker-putki tietovirtasi kanssa tai muistikirja, joka luo Amazon SageMaker -ominaisuuskauppa ominaisuusryhmä ja lisää ominaisuuksia offline- tai online-ominaisuuskauppaan.
- Valita Vie tietoja viedä suoraan Amazon S3:een.
Tässä viestissä hyödynnämme Vie tietoja vaihtoehto Muuttaa näkymä viedäksesi muunnetun tietojoukon suoraan Amazon S3:een.
Puhdistaa
Jos työsi Data Wranglerin kanssa on valmis, sammuta Data Wrangler -esiintymäsi välttää lisämaksuja.
Yhteenveto
Tässä viestissä käsittelimme, kuinka voit nopeasti ja helposti määrittää ja yhdistää Databricksin tietolähteeksi Data Wranglerissa, tehdä interaktiivisia kyselyitä Databricksiin tallennetuista tiedoista SQL:n avulla ja esikatsella tietoja ennen tuontia. Lisäksi tarkastelimme, kuinka voit yhdistää Databricks-tietosi Amazon S3:een tallennettuihin tietoihin. Käytimme sitten datamuunnoksia yhdistetyssä tietojoukossa tietojen valmisteluprosessin luomiseksi. Lisätietoja Data Wranglerin analyysiominaisuuksista, mukaan lukien kohdevuoto- ja harharaporttien luominen, on seuraavassa blogikirjoituksessa. Nopeuta tietojen valmistelua käyttämällä Amazon SageMaker Data Wrangleria diabeettisten potilaiden takaisinoton ennustamiseen.
Jos haluat aloittaa Data Wranglerin käytön, katso Valmista ML-tiedot Amazon SageMaker Data Wrangler -sovelluksellaja katso uusimmat tiedot Data Wranglerista Tuotesivu.
Tietoja Tekijät
Roop Bains on AWS:n ratkaisuarkkitehti, joka keskittyy AI/ML:ään. Hän on intohimoinen auttamaan asiakkaita innovoimaan ja saavuttamaan liiketoimintatavoitteensa tekoälyn ja koneoppimisen avulla. Vapaa-ajallaan Roop pitää lukemisesta ja patikoinnista.
Igor Alekseev on kumppaniratkaisuarkkitehti AWS:ssä Data and Analyticsissa. Igor työskentelee strategisten kumppaneiden kanssa auttaen heitä rakentamaan monimutkaisia, AWS-optimoituja arkkitehtuureja. Ennen liittymistään AWS:ään Data/Solution Architectina hän toteutti monia Big Datan projekteja, mukaan lukien useita Hadoop-ekosysteemin datajärviä. Tietoinsinöörinä hän oli mukana soveltamassa AI/ML:ää petosten havaitsemiseen ja toimistoautomaatioon. Igorin projektit olivat useilla aloilla, mukaan lukien viestintä, rahoitus, yleinen turvallisuus, valmistus ja terveydenhuolto. Aiemmin Igor työskenteli täyspinon insinöörinä/teknologiajohtajana.
Huong Nguyen on AWS: n vanhempi tuotepäällikkö. Hän johtaa SageMaker Studion käyttäjäkokemusta. Hänellä on 13 vuoden kokemus asiakkaan pakkomielteisten ja tietoihin perustuvien tuotteiden luomisesta sekä yritys- että kuluttajatiloille. Vapaa-ajallaan hän nauttii lukemisesta, luonnossa olemisesta ja viettää aikaa perheensä kanssa.
Henry Wang on ohjelmistokehitysinsinööri AWS:ssä. Hän liittyi äskettäin Data Wrangler -tiimiin valmistuttuaan UC Davisista. Hän on kiinnostunut datatieteestä ja koneoppimisesta ja tekee 3D-tulostusta harrastuksena.
- Coinsmart. Euroopan paras Bitcoin- ja kryptopörssi.
- Platoblockchain. Web3 Metaverse Intelligence. Tietoa laajennettu. VAPAA PÄÄSY.
- CryptoHawk. Altcoinin tutka. Ilmainen kokeilu.
- Lähde: https://aws.amazon.com/blogs/machine-learning/prepare-data-from-databricks-for-machine-learning-using-amazon-sagemaker-data-wrangler/
- "
- 000
- 100
- 39
- 3d
- Meistä
- pääsy
- majoittaa
- lisä-
- kehittynyt
- Etu
- algoritmit
- Kaikki
- Amazon
- analyysi
- Analytics
- Hakeminen
- arkkitehtuuri
- keinotekoinen
- tekoäly
- Keinotekoinen älykkyys ja koneoppiminen
- osoitettu
- Automaatio
- AWS
- ovat
- PARAS
- Big Data
- Blogi
- reunus
- rakentaa
- sisäänrakennettu
- liiketoiminta
- kyvyt
- tapauksissa
- Valita
- Siivous
- maila
- koodi
- Koodaus
- Sarake
- yhdistetty
- Yhteinen
- Yhteydenpito
- monimutkainen
- Konfigurointi
- kytketty
- liitäntä
- Liitännät
- harkinta
- Console
- vakauttaminen
- kuluttaja
- kulutus
- sisältää
- luotu
- luo
- Luominen
- Nykyinen
- Asiakkaat
- tiedot
- tietojenkäsittely
- tietokanta
- viivyttää
- Riippuen
- Detection
- Kehitys
- eri
- suoraan
- näytöt
- alas
- kuljettaja
- Pudota
- helposti
- ekosysteemi
- toimittaja
- mahdollistaa
- mahdollistaa
- insinööri
- Tekniikka
- enter
- yritys
- esimerkki
- Paitsi
- teloitus
- experience
- tutkia
- perhe
- Ominaisuus
- Ominaisuudet
- Maksut
- rahoittaa
- Etunimi
- Joustavuus
- virtaus
- jälkeen
- muoto
- petos
- koko
- tuottaa
- sukupolvi
- hyvä
- hallinto
- Ryhmä
- terveydenhuollon
- auttaa
- Miten
- HTTPS
- Identiteetti
- täytäntöön
- tärkeä
- tuovan
- Mukaan lukien
- teollisuuden
- tiedot
- oivalluksia
- Älykkyys
- korko
- liitäntä
- investointi
- osallistuva
- IT
- Työpaikat
- yhdistää
- liittyi
- tarrat
- Kieli
- uusin
- johtaa
- johtava
- oppiminen
- luotonanto
- Lainat
- Katsoin
- kone
- koneoppiminen
- johtaja
- valmistus
- ML
- malli
- mallit
- lisää
- moninkertainen
- Luonnollinen
- luonto
- suunnistus
- Uudet ominaisuudet
- muistikirja
- Tarjoukset
- offline
- verkossa
- Vaihtoehto
- Vaihtoehdot
- tilata
- oma
- kumppani
- kumppani
- intohimoinen
- maksu
- osuus
- suorituskyky
- henkilöstö
- vaihe
- foorumi
- politiikka
- Ennusteet
- preview
- prosessi
- Tuotteet
- Tuotteemme
- Ohjelmointi
- hankkeet
- tarjoaa
- tarjoamalla
- julkinen
- tarkoituksiin
- nopeasti
- raaka
- Lukeminen
- vähentämällä
- raportti
- edellyttää
- tarvitaan
- vastuullinen
- juoksu
- Turvallisuus
- tiede
- tutkijat
- valittu
- Sarjat
- palvelu
- setti
- asetus
- merkittävä
- Yksinkertainen
- Koko
- Tuotteemme
- ohjelmistokehitys
- ratkaisu
- Ratkaisumme
- tilat
- viettää
- menot
- jakaa
- pino
- standardi
- Alkaa
- alkoi
- Lausunto
- Tila
- Levytila
- verkkokaupasta
- Strateginen
- vahva
- studio
- Onnistuneesti
- tuki
- Kohde
- joukkue-
- Kautta
- aika
- koulutus
- Muuttaa
- Muutos
- ui
- unique
- Päivitykset
- käyttää
- lajike
- eri
- vaikka
- ilman
- Referenssit
- työskenteli
- toimii
- kirjoittaminen