Valmistele dataa databricksistä koneoppimiseen käyttämällä Amazon SageMaker Data Wrangleria

Julkaissut Platon

seuraajia: 0

Datatieteen ja tietotekniikan tiimit viettävät merkittävän osan ajastaan koneoppimisen (ML) elinkaaren tietojen valmisteluvaiheessa suorittaen tiedon valinta-, puhdistus- ja muunnosvaiheita. Se on välttämätön ja tärkeä vaihe missä tahansa ML-työnkulussa, jotta voidaan luoda merkityksellisiä oivalluksia ja ennusteita, koska huono tai heikkolaatuinen data vähentää suuresti johdettujen oivallusten merkitystä.

Tietojen suunnittelutiimit ovat perinteisesti vastuussa raakadatan vastaanottamisesta, yhdistämisestä ja muuntamisesta jatkokulutusta varten. Datatieteilijöiden on usein suoritettava lisäkäsittelyä datalle verkkotunnuskohtaisissa ML-käyttötapauksissa, kuten luonnollisessa kielessä ja aikasarjoissa. Esimerkiksi tietyt ML-algoritmit voivat olla herkkiä puuttuville arvoille, harvoille ominaisuuksille tai poikkeaville arvoille ja vaatia erityistä huomiota. Jopa tapauksissa, joissa tietojoukko on hyvässä kunnossa, datatutkijat saattavat haluta muuttaa ominaisuusjakaumia tai luoda uusia ominaisuuksia maksimoidakseen malleista saadut oivallukset. Saavuttaakseen nämä tavoitteet datatieteilijöiden on turvauduttava tietotekniikkaryhmiin, jotka mukautuvat pyydettyihin muutoksiin, mikä johtaa riippuvuuteen ja viivästymiseen mallin kehitysprosessissa. Vaihtoehtoisesti datatieteen tiimit voivat suorittaa tietojen valmistelun ja ominaisuuksien suunnittelun sisäisesti käyttämällä erilaisia ohjelmointiparadigmoja. Se vaatii kuitenkin aikaa ja vaivaa kirjastojen ja kehysten asennukseen ja konfigurointiin, mikä ei ole ihanteellinen, koska se aika voidaan käyttää paremmin mallin suorituskyvyn optimointiin.

Amazon SageMaker Data Wrangler yksinkertaistaa tietojen valmistelua ja ominaisuuksien suunnitteluprosessia, mikä vähentää tietojen kokoamiseen ja valmisteluun kuluvaa aikaa viikoista minuutteihin tarjoamalla yhden visuaalisen käyttöliittymän datatieteilijöille, jotka voivat valita, puhdistaa ja tutkia tietojoukkojaan. Data Wrangler tarjoaa yli 300 sisäänrakennettua datamuunnosa, jotka auttavat normalisoimaan, muuntamaan ja yhdistämään ominaisuuksia ilman koodin kirjoittamista. Voit tuoda tietoja useista tietolähteistä, kuten Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazonin punainen siirtoja Lumihiutale. Nyt voit myös käyttää Tietokannat Data Wranglerin tietolähteenä tietojen helpon valmistelemiseksi ML:ää varten.

Databricks Lakehouse Platform yhdistää datalakkien ja tietovarastojen parhaat elementit tarjotakseen tietovarastojen luotettavuuden, vahvan hallinnan ja suorituskyvyn sekä datalakkien avoimuuden, joustavuuden ja koneoppimisen tuen. Kun Databricks on Data Wranglerin tietolähde, voit muodostaa nyt nopeasti ja helposti yhteyden Databricksiin, tehdä interaktiivisia kyselyitä Databricksiin tallennetuista tiedoista SQL:n avulla ja esikatsella tietoja ennen tuontia. Lisäksi voit yhdistää Databricks-tietosi Amazon S3:een tallennettuihin tietoihin ja Amazon Athenan, Amazon Redshiftin ja Snowflaken kautta kysyttyihin tietoihin luodaksesi oikean tietojoukon ML-käyttötapaukseesi.

Tässä viestissä muunnamme Lending Club Loan -tietojoukon käyttämällä Amazon SageMaker Data Wrangleria käytettäväksi ML-mallikoulutuksessa.

Ratkaisun yleiskatsaus

Seuraava kaavio kuvaa ratkaisuarkkitehtuuriamme.

Lainaklubin lainatietoaineisto sisältää täydelliset lainatiedot kaikista vuosina 2007–2011 myönnetyistä lainoista, mukaan lukien lainan nykyinen tila ja viimeisimmät maksutiedot. Siinä on 39,717 22 riviä, 3 ominaisuussaraketta ja XNUMX kohdetunnistetta.

Muuntaaksemme tietomme Data Wranglerin avulla suoritamme seuraavat korkean tason vaiheet:

Lataa ja jaa tietojoukko.
Luo Data Wrangler -kulku.
Tuo data Databricksistä Data Wrangleriin.
Tuo tiedot Amazon S3:sta Data Wrangleriin.
Yhdistä tiedot.
Käytä muunnoksia.
Vie tietojoukko.

Edellytykset

Viesti olettaa, että sinulla on käynnissä Databricks-klusteri. Jos klusterisi toimii AWS:ssä, varmista, että olet määrittänyt seuraavat:

Databricks-asetus

An esiintymän profiili joilla on tarvittavat oikeudet käyttää S3-säilöä
A ämpäripolitiikka vaadittavat oikeudet kohde-S3-säilölle

seurata S3-ryhmien suojattu käyttö ilmentymäprofiilien avulla vaaditulle AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) roolit, S3-säilön käytäntö ja Databricks-klusterin määritys. Varmista, että Databricks-klusteri on määritetty oikein Instance Profile, joka on valittu lisäasetuksista päästäksesi haluttuun S3-alueeseen.

Kun Databricks-klusteri on valmis ja käytössä vaaditulla Amazon S3:n käyttöoikeudella, voit noutaa JDBC URL Databricks-klusteristasi, jotta Data Wrangler voi muodostaa yhteyden siihen.

Hae JDBC URL

Voit hakea JDBC-URL-osoitteen suorittamalla seuraavat vaiheet:

Siirry Databricksissä klusterien käyttöliittymään.
Valitse klusteri.
On Konfigurointi välilehti, valitse Lisäasetukset.
Alle Lisäasetukset, Valitse JDBC/ODBC Tab.
Kopioi JDBC-URL-osoite.

Muista korvata henkilökohtainen pääsysi symbolinen URL-osoitteessa.

Data Wrangler -asetukset

Tämä vaihe olettaa, että sinulla on pääsy Amazon SageMakeriin, joka on esiintymä Amazon SageMaker Studioja Studion käyttäjä.

Studion käyttäjä tarvitsee seuraavan luvan salliakseen pääsyn Databricks JDBC -yhteyteen Data Wranglerista:

secretsmanager:PutResourcePolicy

Noudata alla olevia ohjeita päivittääksesi Studio-käyttäjälle, jolla on yllä oleva lupa, IAM-järjestelmänvalvojana määritetty IAM-suoritusrooli.

Valitse IAM-konsolista Roolit navigointipaneelissa.
Valitse Studio-käyttäjällesi määritetty rooli.
Valita Lisää käyttöoikeudet.
Valita Luo sisäinen käytäntö.
Valitse Palveluksi Salaisuuksien johtaja.
On Toiminnot, valitse Käyttöoikeustaso.
Valita Käyttöoikeuksien hallinta.
Valita PutResourcePolicy.
varten Esittelymateriaalit, valitse Erityinen ja valitse Mikä tahansa tällä tilillä.

Lataa ja jaa tietojoukko

Voit aloittaa tietojoukon lataaminen. Esittelytarkoituksessa jaoimme tietojoukon kopioimalla ominaisuussarakkeet id, emp_title, emp_length, home_ownerja annual_inc luodaksesi toisen lainat_2.csv tiedosto. Poistamme edellä mainitut sarakkeet alkuperäisestä lainatiedostosta paitsi id sarake ja nimeä alkuperäinen tiedosto uudelleen lainat_1.csv. Lataa lainat_1.csv tiedosto Tietokannat taulukon luomiseen loans_1 ja lainat_2.csv S3-ämpäriin.

Luo Data Wrangler -kulku

Lisätietoja Data Wranglerin edellytyksistä, katso Aloita Data Wranglerin käyttö.

Aloitetaan luomalla uusi tietovirta.

Studio-konsolissa filee valikosta, valitse Uusi.
Valita Data Wrangler -virtaus.
Nimeä kulku uudelleen haluamallasi tavalla.

Vaihtoehtoisesti voit luoda uuden tietovirran käynnistysohjelmasta.

Valitse Studio-konsolista Amazon SageMaker Studio navigointipaneelissa.
Valita Uusi tietovirta.

Uuden työnkulun luominen voi kestää muutaman minuutin. Kun virta on luotu, näet Tuo päivämäärät sivu.

Tuo data Databricksistä Data Wrangleriin

Seuraavaksi määritimme Databricksin (JDBC) tietolähteeksi Data Wranglerissa. Tietojen tuomiseksi Databricksistä meidän on ensin lisättävä Databricks tietolähteeksi.

On Tuo päivämäärät Data Wrangler -kulkusi välilehti, valitse Lisää tietolähde.
Valitse avattavasta valikosta Databricks (JDBC).

On Tuo data Databricksistä sivulla, annat klusterin tiedot.

varten Tietojoukon nimi, kirjoita nimi, jota haluat käyttää vuotiedostossa.
varten kuljettaja, valitse kuljettaja com.simba.spark.jdbc.Driver.
varten JDBC URL, anna aiemmin hankitun Databricks-klusterin URL-osoite.

URL-osoitteen tulee muistuttaa seuraavaa muotoa jdbc:spark://<serve- hostname>:443/default;transportMode=http;ssl=1;httpPath=<http- path>;AuthMech=3;UID=token;PWD=<personal-access-token>.

Määritä SQL-kyselyeditorissa seuraava SQL SELECT -käsky:
```
select * from loans_1
```

Jos valitsit toisen taulukon nimen lataaessasi tietoja Databricksiin, korvaa lainat_1 yllä olevassa SQL-kyselyssä vastaavasti.

In SQL-kysely Data Wranglerin osiossa voit tehdä kyselyn mistä tahansa JDBC Databricks -tietokantaan yhdistetystä taulukosta. Esivalitut Ota otanta käyttöön asetus hakee oletuksena tietojoukon ensimmäiset 50,000 XNUMX riviä. Tietojoukon koosta riippuen valinta poistetaan Ota otanta käyttöön voi johtaa pidemmän tuontiajan.

Valita ajaa.

Kyselyn suorittaminen antaa esikatselun Databricks-tietojoukosta suoraan Data Wranglerissa.

Valita Tuo.

Data Wrangler tarjoaa joustavuuden muodostaa useita samanaikaisia yhteyksiä yhteen Databricks-klusteriin tai tarvittaessa useisiin klustereihin, mikä mahdollistaa yhdistettyjen tietojoukkojen analysoinnin ja valmistelun.

Tuo tiedot Amazon S3:sta Data Wrangleriin

Tuodaan seuraavaksi loan_2.csv tiedosto Amazon S3:sta.

Valitse Tuo-välilehdeltä Amazon S3 tietolähteenä.
Siirry S3-alueelle loan_2.csv tiedosto.

Kun valitset CSV-tiedoston, voit esikatsella tietoja.

In Lisätiedot ruutu, valitse Lisäasetukset varmistaa Ota otanta käyttöön on valittu ja KOHTA on valittu delimiter.
Valita Tuo.

Jälkeen loans_2.csv tietojoukon tuonti onnistui, tietovirran käyttöliittymä näyttää sekä Databricks JDBC- että Amazon S3 -tietolähteet.

Yhdistä tiedot

Nyt kun olemme tuoneet dataa Databricksistä ja Amazon S3:sta, yhdistetään tietojoukot käyttämällä yhteistä yksilöivää tunnistesaraketta.

On Tietovirta välilehti Tietotyypit, valitse plusmerkki loans_1.
Valita Liity.
Valitse loans_2.csv tiedosto nimellä Oikea aineisto.
Valita Configure asettaaksesi liittymiskriteerit.
varten Nimi, anna liitoksen nimi.
varten Liity tyyppi, valitse Sisempi tätä postausta varten.
Valitse id sarake, johon voit liittyä.
Valita käyttää esikatsellaksesi yhdistettyä tietojoukkoa.
Valita Lisää lisätäksesi sen tietovirtaan.

Käytä muunnoksia

Data Wrangler sisältää yli 300 sisäänrakennettua muunnosa, jotka eivät vaadi koodausta. Käytetään sisäänrakennettuja muunnoksia tietojoukon valmistelemiseen.

Pudota sarake

Ensin pudotetaan tarpeeton ID-sarake.

Valitse liitetyn solmun plusmerkki.
Valita Lisää muunnos.
Alle Muuntaa, valita + Lisää vaihe.
Valita Hallitse sarakkeita.
varten Muuttaa, valitse Pudota sarake.
varten Pudotettavat sarakkeet, valitse sarake id_0.
Valita preview.
Valita Lisää.

Alusta merkkijono

Sovelletaan merkkijonomuotoilua prosenttisymbolin poistamiseksi int_rate ja revol_util sarakkeita.

On Päiväys välilehti muunnokset, valitse + Lisää vaihe.
Valita Alusta merkkijono.
varten Muuttaa, valitse Poista merkit oikealta.

Data Wranglerin avulla voit käyttää valitsemaasi muunnosa useissa sarakkeissa samanaikaisesti.

varten Syötä sarakkeet, valitse int_rate ja revol_util.
varten Poistettavat merkit, tulla sisään %.
Valita preview.
Valita Lisää.

Esittele tekstiä

Nyt vektorisoidaan verification_status, tekstiominaisuussarake. Muunnamme tekstisarakkeen termitaajuus–käänteisasiakirjataajuus (TF-IDF) -vektoreiksi käyttämällä laskentavektoria ja standardia tokenisoijaa alla kuvatulla tavalla. Data Wrangler tarjoaa myös mahdollisuuden tuoda halutessasi oman tokenisaattorisi.

Alle Muuntajat, valitse + Lisää vaihe.
Valita Esittele tekstiä.
varten Muuttaa, valitse Vektorisoida.
varten Syötä sarakkeet, valitse verification_status.
Valita preview.
Valita Lisää.

Vie tietojoukko

Kun olemme käyttäneet useita muunnoksia eri saraketyypeissä, mukaan lukien teksti, kategorinen ja numeerinen, olemme valmiita käyttämään muunnettua tietojoukkoa ML-mallin harjoittamiseen. Viimeinen vaihe on viedä muunnettu tietojoukko Amazon S3:een. Data Wranglerissa voit valita useista vaihtoehdoista muunnosten loppupään kulutukseen:

Valita Vie vaihe luodaan automaattisesti Jupyter-muistikirja SageMaker Processing -koodilla prosessointia varten ja viedään muunnettu tietojoukko S3-ämpäriin. Lisätietoja on kohdassa Käynnistä käsittelytyöt muutamalla napsautuksella Amazon SageMaker Data Wrangler -sovelluksella.
Vie Studio-muistikirja, joka luo a SageMaker-putki tietovirtasi kanssa tai muistikirja, joka luo Amazon SageMaker -ominaisuuskauppa ominaisuusryhmä ja lisää ominaisuuksia offline- tai online-ominaisuuskauppaan.
Valita Vie tietoja viedä suoraan Amazon S3:een.

Tässä viestissä hyödynnämme Vie tietoja vaihtoehto Muuttaa näkymä viedäksesi muunnetun tietojoukon suoraan Amazon S3:een.

Valita Vie tietoja.
varten S3 sijainti, valitse selailla ja valitse S3-kauhasi.
Valita Vie tietoja.

Puhdistaa

Jos työsi Data Wranglerin kanssa on valmis, sammuta Data Wrangler -esiintymäsi välttää lisämaksuja.

Yhteenveto

Tässä viestissä käsittelimme, kuinka voit nopeasti ja helposti määrittää ja yhdistää Databricksin tietolähteeksi Data Wranglerissa, tehdä interaktiivisia kyselyitä Databricksiin tallennetuista tiedoista SQL:n avulla ja esikatsella tietoja ennen tuontia. Lisäksi tarkastelimme, kuinka voit yhdistää Databricks-tietosi Amazon S3:een tallennettuihin tietoihin. Käytimme sitten datamuunnoksia yhdistetyssä tietojoukossa tietojen valmisteluprosessin luomiseksi. Lisätietoja Data Wranglerin analyysiominaisuuksista, mukaan lukien kohdevuoto- ja harharaporttien luominen, on seuraavassa blogikirjoituksessa. Nopeuta tietojen valmistelua käyttämällä Amazon SageMaker Data Wrangleria diabeettisten potilaiden takaisinoton ennustamiseen.

Jos haluat aloittaa Data Wranglerin käytön, katso Valmista ML-tiedot Amazon SageMaker Data Wrangler -sovelluksellaja katso uusimmat tiedot Data Wranglerista Tuotesivu.

Tietoja Tekijät

Roop Bains on AWS:n ratkaisuarkkitehti, joka keskittyy AI/ML:ään. Hän on intohimoinen auttamaan asiakkaita innovoimaan ja saavuttamaan liiketoimintatavoitteensa tekoälyn ja koneoppimisen avulla. Vapaa-ajallaan Roop pitää lukemisesta ja patikoinnista.

Igor Alekseev on kumppaniratkaisuarkkitehti AWS:ssä Data and Analyticsissa. Igor työskentelee strategisten kumppaneiden kanssa auttaen heitä rakentamaan monimutkaisia, AWS-optimoituja arkkitehtuureja. Ennen liittymistään AWS:ään Data/Solution Architectina hän toteutti monia Big Datan projekteja, mukaan lukien useita Hadoop-ekosysteemin datajärviä. Tietoinsinöörinä hän oli mukana soveltamassa AI/ML:ää petosten havaitsemiseen ja toimistoautomaatioon. Igorin projektit olivat useilla aloilla, mukaan lukien viestintä, rahoitus, yleinen turvallisuus, valmistus ja terveydenhuolto. Aiemmin Igor työskenteli täyspinon insinöörinä/teknologiajohtajana.

Valmistele Databricksin dataa koneoppimista varten Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligencen avulla. Pystysuuntainen haku. Ai. Huong Nguyen on AWS: n vanhempi tuotepäällikkö. Hän johtaa SageMaker Studion käyttäjäkokemusta. Hänellä on 13 vuoden kokemus asiakkaan pakkomielteisten ja tietoihin perustuvien tuotteiden luomisesta sekä yritys- että kuluttajatiloille. Vapaa-ajallaan hän nauttii lukemisesta, luonnossa olemisesta ja viettää aikaa perheensä kanssa.

Henry Wang on ohjelmistokehitysinsinööri AWS:ssä. Hän liittyi äskettäin Data Wrangler -tiimiin valmistuttuaan UC Davisista. Hän on kiinnostunut datatieteestä ja koneoppimisesta ja tekee 3D-tulostusta harrastuksena.

Aikaleima: Maaliskuussa 31, 2022

Aikaleima: Jan 5, 2024

Valmistele Databricksin dataa koneoppimista varten Amazon SageMaker Data Wrangler -sovelluksella

Julkaissut Platon

Ratkaisun yleiskatsaus

Edellytykset

Databricks-asetus

Hae JDBC URL

Data Wrangler -asetukset

Lataa ja jaa tietojoukko

Luo Data Wrangler -kulku

Tuo data Databricksistä Data Wrangleriin

Tuo tiedot Amazon S3:sta Data Wrangleriin

Yhdistä tiedot

Käytä muunnoksia

Pudota sarake

Alusta merkkijono

Esittele tekstiä

Vie tietojoukko

Puhdistaa

Yhteenveto

Tietoja Tekijät

Lisää aiheesta AWS-koneoppiminen

Sisäänrakennettu PaddleOCR ja Amazon SageMaker Projects MLO:ille optisen merkintunnistuksen suorittamiseksi henkilöasiakirjoissa

Mallien isännöintimallit SageMakerissa: Parhaat käytännöt mallien testaamiseen ja päivittämiseen SageMakerissa

Käytä RStudioa Amazon SageMakerissa luodaksesi säädösehdotuksia biotiedeteollisuudelle

Tietokonenäkö synteettisten tietojoukkojen avulla, joissa on Amazon Rekognition Custom Labels ja Dassault Systèmes 3DEXCITE

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili