Amazon SageMaker Data Wrangler er et enkelt visuelt grensesnitt som reduserer tiden som kreves for å forberede data og utføre funksjonsutvikling fra uker til minutter med muligheten til å velge og rense data, lage funksjoner og automatisere dataforberedelse i maskinlæring (ML) arbeidsflyter uten å skrive noen kode.
SageMaker Data Wrangler støtter Snowflake, en populær datakilde for brukere som ønsker å utføre ML. Vi lanserer Snowflake-direkteforbindelsen fra SageMaker Data Wrangler for å forbedre kundeopplevelsen. Før lanseringen av denne funksjonen ble administratorer pålagt å sette opp den første lagringsintegrasjonen for å koble til Snowflake for å lage funksjoner for ML i Data Wrangler. Dette inkluderer klargjøring Amazon enkel lagringstjeneste (Amazon S3) bøtter, AWS identitets- og tilgangsadministrasjon (IAM) tilgangstillatelser, Snowflake-lagringsintegrasjon for individuelle brukere, og en pågående mekanisme for å administrere eller rydde opp i datakopier i Amazon S3. Denne prosessen er ikke skalerbar for kunder med streng datatilgangskontroll og et stort antall brukere.
I dette innlegget viser vi hvordan Snowflakes direkte kobling i SageMaker Data Wrangler forenkler administratorens erfaring og dataforskerens ML-reise fra data til forretningsinnsikt.
Løsningsoversikt
I denne løsningen bruker vi SageMaker Data Wrangler for å fremskynde dataforberedelse for ML og Amazon SageMaker Autopilot for å automatisk bygge, trene og finjustere ML-modellene basert på dataene dine. Begge tjenestene er utviklet spesielt for å øke produktiviteten og forkorte tiden til verdi for ML-utøvere. Vi demonstrerer også den forenklede datatilgangen fra SageMaker Data Wrangler til Snowflake med direkte tilkobling til spørring og opprette funksjoner for ML.
Se diagrammet nedenfor for en oversikt over lavkode ML-prosessen med Snowflake, SageMaker Data Wrangler og SageMaker Autopilot.
Arbeidsflyten inkluderer følgende trinn:
- Naviger til SageMaker Data Wrangler for dataforberedelse og funksjonsingeniøroppgaver.
- Sett opp Snowflake-tilkoblingen med SageMaker Data Wrangler.
- Utforsk Snowflake-tabellene dine i SageMaker Data Wrangler, lag et ML-datasett og utfør funksjonsutvikling.
- Tren og test modellene ved å bruke SageMaker Data Wrangler og SageMaker Autopilot.
- Last den beste modellen til et endepunkt for slutninger i sanntid for spådommer.
- Bruk en Python-notisbok for å påkalle det lanserte sanntidsslutningsendepunktet.
Forutsetninger
For dette innlegget trenger administratoren følgende forutsetninger:
Dataforskere bør ha følgende forutsetninger
Til slutt bør du forberede dataene dine for Snowflake
- Vi bruker kredittkorttransaksjonsdata fra kaggle å bygge ML-modeller for å oppdage falske kredittkorttransaksjoner, slik at kundene ikke belastes for varer de ikke har kjøpt. Datasettet inkluderer kredittkorttransaksjoner i september 2013 utført av europeiske kortholdere.
- Du bør bruke SnowSQL-klient og installer det på din lokale maskin, slik at du kan bruke det til å laste opp datasettet til en Snowflake-tabell.
De følgende trinnene viser hvordan du klargjør og laster datasettet inn i Snowflake-databasen. Dette er et engangsoppsett.
Snøfnuggtabell og dataforberedelse
Fullfør følgende trinn for dette engangsoppsettet:
- Først, som administrator, opprette et Snowflake virtuelt lager, bruker og rolle, og gi tilgang til andre brukere, for eksempel dataforskerne, til å opprette en database og scenedata for deres ML-brukssaker:
- Som dataforsker, la oss nå lage en database og importere kredittkorttransaksjonene til Snowflake-databasen for å få tilgang til dataene fra SageMaker Data Wrangler. For illustrasjonsformål oppretter vi en Snowflake-database med navnet
SF_FIN_TRANSACTION
: - Last ned datasettet CSV-filen til din lokale maskin og lag et trinn for å laste dataene inn i databasetabellen. Oppdater filbanen for å peke til den nedlastede datasettplasseringen før du kjører PUT-kommandoen for å importere dataene til det opprettede stadiet:
- Lag en tabell med navnet
credit_card_transactions
: - Importer dataene til den opprettede tabellen fra scenen:
Sett opp SageMaker Data Wrangler og Snowflake-tilkoblingen
Etter at vi har klargjort datasettet for bruk med SageMaker Data Wrangler, la oss opprette en ny Snowflake-tilkobling i SageMaker Data Wrangler for å koble til sf_fin_transaction
database i Snowflake og spør etter credit_card_transaction
tabell:
- Velg Snowflake på SageMaker Data Wrangler Tilkobling side.
- Oppgi et navn for å identifisere forbindelsen din.
- Velg autentiseringsmetoden din for å koble til Snowflake-databasen:
- Hvis du bruker grunnleggende autentisering, oppgi brukernavnet og passordet som deles av Snowflake-administratoren. For dette innlegget bruker vi grunnleggende autentisering for å koble til Snowflake ved å bruke brukerlegitimasjonen vi opprettet i forrige trinn.
- Hvis du bruker OAuth, oppgi legitimasjonen din for identitetsleverandøren.
SageMaker Data Wrangler spør som standard om dataene dine direkte fra Snowflake uten å lage noen datakopier i S3-bøtter. SageMaker Data Wranglers nye brukervennlighetsforbedring bruker Apache Spark til å integrere med Snowflake for å forberede og sømløst lage et datasett for ML-reisen din.
Så langt har vi laget databasen på Snowflake, importert CSV-filen til Snowflake-tabellen, opprettet Snowflake-legitimasjon og opprettet en kobling på SageMaker Data Wrangler for å koble til Snowflake. For å validere den konfigurerte Snowflake-tilkoblingen, kjør følgende spørring på den opprettede Snowflake-tabellen:
Merk at alternativet for lagringsintegrasjon som var nødvendig før, nå er valgfritt i de avanserte innstillingene.
Utforsk Snowflake-data
Når du har validert søkeresultatene, velger du Import for å lagre søkeresultatene som datasettet. Vi bruker dette utpakkede datasettet for utforskende dataanalyse og funksjonsutvikling.
Du kan velge å prøve dataene fra Snowflake i SageMaker Data Wrangler UI. Et annet alternativ er å laste ned fullstendige data for ML-modellens treningstilfeller ved å bruke SageMaker Data Wrangler-behandlingsjobber.
Utfør utforskende dataanalyse i SageMaker Data Wrangler
Dataene i Data Wrangler må konstrueres før de kan trenes. I denne delen viser vi hvordan du utfører funksjonsutvikling på dataene fra Snowflake ved å bruke SageMaker Data Wranglers innebygde muligheter.
Først, la oss bruke Data Quality and Insights Report
funksjon i SageMaker Data Wrangler for å generere rapporter for å automatisk verifisere datakvaliteten og oppdage unormalt i dataene fra Snowflake.
Du kan bruke rapporten til å hjelpe deg med å rense og behandle dataene dine. Den gir deg informasjon som antall manglende verdier og antall uteliggere. Hvis du har problemer med dataene dine, for eksempel mållekkasje eller ubalanse, kan innsiktsrapporten gjøre deg oppmerksom på disse problemene. For å forstå rapportdetaljene, se Akselerer dataforberedelsen med datakvalitet og innsikt i Amazon SageMaker Data Wrangler.
Etter at du har sjekket datatypetilpasningen brukt av SageMaker Data Wrangler, fullfør følgende trinn:
- Velg plusstegnet ved siden av Datatyper Og velg Legg til analyse.
- Til Analysetype, velg Rapport om datakvalitet og innsikt.
- Velg Opprett.
- Se detaljer i rapporten om datakvalitet og innsikt for å sjekke ut advarsler med høy prioritet.
Du kan velge å løse advarslene som er rapportert før du fortsetter med ML-reisen.
Målkolonnen Class
å bli forutsagt er klassifisert som en streng. Først, la oss bruke en transformasjon for å fjerne de foreldede tomme tegnene.
- Velg Legg til trinn Og velg Formater streng.
- Velg i listen over transformasjoner Strip venstre og høyre.
- Skriv inn tegnene du vil fjerne og velg Legg til.
Deretter konverterer vi målkolonnen Class
fra strengdatatypen til boolsk fordi transaksjonen enten er legitim eller uredelig.
- Velg Legg til trinn.
- Velg Parse kolonne som type.
- Velg for kolonne
Class
. - Til Fra, velg String.
- Til Til, velg boolean.
- Velg Legg til.
Etter målkolonnetransformasjonen reduserer vi antall funksjonskolonner, fordi det er over 30 funksjoner i det opprinnelige datasettet. Vi bruker Principal Component Analysis (PCA) for å redusere dimensjonene basert på funksjonens betydning. For å forstå mer om PCA og dimensjonalitetsreduksjon, se Principal Component Analysis (PCA) Algoritme.
- Velg Legg til trinn.
- Velg Dimensjonsreduksjon.
- Til Transform, velg Hovedkomponentanalyse.
- Til Inndatakolonner, velg alle kolonnene unntatt målkolonnen
Class
. - Velg plusstegnet ved siden av Dataflyt Og velg Legg til analyse.
- Til Analysetype, velg Rask modell.
- Til Analysenavn, skriv inn et navn.
- Til Etiketten, velg
Class
. - Velg Kjør.
Basert på PCA-resultatene kan du bestemme hvilke funksjoner du skal bruke for å bygge modellen. I det følgende skjermbildet viser grafen funksjonene (eller dimensjonene) sortert basert på høyeste til laveste betydning for å forutsi målklassen, som i dette datasettet er om transaksjonen er uredelig eller gyldig.
Du kan velge å redusere antall funksjoner basert på denne analysen, men for dette innlegget lar vi standardinnstillingene være som de er.
Dette avslutter funksjonsutviklingsprosessen vår, selv om du kan velge å kjøre hurtigmodellen og lage en datakvalitets- og innsiktsrapport på nytt for å forstå dataene før du utfører ytterligere optimaliseringer.
Eksporter data og tren modellen
I neste trinn bruker vi SageMaker Autopilot til å automatisk bygge, trene og justere de beste ML-modellene basert på dataene dine. Med SageMaker Autopilot beholder du fortsatt full kontroll og synlighet over data og modell.
Nå som vi har fullført utforskningen og funksjonsutviklingen, la oss trene en modell på datasettet og eksportere dataene for å trene ML-modellen ved hjelp av SageMaker Autopilot.
- På Kurs kategorien, velg Eksporter og trener.
Vi kan overvåke eksportfremdriften mens vi venter på at den skal fullføres.
La oss konfigurere SageMaker Autopilot til å kjøre en automatisert treningsjobb ved å spesifisere målet vi ønsker å forutsi og typen problem. I dette tilfellet, fordi vi trener datasettet til å forutsi om transaksjonen er uredelig eller gyldig, bruker vi binær klassifisering.
- Skriv inn et navn for eksperimentet ditt, oppgi S3-posisjonsdataene og velg Neste: Mål og funksjoner.
- Til Target, velg
Class
som kolonnen å forutsi. - Velg Neste: Treningsmetode.
La oss la SageMaker Autopilot bestemme treningsmetoden basert på datasettet.
- Til Treningsmetode og algoritmer, plukke ut Auto.
For å forstå mer om treningsmodusene som støttes av SageMaker Autopilot, se Treningsmoduser og algoritme Støtte.
- Velg Neste: Implementering og avanserte innstillinger.
- Til Implementeringsalternativ, velg Implementer den beste modellen automatisk med transformasjoner fra Data Wrangler, som laster den beste modellen for slutning etter at eksperimenteringen er fullført.
- Skriv inn et navn for endepunktet ditt.
- Til Velg maskinlæringsproblemtypen, velg Binær klassifisering.
- Til Innvendingsberegning, velg F1.
- Velg Neste: Se gjennom og opprett.
- Velg Lag eksperiment.
Dette starter en SageMaker Autopilot-jobb som lager et sett med treningsjobber som bruker kombinasjoner av hyperparametere for å optimalisere den objektive metrikken.
Vent til SageMaker Autopilot er ferdig med å bygge modellene og evaluere den beste ML-modellen.
Start et endepunkt i sanntid for å teste den beste modellen
SageMaker Autopilot kjører eksperimenter for å finne den beste modellen som kan klassifisere kredittkorttransaksjoner som legitime eller uredelige.
Når SageMaker Autopilot fullfører eksperimentet, kan vi se treningsresultatene med evalueringsberegningene og utforske den beste modellen fra SageMaker Autopilot-jobbbeskrivelsessiden.
- Velg den beste modellen og velg Implementer modell.
Vi bruker et endepunkt for sanntidsslutning for å teste den beste modellen laget gjennom SageMaker Autopilot.
- Plukke ut Lag spådommer i sanntid.
Når endepunktet er tilgjengelig, kan vi passere nyttelasten og få slutningsresultater.
La oss starte en Python-notisbok for å bruke sluttpunktet.
- På SageMaker Studio-konsollen velger du mappeikonet i navigasjonsruten og velger Lag notatbok.
- Bruk følgende Python-kode for å påkalle det utplasserte sanntidsslutningsendepunktet:
Utgangen viser resultatet som false
, som antyder at prøvefunksjonsdataene ikke er uredelige.
Rydd opp
For å være sikker på at du ikke påløper kostnader etter å ha fullført denne opplæringen, slå av SageMaker Data Wrangler-applikasjonen og slå av den bærbare forekomsten brukes til å utføre slutninger. Det burde du også slett inferensendepunktet du opprettet ved å bruke SageMaker Autopilot for å forhindre ekstra kostnader.
konklusjonen
I dette innlegget demonstrerte vi hvordan du kan bringe dataene dine fra Snowflake direkte uten å lage noen mellomliggende kopier i prosessen. Du kan enten prøve eller laste inn hele datasettet til SageMaker Data Wrangler direkte fra Snowflake. Du kan deretter utforske dataene, rense dataene og utføre funksjonsteknikk ved å bruke SageMaker Data Wranglers visuelle grensesnitt.
Vi fremhevet også hvordan du enkelt kan trene og tune en modell med SageMaker Autopilot direkte fra SageMaker Data Wrangler-brukergrensesnittet. Med SageMaker Data Wrangler og SageMaker Autopilot-integrasjon kan vi raskt bygge en modell etter fullført funksjonsutvikling, uten å skrive noen kode. Deretter refererte vi SageMaker Autopilots beste modell for å kjøre slutninger ved å bruke et sanntidsendepunkt.
Prøv den nye Snowflake direkte integrasjonen med SageMaker Data Wrangler i dag for enkelt å bygge ML-modeller med dataene dine ved hjelp av SageMaker.
Om forfatterne
Hariharan Suresh er Senior Solutions Architect hos AWS. Han brenner for databaser, maskinlæring og design av innovative løsninger. Før han begynte i AWS, var Hariharan produktarkitekt, kjernebankimplementeringsspesialist og utvikler, og jobbet med BFSI-organisasjoner i over 11 år. Utenom teknologien liker han paragliding og sykling.
Aparajithan Vaidyanathan er hovedarkitekt for bedriftsløsninger hos AWS. Han støtter bedriftskunder med å migrere og modernisere arbeidsmengdene deres på AWS-skyen. Han er en skyarkitekt med 23+ års erfaring med å designe og utvikle store, store og distribuerte programvaresystemer. Han spesialiserer seg på maskinlæring og dataanalyse med fokus på data- og funksjonsteknikk-domene. Han er en aspirerende maratonløper og hobbyene hans inkluderer fotturer, sykling og tilbringe tid med kona og to gutter.
Tim Song er en programvareutviklingsingeniør hos AWS SageMaker, med 10+ års erfaring som programvareutvikler, konsulent og teknisk leder har han demonstrert evne til å levere skalerbare og pålitelige produkter og løse komplekse problemer. På fritiden liker han naturen, løping utendørs, fotturer og så videre.
Bosco Albuquerque er en Sr. Partner Solutions Architect hos AWS og har over 20 års erfaring i å jobbe med database- og analyseprodukter fra bedriftsdatabaseleverandører og skyleverandører. Han har hjulpet store teknologiselskaper med å designe dataanalyseløsninger og har ledet ingeniørteam med å designe og implementere dataanalyseplattformer og dataprodukter.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
- PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
- PlatoESG. Bil / elbiler, Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
- BlockOffsets. Modernisering av eierskap for miljøkompensasjon. Tilgang her.
- kilde: https://aws.amazon.com/blogs/machine-learning/accelerate-time-to-business-insights-with-the-amazon-sagemaker-data-wrangler-direct-connection-to-snowflake/
- : har
- :er
- :ikke
- $OPP
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 20
- 20 år
- 2013
- 27
- 30
- 40
- 500
- 7
- 9
- a
- evne
- Om oss
- akselerere
- adgang
- Logg inn
- Ytterligere
- administratorer
- avansert
- Etter
- en gang til
- AI / ML
- Alle
- tillate
- også
- Selv
- Amazon
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- Amazon Web Services
- beløp
- an
- analyse
- analytics
- og
- En annen
- noen
- Apache
- api
- anvendt
- Påfør
- ER
- AS
- håper
- At
- oppmerksomhet
- Autentisering
- automatisere
- Automatisert
- automatisk
- tilgjengelig
- AWS
- Banking
- basert
- grunnleggende
- BE
- fordi
- før du
- under
- BEST
- BFSI
- kroppen
- både
- bringe
- bygge
- Bygning
- innebygd
- virksomhet
- men
- by
- CAN
- evner
- fangst
- kort
- saken
- saker
- tegn
- ladet
- avgifter
- sjekk
- Velg
- klasse
- klassifisering
- klassifisert
- Klassifisere
- kunde
- Cloud
- kode
- Kolonne
- kolonner
- kombinasjoner
- Selskaper
- fullføre
- Terminado
- Fullfører
- fullført
- komplekse
- komponent
- konfigurert
- Koble
- tilkobling
- Konsoll
- konsulent
- fortsette
- kontroll
- konvertere
- Kjerne
- Kjernebank
- skape
- opprettet
- skaper
- Opprette
- Credentials
- kreditt
- kredittkort
- kunde
- kundeopplevelse
- Kunder
- dato
- data tilgang
- dataanalyse
- Data Analytics
- Dataklargjøring
- dataforsker
- Database
- databaser
- bestemme
- Misligholde
- mislighold
- leverer
- demonstrere
- demonstrert
- utplassere
- utplassert
- distribusjon
- beskrivelse
- utforming
- designet
- utforme
- detaljer
- Bestem
- Utvikler
- utvikle
- Utvikling
- dimensjoner
- direkte
- direkte
- distribueres
- domene
- ikke
- ned
- nedlasting
- lett
- enten
- Endpoint
- ingeniør
- Ingeniørarbeid
- Enter
- Enterprise
- etc
- europeisk
- evaluering
- Unntatt
- finnes
- erfaring
- eksperiment
- eksperimenter
- leting
- Utforskende dataanalyse
- utforske
- eksportere
- langt
- Trekk
- Egenskaper
- Featuring
- filet
- finansiell
- ferdig
- Først
- Flyte
- Fokus
- etter
- Til
- format
- uredelig
- fra
- fullt
- videre
- generere
- få
- gir
- innvilge
- graf
- Ha
- he
- hjelpe
- hjulpet
- høyest
- Fremhevet
- hans
- Hvordan
- Hvordan
- HTML
- http
- HTTPS
- ICON
- identifisere
- Identitet
- if
- ubalanse
- gjennomføring
- implementere
- importere
- betydning
- importere
- import
- forbedre
- in
- inkludere
- inkluderer
- Øke
- individuelt
- informasjon
- innledende
- innovative
- innsikt
- installere
- integrere
- integrering
- Interface
- intern
- inn
- saker
- IT
- varer
- Jobb
- Jobb
- sammenføyning
- reise
- jpg
- JSON
- stor
- storskala
- lansere
- lansert
- leder
- læring
- Permisjon
- Led
- venstre
- legitim
- la
- Bibliotek
- BEGRENSE
- Liste
- laste
- laster
- lokal
- plassering
- lavest
- maskin
- maskinlæring
- laget
- vedlikeholde
- gjøre
- administrer
- Marathon
- matchende
- Kan..
- mekanisme
- metode
- metrisk
- Metrics
- migrere
- minutter
- mangler
- ML
- modell
- modeller
- modern
- moduser
- Overvåke
- mer
- navn
- oppkalt
- Natur
- Navigasjon
- behov
- Ny
- neste
- bærbare
- nå
- Antall
- oauth
- objekt
- Målet
- of
- on
- pågående
- Optimalisere
- Alternativ
- or
- rekkefølge
- organisasjoner
- original
- OS
- Annen
- vår
- ut
- produksjon
- utenfor
- enn
- oversikt
- side
- brød
- partner
- passere
- lidenskapelig
- Passord
- banen
- Utfør
- utfører
- tillatelser
- Plattformer
- plato
- Platon Data Intelligence
- PlatonData
- i tillegg til
- Point
- Populær
- Post
- forutsi
- spådd
- Spådommer
- forberedelse
- Forbered
- forutsetninger
- forebygge
- forrige
- Principal
- Skrive ut
- Før
- Problem
- problemer
- prosess
- prosessering
- Produkt
- produktivitet
- Produkter
- Progress
- gi
- leverandør
- tilbydere
- offentlig
- Kjøp
- formål
- sette
- Python
- kvalitet
- spørsmål
- Rask
- raskt
- sanntids
- redusere
- reduserer
- reduksjon
- pålitelig
- fjerne
- erstatte
- rapporterer
- rapportert
- Rapporter
- anmode
- påkrevd
- svar
- resultere
- Resultater
- anmeldelse
- riding
- Rolle
- Kjør
- runner
- rennende
- s
- sagemaker
- Spar
- skalerbar
- Forsker
- forskere
- sømløst
- Seksjon
- send
- senior
- September
- Tjenester
- sett
- innstillinger
- oppsett
- delt
- bør
- Vis
- Viser
- undertegne
- Enkelt
- forenklet
- enkelt
- So
- Software
- programvareutvikling
- løsning
- Solutions
- LØSE
- sang
- kilde
- Spark
- spesialist
- spesialisert
- spesielt
- fart
- utgifter
- Scene
- starter
- Trinn
- Steps
- Still
- lagring
- oppbevare
- Streng
- String
- studio
- send
- vellykket
- vellykket
- slik
- støtte
- Støttes
- Støtter
- Systemer
- bord
- Target
- oppgaver
- lag
- tech
- Teknologi
- teknologiselskaper
- test
- Det
- De
- Grafen
- deres
- deretter
- Der.
- de
- denne
- De
- Gjennom
- tid
- til
- i dag
- Tog
- trent
- Kurs
- Transaksjonen
- Transaksjoner
- Transformation
- transforme
- sant
- tutorial
- to
- typen
- ui
- forstå
- Oppdater
- us
- brukervennlighet
- bruke
- brukt
- Bruker
- Brukergrensesnitt
- Brukere
- bruker
- ved hjelp av
- v1
- VALIDERE
- verdi
- Verdier
- leverandører
- verifisere
- Se
- virtuelle
- synlighet
- vente
- ønsker
- var
- we
- web
- webtjenester
- uker
- var
- om
- hvilken
- mens
- HVEM
- kone
- med
- innenfor
- uten
- Arbeid
- arbeidet
- arbeidsflyt
- arbeidsflyt
- arbeid
- skriving
- år
- Du
- Din
- zephyrnet