Amazon SageMaker Data Wrangler er en enkelt visuel grænseflade, der reducerer den tid, der kræves til at forberede data og udføre feature engineering fra uger til minutter med evnen til at vælge og rense data, skabe funktioner og automatisere dataforberedelse i maskinlæring (ML) arbejdsgange uden at skrive nogen kode.
SageMaker Data Wrangler understøtter Snowflake, en populær datakilde for brugere, der ønsker at udføre ML. Vi lancerer Snowflake direkte forbindelse fra SageMaker Data Wrangler for at forbedre kundeoplevelsen. Før lanceringen af denne funktion var administratorer forpligtet til at konfigurere den indledende lagerintegration for at forbinde med Snowflake for at skabe funktioner til ML i Data Wrangler. Dette inkluderer levering Amazon Simple Storage Service (Amazon S3) spande, AWS identitets- og adgangsstyring (IAM) adgangstilladelser, Snowflake-lagringsintegration for individuelle brugere og en løbende mekanisme til at administrere eller rydde op i datakopier i Amazon S3. Denne proces er ikke skalerbar for kunder med streng dataadgangskontrol og et stort antal brugere.
I dette indlæg viser vi, hvordan Snowflakes direkte forbindelse i SageMaker Data Wrangler forenkler administratorens erfaring og dataforskerens ML-rejse fra data til forretningsindsigt.
Løsningsoversigt
I denne løsning bruger vi SageMaker Data Wrangler til at fremskynde dataforberedelse til ML og Amazon SageMaker Autopilot til automatisk at bygge, træne og finjustere ML-modellerne baseret på dine data. Begge tjenester er designet specifikt til at øge produktiviteten og forkorte time to value for ML-udøvere. Vi demonstrerer også den forenklede dataadgang fra SageMaker Data Wrangler til Snowflake med direkte forbindelse til forespørgsel og oprettelse af funktioner til ML.
Se diagrammet nedenfor for en oversigt over lavkode ML-processen med Snowflake, SageMaker Data Wrangler og SageMaker Autopilot.
Arbejdsgangen omfatter følgende trin:
- Naviger til SageMaker Data Wrangler for dine dataforberedelse og funktionsingeniøropgaver.
- Konfigurer Snowflake-forbindelsen med SageMaker Data Wrangler.
- Udforsk dine Snowflake-tabeller i SageMaker Data Wrangler, opret et ML-datasæt, og udfør funktionsudvikling.
- Træn og test modellerne ved hjælp af SageMaker Data Wrangler og SageMaker Autopilot.
- Indlæs den bedste model til et slutpunkt i realtid til forudsigelser.
- Brug en Python-notesbog til at påberåbe det lancerede realtidsslutningsendepunkt.
Forudsætninger
For dette indlæg har administratoren brug for følgende forudsætninger:
Dataforskere bør have følgende forudsætninger
Til sidst bør du forberede dine data til Snowflake
- Vi bruger kreditkorttransaktionsdata fra Kaggle at bygge ML-modeller til at opdage svigagtige kreditkorttransaktioner, så kunderne ikke bliver opkrævet for varer, som de ikke har købt. Datasættet omfatter kreditkorttransaktioner i september 2013 foretaget af europæiske kortholdere.
- Du skal bruge SnowSQL klient og installer det på din lokale maskine, så du kan bruge det til at uploade datasættet til en Snowflake-tabel.
De følgende trin viser, hvordan du forbereder og indlæser datasættet i Snowflake-databasen. Dette er en engangsopsætning.
Snefnug tabel og data forberedelse
Udfør følgende trin for denne engangsopsætning:
- Først, som administrator, skal du oprette et Snowflake virtuelt lager, bruger og rolle, og give adgang til andre brugere såsom dataforskerne til at oprette en database og iscenesætte data til deres ML-brugssager:
- Som dataforsker, lad os nu oprette en database og importere kreditkorttransaktionerne til Snowflake-databasen for at få adgang til dataene fra SageMaker Data Wrangler. Til illustrationsformål opretter vi en Snowflake-database ved navn
SF_FIN_TRANSACTION
: - Download datasættets CSV-fil til din lokale maskine, og opret et trin til at indlæse dataene i databasetabellen. Opdater filstien til at pege på den downloadede datasætplacering, før du kører PUT-kommandoen for at importere dataene til det oprettede trin:
- Opret en tabel med navnet
credit_card_transactions
: - Importer dataene til den oprettede tabel fra scenen:
Konfigurer SageMaker Data Wrangler og Snowflake-forbindelsen
Når vi har forberedt datasættet til brug med SageMaker Data Wrangler, lad os oprette en ny Snowflake-forbindelse i SageMaker Data Wrangler for at oprette forbindelse til sf_fin_transaction
database i Snowflake og forespørg på credit_card_transaction
bord:
- Vælg Snowflake på SageMaker Data Wrangler Forbindelse .
- Angiv et navn for at identificere din forbindelse.
- Vælg din godkendelsesmetode for at oprette forbindelse til Snowflake-databasen:
- Hvis du bruger grundlæggende godkendelse, skal du angive brugernavnet og adgangskoden, der deles af din Snowflake-administrator. Til dette indlæg bruger vi grundlæggende godkendelse til at oprette forbindelse til Snowflake ved hjælp af de brugerlegitimationsoplysninger, vi oprettede i det forrige trin.
- Hvis du bruger OAuth, skal du angive legitimationsoplysningerne for din identitetsudbyder.
SageMaker Data Wrangler forespørger som standard dine data direkte fra Snowflake uden at oprette nogen datakopier i S3-bøtter. SageMaker Data Wranglers nye usability-forbedring bruger Apache Spark til at integrere med Snowflake for at forberede og problemfrit skabe et datasæt til din ML-rejse.
Indtil videre har vi oprettet databasen på Snowflake, importeret CSV-filen til Snowflake-tabellen, oprettet Snowflake-legitimationsoplysninger og oprettet en forbindelse på SageMaker Data Wrangler for at oprette forbindelse til Snowflake. For at validere den konfigurerede Snowflake-forbindelse skal du køre følgende forespørgsel på den oprettede Snowflake-tabel:
Bemærk, at lagerintegrationsindstillingen, der var påkrævet før, nu er valgfri i de avancerede indstillinger.
Udforsk Snowflake-data
Når du har valideret forespørgselsresultaterne, skal du vælge Importere for at gemme forespørgselsresultaterne som datasættet. Vi bruger dette udtrukne datasæt til undersøgende dataanalyse og feature engineering.
Du kan vælge at prøve dataene fra Snowflake i SageMaker Data Wrangler UI. En anden mulighed er at downloade komplette data til dine ML-modellers træningstilfælde ved hjælp af SageMaker Data Wrangler-behandlingsjob.
Udfør undersøgende dataanalyse i SageMaker Data Wrangler
Dataene i Data Wrangler skal konstrueres, før de kan trænes. I dette afsnit demonstrerer vi, hvordan man udfører feature engineering på dataene fra Snowflake ved hjælp af SageMaker Data Wranglers indbyggede muligheder.
Lad os først bruge Data Quality and Insights Report
funktion i SageMaker Data Wrangler til at generere rapporter for automatisk at verificere datakvaliteten og opdage abnormiteter i dataene fra Snowflake.
Du kan bruge rapporten til at hjælpe dig med at rense og behandle dine data. Det giver dig information såsom antallet af manglende værdier og antallet af outliers. Hvis du har problemer med dine data, såsom mållækage eller ubalance, kan indsigtsrapporten gøre dig opmærksom på disse problemer. For at forstå rapportens detaljer, se Fremskynd dataforberedelsen med datakvalitet og indsigt i Amazon SageMaker Data Wrangler.
Når du har tjekket datatypematchningen anvendt af SageMaker Data Wrangler, skal du udføre følgende trin:
- Vælg plustegnet ved siden af Datatyper Og vælg Tilføj analyse.
- Til Analyse type, vælg Rapport om datakvalitet og indsigt.
- Vælg Opret.
- Se detaljerne i rapporten Datakvalitet og indsigt for at tjekke advarsler med høj prioritet.
Du kan vælge at løse de rapporterede advarsler, før du fortsætter med din ML-rejse.
Målkolonnen Class
at blive forudsagt klassificeres som en streng. Lad os først anvende en transformation for at fjerne de forældede tomme tegn.
- Vælg Tilføj trin Og vælg Formater streng.
- Vælg på listen over transformationer Strip venstre og højre.
- Indtast de tegn, der skal fjernes, og vælg Tilføj.
Dernæst konverterer vi målkolonnen Class
fra strengdatatypen til Boolean, fordi transaktionen enten er lovlig eller svigagtig.
- Vælg Tilføj trin.
- Vælg Parse kolonne som type.
- Vælg for kolonne
Class
. - Til Fra, vælg String.
- Til Til, vælg Boolesk.
- Vælg Tilføj.
Efter målkolonnetransformationen reducerer vi antallet af funktionskolonner, fordi der er over 30 funktioner i det originale datasæt. Vi bruger Principal Component Analysis (PCA) til at reducere dimensionerne baseret på egenskabernes betydning. For at forstå mere om PCA og dimensionsreduktion, se Principal Component Analysis (PCA) Algoritme.
- Vælg Tilføj trin.
- Vælg Dimensionalitetsreduktion.
- Til Transform, vælg Hovedkomponentanalyse.
- Til Input kolonner, skal du vælge alle kolonnerne undtagen målkolonnen
Class
. - Vælg plustegnet ved siden af Dataflow Og vælg Tilføj analyse.
- Til Analyse type, vælg Hurtig model.
- Til Analyse navn, indtast et navn.
- Til etiket, vælg
Class
. - Vælg Kør.
Baseret på PCA-resultaterne kan du beslutte, hvilke funktioner du skal bruge til at bygge modellen. I det følgende skærmbillede viser grafen funktionerne (eller dimensionerne) ordnet baseret på højeste til laveste betydning for at forudsige målklassen, som i dette datasæt er, om transaktionen er svigagtig eller gyldig.
Du kan vælge at reducere antallet af funktioner baseret på denne analyse, men for dette indlæg lader vi standardindstillingerne være som de er.
Dette afslutter vores funktionsudviklingsproces, selvom du kan vælge at køre den hurtige model og oprette en datakvalitets- og indsigtsrapport igen for at forstå dataene, før du udfører yderligere optimeringer.
Eksporter data og træne modellen
I næste trin bruger vi SageMaker Autopilot til automatisk at bygge, træne og tune de bedste ML-modeller baseret på dine data. Med SageMaker Autopilot bevarer du stadig fuld kontrol og synlighed over dine data og model.
Nu hvor vi har afsluttet udforskningen og funktionsudviklingen, lad os træne en model på datasættet og eksportere dataene for at træne ML-modellen ved hjælp af SageMaker Autopilot.
- På Kurser fanebladet, vælg Eksport og træne.
Vi kan overvåge eksportfremskridtene, mens vi venter på, at den er fuldført.
Lad os konfigurere SageMaker Autopilot til at køre et automatiseret træningsjob ved at specificere det mål, vi ønsker at forudsige, og typen af problem. I dette tilfælde, fordi vi træner datasættet til at forudsige, om transaktionen er svigagtig eller gyldig, bruger vi binær klassificering.
- Indtast et navn til dit eksperiment, angiv S3-placeringsdata, og vælg Næste: Mål og funktioner.
- Til mål, vælg
Class
som kolonnen at forudsige. - Vælg Næste: Træningsmetode.
Lad os tillade SageMaker Autopilot at bestemme træningsmetoden baseret på datasættet.
- Til Træningsmetode og algoritmer, Vælg Auto.
For at forstå mere om de træningstilstande, der understøttes af SageMaker Autopilot, se Træningstilstande og algoritme Support.
- Vælg Næste: Implementering og avancerede indstillinger.
- Til Implementeringsmulighed, vælg Implementer automatisk den bedste model med transformationer fra Data Wrangler, som indlæser den bedste model for inferens, efter at eksperimentet er afsluttet.
- Indtast et navn til dit slutpunkt.
- Til Vælg maskinlæringsproblemtypen, vælg Binær klassifikation.
- Til Indsigelsesmetrik, vælg F1.
- Vælg Næste: Gennemgå og opret.
- Vælg Opret eksperiment.
Dette starter et SageMaker Autopilot-job, der opretter et sæt træningsjob, der bruger kombinationer af hyperparametre til at optimere den objektive metrik.
Vent på, at SageMaker Autopilot er færdig med at bygge modellerne og evaluere den bedste ML-model.
Start et slutpunkt i realtid for at teste den bedste model
SageMaker Autopilot kører eksperimenter for at bestemme den bedste model, der kan klassificere kreditkorttransaktioner som legitime eller svigagtige.
Når SageMaker Autopilot fuldfører eksperimentet, kan vi se træningsresultaterne med evalueringsmetrikken og udforske den bedste model fra SageMaker Autopilot jobbeskrivelsesside.
- Vælg den bedste model og vælg Implementer model.
Vi bruger et slutpunkt i realtid til at teste den bedste model skabt gennem SageMaker Autopilot.
- Type Lav forudsigelser i realtid.
Når endepunktet er tilgængeligt, kan vi videregive nyttelasten og få slutningsresultater.
Lad os starte en Python-notesbog for at bruge inferensendepunktet.
- På SageMaker Studio-konsollen skal du vælge mappeikonet i navigationsruden og vælge Opret notesbog.
- Brug følgende Python-kode til at påkalde det implementerede realtids-slutpunkt for inferens:
Udgangen viser resultatet som false
, hvilket antyder, at prøvedataene ikke er svigagtige.
Ryd op
For at sikre, at du ikke pådrager dig gebyrer efter at have gennemført denne vejledning, luk SageMaker Data Wrangler-applikationen ned , lukke notebook-forekomsten ned bruges til at udføre slutninger. Det burde du også slet inferensendepunktet du har oprettet ved hjælp af SageMaker Autopilot for at forhindre yderligere gebyrer.
Konklusion
I dette indlæg demonstrerede vi, hvordan du bringer dine data fra Snowflake direkte uden at oprette nogen mellemliggende kopier i processen. Du kan enten prøve eller indlæse dit komplette datasæt til SageMaker Data Wrangler direkte fra Snowflake. Du kan derefter udforske dataene, rense dataene og udføre featuring engineering ved hjælp af SageMaker Data Wranglers visuelle grænseflade.
Vi fremhævede også, hvordan du nemt kan træne og tune en model med SageMaker Autopilot direkte fra SageMaker Data Wrangler-brugergrænsefladen. Med SageMaker Data Wrangler og SageMaker Autopilot-integration kan vi hurtigt bygge en model efter at have afsluttet feature engineering uden at skrive nogen kode. Derefter refererede vi til SageMaker Autopilots bedste model til at køre inferenser ved hjælp af et realtidsslutpunkt.
Prøv den nye Snowflake direkte integration med SageMaker Data Wrangler i dag for nemt at bygge ML-modeller med dine data ved hjælp af SageMaker.
Om forfatterne
Hariharan Suresh er Senior Solutions Architect hos AWS. Han brænder for databaser, maskinlæring og design af innovative løsninger. Før han kom til AWS, var Hariharan produktarkitekt, specialist i implementering af kernebankvirksomhed og udvikler og arbejdede med BFSI-organisationer i over 11 år. Uden for teknologien nyder han paragliding og cykling.
Aparajithan Vaidyanathan er Principal Enterprise Solutions Architect hos AWS. Han understøtter virksomhedskunder med at migrere og modernisere deres arbejdsbelastninger på AWS-skyen. Han er en Cloud Architect med 23+ års erfaring med at designe og udvikle enterprise, storstilede og distribuerede softwaresystemer. Han har specialiseret sig i Machine Learning & Data Analytics med fokus på Data og Feature Engineering domæne. Han er en håbefuld maratonløber, og hans hobbyer omfatter vandreture, cykling og at tilbringe tid med sin kone og to drenge.
Tim sang er softwareudviklingsingeniør hos AWS SageMaker, med 10+ års erfaring som softwareudvikler, konsulent og tech-leder har han demonstreret evne til at levere skalerbare og pålidelige produkter og løse komplekse problemer. I sin fritid nyder han naturen, udendørs løb, vandreture mv.
Bosco Albuquerque er en Sr. Partner Solutions Architect hos AWS og har over 20 års erfaring med at arbejde med database- og analyseprodukter fra enterprise database-leverandører og cloud-udbydere. Han har hjulpet store teknologivirksomheder med at designe dataanalyseløsninger og har ledet ingeniørteams med at designe og implementere dataanalyseplatforme og dataprodukter.
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
- PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
- PlatoESG. Automotive/elbiler, Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
- BlockOffsets. Modernisering af miljømæssig offset-ejerskab. Adgang her.
- Kilde: https://aws.amazon.com/blogs/machine-learning/accelerate-time-to-business-insights-with-the-amazon-sagemaker-data-wrangler-direct-connection-to-snowflake/
- :har
- :er
- :ikke
- $OP
- 1
- 10
- 100
- 11
- 12
- 14
- 15 %
- 20
- 20 år
- 2013
- 27
- 30
- 40
- 500
- 7
- 9
- a
- evne
- Om
- fremskynde
- adgang
- Konto
- Yderligere
- administratorer
- fremskreden
- Efter
- igen
- AI / ML
- Alle
- tillade
- også
- Skønt
- Amazon
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- Amazon Web Services
- beløb
- an
- analyse
- analytics
- ,
- En anden
- enhver
- Apache
- api
- anvendt
- Indløs
- ER
- AS
- aspirerende
- At
- opmærksomhed
- Godkendelse
- automatisere
- Automatiseret
- automatisk
- til rådighed
- AWS
- Bank
- baseret
- grundlæggende
- BE
- fordi
- før
- jf. nedenstående
- BEDSTE
- BFSI
- krop
- både
- bringe
- bygge
- Bygning
- indbygget
- virksomhed
- men
- by
- CAN
- kapaciteter
- fange
- kort
- tilfælde
- tilfælde
- tegn
- opladet
- afgifter
- kontrollere
- Vælg
- klasse
- klassificering
- klassificeret
- Klassificere
- kunde
- Cloud
- kode
- Kolonne
- Kolonner
- kombinationer
- Virksomheder
- fuldføre
- Afsluttet
- Fuldender
- færdiggøre
- komplekse
- komponent
- konfigureret
- Tilslut
- tilslutning
- Konsol
- konsulent
- fortsæt
- kontrol
- konvertere
- Core
- Kernebank
- skabe
- oprettet
- skaber
- Oprettelse af
- Legitimationsoplysninger
- kredit
- kreditkort
- kunde
- Kundeoplevelse
- Kunder
- data
- dataadgang
- dataanalyse
- Dataanalyse
- Dataforberedelse
- dataforsker
- Database
- databaser
- beslutte
- Standard
- defaults
- levere
- demonstrere
- demonstreret
- indsætte
- indsat
- implementering
- beskrivelse
- Design
- konstrueret
- designe
- detaljer
- Bestem
- Udvikler
- udvikling
- Udvikling
- størrelse
- direkte
- direkte
- distribueret
- domæne
- Dont
- ned
- downloade
- nemt
- enten
- Endpoint
- ingeniør
- Engineering
- Indtast
- Enterprise
- etc.
- europæisk
- evaluering
- Undtagen
- eksisterer
- erfaring
- eksperiment
- eksperimenter
- udforskning
- Udforskende dataanalyse
- udforske
- eksport
- langt
- Feature
- Funktionalitet
- Med
- File (Felt)
- finansielle
- slut
- Fornavn
- Flyde
- Fokus
- efter
- Til
- format
- svigagtig
- fra
- fuld
- yderligere
- generere
- få
- giver
- indrømme
- graf
- Have
- he
- hjælpe
- hjulpet
- højeste
- Fremhævet
- hans
- Hvordan
- How To
- HTML
- http
- HTTPS
- ICON
- identificere
- Identity
- if
- ubalance
- implementering
- gennemføre
- importere
- betydning
- importere
- import
- Forbedre
- in
- omfatter
- omfatter
- Forøg
- individuel
- oplysninger
- initial
- innovativ
- indsigt
- installere
- integrere
- integration
- grænseflade
- interne
- ind
- spørgsmål
- IT
- Varer
- Job
- Karriere
- sammenføjning
- rejse
- jpg
- json
- stor
- storstilet
- lancere
- lanceret
- leder
- læring
- Forlade
- Led
- til venstre
- legitim
- lad
- Bibliotek
- GRÆNSE
- Liste
- belastning
- belastninger
- lokale
- placering
- laveste
- maskine
- machine learning
- lavet
- vedligeholde
- lave
- administrere
- Marathon
- matchende
- Kan..
- mekanisme
- metode
- metrisk
- Metrics
- migrere
- minutter
- mangler
- ML
- model
- modeller
- modernisere
- modes
- Overvåg
- mere
- navn
- Som hedder
- Natur
- Navigation
- behov
- Ny
- næste
- notesbog
- nu
- nummer
- oauth
- objekt
- objektiv
- of
- on
- igangværende
- Optimer
- Option
- or
- ordrer
- organisationer
- original
- OS
- Andet
- vores
- ud
- output
- uden for
- i løbet af
- oversigt
- side
- brød
- partner
- passerer
- lidenskabelige
- Adgangskode
- sti
- Udfør
- udfører
- Tilladelser
- Platforme
- plato
- Platon Data Intelligence
- PlatoData
- plus
- Punkt
- Populær
- Indlæg
- forudsige
- forudsagde
- Forudsigelser
- forberedelse
- Forbered
- forudsætninger
- forhindre
- tidligere
- Main
- Forud
- Problem
- problemer
- behandle
- forarbejdning
- Produkt
- produktivitet
- Produkter
- Progress
- give
- udbyder
- udbydere
- offentlige
- køb
- formål
- sætte
- Python
- kvalitet
- forespørgsler
- Hurtig
- hurtigt
- realtid
- reducere
- reducerer
- reduktion
- pålidelig
- Fjern
- erstatte
- indberette
- rapporteret
- Rapporter
- anmode
- påkrævet
- svar
- resultere
- Resultater
- gennemgå
- ridning
- roller
- Kør
- runner
- kører
- s
- sagemaker
- Gem
- skalerbar
- Videnskabsmand
- forskere
- problemfrit
- Sektion
- send
- senior
- september
- Tjenester
- sæt
- indstillinger
- setup
- delt
- bør
- Vis
- Shows
- underskrive
- Simpelt
- forenklet
- enkelt
- So
- Software
- softwareudvikling
- løsninger
- Løsninger
- SOLVE
- sang
- Kilde
- Spark
- specialist
- specialiseret
- specifikt
- hastighed
- udgifterne
- Stage
- starter
- Trin
- Steps
- Stadig
- opbevaring
- butik
- Streng
- String
- Studio
- indsende
- vellykket
- Succesfuld
- sådan
- support
- Understøttet
- Understøtter
- Systemer
- bord
- mål
- opgaver
- hold
- tech
- Teknologier
- teknologiselskaber
- prøve
- at
- Grafen
- deres
- derefter
- Der.
- de
- denne
- dem
- Gennem
- tid
- til
- i dag
- Tog
- uddannet
- Kurser
- transaktion
- Transaktioner
- Transformation
- transformationer
- sand
- tutorial
- to
- typen
- ui
- forstå
- Opdatering
- us
- usability
- brug
- anvendte
- Bruger
- Brugergrænseflade
- brugere
- bruger
- ved brug af
- v1
- VALIDATE
- værdi
- Værdier
- leverandører
- verificere
- Specifikation
- Virtual
- synlighed
- vente
- ønsker
- var
- we
- web
- webservices
- uger
- var
- hvorvidt
- som
- mens
- WHO
- kone
- med
- inden for
- uden
- Arbejde
- arbejdede
- workflow
- arbejdsgange
- arbejder
- skrivning
- år
- Du
- Din
- zephyrnet