Amazon SageMaker Data Wrangler är ett enda visuellt gränssnitt som minskar tiden som krävs för att förbereda data och utföra funktionsutveckling från veckor till minuter med möjligheten att välja och rensa data, skapa funktioner och automatisera dataförberedelse i maskininlärning (ML) arbetsflöden utan att skriva någon kod.
SageMaker Data Wrangler stöder Snöflinga, en populär datakälla för användare som vill utföra ML. Vi lanserar Snowflake direktanslutningen från SageMaker Data Wrangler för att förbättra kundupplevelsen. Innan lanseringen av den här funktionen krävdes administratörer att ställa in den initiala lagringsintegrationen för att ansluta till Snowflake för att skapa funktioner för ML i Data Wrangler. Detta inkluderar provisionering Amazon enkel lagringstjänst (Amazon S3) hinkar, AWS identitets- och åtkomsthantering (IAM) åtkomstbehörigheter, Snowflake-lagringsintegration för enskilda användare och en pågående mekanism för att hantera eller rensa datakopior i Amazon S3. Denna process är inte skalbar för kunder med strikt dataåtkomstkontroll och ett stort antal användare.
I det här inlägget visar vi hur Snowflakes direkta koppling i SageMaker Data Wrangler förenklar administratörens erfarenhet och datavetarens ML-resa från data till affärsinsikter.
Lösningsöversikt
I denna lösning använder vi SageMaker Data Wrangler för att påskynda dataförberedelser för ML och Amazon SageMaker autopilot för att automatiskt bygga, träna och finjustera ML-modellerna baserat på dina data. Båda tjänsterna är utformade specifikt för att öka produktiviteten och förkorta tiden till värde för ML-utövare. Vi demonstrerar också den förenklade dataåtkomsten från SageMaker Data Wrangler till Snowflake med direktanslutning för att fråga och skapa funktioner för ML.
Se diagrammet nedan för en översikt över ML-processen med låg kod med Snowflake, SageMaker Data Wrangler och SageMaker Autopilot.
Arbetsflödet innehåller följande steg:
- Navigera till SageMaker Data Wrangler för dina dataförberedande och funktionstekniska uppgifter.
- Konfigurera Snowflake-anslutningen med SageMaker Data Wrangler.
- Utforska dina Snowflake-tabeller i SageMaker Data Wrangler, skapa en ML-datauppsättning och utför funktionsutveckling.
- Träna och testa modellerna med SageMaker Data Wrangler och SageMaker Autopilot.
- Ladda den bästa modellen till en slutpunkt i realtid för förutsägelser.
- Använd en Python-anteckningsbok för att anropa den lanserade slutpunkten i realtid.
Förutsättningar
För detta inlägg behöver administratören följande förutsättningar:
Datavetare bör ha följande förutsättningar
Slutligen bör du förbereda dina data för Snowflake
- Vi använder kreditkortstransaktionsdata från Kaggle att bygga ML-modeller för att upptäcka bedrägliga kreditkortstransaktioner, så att kunder inte debiteras för varor som de inte köpt. Datauppsättningen inkluderar kreditkortstransaktioner i september 2013 gjorda av europeiska kortinnehavare.
- Du bör använda SnowSQL-klient och installera den på din lokala dator, så att du kan använda den för att ladda upp datasetet till en Snowflake-tabell.
Följande steg visar hur du förbereder och laddar datauppsättningen till Snowflake-databasen. Detta är en engångsinstallation.
Snöflingatabell och databeredning
Slutför följande steg för denna engångsinstallation:
- Först, som administratör, skapa ett Snowflake virtuellt lager, användare och roll, och ge åtkomst till andra användare som datavetare att skapa en databas och scendata för deras ML-användningsfall:
- Som dataforskare, låt oss nu skapa en databas och importera kreditkortstransaktionerna till Snowflake-databasen för att komma åt data från SageMaker Data Wrangler. I illustrationssyfte skapar vi en Snowflake-databas med namnet
SF_FIN_TRANSACTION
: - Ladda ned datauppsättningens CSV-fil till din lokala dator och skapa ett steg för att ladda data till databastabellen. Uppdatera filsökvägen så att den pekar på den nedladdade datauppsättningsplatsen innan du kör PUT-kommandot för att importera data till det skapade steget:
- Skapa ett bord med namnet
credit_card_transactions
: - Importera data till den skapade tabellen från scenen:
Konfigurera SageMaker Data Wrangler och Snowflake-anslutningen
När vi har förberett datamängden för användning med SageMaker Data Wrangler, låt oss skapa en ny Snowflake-anslutning i SageMaker Data Wrangler för att ansluta till sf_fin_transaction
databas i Snowflake och fråga efter credit_card_transaction
tabell:
- Välja Snöflinga på SageMaker Data Wrangler förbindelse sida.
- Ange ett namn för att identifiera din anslutning.
- Välj din autentiseringsmetod för att ansluta till Snowflake-databasen:
- Om du använder grundläggande autentisering, ange användarnamnet och lösenordet som delas av din Snowflake-administratör. För det här inlägget använder vi grundläggande autentisering för att ansluta till Snowflake med hjälp av användaruppgifterna vi skapade i föregående steg.
- Om du använder OAuth, ange dina identitetsleverantörsuppgifter.
SageMaker Data Wrangler frågar som standard dina data direkt från Snowflake utan att skapa några datakopior i S3-hinkar. SageMaker Data Wranglers nya användbarhetsförbättring använder Apache Spark för att integreras med Snowflake för att förbereda och sömlöst skapa en datauppsättning för din ML-resa.
Hittills har vi skapat databasen på Snowflake, importerat CSV-filen till Snowflake-tabellen, skapat Snowflake-referenser och skapat en anslutning på SageMaker Data Wrangler för att ansluta till Snowflake. För att validera den konfigurerade Snowflake-anslutningen, kör följande fråga på den skapade Snowflake-tabellen:
Observera att alternativet för lagringsintegrering som krävdes tidigare nu är valfritt i de avancerade inställningarna.
Utforska Snowflake-data
När du har validerat frågeresultaten väljer du Importera för att spara frågeresultaten som datauppsättning. Vi använder denna extraherade datauppsättning för utforskande dataanalys och funktionsteknik.
Du kan välja att prova data från Snowflake i SageMaker Data Wrangler UI. Ett annat alternativ är att ladda ner fullständiga data för din ML-modellutbildningsanvändning med SageMaker Data Wrangler-bearbetningsjobb.
Utför utforskande dataanalys i SageMaker Data Wrangler
Datan i Data Wrangler måste konstrueras innan den kan tränas. I det här avsnittet visar vi hur man utför funktionsutveckling på data från Snowflake med SageMaker Data Wranglers inbyggda möjligheter.
Först, låt oss använda Data Quality and Insights Report
funktion i SageMaker Data Wrangler för att generera rapporter för att automatiskt verifiera datakvaliteten och upptäcka avvikelser i data från Snowflake.
Du kan använda rapporten för att hjälpa dig rensa och bearbeta dina data. Den ger dig information som antalet saknade värden och antalet extremvärden. Om du har problem med din data, såsom målläckage eller obalans, kan insiktsrapporten uppmärksamma dig på dessa problem. För att förstå rapportens detaljer, se Accelerera databeredningen med datakvalitet och insikter i Amazon SageMaker Data Wrangler.
När du har kollat in datatypsmatchningen som tillämpas av SageMaker Data Wrangler, slutför du följande steg:
- Välj plustecknet bredvid Datatyper Och välj Lägg till analys.
- För Analystypväljer Rapport för datakvalitet och insikter.
- Välja Skapa.
- Se detaljerna i rapporten Datakvalitet och insikter för att kolla in högprioriterade varningar.
Du kan välja att lösa de rapporterade varningarna innan du fortsätter med din ML-resa.
Målkolumnen Class
att förutsägas klassificeras som en sträng. Låt oss först tillämpa en transformation för att ta bort de gamla tomma tecknen.
- Välja Lägg till steg Och välj Formatera sträng.
- Välj i listan över transformationer Strip vänster och höger.
- Ange de tecken som ska tas bort och välj Lägg till.
Därefter konverterar vi målkolumnen Class
från strängdatatypen till boolesk eftersom transaktionen antingen är legitim eller bedräglig.
- Välja Lägg till steg.
- Välja Analysera kolumnen som typ.
- För kolumn, välj
Class
. - För Frånväljer Sträng.
- För Tillväljer Boolean.
- Välja Lägg till.
Efter målkolumntransformationen minskar vi antalet funktionskolumner, eftersom det finns över 30 funktioner i den ursprungliga datamängden. Vi använder Principal Component Analysis (PCA) för att minska dimensionerna baserat på egenskapens betydelse. För att förstå mer om PCA och dimensionsreduktion, se Principal Component Analysis (PCA) Algoritm.
- Välja Lägg till steg.
- Välja Dimensionalitetsminskning.
- För Förvandlaväljer Huvudkomponentanalys.
- För Inmatningskolumner, välj alla kolumner utom målkolumnen
Class
. - Välj plustecknet bredvid Data flöde Och välj Lägg till analys.
- För Analystypväljer Snabb modell.
- För Analysnamn, ange ett namn.
- För etikettväljer
Class
. - Välja Körning.
Baserat på PCA-resultaten kan du bestämma vilka funktioner som ska användas för att bygga modellen. I följande skärmdump visar grafen funktionerna (eller dimensionerna) sorterade utifrån högsta till lägsta betydelse för att förutsäga målklassen, vilket i denna datauppsättning är om transaktionen är bedräglig eller giltig.
Du kan välja att minska antalet funktioner baserat på denna analys, men för det här inlägget lämnar vi standardinställningarna som de är.
Detta avslutar vår funktionsutvecklingsprocess, även om du kan välja att köra snabbmodellen och skapa en datakvalitets- och insiktsrapport igen för att förstå data innan du utför ytterligare optimeringar.
Exportera data och träna modellen
I nästa steg använder vi SageMaker Autopilot för att automatiskt bygga, träna och ställa in de bästa ML-modellerna baserat på dina data. Med SageMaker Autopilot behåller du fortfarande full kontroll och synlighet över din data och modell.
Nu när vi har slutfört utforskningen och funktionstekniken, låt oss träna en modell på datamängden och exportera data för att träna ML-modellen med SageMaker Autopilot.
- På Utbildning fliken, välj Exportera och träna.
Vi kan övervaka exportförloppet medan vi väntar på att det ska slutföras.
Låt oss konfigurera SageMaker Autopilot för att köra ett automatiserat träningsjobb genom att specificera målet vi vill förutsäga och typen av problem. I det här fallet, eftersom vi tränar datasetet för att förutsäga om transaktionen är bedräglig eller giltig, använder vi binär klassificering.
- Ange ett namn för ditt experiment, ange S3-platsdata och välj Nästa: Mål och funktioner.
- För Måletväljer
Class
som kolumn att förutsäga. - Välja Nästa: Träningsmetod.
Låt oss tillåta SageMaker Autopilot att bestämma träningsmetoden baserat på datamängden.
- För Träningsmetod och algoritmer, Välj Bil.
För att förstå mer om de träningslägen som stöds av SageMaker Autopilot, se Träningslägen och algoritm stöd.
- Välja Nästa: Implementering och avancerade inställningar.
- För Implementeringsalternativväljer Implementera den bästa modellen automatiskt med transformationer från Data Wrangler, som laddar den bästa modellen för slutledning efter att experimentet är klart.
- Ange ett namn för din slutpunkt.
- För Välj typ av maskininlärningsproblemväljer Binär klassificering.
- För Invändningsmåttväljer F1.
- Välja Nästa: Granska och skapa.
- Välja Skapa experiment.
Detta startar ett SageMaker Autopilot-jobb som skapar en uppsättning träningsjobb som använder kombinationer av hyperparametrar för att optimera målmåttet.
Vänta på att SageMaker Autopilot är färdig med att bygga modellerna och utvärdera den bästa ML-modellen.
Starta en slutpunkt i realtid för att testa den bästa modellen
SageMaker Autopilot kör experiment för att fastställa den bästa modellen som kan klassificera kreditkortstransaktioner som legitima eller bedrägliga.
När SageMaker Autopilot slutför experimentet kan vi se träningsresultaten med utvärderingsmåtten och utforska den bästa modellen från SageMaker Autopilots jobbbeskrivningssida.
- Välj den bästa modellen och välj Implementera modell.
Vi använder en slutpunkt i realtid för att testa den bästa modellen skapad genom SageMaker Autopilot.
- Välja Gör förutsägelser i realtid.
När slutpunkten är tillgänglig kan vi passera nyttolasten och få slutledningsresultat.
Låt oss starta en Python-anteckningsbok för att använda slutpunkten.
- På SageMaker Studio-konsolen väljer du mappikonen i navigeringsfönstret och väljer Skapa anteckningsbok.
- Använd följande Python-kod för att anropa den distribuerade slutpunkten i realtid:
Utgången visar resultatet som false
, vilket antyder att exempeldatan inte är bedräglig.
Städa upp
För att se till att du inte ådrar dig några avgifter efter att ha slutfört den här handledningen, stäng av SageMaker Data Wrangler-applikationen och stäng av notebook-instansen används för att göra slutledningar. Det borde du också ta bort slutpunktens slutpunkt du skapade med SageMaker Autopilot för att förhindra extra avgifter.
Slutsats
I det här inlägget demonstrerade vi hur du tar dina data från Snowflake direkt utan att skapa några mellanliggande kopior i processen. Du kan antingen prova eller ladda din fullständiga datauppsättning till SageMaker Data Wrangler direkt från Snowflake. Du kan sedan utforska data, rensa data och utföra funktionsteknik med SageMaker Data Wranglers visuella gränssnitt.
Vi lyfte också fram hur du enkelt kan träna och ställa in en modell med SageMaker Autopilot direkt från SageMaker Data Wranglers användargränssnitt. Med SageMaker Data Wrangler och SageMaker Autopilot-integrering kan vi snabbt bygga en modell efter att ha slutfört funktionsteknik, utan att skriva någon kod. Sedan refererade vi till SageMaker Autopilots bästa modell för att köra slutsatser med hjälp av en slutpunkt i realtid.
Prova den nya direktintegrationen Snowflake med SageMaker Data Wrangler idag för att enkelt bygga ML-modeller med dina data med SageMaker.
Om författarna
Hariharan Suresh är Senior Solutions Architect på AWS. Han brinner för databaser, maskininlärning och att designa innovativa lösningar. Innan han började på AWS var Hariharan produktarkitekt, specialist på implementering av kärnbanker och utvecklare och arbetade med BFSI-organisationer i över 11 år. Utanför tekniken tycker han om att skärmflyga och cykla.
Aparajithan Vaidyanathan är en Principal Enterprise Solutions Architect på AWS. Han hjälper företagskunder att migrera och modernisera sina arbetsbelastningar på AWS-molnet. Han är en molnarkitekt med 23+ års erfarenhet av att designa och utveckla företag, storskaliga och distribuerade mjukvarusystem. Han är specialiserad på maskininlärning och dataanalys med fokus på domänen Data och Feature Engineering. Han är en blivande maratonlöpare och hans hobbyer inkluderar vandring, cykling och att umgås med sin fru och två pojkar.
Tim Song är en mjukvaruutvecklingsingenjör på AWS SageMaker, med 10+ års erfarenhet som mjukvaruutvecklare, konsult och teknikledare har han visat förmåga att leverera skalbara och pålitliga produkter och lösa komplexa problem. På fritiden njuter han av naturen, löpning utomhus, vandring mm.
Bosco Albuquerque är Sr. Partner Solutions Architect på AWS och har över 20 års erfarenhet av att arbeta med databas- och analysprodukter från företagsdatabasleverantörer och molnleverantörer. Han har hjälpt stora teknikföretag att designa dataanalyslösningar och har lett ingenjörsteam med att designa och implementera dataanalysplattformar och dataprodukter.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Fordon / elbilar, Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- BlockOffsets. Modernisera miljökompensation ägande. Tillgång här.
- Källa: https://aws.amazon.com/blogs/machine-learning/accelerate-time-to-business-insights-with-the-amazon-sagemaker-data-wrangler-direct-connection-to-snowflake/
- : har
- :är
- :inte
- $UPP
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 20
- 20 år
- 2013
- 27
- 30
- 40
- 500
- 7
- 9
- a
- förmåga
- Om oss
- accelerera
- tillgång
- Konto
- Annat
- administratörer
- avancerat
- Efter
- igen
- AI / ML
- Alla
- tillåter
- också
- Även
- amason
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- Amazon Web Services
- mängd
- an
- analys
- analytics
- och
- Annan
- vilken som helst
- Apache
- api
- tillämpas
- Ansök
- ÄR
- AS
- blivande
- At
- uppmärksamhet
- Autentisering
- automatisera
- Automatiserad
- automatiskt
- tillgänglig
- AWS
- Banking
- baserat
- grundläggande
- BE
- därför att
- innan
- nedan
- BÄST
- BFSI
- kropp
- båda
- föra
- SLUTRESULTAT
- Byggnad
- inbyggd
- företag
- men
- by
- KAN
- kapacitet
- fånga
- kortet
- Vid
- fall
- tecken
- laddad
- avgifter
- ta
- Välja
- klass
- klassificering
- klassificerad
- klassificera
- klient
- cloud
- koda
- Kolumn
- Kolonner
- kombinationer
- Företag
- fullborda
- Avslutade
- slutför
- fullborda
- komplex
- komponent
- konfigurerad
- Kontakta
- anslutning
- Konsol
- konsult
- fortsätta
- kontroll
- konvertera
- Kärna
- Kärnbank
- skapa
- skapas
- skapar
- Skapa
- referenser
- kredit
- kreditkort
- kund
- kundupplevelse
- Kunder
- datum
- datatillgång
- dataanalys
- Data Analytics
- Förberedelse av data
- datavetare
- Databas
- databaser
- beslutar
- Standard
- defaults
- leverera
- demonstrera
- demonstreras
- distribuera
- utplacerade
- utplacering
- beskrivning
- Designa
- utformade
- design
- detaljer
- Bestämma
- Utvecklare
- utveckla
- Utveckling
- dimensioner
- rikta
- direkt
- distribueras
- domän
- inte
- ner
- ladda ner
- lätt
- antingen
- Slutpunkt
- ingenjör
- Teknik
- ange
- Företag
- etc
- Giltigt körkort
- utvärdering
- Utom
- finns
- erfarenhet
- experimentera
- experiment
- utforskning
- Utforskande dataanalys
- utforska
- export
- långt
- Leverans
- Funktioner
- Med
- Fil
- finansiella
- slut
- Förnamn
- Flyta
- Fokus
- efter
- För
- format
- bedräglig
- från
- full
- ytterligare
- generera
- skaffa sig
- ger
- bevilja
- diagram
- Har
- he
- hjälpa
- hjälpte
- högsta
- Markerad
- hans
- Hur ser din drömresa ut
- How To
- html
- http
- HTTPS
- IKON
- identifiera
- Identitet
- if
- obalans
- genomförande
- genomföra
- importera
- vikt
- importera
- import
- förbättra
- in
- innefattar
- innefattar
- Öka
- individuellt
- informationen
- inledande
- innovativa
- insikter
- installera
- integrera
- integrering
- Gränssnitt
- inre
- in
- problem
- IT
- artikel
- Jobb
- Lediga jobb
- sammanfogning
- resa
- jpg
- json
- Large
- storskalig
- lansera
- lanserades
- ledare
- inlärning
- Lämna
- Led
- vänster
- legitim
- Låt
- Bibliotek
- BEGRÄNSA
- Lista
- läsa in
- laster
- lokal
- läge
- lägst
- Maskinen
- maskininlärning
- gjord
- bibehålla
- göra
- hantera
- Marathon
- matchande
- Maj..
- mekanism
- metod
- metriska
- Metrics
- migrera
- minuter
- saknas
- ML
- modell
- modeller
- modernisera
- lägen
- Övervaka
- mer
- namn
- Som heter
- Natur
- Navigering
- behov
- Nya
- Nästa
- anteckningsbok
- nu
- antal
- oauth
- objektet
- mål
- of
- on
- pågående
- Optimera
- Alternativet
- or
- beställa
- organisationer
- ursprungliga
- OS
- Övriga
- vår
- ut
- produktion
- utanför
- över
- Översikt
- sida
- panelen
- partnern
- passera
- brinner
- Lösenord
- bana
- Utföra
- utför
- behörigheter
- Plattformar
- plato
- Platon Data Intelligence
- PlatonData
- plus
- Punkt
- Populära
- Inlägg
- förutse
- förutsagda
- Förutsägelser
- beredning
- Förbered
- förutsättningar
- förhindra
- föregående
- Principal
- Skriva ut
- Innan
- Problem
- problem
- process
- bearbetning
- Produkt
- produktivitet
- Produkter
- Framsteg
- ge
- leverantör
- leverantörer
- allmän
- inköp
- syfte
- sätta
- Python
- kvalitet
- sökfrågor
- Snabbt
- snabbt
- realtid
- minska
- minskar
- reduktion
- pålitlig
- ta bort
- ersätta
- rapport
- Rapporterad
- Rapport
- begära
- Obligatorisk
- respons
- resultera
- Resultat
- översyn
- rider
- Roll
- Körning
- runner
- rinnande
- s
- sagemaker
- Save
- skalbar
- Forskare
- vetenskapsmän
- sömlöst
- §
- sända
- senior
- September
- Tjänster
- in
- inställningar
- inställning
- delas
- skall
- show
- Visar
- signera
- Enkelt
- förenklade
- enda
- So
- Mjukvara
- mjukvaruutveckling
- lösning
- Lösningar
- LÖSA
- låt
- Källa
- Gnista
- specialist
- specialiserat
- specifikt
- fart
- Spendera
- Etapp
- startar
- Steg
- Steg
- Fortfarande
- förvaring
- lagra
- Strikt
- Sträng
- studio
- skicka
- framgångsrik
- Framgångsrikt
- sådana
- stödja
- Som stöds
- Stöder
- System
- bord
- Målet
- uppgifter
- lag
- tech
- Teknologi
- teknikföretag
- testa
- den där
- Smakämnen
- Grafen
- deras
- sedan
- Där.
- de
- detta
- de
- Genom
- tid
- till
- i dag
- Tåg
- tränad
- Utbildning
- transaktion
- Transaktioner
- Transformation
- transformer
- sann
- handledning
- två
- Typ
- ui
- förstå
- Uppdatering
- us
- användbarhet
- användning
- Begagnade
- Användare
- Användargränssnitt
- användare
- användningar
- med hjälp av
- v1
- BEKRÄFTA
- värde
- Värden
- försäljare
- verifiera
- utsikt
- Virtuell
- synlighet
- vänta
- vill
- var
- we
- webb
- webbservice
- veckor
- były
- om
- som
- medan
- VEM
- fru
- med
- inom
- utan
- Arbete
- arbetade
- arbetsflöde
- arbetsflöden
- arbetssätt
- skrivning
- år
- Om er
- Din
- zephyrnet