Öka utvecklarens produktivitet: Hur Deloitte använder Amazon SageMaker Canvas för maskininlärning utan kod/lågkod

Återutgiven av Platon

anhängare: 0

Möjligheten att snabbt bygga och distribuera modeller för maskininlärning (ML) blir allt viktigare i dagens datadrivna värld. Men att bygga ML-modeller kräver betydande tid, ansträngning och specialiserad expertis. Från datainsamling och rengöring till funktionsteknik, modellbygge, trimning och driftsättning, ML-projekt tar ofta månader för utvecklare att slutföra. Och erfarna dataforskare kan vara svåra att få tag på.

Det är här AWS-sviten av ML-tjänster med låg kod och ingen kod blir ett viktigt verktyg. Med bara några klick använder du Amazon SageMaker Canvas, kan du dra nytta av kraften i ML utan att behöva skriva någon kod.

Som en strategisk systemintegratör med djup ML-erfarenhet använder Deloitte ML-verktygen utan kod och lågkod från AWS för att effektivt bygga och distribuera ML-modeller för Deloittes kunder och för interna tillgångar. Dessa verktyg gör att Deloitte kan utveckla ML-lösningar utan att behöva handkoda modeller och pipelines. Detta kan hjälpa till att påskynda projektleveranser och göra det möjligt för Deloitte att ta på sig mer kundarbete.

Följande är några specifika skäl till varför Deloitte använder dessa verktyg:

Tillgänglighet för icke-programmerare – No-code-verktyg öppnar upp ML-modellbyggnad för icke-programmerare. Teammedlemmar med bara domänexpertis och väldigt lite kodningsförmåga kan utveckla ML-modeller.
Snabbt antagande av ny teknik – Tillgänglighet och ständiga förbättringar av färdiga modeller och AutoML hjälper till att säkerställa att användare ständigt använder ledande teknik.
Kostnadseffektiv utveckling – No-code-verktyg hjälper till att minska kostnaden och tiden som krävs för utveckling av ML-modeller, vilket gör den mer tillgänglig för kunder, vilket kan hjälpa dem att uppnå en högre avkastning på investeringen.

Dessutom ger dessa verktyg en heltäckande lösning för snabbare arbetsflöden, vilket möjliggör följande:

Snabbare databeredning – SageMaker Canvas har över 300 inbyggda transformationer och förmågan att använda naturligt språk som kan påskynda databeredningen och göra data redo för modellbyggande.
Snabbare modellbygge – SageMaker Canvas erbjuder färdiga modeller eller Amazon AutoML teknik som gör att du kan bygga anpassade modeller på företagsdata med bara några få klick. Detta hjälper till att påskynda processen jämfört med kodningsmodeller från grunden.
Enklare distribution – SageMaker Canvas erbjuder möjligheten att distribuera produktionsfärdiga modeller till en Amazon Sagmaker slutpunkt med några få klick samtidigt som du registrerar den i Amazon SageMaker Model Registry.

Vishveshwara Vasa, Cloud CTO för Deloitte, säger:

"Genom AWS:s no-code ML-tjänster som SageMaker Canvas och SageMaker Data Wrangler, har vi på Deloitte Consulting låst upp nya effektivitetsvinster, vilket ökar hastigheten på utveckling och driftsättning med 30–40 % i våra kundinriktade och interna projekt."

I det här inlägget demonstrerar vi kraften i att bygga en end-to-end ML-modell utan kod med SageMaker Canvas genom att visa dig hur du bygger en klassificeringsmodell för att förutsäga om en kund kommer att ställa in ett lån. Genom att förutsäga fallissemang på lån mer exakt kan modellen hjälpa ett finansiellt tjänsteföretag att hantera risker, prissätta lån på lämpligt sätt, förbättra verksamheten, tillhandahålla ytterligare tjänster och få en konkurrensfördel. Vi visar hur SageMaker Canvas kan hjälpa dig att snabbt gå från rådata till en utplacerad binär klassificeringsmodell för förutsägelse av betalningsanmärkningar.

SageMaker Canvas erbjuder omfattande databeredningsfunktioner som drivs av Amazon SageMaker Data Wrangler i SageMaker Canvas arbetsyta. Detta gör att du kan gå igenom alla faser av ett standard ML-arbetsflöde, från dataförberedelse till modellbyggande och implementering, på en enda plattform.

Dataförberedelse är vanligtvis den mest tidskrävande fasen i ML-arbetsflödet. För att minska tiden som läggs på dataförberedelser låter SageMaker Canvas dig förbereda dina data med över 300 inbyggda transformationer. Alternativt du kan skriva naturliga språkuppmaningar, till exempel "släpp raderna för kolumn c som är extremvärden" och presenteras med kodavsnittet som krävs för detta databeredningssteg. Du kan sedan lägga till detta i ditt dataförberedande arbetsflöde med några få klick. Vi visar dig hur du använder det också i det här inlägget.

Lösningsöversikt

Följande diagram beskriver arkitekturen för en standardklassificeringsmodell för lån med hjälp av SageMakers verktyg för låg kod och ingen kod.

Öka utvecklarens produktivitet: Hur Deloitte använder Amazon SageMaker Canvas för maskininlärning utan kod/låg kod | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Börjar med en datauppsättning som har detaljer om lånestandarddata i Amazon enkel lagringstjänst (Amazon S3), använder vi SageMaker Canvas för att få insikter om data. Vi utför sedan funktionsteknik för att tillämpa transformationer som att koda kategoriska funktioner, ta bort funktioner som inte behövs och mer. Därefter lagrar vi den rensade datan tillbaka i Amazon S3. Vi använder den rensade datamängden för att skapa en klassificeringsmodell för att förutsäga betalningsanmärkningar. Sedan har vi en produktionsklar modell för slutledning.

Förutsättningar

Se till att följande förutsättningar är kompletta och att du har aktiverat Canvas Klara att använda modeller alternativet när du konfigurerar SageMaker-domänen. Om du redan har konfigurerat din domän, redigera dina domäninställningar och gå till Canvasinställningar för att aktivera Aktivera Canvas redo att använda modeller alternativ. Dessutom, ställ in och skapa SageMaker Canvas-applikationen, begär och aktivera Antropisk Claude modell tillgång on Amazonas berggrund.

dataset

Vi använder en offentlig datauppsättning från kaggla som innehåller information om finansiella lån. Varje rad i datasetet representerar ett enskilt lån och kolumnerna ger information om varje transaktion. Ladda ner denna datauppsättning och lagra den i en S3-hink som du väljer. Följande tabell listar fälten i datamängden.

Kolumnnamn	Data typ	Beskrivning
`Person_age`	Heltal	Ålder på den person som tog ett lån
`Person_income`	Heltal	Låntagarens inkomst
`Person_home_ownership`	Sträng	Bostadsägandestatus (egen eller hyra)
`Person_emp_length`	Decimal	Antal år de är anställda
`Loan_intent`	Sträng	Orsak till lån (personligt, medicinskt, pedagogiskt och så vidare)
`Loan_grade`	Sträng	Lånegrad (A–E)
`Loan_int_rate`	Decimal	Ränta
`Loan_amnt`	Heltal	Totalt lånebelopp
`Loan_status`	Heltal	Mål (oavsett om de har misslyckats eller inte)
`Loan_percent_income`	Decimal	Lånebelopp jämfört med andelen av inkomsten
`Cb_person_default_on_file`	Heltal	Tidigare standardvärden (om några)
`Cb_person_credit_history_length`	Sträng	Längden på deras kredithistorik

Förenkla databeredningen med SageMaker Canvas

Databeredning kan ta upp till 80 % av insatsen i ML-projekt. Korrekt dataförberedelse leder till bättre modellprestanda och mer exakta förutsägelser. SageMaker Canvas tillåter interaktiv datautforskning, transformation och förberedelse utan att skriva någon SQL- eller Python-kod.

Utför följande steg för att förbereda din data:

Välj på SageMaker Canvas-konsolen Dataförberedelse i navigeringsfönstret.
På Skapa meny, välj Dokument.
För Datasetnamn, ange ett namn för din dataset.
Välja Skapa.
Välj Amazon S3 som datakälla och anslut den till datamängden.
När datamängden har laddats skapar du ett dataflöde med den datamängden.
Växla till fliken analyser och skapa en Rapport för datakvalitet och insikter.

Detta är ett rekommenderat steg för att analysera kvaliteten på indatauppsättningen. Resultatet av denna rapport ger omedelbara ML-drivna insikter som dataskev, dubbletter i data, saknade värden och mycket mer. Följande skärmdump visar ett exempel på den genererade rapporten för lånedatauppsättningen.

Öka utvecklarens produktivitet: Hur Deloitte använder Amazon SageMaker Canvas för maskininlärning utan kod/låg kod | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Genom att generera dessa insikter för din räkning ger SageMaker Canvas dig en uppsättning problem i data som behöver åtgärdas i databeredningsfasen. För att välja de två översta problemen som identifierats av SageMaker Canvas, måste du koda de kategoriska funktionerna och ta bort dubblettraderna så att din modellkvalitet är hög. Du kan göra båda dessa och mer i ett visuellt arbetsflöde med SageMaker Canvas.

Först, en-hot koda loan_intent, loan_gradeoch person_home_ownership
Du kan släppa cb_person_cred_history_length kolumnen eftersom den kolumnen har den minsta förutsägelsekraften, som visas i rapporten Datakvalitet och insikter.

SageMaker Canvas lade nyligen till en Chatta med data alternativ. Den här funktionen använder kraften i grundmodeller för att tolka frågor om naturliga språk och generera Python-baserad kod för att tillämpa funktionstekniska transformationer. Den här funktionen drivs av Amazon Bedrock och kan konfigureras att köras helt i din VPC så att data aldrig lämnar din miljö.
För att använda den här funktionen för att ta bort dubbletter av rader, välj plustecknet bredvid Släpp kolumn transformera och välj sedan Chatta med data.
Ange din fråga på naturligt språk (till exempel "Ta bort dubbletter av rader från datamängden").
Granska den genererade transformationen och välj Lägg till i steg för att lägga till transformationen till flödet.
Slutligen, exportera utdata från dessa transformationer till Amazon S3 eller valfritt Amazon SageMaker Feature Store att använda dessa funktioner i flera projekt.

Du kan också lägga till ytterligare ett steg för att skapa en Amazon S3-destination för datasetet för att skala arbetsflödet för en stor datamängd. Följande diagram visar SageMaker Canvas-dataflödet efter att visuella transformationer lagts till.

Öka utvecklarens produktivitet: Hur Deloitte använder Amazon SageMaker Canvas för maskininlärning utan kod/låg kod | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Du har slutfört hela databearbetnings- och funktionstekniksteget med hjälp av visuella arbetsflöden i SageMaker Canvas. Detta hjälper till att minska den tid en dataingenjör lägger på att rengöra och göra data redo för modellutveckling från veckor till dagar. Nästa steg är att bygga ML-modellen.

Bygg en modell med SageMaker Canvas

Amazon SageMaker Canvas tillhandahåller ett no-code end-to-end arbetsflöde för att bygga, analysera, testa och distribuera denna binära klassificeringsmodell. Slutför följande steg:

Skapa en datauppsättning i SageMaker Canvas.
Ange antingen S3-platsen som användes för att exportera data eller S3-platsen som är på destinationen för SageMaker Canvas-jobbet.

Nu är du redo att bygga modellen.
Välja Modeller i navigeringsfönstret och välj Ny modell.
Namnge modellen och välj Prediktiv analys som modelltyp.
Välj den datauppsättning som skapades i föregående steg.

Nästa steg är att konfigurera modelltypen.
Välj målkolumn så ställs modelltypen automatiskt in som 2 kategori förutsägelse.
Välj din byggtyp, Standardbyggd or Snabbbyggnad.

SageMaker Canvas visar den förväntade byggtiden så snart du börjar bygga modellen. Standardbygget tar vanligtvis mellan 2–4 timmar; du kan använda alternativet Snabbbygg för mindre datauppsättningar, som bara tar 2–15 minuter. För just denna datauppsättning bör det ta cirka 45 minuter att slutföra modellbygget. SageMaker Canvas håller dig informerad om framstegen i byggprocessen.
Efter att modellen har byggts kan du titta på modellens prestanda.

SageMaker Canvas tillhandahåller olika mätvärden som noggrannhet, precision och F1-poäng beroende på modelltyp. Följande skärmdump visar noggrannheten och några andra avancerade mätvärden för denna binära klassificeringsmodell.
Nästa steg är att göra testförutsägelser.
SageMaker Canvas låter dig göra batchförutsägelser på flera ingångar eller en enda förutsägelse för att snabbt verifiera modellkvaliteten. Följande skärmdump visar ett exempel på slutledning.
Det sista steget är att implementera den utbildade modellen.
SageMaker Canvas distribuerar modellen på SageMaker-slutpunkter, och nu har du en produktionsmodell redo för slutledning. Följande skärmdump visar den distribuerade slutpunkten.

Efter att modellen har distribuerats kan du anropa den via AWS SDK eller AWS-kommandoradsgränssnitt (AWS CLI) eller gör API-anrop till valfri applikation för att säkert förutsäga risken för en potentiell låntagare. För mer information om att testa din modell, se Anropa slutpunkter i realtid.

Städa upp

För att undvika extra kostnader, logga ut från SageMaker Canvas or ta bort SageMaker-domänen som skapades. Dessutom, ta bort SageMaker-modellens slutpunkt och radera datamängden som laddades upp till Amazon S3.

Slutsats

No-code ML accelererar utvecklingen, förenklar driftsättningen, kräver inga programmeringskunskaper, ökar standardiseringen och minskar kostnaderna. Dessa fördelar gjorde no-code ML attraktivt för Deloitte att förbättra sina ML-tjänster, och de har förkortat tidslinjerna för deras ML-modellbygge med 30–40 %.

Deloitte är en strategisk global systemintegratör med över 17,000 XNUMX certifierade AWS-utövare över hela världen. Det fortsätter att höja ribban genom deltagande i AWS Competency Program med 25 kompetenser, inklusive Machine Learning. Ta kontakt med Deloitte att börja använda AWS no-code och low-code-lösningar för ditt företag.

Om författarna

Chida Sadayappan leder Deloittes Cloud AI/Machine Learning praktik. Han tillför en stark erfarenhet av tankeledarskap till engagemang och frodas i att stödja verkställande intressenter att uppnå prestationsförbättringar och moderniseringsmål över branscher som använder AI/ML. Chida är en seriell tech-entreprenör och en ivrig samhällsbyggare inom startup- och utvecklares ekosystem.

Kuldeep Singh, en ledande global AI/ML-ledare på AWS med över 20 år inom teknik, kombinerar skickligt sin försäljnings- och entreprenörskapsexpertis med en djup förståelse för AI, ML och cybersäkerhet. Han utmärker sig i att skapa strategiska globala partnerskap, driva transformativa lösningar och strategier inom olika branscher med fokus på generativ AI och GSI.

Kasi Muthu är en senior partnerlösningsarkitekt med fokus på data och AI/ML på AWS baserat i Houston, TX. Han brinner för att hjälpa partners och kunder att påskynda sin molndataresa. Han är en pålitlig rådgivare inom detta område och har gott om erfarenhet av att bygga och bygga skalbara, motståndskraftiga och prestandafulla arbetsbelastningar i molnet. Utanför jobbet tycker han om att umgås med sin familj.