Använd Amazon DocumentDB för att bygga lösningar för maskininlärning utan kod i Amazon SageMaker Canvas

Återutgiven av Platon

anhängare: 0

Vi är glada att kunna lansera Amazon DocumentDB (med MongoDB-kompatibilitet) integration med Amazon SageMaker Canvas, vilket gör att Amazon DocumentDB-kunder kan bygga och använda generativa AI- och maskininlärningslösningar (ML) utan att skriva kod. Amazon DocumentDB är en helt hanterad inbyggd JSON-dokumentdatabas som gör det enkelt och kostnadseffektivt att driva kritiska dokumentarbetsbelastningar i praktiskt taget vilken skala som helst utan att hantera infrastruktur. Amazon SageMaker Canvas är en kodfri ML-arbetsyta som erbjuder färdiga att använda modeller, inklusive grundmodeller, och möjligheten att förbereda data och bygga och distribuera anpassade modeller.

I det här inlägget diskuterar vi hur man överför data lagrad i Amazon DocumentDB till SageMaker Canvas och använder den data för att bygga ML-modeller för prediktiv analys. Utan att skapa och underhålla datapipelines kommer du att kunna driva ML-modeller med dina ostrukturerade data lagrade i Amazon DocumentDB.

Lösningsöversikt

Låt oss anta rollen som affärsanalytiker för ett matleveransföretag. Din mobilapp lagrar information om restauranger i Amazon DocumentDB på grund av dess skalbarhet och flexibla schemafunktioner. Du vill samla in insikter om denna data och bygga en ML-modell för att förutsäga hur nya restauranger kommer att betygsättas, men tycker att det är utmanande att utföra analyser på ostrukturerad data. Du stöter på flaskhalsar eftersom du måste lita på datateknik- och datavetenskapsteam för att uppnå dessa mål.

Denna nya integration löser dessa problem genom att göra det enkelt att föra in Amazon DocumentDB-data till SageMaker Canvas och omedelbart börja förbereda och analysera data för ML. Dessutom tar SageMaker Canvas bort beroendet av ML-expertis för att bygga högkvalitativa modeller och generera förutsägelser.

Vi visar hur man använder Amazon DocumentDB-data för att bygga ML-modeller i SageMaker Canvas i följande steg:

Skapa en Amazon DocumentDB-kontakt i SageMaker Canvas.
Analysera data med hjälp av generativ AI.
Förbered data för maskininlärning.
Bygg en modell och generera förutsägelser.

Förutsättningar

För att implementera den här lösningen, fyll i följande förutsättningar:

Ha AWS Cloud-administratörsåtkomst med en AWS identitets- och åtkomsthantering (JAG ÄR) användare med behörigheter som krävs för att slutföra integrationen.
Slutför miljöinställningen med AWS molnformation genom något av följande alternativ:
1. Distribuera en CloudFormation-mall i en ny VPC – Det här alternativet bygger en ny AWS-miljö som består av VPC, privata undernät, säkerhetsgrupper, IAM-exekveringsroller, Amazon Cloud9, nödvändiga VPC-slutpunkteroch SageMaker-domän. Den distribuerar sedan Amazon DocumentDB i denna nya VPC. Ladda ner mall eller snabbstarta CloudFormation-stacken genom att välja Starta stack:
2. Distribuera en CloudFormation-mall i en befintlig VPC – Det här alternativet skapar de nödvändiga VPC-slutpunkterna, IAM-exekveringsrollerna och SageMaker-domänen i en befintlig VPC med privata undernät. Ladda ner mall eller snabbstarta CloudFormation-stacken genom att välja Starta stack:

Observera att om du skapar en ny SageMaker-domän måste du konfigurera domänen att vara i en privat VPC utan internetåtkomst för att kunna lägga till anslutningen till Amazon DocumentDB. För att lära dig mer, se Konfigurera Amazon SageMaker Canvas i en VPC utan internetåtkomst.

Följ handledning för att ladda exempel på restaurangdata till Amazon DocumentDB.
Lägg till tillgång till Amazon Bedrock och den antropiska Claude-modellen i den. För mer information, se Lägg till modellåtkomst.

Skapa en Amazon DocumentDB-kontakt i SageMaker Canvas

När du har skapat din SageMaker-domän, slutför du följande steg:

På Amazon DocumentDB-konsolen väljer du Maskininlärning utan kod i navigeringsfönstret.
Enligt Välj en domän och profil¸ välj din SageMaker-domän och användarprofil.
Välja Starta Canvas för att lansera SageMaker Canvas på en ny flik.

När SageMaker Canvas har laddat klart landar du på Dataflöden fliken.

Välja Skapa för att skapa ett nytt dataflöde.
Ange ett namn för ditt dataflöde och välj Skapa.
Lägg till en ny Amazon DocumentDB-anslutning genom att välja Importera datumOch välj sedan Tabellformat för Datauppsättningstyp.
På Importera datum sida, för Datakällaväljer DocumentDB och Lägg till anslutning.
Ange ett anslutningsnamn som demo och välj önskat Amazon DocumentDB-kluster.

Observera att SageMaker Canvas kommer att förbefolka rullgardinsmenyn med kluster i samma VPC som din SageMaker-domän.

Ange ett användarnamn, lösenord och databasnamn.
Slutligen väljer du din läspreferens.

För att skydda prestandan för primära instanser använder SageMaker Canvas som standard Sekundär, vilket betyder att den bara kommer att läsa från sekundära instanser. När läspreferens är Sekundärt föredraget, SageMaker Canvas läser från tillgängliga sekundära instanser, men kommer att läsa från den primära instansen om en sekundär instans inte är tillgänglig. För mer information om hur du konfigurerar en Amazon DocumentDB-anslutning, se Anslut till en databas lagrad i AWS.

Välja Lägg till anslutning.

Om anslutningen lyckas kommer du att se samlingar i din Amazon DocumentDB-databas som tabeller.

Dra ditt valbara bord till den tomma duken. För det här inlägget lägger vi till vår restaurangdata.

De första 100 raderna visas som en förhandsvisning.

För att börja analysera och förbereda dina data, välj Importera datum.
Ange ett datauppsättningsnamn och välj Importera datum.

Analysera data med hjälp av generativ AI

Därefter vill vi få lite insikter om vår data och leta efter mönster. SageMaker Canvas tillhandahåller ett naturligt språkgränssnitt för att analysera och förbereda data. När Data flikar laddas kan du börja chatta med din data med följande steg:

Välja Chatta för dataförberedelser.
Få insikter om dina data genom att ställa frågor som exemplen som visas i följande skärmdumpar.

För att lära dig mer om hur man använder naturligt språk för att utforska och förbereda data, se Använd naturligt språk för att utforska och förbereda data med en ny funktion hos Amazon SageMaker Canvas.

Låt oss få en djupare känsla av vår datakvalitet genom att använda SageMaker Canvas Data Quality and Insights Report, som automatiskt utvärderar datakvalitet och upptäcker avvikelser.

På analyser fliken, välj Rapport för datakvalitet och insikter.
Välja rating som målkolumn och Regression som problemtyp och välj sedan Skapa.

Detta kommer att simulera modellträning och ge insikter om hur vi kan förbättra vår data för maskininlärning. Den fullständiga rapporten genereras på några minuter.

Vår rapport visar att 2.47 % av raderna i vårt mål saknar värden – vi tar upp det i nästa steg. Dessutom visar analysen att address line 2, nameoch type_of_food funktioner har störst förutsägelsekraft i våra data. Detta indikerar att grundläggande restauranginformation som plats och mat kan ha en överdriven inverkan på betyg.

Använd Amazon DocumentDB för att bygga kodfria maskininlärningslösningar i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Förbered data för maskininlärning

SageMaker Canvas erbjuder över 300 inbyggda transformationer för att förbereda din importerade data. För mer information om transformationsfunktioner i SageMaker Canvas, se Förbered data med avancerade transformationer. Låt oss lägga till några transformationer för att göra vår data redo för utbildning av en ML-modell.

Navigera tillbaka till Data flöde sida genom att välja namnet på ditt dataflöde högst upp på sidan.
Välj plustecknet bredvid Datatyper Och välj Lägg till transform.
Välja Lägg till steg.
Låt oss byta namn på address line 2 kolumn till cities.
1. Välja Hantera kolumner.
2. Välja Byt namn på kolumn för Förvandla.
3. Välja address line 2 för Inmatningskolumn, stiga på cities för Nytt namn, och välj Lägg till.
Låt oss dessutom släppa några onödiga kolumner.
1. Lägg till en ny transformation.
2. För Förvandlaväljer Släpp kolumn.
3. För Kolumner att släppaväljer URL och restaurant_id.
4. Välja Lägg till.
  [
Vår rating funktionskolumnen saknar några värden, så låt oss fylla i dessa rader med medelvärdet för denna kolumn.
1. Lägg till en ny transformation.
2. För Förvandlaväljer Tillräkna.
3. För Kolumntypväljer Numerisk.
4. För Inmatningskolumner, Välj den rating kolonn.
5. För Imputerande strategiväljer Betyda.
6. För Utgångskolumn, stiga på rating_avg_filled.
7. Välja Lägg till.
Vi kan släppa rating kolumn eftersom vi har en ny kolumn med ifyllda värden.
Därför att type_of_food är kategorisk till sin natur, vi vill koda den numeriskt. Låt oss koda den här funktionen med hjälp av one-hot-kodningstekniken.
1. Lägg till en ny transformation.
2. För Förvandlaväljer En het kodning.
3. För Inmatningskolumner, välj type_of_food.
4. För Ogiltig hanteringsstrategi¸ välja Ha kvar.
5. För Outputstil¸ välja Kolonner.
6. För Utgångskolumn, stiga på encoded.
7. Välja Lägg till.

Bygg en modell och generera förutsägelser

Nu när vi har transformerat vår data, låt oss träna en numerisk ML-modell för att förutsäga betyg för restauranger.

Välja Skapa modell.
För Datasetnamn, ange ett namn för datauppsättningsexporten.
Välja Exportera och vänta på att den transformerade datan ska exporteras.
Välj Skapa modell länk längst ner till vänster på sidan.

Du kan också välja datamängden från Data Wrangler-funktionen till vänster på sidan.

Använd Amazon DocumentDB för att bygga kodfria maskininlärningslösningar i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Ange ett modellnamn.
Välja Prediktiv analysOch välj sedan Skapa.
Välja rating_avg_filled som målkolumn.

SageMaker Canvas väljer automatiskt en lämplig modelltyp.

Välja Förhandsgranska modell för att säkerställa att det inte finns några problem med datakvaliteten.
Välja Snabbbyggnad att bygga modellen.

Modellskapandet tar cirka 2–15 minuter att slutföra.

Du kan se modellstatus efter att modellen har avslutat träningen. Vår modell har ett RSME på 0.422, vilket innebär att modellen ofta förutsäger betyget för en restaurang inom +/- 0.422 av det faktiska värdet, en solid approximation för betygsskalan 1–6.

Använd Amazon DocumentDB för att bygga kodfria maskininlärningslösningar i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Slutligen kan du generera exempelförutsägelser genom att navigera till förutsäga fliken.

Städa upp

För att undvika framtida avgifter, radera resurserna du skapade när du följde det här inlägget. SageMaker Canvas fakturerar dig för hela sessionen, och vi rekommenderar att du loggar ut från SageMaker Canvas när du inte använder den. Hänvisa till Logga ut från Amazon SageMaker Canvas för mer detaljer.

Slutsats

I det här inlägget diskuterade vi hur du kan använda SageMaker Canvas för generativ AI och ML med data lagrad i Amazon DocumentDB. I vårt exempel visade vi hur en analytiker snabbt kan bygga en högkvalitativ ML-modell med hjälp av ett exempel på en restaurangdatauppsättning.

Vi visade stegen för att implementera lösningen, från att importera data från Amazon DocumentDB till att bygga en ML-modell i SageMaker Canvas. Hela processen slutfördes genom ett visuellt gränssnitt utan att skriva en enda rad kod.

För att starta din ML-resa med låg kod/kod utan kod, se Amazon SageMaker Canvas.

Om författarna

Adeleke Coker är en Global Solutions Architect med AWS. Han arbetar med kunder globalt för att ge vägledning och teknisk assistans för att distribuera produktionsbelastningar i stor skala på AWS. På fritiden tycker han om att lära sig, läsa, spela och titta på sportevenemang.

Gururaj S Bayari är Senior DocumentDB Specialist Solutions Architect på AWS. Han tycker om att hjälpa kunder att adoptera Amazons specialbyggda databaser. Han hjälper kunder att designa, utvärdera och optimera deras internetskala och högpresterande arbetsbelastningar som drivs av NoSQL och/eller relationsdatabaser.

Använd Amazon DocumentDB för att bygga kodfria maskininlärningslösningar i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Tim Pusateri är senior produktchef på AWS där han arbetar på Amazon SageMaker Canvas. Hans mål är att hjälpa kunder att snabbt få värde från AI/ML. Utanför jobbet älskar han att vara utomhus, spela gitarr, se livemusik och umgås med familj och vänner.

Använd Amazon DocumentDB för att bygga kodfria maskininlärningslösningar i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Pratik Das är produktchef på AWS. Han tycker om att arbeta med kunder som vill bygga motståndskraftiga arbetsbelastningar och starka databaser i molnet. Han tar med sig expertis som arbetar med företag om modernisering, analytiska och datatransformationsinitiativ.

Använd Amazon DocumentDB för att bygga kodfria maskininlärningslösningar i Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Varma Gottumukkala är Senior Database Specialist Solutions Architect på AWS baserad i Dallas Fort Worth. Varma arbetar med kunderna om deras databasstrategi och utformar deras arbetsbelastningar med hjälp av AWS specialbyggda databaser. Innan han började på AWS arbetade han mycket med relationsdatabaser, NOSQL-databaser och flera programmeringsspråk under de senaste 22 åren.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://aws.amazon.com/blogs/machine-learning/use-amazon-documentdb-to-build-no-code-machine-learning-solutions-in-amazon-sagemaker-canvas/

Tidsstämpel: December 15, 2023

Tidsstämpel: Augusti 4, 2023

Återutgiven av Platon

Bygg taxonomibaserad kontextinriktning med AWS Media Intelligence och Hugging Face BERT

Integrera SaaS-plattformar med Amazon SageMaker för att möjliggöra ML-drivna applikationer | Amazon webbtjänster

Använd dina egna träningsskript och välj automatiskt den bästa modellen med hjälp av hyperparameteroptimering i Amazon SageMaker

Accelerera PyTorch med DeepSpeed för att träna stora språkmodeller med Intel Habana Gaudi-baserade DL1 EC2-instanser | Amazon webbtjänster

Indexera ditt Alfresco-innehåll med den nya Amazon Kendra Alfresco-kontakten | Amazon webbtjänster

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto