Brug Amazon DocumentDB til at bygge kodefri maskinlæringsløsninger i Amazon SageMaker Canvas | Amazon Web Services

Brug Amazon DocumentDB til at bygge kodefri maskinlæringsløsninger i Amazon SageMaker Canvas | Amazon Web Services

Vi er glade for at kunne annoncere lanceringen af Amazon DocumentDB (med MongoDB-kompatibilitet) integration med Amazon SageMaker lærred, der giver Amazon DocumentDB-kunder mulighed for at bygge og bruge generative AI- og maskinlæringsløsninger (ML) uden at skrive kode. Amazon DocumentDB er en fuldt administreret indbygget JSON-dokumentdatabase, der gør det ligetil og omkostningseffektivt at betjene kritiske dokumentarbejdsbelastninger i stort set enhver skala uden at administrere infrastruktur. Amazon SageMaker Canvas er et ML-arbejdsområde uden kode, der tilbyder klar-til-brug-modeller, inklusive fundamentmodeller, og muligheden for at forberede data og bygge og implementere brugerdefinerede modeller.

I dette indlæg diskuterer vi, hvordan man bringer data gemt i Amazon DocumentDB ind i SageMaker Canvas og bruger disse data til at bygge ML-modeller til forudsigende analyser. Uden at oprette og vedligeholde datapipelines vil du være i stand til at drive ML-modeller med dine ustrukturerede data gemt i Amazon DocumentDB.

Løsningsoversigt

Lad os påtage os rollen som forretningsanalytiker for et fødevareleveringsfirma. Din mobilapp gemmer oplysninger om restauranter i Amazon DocumentDB på grund af dens skalerbarhed og fleksible skemafunktioner. Du ønsker at indsamle indsigt i disse data og bygge en ML-model til at forudsige, hvordan nye restauranter vil blive bedømt, men finder det udfordrende at udføre analyser på ustrukturerede data. Du støder på flaskehalse, fordi du er nødt til at stole på dataingeniør- og datavidenskabsteams for at nå disse mål.

Denne nye integration løser disse problemer ved at gøre det nemt at bringe Amazon DocumentDB-data ind i SageMaker Canvas og straks begynde at forberede og analysere data til ML. Derudover fjerner SageMaker Canvas afhængigheden af ​​ML-ekspertise til at bygge højkvalitetsmodeller og generere forudsigelser.

Vi demonstrerer, hvordan du bruger Amazon DocumentDB-data til at bygge ML-modeller i SageMaker Canvas i følgende trin:

  1. Opret en Amazon DocumentDB-stik i SageMaker Canvas.
  2. Analyser data ved hjælp af generativ AI.
  3. Forbered data til maskinlæring.
  4. Byg en model og generer forudsigelser.

Forudsætninger

For at implementere denne løsning skal du udfylde følgende forudsætninger:

  1. Få AWS Cloud-administratoradgang med en AWS identitets- og adgangsstyring (JEG ER) bruger med nødvendige tilladelser for at fuldføre integrationen.
  2. Fuldfør miljøopsætningen vha AWS CloudFormation gennem en af ​​følgende muligheder:
    1. Implementer en CloudFormation-skabelon i en ny VPC – Denne mulighed bygger et nyt AWS-miljø, der består af VPC, private undernet, sikkerhedsgrupper, IAM-udførelsesroller, Amazon Cloud9, påkrævede VPC-endepunkterog SageMaker domæne. Det implementerer derefter Amazon DocumentDB i denne nye VPC. Download skabelon eller hurtig start CloudFormation-stakken ved at vælge Start Stack:
      Start CloudFormation-stak
    2. Implementer en CloudFormation-skabelon i en eksisterende VPC – Denne mulighed opretter de nødvendige VPC-slutpunkter, IAM-udførelsesroller og SageMaker-domæne i en eksisterende VPC med private undernet. Download skabelon eller hurtig start CloudFormation-stakken ved at vælge Start Stack:
      Start CloudFormation-stak

Bemærk, at hvis du opretter et nyt SageMaker-domæne, skal du konfigurere domænet til at være i en privat VPC uden internetadgang for at kunne tilføje forbindelsen til Amazon DocumentDB. For at lære mere, se Konfigurer Amazon SageMaker Canvas i en VPC uden internetadgang.

  1. Følg tutorial for at indlæse eksempelrestaurantdata i Amazon DocumentDB.
  2. Tilføj adgang til Amazon Bedrock og den antropiske Claude-model i den. For mere information, se Tilføj modeladgang.

Opret en Amazon DocumentDB-stik i SageMaker Canvas

Når du har oprettet dit SageMaker-domæne, skal du udføre følgende trin:

  1. På Amazon DocumentDB-konsollen skal du vælge Ingen kode maskinlæring i navigationsruden.
  2. Under Vælg et domæne og en profil¸ vælg dit SageMaker-domæne og din brugerprofil.
  3. Vælg Start Canvas for at lancere SageMaker Canvas på en ny fane.
    Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Når SageMaker Canvas er færdig med at indlæse, vil du lande på Datastrømme fane.

  1. Vælg Opret at skabe et nyt dataflow.
    Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  2. Indtast et navn til dit dataflow, og vælg Opret.
  3. Tilføj en ny Amazon DocumentDB-forbindelse ved at vælge Import datoer, Og vælg derefter tabular forum Datasæt type.
  4. Import datoer side, for Datakilde, vælg DokumentDB , Tilføj forbindelse.
    Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  5. Indtast et forbindelsesnavn, såsom demo, og vælg din ønskede Amazon DocumentDB-klynge.

Bemærk, at SageMaker Canvas på forhånd vil udfylde rullemenuen med klynger i samme VPC som dit SageMaker-domæne.

  1. Indtast et brugernavn, en adgangskode og et databasenavn.
  2. Til sidst skal du vælge din læsepræference.

For at beskytte ydeevnen af ​​primære forekomster indstiller SageMaker Canvas som standard Sekundær, hvilket betyder, at den kun vil læse fra sekundære forekomster. Når læse præference er Sekundært foretrækkes, SageMaker Canvas læser fra tilgængelige sekundære instanser, men vil læse fra den primære instans, hvis en sekundær instans ikke er tilgængelig. For mere information om, hvordan du konfigurerer en Amazon DocumentDB-forbindelse, se Opret forbindelse til en database gemt i AWS.

  1. Vælg Tilføj forbindelse.
    Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Hvis forbindelsen lykkes, vil du se samlinger i din Amazon DocumentDB-database vist som tabeller.

  1. Træk din valgte tabel til det tomme lærred. Til dette indlæg tilføjer vi vores restaurantdata.

De første 100 rækker vises som en forhåndsvisning.

  1. For at begynde at analysere og forberede dine data skal du vælge Import datoer.
    Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  2. Indtast et datasætnavn, og vælg Import datoer.

Analyser data ved hjælp af generativ AI

Dernæst ønsker vi at få lidt indsigt i vores data og lede efter mønstre. SageMaker Canvas giver en naturlig sproggrænseflade til at analysere og forberede data. Når data fanen indlæses, kan du begynde at chatte med dine data med følgende trin:

  1. Vælg Chat til dataforberedelse.
    Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  2. Få indsigt om dine data ved at stille spørgsmål som eksemplerne vist i de følgende skærmbilleder.
    Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

For at lære mere om, hvordan man bruger naturligt sprog til at udforske og forberede data, se Brug naturligt sprog til at udforske og forberede data med en ny kapacitet i Amazon SageMaker Canvas.

Lad os få en dybere fornemmelse af vores datakvalitet ved at bruge SageMaker Canvas Data Quality and Insights Report, som automatisk evaluerer datakvaliteten og opdager abnormiteter.

  1. Analyser fanebladet, vælg Rapport om datakvalitet og indsigt.
  2. Vælg rating som målkolonnen og Regression som problemtype, og vælg derefter Opret.

Dette vil simulere modeltræning og give indsigt i, hvordan vi kan forbedre vores data til maskinlæring. Den komplette rapport genereres på få minutter.

Vores rapport viser, at 2.47 % af rækkerne i vores mål mangler værdier – det tager vi fat på i næste trin. Derudover viser analysen, at address line 2, nameog type_of_food funktioner har den største forudsigelseskraft i vores data. Dette indikerer, at grundlæggende restaurantoplysninger som placering og køkken kan have en overordnet indflydelse på vurderingerne.

Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Forbered data til maskinlæring

SageMaker Canvas tilbyder over 300 indbyggede transformationer til at forberede dine importerede data. For mere information om transformationsfunktioner i SageMaker Canvas, se Forbered data med avancerede transformationer. Lad os tilføje nogle transformationer for at gøre vores data klar til træning af en ML-model.

  1. Naviger tilbage til Dataflow side ved at vælge navnet på dit dataflow øverst på siden.
  2. Vælg plustegnet ved siden af Datatyper Og vælg Tilføj transformation.
    Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  3. Vælg Tilføj trin.
  4. Lad os omdøbe address line 2 kolonne til cities.
    1. Vælg Administrer kolonner.
    2. Vælg Omdøb kolonne forum Transform.
    3. Vælg address line 2 forum Input kolonne, gå ind cities forum Nyt navn, og vælg Tilføj.
      Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  5. Lad os desuden droppe nogle unødvendige kolonner.
    1. Tilføj en ny transformation.
    2. Til Transform, vælg Drop kolonne.
    3. Til Kolonner til at slippe, vælg URL , restaurant_id.
    4. Vælg Tilføj.
      Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.[
  6. Vores rating feature-kolonnen har nogle manglende værdier, så lad os udfylde disse rækker med gennemsnitsværdien af ​​denne kolonne.
    1. Tilføj en ny transformation.
    2. Til Transform, vælg Tilskrive.
    3. Til Kolonnetype, vælg Numerisk.
    4. Til Input kolonner, Vælg rating kolonne.
    5. Til Imputeringsstrategi, vælg Mean.
    6. Til Output kolonne, gå ind rating_avg_filled.
    7. Vælg Tilføj.
      Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  7. Vi kan droppe rating kolonne, fordi vi har en ny kolonne med udfyldte værdier.
  8. Fordi type_of_food er kategorisk af natur, vil vi gerne kode det numerisk. Lad os kode denne funktion ved hjælp af one-hot-kodningsteknikken.
    1. Tilføj en ny transformation.
    2. Til Transform, vælg One-hot encode.
    3. For inputkolonner skal du vælge type_of_food.
    4. Til Ugyldig håndteringsstrategi¸ vælg Holde.
    5. Til Output stil¸ vælg Kolonner.
    6. Til Output kolonne, gå ind encoded.
    7. Vælg Tilføj.
      Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Byg en model og generer forudsigelser

Nu hvor vi har transformeret vores data, lad os træne en numerisk ML-model til at forudsige vurderingerne for restauranter.

  1. Vælg Opret model.
  2. Til Datasætnavn, indtast et navn til datasæteksporten.
  3. Vælg eksport og vent på, at de transformerede data bliver eksporteret.
    Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  4. Vælg den Opret model link i nederste venstre hjørne af siden.

Du kan også vælge datasættet fra Data Wrangler-funktionen til venstre på siden.

Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. Indtast et modelnavn.
  2. Vælg Forudsigende analyse, Og vælg derefter Opret.
  3. Vælg rating_avg_filled som målkolonnen.

SageMaker Canvas vælger automatisk en passende modeltype.

  1. Vælg Preview model for at sikre, at der ikke er problemer med datakvaliteten.
  2. Vælg Hurtig opbygning at bygge modellen.
    Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Modeloprettelsen vil tage cirka 2-15 minutter at fuldføre.

Du kan se modelstatus, når modellen er færdig med træningen. Vores model har en RSME på 0.422, hvilket betyder, at modellen ofte forudsiger vurderingen af ​​en restaurant inden for +/- 0.422 af den faktiske værdi, en solid tilnærmelse til vurderingsskalaen på 1-6.

Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

  1. Endelig kan du generere prøveforudsigelser ved at navigere til Forudsige fane.
    Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ryd op

Slet de ressourcer, du oprettede, mens du fulgte dette indlæg for at undgå at pådrage dig fremtidige gebyrer. SageMaker Canvas fakturerer dig for varigheden af ​​sessionen, og vi anbefaler, at du logger ud af SageMaker Canvas, når du ikke bruger det. Henvise til Logger ud af Amazon SageMaker Canvas for flere detaljer.

Konklusion

I dette indlæg diskuterede vi, hvordan du kan bruge SageMaker Canvas til generativ AI og ML med data gemt i Amazon DocumentDB. I vores eksempel viste vi, hvordan en analytiker hurtigt kan bygge en ML-model af høj kvalitet ved hjælp af et eksempel på restaurantdatasæt.

Vi viste trinene til at implementere løsningen, fra import af data fra Amazon DocumentDB til opbygning af en ML-model i SageMaker Canvas. Hele processen blev gennemført gennem en visuel grænseflade uden at skrive en enkelt kodelinje.

For at starte din lavkode/no-kode ML-rejse, se Amazon SageMaker lærred.


Om forfatterne

Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Adeleke Coker er Global Solutions Architect hos AWS. Han arbejder med kunder globalt for at yde vejledning og teknisk assistance til at implementere produktionsarbejdsbelastninger i stor skala på AWS. I sin fritid nyder han at lære, læse, spille og se sportsbegivenheder.

Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Gururaj S Bayari er Senior DocumentDB Specialist Solutions Architect hos AWS. Han nyder at hjælpe kunder med at adoptere Amazons specialbyggede databaser. Han hjælper kunder med at designe, evaluere og optimere deres internetskala og højtydende arbejdsbelastninger drevet af NoSQL og/eller relationelle databaser.

Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Tim Pusateri er Senior Product Manager hos AWS, hvor han arbejder på Amazon SageMaker Canvas. Hans mål er at hjælpe kunder med hurtigt at få værdi fra AI/ML. Uden for arbejdet elsker han at være udendørs, spille guitar, se levende musik og tilbringe tid med familie og venner.

Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Pratik Das er produktchef hos AWS. Han nyder at arbejde med kunder, der ønsker at opbygge robuste arbejdsbelastninger og stærke datagrundlag i skyen. Han bringer ekspertise, der arbejder med virksomheder om modernisering, analytiske og datatransformationsinitiativer.

Use Amazon DocumentDB to build no-code machine learning solutions in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Varma Gottumukkala er en Senior Database Specialist Solutions Architect hos AWS baseret i Dallas Fort Worth. Varma arbejder sammen med kunderne om deres databasestrategi og arkitekterer deres arbejdsbelastninger ved hjælp af AWS specialbyggede databaser. Før han kom til AWS, arbejdede han meget med relationsdatabaser, NOSQL-databaser og flere programmeringssprog i de sidste 22 år.

Tidsstempel:

Mere fra AWS maskinindlæring