Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon-webservices

Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon-webservices

Met trots kondigen wij de lancering aan van Amazon DocumentDB (met MongoDB-compatibiliteit) integratie met Amazon SageMaker-canvas, waardoor Amazon DocumentDB-klanten generatieve AI- en machine learning (ML)-oplossingen kunnen bouwen en gebruiken zonder code te schrijven. Amazon DocumentDB is een volledig beheerde native JSON-documentdatabase die het eenvoudig en kosteneffectief maakt om kritieke documentworkloads op vrijwel elke schaal uit te voeren zonder de infrastructuur te beheren. Amazon SageMaker Canvas is een ML-werkruimte zonder code die kant-en-klare modellen biedt, inclusief basismodellen, en de mogelijkheid om gegevens voor te bereiden en aangepaste modellen te bouwen en te implementeren.

In dit bericht bespreken we hoe we gegevens die zijn opgeslagen in Amazon DocumentDB naar SageMaker Canvas kunnen brengen en die gegevens kunnen gebruiken om ML-modellen voor voorspellende analyses te bouwen. Zonder datapijplijnen te creëren en te onderhouden, kunt u ML-modellen aandrijven met uw ongestructureerde gegevens die zijn opgeslagen in Amazon DocumentDB.

Overzicht oplossingen

Laten we de rol aannemen van een bedrijfsanalist voor een voedselbezorgbedrijf. Uw mobiele app slaat informatie over restaurants op in Amazon DocumentDB vanwege de schaalbaarheid en flexibele schemamogelijkheden. U wilt inzichten uit deze gegevens verzamelen en een ML-model bouwen om te voorspellen hoe nieuwe restaurants zullen worden beoordeeld, maar vindt het een uitdaging om analyses uit te voeren op ongestructureerde gegevens. U komt knelpunten tegen omdat u moet vertrouwen op data-engineering- en datawetenschapsteams om deze doelen te bereiken.

Deze nieuwe integratie lost deze problemen op door het eenvoudig te maken om Amazon DocumentDB-gegevens in SageMaker Canvas te brengen en onmiddellijk te beginnen met het voorbereiden en analyseren van gegevens voor ML. Bovendien neemt SageMaker Canvas de afhankelijkheid van ML-expertise weg om hoogwaardige modellen te bouwen en voorspellingen te genereren.

We demonstreren in de volgende stappen hoe u Amazon DocumentDB-gegevens kunt gebruiken om ML-modellen in SageMaker Canvas te bouwen:

  1. Maak een Amazon DocumentDB-connector in SageMaker Canvas.
  2. Analyseer gegevens met behulp van generatieve AI.
  3. Gegevens voorbereiden voor machinaal leren.
  4. Bouw een model en genereer voorspellingen.

Voorwaarden

Om deze oplossing te implementeren, moet u aan de volgende vereisten voldoen:

  1. Zorg voor AWS Cloud-beheerderstoegang met een AWS Identiteits- en toegangsbeheer (IAM) gebruiker met machtigingen die vereist zijn om de integratie te voltooien.
  2. Voltooi de omgevingsconfiguratie met behulp van AWS CloudFormatie via een van de volgende opties:
    1. Implementeer een CloudFormation-sjabloon in een nieuwe VPC – Met deze optie wordt een nieuwe AWS-omgeving gebouwd die bestaat uit de VPC, privé-subnetten, beveiligingsgroepen, IAM-uitvoeringsrollen, Amazon-wolk9, vereiste VPC-eindpunten en SageMaker-domein. Vervolgens implementeert het Amazon DocumentDB in deze nieuwe VPC. Download de sjabloon of start snel de CloudFormation-stack door te kiezen Start Stack:
      Start CloudFormation-stack
    2. Implementeer een CloudFormation-sjabloon in een bestaande VPC – Met deze optie worden de vereiste VPC-eindpunten, IAM-uitvoeringsrollen en het SageMaker-domein gemaakt in een bestaande VPC met privé-subnetten. Download de sjabloon of start snel de CloudFormation-stack door te kiezen Start Stack:
      Start CloudFormation-stack

Houd er rekening mee dat als u een nieuw SageMaker-domein aanmaakt, u het domein zo moet configureren dat het zich in een privé-VPC bevindt zonder internettoegang om de connector aan Amazon DocumentDB te kunnen toevoegen. Raadpleeg voor meer informatie Configureer Amazon SageMaker Canvas in een VPC zonder internettoegang.

  1. Volg de zelfstudie om voorbeeldrestaurantgegevens in Amazon DocumentDB te laden.
  2. Voeg toegang toe tot Amazon Bedrock en het Anthropic Claude-model daarin. Voor meer informatie, zie Voeg modeltoegang toe.

Maak een Amazon DocumentDB-connector in SageMaker Canvas

Nadat u uw SageMaker-domein hebt gemaakt, voert u de volgende stappen uit:

  1. Kies op de Amazon DocumentDB-console Machine learning zonder code in het navigatievenster.
  2. Onder Kies een domein en profiel¸ kies uw SageMaker-domein en gebruikersprofiel.
  3. Kies Canvas starten om SageMaker Canvas in een nieuw tabblad te starten.
    Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Wanneer SageMaker Canvas klaar is met laden, beland je op het Gegevens stromen Tab.

  1. Kies creëren om een ​​nieuwe gegevensstroom te creëren.
    Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  2. Voer een naam in voor uw gegevensstroom en kies creëren.
  3. Voeg een nieuwe Amazon DocumentDB-verbinding toe door te kiezen Datums importeren, kies dan tabellarisch For Type gegevensset.
  4. Op de Datums importeren pagina, voor Databron, kiezen DocumentDB en Verbinding toevoegen.
    Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  5. Voer een verbindingsnaam in, zoals demo, en kies het gewenste Amazon DocumentDB-cluster.

Houd er rekening mee dat SageMaker Canvas het vervolgkeuzemenu vooraf zal vullen met clusters in dezelfde VPC als uw SageMaker-domein.

  1. Voer een gebruikersnaam, wachtwoord en databasenaam in.
  2. Selecteer ten slotte uw leesvoorkeur.

Om de prestaties van primaire instanties te beschermen, gebruikt SageMaker Canvas standaard Secundair, wat betekent dat er alleen wordt gelezen van secundaire instanties. Wanneer leesvoorkeur is Secundaire voorkeur, leest SageMaker Canvas van beschikbare secundaire instanties, maar leest van de primaire instantie als er geen secundaire instantie beschikbaar is. Voor meer informatie over het configureren van een Amazon DocumentDB-verbinding raadpleegt u de Maak verbinding met een database die is opgeslagen in AWS.

  1. Kies Verbinding toevoegen.
    Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Als de verbinding tot stand is gebracht, ziet u verzamelingen in uw Amazon DocumentDB-database weergegeven als tabellen.

  1. Sleep de gewenste tabel naar het lege canvas. Voor dit bericht voegen we onze restaurantgegevens toe.

De eerste 100 rijen worden als voorbeeld weergegeven.

  1. Kies om te beginnen met het analyseren en voorbereiden van uw gegevens Datums importeren.
    Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  2. Voer een datasetnaam in en kies Datums importeren.

Analyseer gegevens met behulp van generatieve AI

Vervolgens willen we inzicht krijgen in onze gegevens en op zoek gaan naar patronen. SageMaker Canvas biedt een natuurlijke taalinterface om gegevens te analyseren en voor te bereiden. Wanneer de Data tabblad wordt geladen, kunt u met de volgende stappen beginnen met chatten met uw gegevens:

  1. Kies Chat voor gegevensvoorbereiding.
    Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  2. Verzamel inzichten over uw gegevens door vragen te stellen, zoals de voorbeelden in de volgende schermafbeeldingen.
    Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Voor meer informatie over hoe u natuurlijke taal kunt gebruiken om gegevens te verkennen en voor te bereiden, raadpleegt u Gebruik natuurlijke taal om gegevens te verkennen en voor te bereiden met een nieuwe mogelijkheid van Amazon SageMaker Canvas.

Laten we een dieper inzicht krijgen in onze datakwaliteit door gebruik te maken van het SageMaker Canvas Data Quality and Insights Report, dat automatisch de datakwaliteit evalueert en afwijkingen opspoort.

  1. Op de analyses tabblad, kies Rapport Gegevenskwaliteit en inzichten.
  2. Kies rating als de doelkolom en Regressie als probleemtype en kies vervolgens creëren.

Dit zal modeltraining simuleren en inzichten bieden over hoe we onze gegevens voor machinaal leren kunnen verbeteren. Het volledige rapport wordt binnen enkele minuten gegenereerd.

Uit ons rapport blijkt dat 2.47% van de rijen in ons doel ontbrekende waarden bevatten. We zullen dit in de volgende stap behandelen. Bovendien blijkt uit de analyse dat de address line 2, name en type_of_food functies hebben de meeste voorspellende kracht in onze gegevens. Dit geeft aan dat basisinformatie over restaurants, zoals locatie en keuken, een grote invloed kan hebben op de beoordelingen.

Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Gegevens voorbereiden voor machinaal leren

SageMaker Canvas biedt meer dan 300 ingebouwde transformaties om uw geïmporteerde gegevens voor te bereiden. Voor meer informatie over transformatiefuncties van SageMaker Canvas raadpleegt u Gegevens voorbereiden met geavanceerde transformaties. Laten we enkele transformaties toevoegen om onze gegevens gereed te maken voor het trainen van een ML-model.

  1. Navigeer terug naar de Informatiestroom pagina door de naam van uw gegevensstroom bovenaan de pagina te kiezen.
  2. Kies het plusteken naast Datatypen En kies Voeg transformatie toe.
    Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  3. Kies Stap toevoegen.
  4. Laten we de naam hernoemen address line 2 kolom naar cities.
    1. Kies Beheer kolommen.
    2. Kies Kolom hernoemen For Transformeren.
    3. Kies address line 2 For Invoerkolom, ga naar binnen cities For Nieuwe naamen kies Toevoegen.
      Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  5. Laten we bovendien enkele onnodige kolommen verwijderen.
    1. Voeg een nieuwe transformatie toe.
    2. Voor Transformeren, kiezen Kolom laten vallen.
    3. Voor Kolommen om te laten vallen, kiezen URL en restaurant_id.
    4. Kies Toevoegen.
      Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.[
  6. Onze rating feature-kolom bevat enkele ontbrekende waarden, dus laten we die rijen invullen met de gemiddelde waarde van deze kolom.
    1. Voeg een nieuwe transformatie toe.
    2. Voor Transformeren, kiezen Toerekenen.
    3. Voor Kolomtype, kiezen Numerieke.
    4. Voor Invoerkolommen, kies de rating kolom.
    5. Voor Strategie toerekenen, kiezen Gemiddelde.
    6. Voor Uitvoerkolom, ga naar binnen rating_avg_filled.
    7. Kies Toevoegen.
      Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  7. We kunnen de rating kolom omdat we een nieuwe kolom met gevulde waarden hebben.
  8. Omdat type_of_food categorisch van aard is, willen we het numeriek coderen. Laten we deze functie coderen met behulp van de one-hot-coderingstechniek.
    1. Voeg een nieuwe transformatie toe.
    2. Voor Transformeren, kiezen One-hot coderen.
    3. Kies voor Invoerkolommen type_of_food.
    4. Voor Ongeldige verwerkingsstrategieKiezen Houden.
    5. Voor UitvoerstijlKiezen columns.
    6. Voor Uitvoerkolom, ga naar binnen encoded.
    7. Kies Toevoegen.
      Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Bouw een model en genereer voorspellingen

Nu we onze gegevens hebben getransformeerd, gaan we een numeriek ML-model trainen om de beoordelingen voor restaurants te voorspellen.

  1. Kies Maak een model.
  2. Voor Naam datasetVoer een naam in voor de gegevenssetexport.
  3. Kies Exporteren en wacht tot de getransformeerde gegevens zijn geëxporteerd.
    Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  4. Kies de Maak een model link in de linkerbenedenhoek van de pagina.

U kunt de gegevensset ook selecteren via de Data Wrangler-functie aan de linkerkant van de pagina.

Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

  1. Voer een modelnaam in.
  2. Kies Voorspellende analyse, kies dan creëren.
  3. Kies rating_avg_filled als de doelkolom.

SageMaker Canvas selecteert automatisch een geschikt modeltype.

  1. Kies Voorbeeldmodel om ervoor te zorgen dat er geen problemen met de gegevenskwaliteit optreden.
  2. Kies Snel gebouwd om het model te bouwen.
    Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Het maken van het model duurt ongeveer 2 tot 15 minuten.

U kunt de modelstatus bekijken nadat het model de training heeft afgerond. Ons model heeft een RSME van 0.422, wat betekent dat het model vaak de beoordeling van een restaurant voorspelt binnen +/- 0.422 van de werkelijke waarde, een solide benadering voor de beoordelingsschaal van 1–6.

Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

  1. Ten slotte kunt u voorbeeldvoorspellingen genereren door naar de Voorspellen Tab.
    Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Opruimen

Om te voorkomen dat er in de toekomst kosten in rekening worden gebracht, verwijdert u de bronnen die u heeft gemaakt terwijl u dit bericht volgde. SageMaker Canvas factureert u voor de duur van de sessie en we raden u aan uit te loggen bij SageMaker Canvas als u het niet gebruikt. Verwijzen naar Afmelden bij Amazon SageMaker Canvas voor meer details.

Conclusie

In dit bericht hebben we besproken hoe u SageMaker Canvas kunt gebruiken voor generatieve AI en ML met gegevens die zijn opgeslagen in Amazon DocumentDB. In ons voorbeeld hebben we laten zien hoe een analist snel een hoogwaardig ML-model kan bouwen met behulp van een voorbeeldrestaurantdataset.

We lieten de stappen zien om de oplossing te implementeren, van het importeren van gegevens uit Amazon DocumentDB tot het bouwen van een ML-model in SageMaker Canvas. Het hele proces werd voltooid via een visuele interface zonder ook maar één regel code te schrijven.

Om uw low-code/no-code ML-traject te starten, raadpleegt u Amazon SageMaker-canvas.


Over de auteurs

Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Adeleke Koker is een Global Solutions Architect bij AWS. Hij werkt samen met klanten over de hele wereld om begeleiding en technische assistentie te bieden bij het op grote schaal implementeren van productieworkloads op AWS. In zijn vrije tijd houdt hij van leren, lezen, gamen en kijken naar sportevenementen.

Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Gururaj S Bayari is een Senior DocumentDB Specialist Solutions Architect bij AWS. Hij helpt klanten graag bij het adopteren van de speciaal gebouwde databases van Amazon. Hij helpt klanten bij het ontwerpen, evalueren en optimaliseren van hun internetschaal en hoogwaardige workloads, mogelijk gemaakt door NoSQL en/of relationele databases.

Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Tim Pusateri is Senior Product Manager bij AWS, waar hij werkt aan Amazon SageMaker Canvas. Zijn doel is om klanten te helpen snel waarde te halen uit AI/ML. Buiten zijn werk houdt hij ervan om buiten te zijn, gitaar te spelen, livemuziek te zien en tijd door te brengen met familie en vrienden.

Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Pratik Das is productmanager bij AWS. Hij werkt graag samen met klanten die veerkrachtige workloads en sterke datafundamenten in de cloud willen bouwen. Hij brengt expertise mee in het samenwerken met ondernemingen op het gebied van modernisering, analyse en datatransformatie-initiatieven.

Gebruik Amazon DocumentDB om machine learning-oplossingen zonder code te bouwen in Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Varma Gottumukkala is een Senior Database Specialist Solutions Architect bij AWS, gevestigd in Dallas Fort Worth. Varma werkt samen met de klanten aan hun databasestrategie en ontwerpt hun werklasten met behulp van speciaal gebouwde AWS-databases. Voordat hij bij AWS kwam, werkte hij de afgelopen 22 jaar uitgebreid met relationele databases, NOSQL-databases en meerdere programmeertalen.

Tijdstempel:

Meer van AWS-machine learning