Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services

Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services

Wir freuen uns, den Start von bekannt zu geben Amazon DocumentDB (mit MongoDB-Kompatibilität) Integration mit Amazon SageMaker-LeinwandDadurch können Kunden von Amazon DocumentDB generative KI- und maschinelle Lernlösungen (ML) erstellen und nutzen, ohne Code schreiben zu müssen. Amazon DocumentDB ist eine vollständig verwaltete native JSON-Dokumentendatenbank, die den unkomplizierten und kostengünstigen Betrieb kritischer Dokumenten-Workloads in praktisch jeder Größenordnung ohne Verwaltung der Infrastruktur ermöglicht. Amazon SageMaker Canvas ist ein ML-Arbeitsbereich ohne Code, der gebrauchsfertige Modelle, einschließlich Basismodelle, sowie die Möglichkeit bietet, Daten vorzubereiten und benutzerdefinierte Modelle zu erstellen und bereitzustellen.

In diesem Beitrag besprechen wir, wie Sie in Amazon DocumentDB gespeicherte Daten in SageMaker Canvas integrieren und diese Daten verwenden, um ML-Modelle für prädiktive Analysen zu erstellen. Ohne die Erstellung und Wartung von Datenpipelines können Sie ML-Modelle mit Ihren in Amazon DocumentDB gespeicherten unstrukturierten Daten betreiben.

Lösungsüberblick

Nehmen wir die Rolle eines Geschäftsanalysten für einen Lebensmittellieferdienst an. Ihre mobile App speichert aufgrund ihrer Skalierbarkeit und flexiblen Schemafunktionen Informationen über Restaurants in Amazon DocumentDB. Sie möchten Erkenntnisse aus diesen Daten gewinnen und ein ML-Modell erstellen, um vorherzusagen, wie neue Restaurants bewertet werden, finden es jedoch schwierig, Analysen mit unstrukturierten Daten durchzuführen. Sie stoßen auf Engpässe, weil Sie sich auf Data-Engineering- und Data-Science-Teams verlassen müssen, um diese Ziele zu erreichen.

Diese neue Integration löst diese Probleme, indem sie es einfach macht, Amazon DocumentDB-Daten in SageMaker Canvas zu integrieren und sofort mit der Vorbereitung und Analyse von Daten für ML zu beginnen. Darüber hinaus macht SageMaker Canvas die Abhängigkeit von ML-Expertise für die Erstellung hochwertiger Modelle und die Generierung von Vorhersagen überflüssig.

Wir demonstrieren in den folgenden Schritten, wie Sie Amazon DocumentDB-Daten verwenden, um ML-Modelle in SageMaker Canvas zu erstellen:

  1. Erstellen Sie einen Amazon DocumentDB-Connector in SageMaker Canvas.
  2. Analysieren Sie Daten mit generativer KI.
  3. Bereiten Sie Daten für maschinelles Lernen vor.
  4. Erstellen Sie ein Modell und generieren Sie Vorhersagen.

Voraussetzungen:

Um diese Lösung zu implementieren, erfüllen Sie die folgenden Voraussetzungen:

  1. Verfügen Sie über AWS Cloud-Administratorzugriff mit einem AWS Identity and Access Management and (ICH BIN) Benutzer mit den Berechtigungen, die zum Abschließen der Integration erforderlich sind.
  2. Schließen Sie die Umgebungseinrichtung mit ab AWS CloudFormation über eine der folgenden Optionen:
    1. Stellen Sie eine CloudFormation-Vorlage in einer neuen VPC bereit – Diese Option erstellt eine neue AWS-Umgebung, die aus der VPC, privaten Subnetzen, Sicherheitsgruppen, IAM-Ausführungsrollen besteht. Amazon Cloud9, erforderliche VPC-Endpunkte und SageMaker-Domäne. Anschließend wird Amazon DocumentDB in dieser neuen VPC bereitgestellt. Laden Sie die herunter Vorlage oder starten Sie den CloudFormation-Stack schnell, indem Sie wählen Stack starten:
      Starten Sie den CloudFormation-Stack
    2. Stellen Sie eine CloudFormation-Vorlage in einer vorhandenen VPC bereit – Diese Option erstellt die erforderlichen VPC-Endpunkte, IAM-Ausführungsrollen und die SageMaker-Domäne in einer vorhandenen VPC mit privaten Subnetzen. Laden Sie die herunter Vorlage oder starten Sie den CloudFormation-Stack schnell, indem Sie wählen Stack starten:
      Starten Sie den CloudFormation-Stack

Beachten Sie, dass Sie beim Erstellen einer neuen SageMaker-Domäne die Domäne so konfigurieren müssen, dass sie sich in einer privaten VPC ohne Internetzugang befindet, um den Connector zu Amazon DocumentDB hinzufügen zu können. Weitere Informationen finden Sie unter Konfigurieren Sie Amazon SageMaker Canvas in einer VPC ohne Internetzugang.

  1. Befolgen Sie die Lernprogramm um Beispielrestaurantdaten in Amazon DocumentDB zu laden.
  2. Fügen Sie Zugriff auf Amazon Bedrock und das darin enthaltene Anthropic Claude-Modell hinzu. Weitere Informationen finden Sie unter Modellzugriff hinzufügen.

Erstellen Sie einen Amazon DocumentDB-Connector in SageMaker Canvas

Nachdem Sie Ihre SageMaker-Domäne erstellt haben, führen Sie die folgenden Schritte aus:

  1. Wählen Sie in der Amazon DocumentDB-Konsole Maschinelles Lernen ohne Code im Navigationsbereich.
  2. Der Wählen Sie eine Domain und ein Profil¸ Wählen Sie Ihre SageMaker-Domäne und Ihr Benutzerprofil.
  3. Auswählen Leinwand starten um SageMaker Canvas in einem neuen Tab zu starten.
    Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wenn der Ladevorgang von SageMaker Canvas abgeschlossen ist, landen Sie auf der Seite Datenflüsse Tab.

  1. Auswählen Erstellen um einen neuen Datenfluss zu erstellen.
    Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  2. Geben Sie einen Namen für Ihren Datenfluss ein und wählen Sie Erstellen.
  3. Fügen Sie eine neue Amazon DocumentDB-Verbindung hinzu, indem Sie wählen Daten importieren, Dann wählen Tabellarisch für Datensatztyp.
  4. Auf dem Daten importieren Seite, für Datenquelle, wählen DocumentDB und Verbindung hinzufügen.
    Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  5. Geben Sie einen Verbindungsnamen ein, z. B. demo, und wählen Sie den gewünschten Amazon DocumentDB-Cluster aus.

Beachten Sie, dass SageMaker Canvas das Dropdown-Menü vorab mit Clustern in derselben VPC wie Ihre SageMaker-Domäne füllt.

  1. Geben Sie einen Benutzernamen, ein Passwort und einen Datenbanknamen ein.
  2. Wählen Sie abschließend Ihre Lesepräferenz aus.

Um die Leistung primärer Instanzen zu schützen, verwendet SageMaker Canvas standardmäßig Sekundär, was bedeutet, dass nur von sekundären Instanzen gelesen wird. Bei Lesepräferenz ist Sekundarstufe bevorzugt, SageMaker Canvas liest von verfügbaren sekundären Instanzen, liest jedoch von der primären Instanz, wenn keine sekundäre Instanz verfügbar ist. Weitere Informationen zum Konfigurieren einer Amazon DocumentDB-Verbindung finden Sie im Stellen Sie eine Verbindung zu einer in AWS gespeicherten Datenbank her.

  1. Auswählen Verbindung hinzufügen.
    Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wenn die Verbindung erfolgreich ist, werden Sammlungen in Ihrer Amazon DocumentDB-Datenbank als Tabellen angezeigt.

  1. Ziehen Sie die Tabelle Ihrer Wahl auf die leere Leinwand. Für diesen Beitrag fügen wir unsere Restaurantdaten hinzu.

Die ersten 100 Zeilen werden als Vorschau angezeigt.

  1. Um mit der Analyse und Vorbereitung Ihrer Daten zu beginnen, wählen Sie Daten importieren.
    Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  2. Geben Sie einen Datensatznamen ein und wählen Sie aus Daten importieren.

Analysieren Sie Daten mit generativer KI

Als nächstes möchten wir Einblicke in unsere Daten gewinnen und nach Mustern suchen. SageMaker Canvas bietet eine Schnittstelle in natürlicher Sprache zur Analyse und Aufbereitung von Daten. Wenn das Datum Nachdem der Tab geladen wurde, können Sie mit den folgenden Schritten mit Ihren Daten chatten:

  1. Auswählen Chat zur Datenvorbereitung.
    Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  2. Sammeln Sie Erkenntnisse über Ihre Daten, indem Sie Fragen wie die in den folgenden Screenshots gezeigten Beispiele stellen.
    Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Weitere Informationen zur Verwendung natürlicher Sprache zum Erkunden und Aufbereiten von Daten finden Sie unter Nutzen Sie natürliche Sprache, um Daten mit einer neuen Funktion von Amazon SageMaker Canvas zu erkunden und vorzubereiten.

Verschaffen Sie sich einen tieferen Einblick in unsere Datenqualität, indem Sie den SageMaker Canvas Data Quality and Insights Report verwenden, der die Datenqualität automatisch bewertet und Anomalien erkennt.

  1. Auf dem Analysen Tab, wählen Sie Datenqualitäts- und Insights-Bericht.
  2. Auswählen rating als Zielspalte und Regression als Problemtyp, dann wählen Sie Erstellen.

Dadurch wird das Modelltraining simuliert und Erkenntnisse darüber gewonnen, wie wir unsere Daten für maschinelles Lernen verbessern können. Der vollständige Bericht wird in wenigen Minuten erstellt.

Unser Bericht zeigt, dass 2.47 % der Zeilen in unserem Ziel fehlende Werte aufweisen – wir werden uns im nächsten Schritt darum kümmern. Darüber hinaus zeigt die Analyse, dass die address line 2, name und type_of_food Merkmale haben in unseren Daten die größte Vorhersagekraft. Dies weist darauf hin, dass grundlegende Restaurantinformationen wie Standort und Küche einen großen Einfluss auf die Bewertungen haben können.

Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Bereiten Sie Daten für maschinelles Lernen vor

SageMaker Canvas bietet über 300 integrierte Transformationen zur Vorbereitung Ihrer importierten Daten. Weitere Informationen zu den Transformationsfunktionen von SageMaker Canvas finden Sie unter Bereiten Sie Daten mit erweiterten Transformationen vor. Fügen wir einige Transformationen hinzu, um unsere Daten für das Training eines ML-Modells vorzubereiten.

  1. Navigieren Sie zurück zu Datenfluss Seite, indem Sie oben auf der Seite den Namen Ihres Datenflusses auswählen.
  2. Wählen Sie das Pluszeichen neben Datentypen und wählen Sie Transformation hinzufügen.
    Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  3. Auswählen Schritt hinzufügen.
  4. Benennen wir die um address line 2 Spalte zu cities.
    1. Auswählen Spalten verwalten.
    2. Auswählen Spalte umbenennen für Transformieren.
    3. Auswählen address line 2 für Eingabespalte, eingeben cities für Neuer Name, und wähle Speichern.
      Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  5. Lassen Sie uns außerdem einige unnötige Spalten löschen.
    1. Fügen Sie eine neue Transformation hinzu.
    2. Aussichten für Transformieren, wählen Spalte löschen.
    3. Aussichten für Spalten zum Ablegen, wählen URL und restaurant_id.
    4. Auswählen Speichern.
      Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.[
  6. Unser rating In der Feature-Spalte fehlen einige Werte. Füllen wir diese Zeilen also mit dem Durchschnittswert dieser Spalte aus.
    1. Fügen Sie eine neue Transformation hinzu.
    2. Aussichten für Transformieren, wählen unterstellen.
    3. Aussichten für Spaltentyp, wählen Numerisch.
    4. Aussichten für Eingabespalten, wählen Sie das rating Spalte.
    5. Aussichten für Imputierende Strategie, wählen Bedeuten.
    6. Aussichten für Ausgabespalte, eingeben rating_avg_filled.
    7. Auswählen Speichern.
      Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  7. Wir können das fallen lassen rating Spalte, weil wir eine neue Spalte mit gefüllten Werten haben.
  8. Parce que type_of_food kategorischer Natur ist, möchten wir es numerisch kodieren. Lassen Sie uns diese Funktion mit der One-Hot-Codierungstechnik codieren.
    1. Fügen Sie eine neue Transformation hinzu.
    2. Aussichten für Transformieren, wählen One-Hot-Codierung.
    3. Wählen Sie für Eingabespalten die Option aus type_of_food.
    4. Aussichten für Ungültige Behandlungsstrategiewählen Behalten.
    5. Aussichten für Ausgabestilwählen Spalten.
    6. Aussichten für Ausgabespalte, eingeben encoded.
    7. Auswählen Speichern.
      Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Erstellen Sie ein Modell und generieren Sie Vorhersagen

Nachdem wir nun unsere Daten transformiert haben, trainieren wir ein numerisches ML-Modell, um die Bewertungen für Restaurants vorherzusagen.

  1. Auswählen Modell erstellen.
  2. Aussichten für DatensatznameGeben Sie einen Namen für den Datensatzexport ein.
  3. Auswählen Exportieren und warten Sie, bis die transformierten Daten exportiert werden.
    Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  4. Wähle die Modell erstellen Link in der unteren linken Ecke der Seite.

Sie können den Datensatz auch über die Data Wrangler-Funktion links auf der Seite auswählen.

Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

  1. Geben Sie einen Modellnamen ein.
  2. Auswählen Vorausschauende Analyse, Dann wählen Erstellen.
  3. Auswählen rating_avg_filled als Zielspalte.

SageMaker Canvas wählt automatisch einen geeigneten Modelltyp aus.

  1. Auswählen Vorschaumodell um sicherzustellen, dass es keine Probleme mit der Datenqualität gibt.
  2. Auswählen Schneller Aufbau um das Modell zu bauen.
    Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Die Modellerstellung dauert etwa 2–15 Minuten.

Sie können den Modellstatus anzeigen, nachdem das Modell das Training abgeschlossen hat. Unser Modell hat einen RSME von 0.422, was bedeutet, dass das Modell die Bewertung eines Restaurants oft innerhalb von +/- 0.422 des tatsächlichen Werts vorhersagt, eine solide Annäherung für die Bewertungsskala von 1–6.

Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

  1. Schließlich können Sie Beispielvorhersagen generieren, indem Sie zu navigieren Vorhersagen Tab.
    Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Aufräumen

Um künftige Gebühren zu vermeiden, löschen Sie die Ressourcen, die Sie beim Verfolgen dieses Beitrags erstellt haben. SageMaker Canvas stellt Ihnen die Dauer der Sitzung in Rechnung. Wir empfehlen Ihnen, sich von SageMaker Canvas abzumelden, wenn Sie es nicht verwenden. Beziehen auf Abmelden von Amazon SageMaker Canvas für weitere Informationen an.

Zusammenfassung

In diesem Beitrag haben wir besprochen, wie Sie SageMaker Canvas für generative KI und ML mit in Amazon DocumentDB gespeicherten Daten verwenden können. In unserem Beispiel haben wir gezeigt, wie ein Analyst anhand eines Beispiel-Restaurantdatensatzes schnell ein hochwertiges ML-Modell erstellen kann.

Wir zeigten die Schritte zur Implementierung der Lösung, vom Import von Daten aus Amazon DocumentDB bis zum Aufbau eines ML-Modells in SageMaker Canvas. Der gesamte Prozess wurde über eine visuelle Schnittstelle abgeschlossen, ohne dass eine einzige Codezeile geschrieben werden musste.

Um Ihre Low-Code/No-Code-ML-Reise zu beginnen, lesen Sie bitte Amazon SageMaker-Leinwand.


Über die Autoren

Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Adele Keker ist Global Solutions Architect bei AWS. Er arbeitet mit Kunden weltweit zusammen, um Beratung und technische Unterstützung bei der Bereitstellung von Produktions-Workloads in großem Maßstab auf AWS bereitzustellen. In seiner Freizeit lernt er gerne, liest, spielt und schaut sich Sportveranstaltungen an.

Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Gururaj S Bayari ist Senior DocumentDB Specialist Solutions Architect bei AWS. Es macht ihm Spaß, Kunden bei der Einführung der speziell entwickelten Datenbanken von Amazon zu unterstützen. Er hilft Kunden beim Entwerfen, Bewerten und Optimieren ihrer Internet-Skalierung und Hochleistungs-Workloads, die auf NoSQL und/oder relationalen Datenbanken basieren.

Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Tim Pusateri ist Senior Product Manager bei AWS, wo er an Amazon SageMaker Canvas arbeitet. Sein Ziel ist es, Kunden dabei zu helfen, schnell einen Mehrwert aus KI/ML zu ziehen. Außerhalb der Arbeit ist er gerne draußen, spielt Gitarre, schaut sich Live-Musik an und verbringt Zeit mit Familie und Freunden.

Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Pratik Das ist Produktmanager bei AWS. Er arbeitet gerne mit Kunden zusammen, die belastbare Workloads und starke Datengrundlagen in der Cloud aufbauen möchten. Er verfügt über Fachwissen in der Zusammenarbeit mit Unternehmen bei Modernisierungs-, Analyse- und Datentransformationsinitiativen.

Verwenden Sie Amazon DocumentDB, um Lösungen für maschinelles Lernen ohne Code in Amazon SageMaker Canvas | zu erstellen Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Varma Gottumukkala ist Senior Database Specialist Solutions Architect bei AWS mit Sitz in Dallas Fort Worth. Varma arbeitet mit den Kunden an ihrer Datenbankstrategie und gestaltet ihre Arbeitslasten mithilfe speziell entwickelter AWS-Datenbanken. Bevor er zu AWS kam, arbeitete er in den letzten 22 Jahren intensiv mit relationalen Datenbanken, NOSQL-Datenbanken und mehreren Programmiersprachen.

Zeitstempel:

Mehr von AWS Maschinelles Lernen