Die Datenvorbereitung ist ein entscheidender Schritt in jedem Workflow für maschinelles Lernen (ML), beinhaltet jedoch häufig mühsame und zeitaufwändige Aufgaben. Amazon SageMaker-Leinwand Unterstützt jetzt umfassende Datenvorbereitungsfunktionen powered by Amazon SageMaker Data Wrangler. Mit dieser Integration bietet SageMaker Canvas Kunden einen durchgängigen No-Code-Arbeitsbereich, um Daten vorzubereiten, ML- und Foundation-Modelle zu erstellen und zu verwenden, um die Zeit von den Daten zu Geschäftserkenntnissen zu verkürzen. Sie können jetzt problemlos Daten aus über 50 Datenquellen ermitteln und aggregieren sowie Daten mithilfe von über 300 integrierten Analysen und Transformationen in der visuellen Benutzeroberfläche von SageMaker Canvas untersuchen und vorbereiten. Sie werden außerdem eine schnellere Leistung bei Transformationen und Analysen sowie eine Schnittstelle in natürlicher Sprache zum Untersuchen und Transformieren von Daten für ML feststellen.
In diesem Beitrag führen wir Sie durch den Prozess zur Vorbereitung von Daten für die End-to-End-Modellerstellung in SageMaker Canvas.
Lösungsüberblick
Für unseren Anwendungsfall übernehmen wir die Rolle eines Datenprofis bei einem Finanzdienstleistungsunternehmen. Wir verwenden zwei Beispieldatensätze, um ein ML-Modell zu erstellen, das vorhersagt, ob ein Kredit vom Kreditnehmer vollständig zurückgezahlt wird, was für das Management des Kreditrisikos von entscheidender Bedeutung ist. Die No-Code-Umgebung von SageMaker Canvas ermöglicht es uns, die Daten schnell vorzubereiten, Funktionen zu entwickeln, ein ML-Modell zu trainieren und das Modell in einem End-to-End-Workflow bereitzustellen, ohne dass Codierung erforderlich ist.
Voraussetzungen:
Um dieser exemplarischen Vorgehensweise zu folgen, stellen Sie sicher, dass Sie die Voraussetzungen wie in beschrieben implementiert haben
- Starten Sie Amazon SageMaker Canvas. Wenn Sie bereits SageMaker Canvas-Benutzer sind, stellen Sie sicher, dass Sie dies tun ausloggen und melden Sie sich erneut an, um diese neue Funktion nutzen zu können.
- Um Daten aus Snowflake zu importieren, befolgen Sie die Schritte von Richten Sie OAuth für Snowflake ein.
Bereiten Sie interaktive Daten vor
Nachdem die Einrichtung abgeschlossen ist, können wir nun einen Datenfluss erstellen, um eine interaktive Datenvorbereitung zu ermöglichen. Der Datenfluss bietet integrierte Transformationen und Echtzeitvisualisierungen, um die Daten zu verarbeiten. Führen Sie die folgenden Schritte aus:
- Erstellen Sie einen neuen Datenfluss mit einer der folgenden Methoden:
- Auswählen Daten-Wrangler, Datenflüsse, Dann wählen Erstellen.
- Wählen Sie den SageMaker Canvas-Datensatz aus und wählen Sie Erstellen Sie einen Datenfluss.
- Auswählen
Daten importieren und wählen Sie Tabellarisch aus der Dropdown-Liste.
- Sie können Daten direkt über über 50 Datenkonnektoren importieren, z Amazon Simple Storage-Service (Amazon S3), Amazonas Athena, Amazon RedShift, Snowflake und Salesforce. In dieser exemplarischen Vorgehensweise behandeln wir den direkten Import Ihrer Daten aus Snowflake.
Alternativ können Sie denselben Datensatz von Ihrem lokalen Computer hochladen. Sie können den Datensatz herunterladen Darlehen-Teil-1.csv und Darlehen-Teil-2.csv.
- Wählen Sie auf der Seite „Daten importieren“ Snowflake aus der Liste aus und wählen Sie Verbindung hinzufügen.
- Geben Sie einen Namen für die Verbindung ein und wählen Sie OAuth Option aus der Dropdown-Liste der Authentifizierungsmethode. Geben Sie Ihre Okta-Konto-ID ein und wählen Sie Verbindung hinzufügen.
- Sie werden zum Okta-Anmeldebildschirm weitergeleitet, wo Sie Ihre Okta-Anmeldeinformationen zur Authentifizierung eingeben können. Bei erfolgreicher Authentifizierung werden Sie zur Datenflussseite weitergeleitet.
- Suchen Sie nach dem Kreditdatensatz aus der Snowflake-Datenbank
Wählen Sie die beiden Kreditdatensätze aus, indem Sie sie per Drag & Drop von der linken Seite des Bildschirms nach rechts ziehen. Die beiden Datensätze werden verbunden und ein Verbindungssymbol mit einem roten Ausrufezeichen wird angezeigt. Klicken Sie darauf und wählen Sie dann für beide Datensätze das aus id Schlüssel. Behalten Sie den Join-Typ bei Innere. Es sollte so aussehen:
- Auswählen Speichern & schließen.
- Auswählen Datensatz erstellen. Geben Sie dem Datensatz einen Namen.
- Navigieren Sie zum Datenfluss. Sie sehen Folgendes.
- Um die Kreditdaten schnell zu durchsuchen, wählen Sie Erhalten Sie Dateneinblicke und wählen Sie die
loan_status
Zielspalte und Klassifikation Problemtyp.
Das erzeugte Bericht zu Datenqualität und Erkenntnissen Bietet wichtige Statistiken, Visualisierungen und Funktionsbedeutunganalysen.
- Lesen Sie die Warnungen zu Datenqualitätsproblemen und unausgeglichenen Klassen, um den Datensatz zu verstehen und zu verbessern.
Für den Datensatz in diesem Anwendungsfall sollten Sie mit der Warnung „Sehr niedriger Quick-Model-Score“ mit hoher Priorität und einer sehr geringen Modellwirksamkeit bei Minderheitsklassen (abgeladen und aktuell) rechnen, was darauf hinweist, dass die Daten bereinigt und ausgeglichen werden müssen. Beziehen auf Canvas-Dokumentation um mehr über den Data Insights-Bericht zu erfahren.
Mit über 300 integrierten Transformationen, die von SageMaker Data Wrangler unterstützt werden, ermöglicht Ihnen SageMaker Canvas eine schnelle Bearbeitung der Kreditdaten. Sie können auf klicken Schritt hinzufügen, und durchsuchen oder suchen Sie nach den richtigen Transformationen. Verwenden Sie für diesen Datensatz Tropfen fehlt und Ausreißer behandeln Daten bereinigen, dann anwenden One-Hot-Kodierung, und Text vektorisieren um Funktionen für ML zu erstellen.
Chat zur Datenvorbereitung ist eine neue Funktion in natürlicher Sprache, die eine intuitive Datenanalyse ermöglicht, indem Anfragen in einfachem Englisch beschrieben werden. Sie können beispielsweise mithilfe natürlicher Phrasen Statistiken und Feature-Korrelationsanalysen zu den Kreditdaten abrufen. SageMaker Canvas versteht und führt die Aktionen durch Konversationsinteraktionen aus und hebt die Datenvorbereitung auf die nächste Ebene.
Wir verwenden Chat zur Datenvorbereitung und integrierte Transformation zum Ausgleich der Kreditdaten.
- Geben Sie zunächst die folgenden Anweisungen ein:
replace “charged off” and “current” in loan_status with “default”
Chat zur Datenvorbereitung generiert Code, um zwei Minderheitenklassen zu einer zusammenzuführen default
Klasse.
- Wählen Sie das integrierte Modell SMOTEN Transformationsfunktion zum Generieren synthetischer Daten für die Standardklasse.
Jetzt haben Sie eine ausgewogene Zielspalte.
- Nachdem Sie die Darlehensdaten bereinigt und verarbeitet haben, generieren Sie sie neu Bericht zu Datenqualität und Erkenntnissen Verbesserungen zu überprüfen.
Die Warnung mit hoher Priorität ist verschwunden, was auf eine verbesserte Datenqualität hinweist. Sie können nach Bedarf weitere Transformationen hinzufügen, um die Datenqualität für das Modelltraining zu verbessern.
Skalieren und automatisieren Sie die Datenverarbeitung
Um die Datenvorbereitung zu automatisieren, können Sie den gesamten Workflow als verteilten Spark-Verarbeitungsauftrag ausführen oder planen, um den gesamten Datensatz oder alle neuen Datensätze im großen Maßstab zu verarbeiten.
- Fügen Sie innerhalb des Datenflusses einen Amazon S3-Zielknoten hinzu.
- Starten Sie einen SageMaker-Verarbeitungsauftrag, indem Sie wählen Job erstellen.
- Konfigurieren Sie den Verarbeitungsauftrag und wählen Sie ErstellenDadurch kann der Flow auf Hunderten von GB Daten ohne Stichproben ausgeführt werden.
Die Datenflüsse können in End-to-End-MLOps-Pipelines integriert werden, um den ML-Lebenszyklus zu automatisieren. Datenflüsse können als Datenverarbeitungsschritt in einer SageMaker-Pipeline oder zur Bereitstellung einer SageMaker-Inferenzpipeline in SageMaker Studio-Notebooks eingespeist werden. Dies ermöglicht die Automatisierung des Ablaufs von der Datenvorbereitung bis hin zur SageMaker-Schulung und zum Hosting.
Erstellen Sie das Modell und stellen Sie es in SageMaker Canvas bereit
Nach der Datenvorbereitung können wir den endgültigen Datensatz nahtlos in SageMaker Canvas exportieren, um ein Modell zur Vorhersage der Kreditzahlung zu erstellen, zu trainieren und bereitzustellen.
- Auswählen Modell erstellen im letzten Knoten des Datenflusses oder im Knotenbereich.
Dadurch wird der Datensatz exportiert und der Workflow zur geführten Modellerstellung gestartet.
- Benennen Sie den exportierten Datensatz und wählen Sie Exportieren.
- Auswählen
Modell erstellen aus der Benachrichtigung.
- Benennen Sie das Modell und wählen Sie es aus Vorausschauende Analyse, und wähle Erstellen.
Dadurch werden Sie zur Modellbauseite weitergeleitet.
- Fahren Sie mit der SageMaker Canvas-Modellerstellung fort, indem Sie die Zielspalte und den Modelltyp auswählen und dann auswählen Schneller Aufbau or Standardaufbau.
Weitere Informationen zum Modellbau finden Sie unter Modell bauen.
Wenn das Training abgeschlossen ist, können Sie das Modell verwenden, um neue Daten vorherzusagen oder bereitzustellen. Beziehen auf Stellen Sie in Amazon SageMaker Canvas erstellte ML-Modelle auf Amazon SageMaker-Echtzeitendpunkten bereit um mehr über die Bereitstellung eines Modells aus SageMaker Canvas zu erfahren.
Zusammenfassung
In diesem Beitrag haben wir die End-to-End-Funktionen von SageMaker Canvas demonstriert, indem wir die Rolle eines Finanzdatenexperten übernommen haben, der Daten vorbereitet, um Kreditzahlungen vorherzusagen, unterstützt von SageMaker Data Wrangler. Die interaktive Datenaufbereitung ermöglichte eine schnelle Bereinigung, Transformation und Analyse der Kreditdaten, um informative Funktionen zu entwickeln. Durch die Eliminierung der Programmierkomplexität ermöglichte uns SageMaker Canvas eine schnelle Iteration, um einen hochwertigen Trainingsdatensatz zu erstellen. Dieser beschleunigte Arbeitsablauf führt direkt zur Erstellung, Schulung und Bereitstellung eines leistungsstarken ML-Modells für geschäftliche Auswirkungen. Mit seiner umfassenden Datenaufbereitung und der einheitlichen Erfahrung von Daten bis hin zu Erkenntnissen ermöglicht Ihnen SageMaker Canvas, Ihre ML-Ergebnisse zu verbessern. Weitere Informationen dazu, wie Sie Ihren Weg von Daten zu Geschäftserkenntnissen beschleunigen können, finden Sie unter Eintauchtag in SageMaker Canvas und AWS-Benutzerhandbuch.
Über die Autoren
Dr. Changsha Ma ist KI/ML-Spezialist bei AWS. Sie ist Technologin mit einem Doktortitel in Informatik, einem Master-Abschluss in Pädagogischer Psychologie und jahrelanger Erfahrung in Datenwissenschaft und unabhängiger Beratung im Bereich KI/ML. Ihre Leidenschaft gilt der Erforschung methodischer Ansätze für maschinelle und menschliche Intelligenz. Außerhalb der Arbeit geht sie gerne wandern, kocht, geht auf Nahrungssuche und verbringt Zeit mit Freunden und Familien.
Ajjay Govindaram ist Senior Solutions Architect bei AWS. Er arbeitet mit strategischen Kunden zusammen, die KI/ML einsetzen, um komplexe Geschäftsprobleme zu lösen. Seine Erfahrung liegt in der Bereitstellung von technischer Anleitung sowie Designunterstützung für bescheidene bis große KI/ML-Anwendungsbereitstellungen. Sein Wissen reicht von Anwendungsarchitektur bis hin zu Big Data, Analytik und maschinellem Lernen. Er genießt es, Musik zu hören, während er sich ausruht, die Natur zu erleben und Zeit mit seinen Lieben zu verbringen.
Huong Nguyen ist Senior Product Manager bei AWS. Sie leitet die ML-Datenvorbereitung für SageMaker Canvas und SageMaker Data Wrangler und verfügt über 15 Jahre Erfahrung in der Entwicklung kundenorientierter und datengesteuerter Produkte.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
- PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
- PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
- PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/machine-learning/accelerate-data-preparation-for-ml-with-comprehensive-data-preparation-capabilities-and-a-natural-language-interface-in-amazon-sagemaker-canvas/
- :hast
- :Ist
- $UP
- 100
- 12
- 13
- 14
- 15 Jahre
- 15%
- 50
- 7
- 8
- a
- Fähig
- Über Uns
- beschleunigen
- beschleunigt
- Konto
- Aktionen
- hinzufügen
- Aggregat
- AI / ML
- erlaubt
- erlaubt
- entlang
- bereits
- ebenfalls
- Amazon
- Amazon Sage Maker
- Amazon SageMaker-Leinwand
- Amazon Web Services
- an
- Analysen
- Analyse
- Analytik
- Analyse
- und
- jedem
- erscheinen
- Anwendung
- Ansätze
- Architektur
- SIND
- AS
- Hilfe
- At
- authentifizieren
- Authentifizierung
- automatisieren
- automatisieren
- AWS
- Zurück
- Balance
- balanced
- BE
- Big
- Big Data
- fett
- Kreditnehmer
- beide
- bauen
- Building
- erbaut
- eingebaut
- Geschäft
- by
- CAN
- Kann bekommen
- Leinwand
- Fähigkeiten
- capability
- Häuser
- berechnet
- Auswählen
- Auswahl
- Klasse
- Unterricht
- reinigen
- Reinigung
- klicken Sie auf
- Code
- Programmierung
- Kolonne
- Unternehmen
- abschließen
- Komplex
- Komplexität
- umfassend
- Computer
- Computerwissenschaften
- Vernetz Dich
- Verbindung
- Consulting
- Konversations
- Korrelation
- Abdeckung
- erstellen
- Schaffung
- Referenzen
- Kredit
- wichtig
- Strom
- Kunden
- technische Daten
- Datenanalyse
- Datenaufbereitung
- Datenverarbeitung
- Datenwissenschaft
- datengesteuerte
- Datensätze
- Standard
- Grad
- Synergie
- einsetzen
- Bereitstellen
- Implementierungen
- Beschreibung
- Design
- Reiseziel
- detailliert
- Richtung
- Direkt
- entdeckt,
- verteilt
- nach unten
- herunterladen
- Drop
- Abwurf
- leicht
- Bildungswesen
- Wirksamkeit
- befähigt
- ermöglichen
- freigegeben
- ermöglicht
- ermöglichen
- End-to-End
- Ingenieur
- Englisch
- zu steigern,
- gewährleisten
- Enter
- Ganz
- Arbeitsumfeld
- Beispiel
- erwarten
- ERFAHRUNGEN
- erleben
- ERKUNDEN
- exportieren
- Ausfuhr
- Familien
- beschleunigt
- Merkmal
- Eigenschaften
- Finale
- Revolution
- Finanzdaten
- Finanzdienstleistungen
- Finanzdienstleistungsunternehmen
- Fluss
- Fließt
- folgen
- Folgende
- Nahrung,
- Aussichten für
- Foundations
- frisch
- Freunde
- für
- voll
- Funktion
- weiter
- erzeugen
- erzeugt
- erzeugt
- bekommen
- ABSICHT
- geführt
- Haben
- he
- GUTE
- hochwertige
- seine
- Hosting
- Ultraschall
- Hilfe
- HTML
- http
- HTTPS
- human
- menschliche Intelligenz
- hunderte
- Jagd
- ID
- if
- unausgeglichen
- Eintauchen
- Impact der HXNUMXO Observatorien
- umgesetzt
- importieren
- Bedeutung
- Einfuhr
- zu unterstützen,
- verbessert
- Verbesserungen
- in
- Incorporated
- unabhängig
- Information
- informativ
- Einblick
- Einblicke
- Anleitung
- Integration
- Intelligenz
- Interaktionen
- interaktive
- Schnittstelle
- in
- intuitiv
- Probleme
- IT
- SEINE
- Job
- join
- Reisen
- jpg
- Wesentliche
- Wissen
- Sprache
- großflächig
- Nachname
- startet
- führenden
- umwandeln
- LERNEN
- lernen
- Verlassen
- links
- Niveau
- liegt
- Lebenszyklus
- Gefällt mir
- Liste
- Hören
- Darlehen
- Kredite
- aus einer regionalen
- Log
- login
- aussehen
- aussehen wie
- geliebt wird
- liebt
- Sneaker
- Maschine
- Maschinelles Lernen
- um
- Manager
- flächendeckende Gesundheitsprogramme
- Kennzeichen
- Meister
- Merge
- Methode
- Methoden
- Minderheit
- ML
- MLOps
- Modell
- für
- bescheiden
- mehr
- Musik
- Name
- Natürliche
- Need
- erforderlich
- Neu
- weiter
- Knoten
- Fiber Node
- Benachrichtigung
- jetzt an
- oauth
- of
- WOW!
- vorgenommen,
- OKTA
- on
- EINEM
- Einsen
- Option
- or
- UNSERE
- Ergebnisse
- im Freien
- aussen
- übrig
- Seite
- Brot
- leidenschaftlich
- Zahlung
- Leistung
- phd
- Sätze
- Pipeline
- Ebene
- Plato
- Datenintelligenz von Plato
- PlatoData
- Post
- angetriebene
- vorhersagen
- Prognose
- sagt voraus,
- Vorbereitung
- Danach
- Vorbereitung
- Voraussetzungen
- Prioritätsliste
- Aufgabenstellung:
- Probleme
- Prozessdefinierung
- Verarbeitung
- Produkt
- Produkt-Manager
- Produkte
- Professionell
- bietet
- Bereitstellung
- Psychologie
- Qualität
- schnell
- Bereiche
- schnell
- Echtzeit
- Rot
- umleiten
- siehe
- Entfernen
- berichten
- Zugriffe
- ruhend
- Überprüfen
- Recht
- Risiko
- Rollen
- Führen Sie
- läuft
- sagemaker
- SageMaker-Inferenz
- salesforce
- gleich
- Skalieren
- Zeitplan
- Wissenschaft
- Bildschirm
- nahtlos
- Suche
- sehen
- wählen
- Senior
- Lösungen
- Dienstleistungsunternehmen
- Setup
- sie
- sollte
- Seite
- Einfacher
- Lösungen
- LÖSEN
- Quellen
- Spark
- Spezialist
- Ausgabe
- Statistiken
- Schritt
- Shritte
- Lagerung
- Strategisch
- Studio Adressen
- erfolgreich
- so
- Unterstützt
- sicher
- Symbol
- synthetisch
- synthetische Daten
- Einnahme
- Target
- und Aufgaben
- Technische
- Technologe
- zur Verbesserung der Gesundheitsgerechtigkeit
- Das
- Sie
- dann
- fehlen uns die Worte.
- Durch
- Zeit
- Zeitaufwendig
- zu
- Training
- Ausbildung
- Transformieren
- Transformationen
- Transformieren
- Transformationen
- XNUMX
- tippe
- verstehen
- versteht
- einheitlich
- us
- -
- Anwendungsfall
- Mitglied
- Verwendung von
- sehr
- visuell
- Spaziergang
- Walkthrough
- Warnung
- we
- Netz
- Web-Services
- GUT
- ob
- welche
- während
- WHO
- ganze
- werden wir
- mit
- ohne
- Arbeiten
- Arbeitsablauf.
- Werk
- Workshops
- würde
- Jahr
- noch
- Du
- Ihr
- Zephyrnet