Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Erkennen und Vermeiden häufiger Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas

Business-Analysten arbeiten mit Daten und analysieren, untersuchen und verstehen Daten gerne, um effektive Geschäftsergebnisse zu erzielen. Um geschäftliche Probleme anzugehen, verlassen sie sich häufig auf Praktiker des maschinellen Lernens (ML) wie Data Scientists, die sie mit Techniken wie der Verwendung von ML unterstützen, um Modelle mit vorhandenen Daten zu erstellen und Vorhersagen zu generieren. Dies ist jedoch nicht immer möglich, da Data Scientists normalerweise mit ihren Aufgaben beschäftigt sind und nicht über die Bandbreite verfügen, um den Analysten zu helfen.

Um unabhängig zu sein und Ihre Ziele als Business Analyst zu erreichen, wäre es ideal, mit benutzerfreundlichen, intuitiven und visuellen Tools zu arbeiten, die ML verwenden, ohne die Details kennen und Code verwenden zu müssen. Die Verwendung dieser Tools hilft Ihnen, Ihre geschäftlichen Probleme zu lösen und die gewünschten Ergebnisse zu erzielen.

Mit dem Ziel, Ihnen und Ihrer Organisation zu helfen, effektiver zu werden und ML zu verwenden, ohne Code zu schreiben, haben wir Einführung von Amazon SageMaker Canvas. Dies ist eine No-Code-ML-Lösung, mit der Sie genaue ML-Modelle erstellen können, ohne sich mit technischen Details wie ML-Algorithmen und Bewertungsmetriken vertraut machen zu müssen. SageMaker Canvas bietet eine visuelle, intuitive Benutzeroberfläche, mit der Sie Daten importieren, ML-Modelle trainieren, Modellanalysen durchführen und ML-Vorhersagen generieren können, ohne eine einzige Codezeile schreiben zu müssen.

Wenn Sie SageMaker Canvas zum Experimentieren verwenden, können Sie auf Datenqualitätsprobleme wie fehlende Werte oder den falschen Problemtyp stoßen. Diese Probleme werden möglicherweise erst ziemlich spät im Prozess nach dem Training eines ML-Modells entdeckt. Um dieses Problem zu lösen, unterstützt SageMaker Canvas jetzt die Datenvalidierung. Diese Funktion sucht proaktiv nach Problemen in Ihren Daten und bietet Anleitungen zu Lösungen.

In diesem Beitrag zeigen wir, wie Sie die Datenvalidierungsfunktion in SageMaker Canvas vor der Modellerstellung verwenden können. Wie der Name schon sagt, validiert diese Funktion Ihren Datensatz, meldet Probleme und bietet nützliche Hinweise zu deren Behebung. Durch die Verwendung qualitativ hochwertigerer Daten erhalten Sie am Ende ein leistungsfähigeres ML-Modell.

Validieren Sie Daten in SageMaker Canvas

Die Datenvalidierung ist eine neue Funktion in SageMaker Canvas, um proaktiv nach potenziellen Datenqualitätsproblemen zu suchen. Nachdem Sie die Daten importiert und eine Zielspalte ausgewählt haben, haben Sie die Möglichkeit, Ihre Daten wie hier gezeigt zu validieren:

Wenn Sie sich für die Validierung Ihrer Daten entscheiden, analysiert Canvas Ihre Daten auf zahlreiche Bedingungen, darunter:

  • Zu viele eindeutige Labels in Ihrer Zielspalte – für den Typ des Kategorievorhersagemodells
  • Zu viele eindeutige Labels in Ihrer Zielspalte für die Anzahl der Zeilen in Ihren Daten – für den Typ des Kategorievorhersagemodells
  • Falscher Modelltyp für Ihre Daten – Der Modelltyp passt nicht zu den Daten, die Sie in der Zielspalte vorhersagen
  • Zu viele ungültige Zeilen – fehlende Werte in Ihrer Zielspalte
  • Alle Feature-Spalten sind Textspalten – Sie werden für Standard-Builds gelöscht
  • Zu wenige Spalten – zu wenige Spalten in Ihren Daten
  • Keine vollständigen Reihen – Alle Zeilen in Ihren Daten enthalten fehlende Werte
  • Mindestens ein Spaltenname enthält doppelte Unterstriche – SageMaker kann (__) in der Spaltenüberschrift nicht verarbeiten

Einzelheiten zu den einzelnen Validierungskriterien werden in den späteren Abschnitten dieses Beitrags bereitgestellt.

Wenn alle Prüfungen bestanden sind, erhalten Sie folgende Bestätigung: „In Ihrem Datensatz wurden keine Probleme gefunden“.

Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wenn ein Problem gefunden wird, erhalten Sie eine Benachrichtigung, die Sie anzeigen und verstehen können. Dadurch werden Probleme mit der Datenqualität frühzeitig sichtbar, und Sie können sie sofort angehen, bevor Sie im weiteren Verlauf Zeit und Ressourcen verschwenden.

Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Sie können Ihre Anpassungen vornehmen und Ihren Datensatz weiter validieren, bis alle Probleme behoben sind.

Validieren Sie Zielspalten- und Modelltypen

Wenn Sie ein ML-Modell in SageMaker Canvas erstellen, treten mehrere Datenqualitätsprobleme im Zusammenhang mit der Zielspalte kann dazu führen, dass Ihr Modellaufbau fehlschlägt. SageMaker Canvas sucht nach verschiedenen Arten von Problemen, die sich auf Ihren Computer auswirken können Zielspalte.

Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

  1. Überprüfen Sie für Ihre Zielspalte die Falscher Modelltyp für Ihre Daten. Wenn beispielsweise ein 2-Kategorie-Vorhersagemodell ausgewählt ist, Ihre Zielspalte jedoch mehr als 2 eindeutige Beschriftungen hat, gibt SageMaker Canvas die folgende Validierungswarnung aus.
    Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  2. Wenn der Modelltyp eine 2- oder 3+-Kategorienvorhersage ist, müssen Sie validieren zu viele eindeutige Labels für Ihre Zielspalte. Die maximale Anzahl eindeutiger Klassen beträgt 2000. Wenn Sie eine Spalte mit mehr als 2000 eindeutigen Werten in Ihrer Zielspalte auswählen, gibt Canvas die folgende Validierungswarnung aus.
    Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  3. Neben zu vielen eindeutigen Zielkennzeichnungen sollten Sie sich auch davor hüten viele eindeutige Zielbezeichnungen für die Anzahl der Zeilen in Ihren Daten. SageMaker Canvas erzwingt ein Verhältnis der Zielbezeichnung zur Anzahl der Gesamtzeilen von weniger als 10 %. Dadurch wird sichergestellt, dass Sie für jede Kategorie eine ausreichende Repräsentation für ein qualitativ hochwertiges Modell haben und das Potenzial für eine Überanpassung reduzieren. Ihr Modell gilt als überangepasst, wenn es gute Vorhersagen für die Trainingsdaten macht, aber nicht für neue Daten, die es noch nicht gesehen hat. Verweisen hier um mehr zu erfahren.
    Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  4. Schließlich ist die letzte Überprüfung für die Zielspalte zu viele ungültige Zeilen. Wenn in Ihrer Zielspalte mehr als 10 % der Daten fehlen oder ungültig sind, wirkt sich dies auf Ihre Modellleistung aus und führt in einigen Fällen dazu, dass Ihr Modellaufbau fehlschlägt. Das folgende Beispiel enthält viele fehlende Werte (>90 % fehlend) in der Zielspalte, und Sie erhalten die folgende Validierungswarnung.
    Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
    Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wenn Sie eine der oben genannten Warnungen für Ihre Zielspalte erhalten, verwenden Sie die folgenden Schritte, um die Probleme zu beheben:

  1. Verwenden Sie die richtige Zielspalte?
  2. Haben Sie den richtigen Modelltyp ausgewählt?
  3. Können Sie die Anzahl der Zeilen in Ihrem Datensatz pro Ziellabel erhöhen?
  4. Können Sie ähnliche Labels konsolidieren/gruppieren?
  5. Können Sie die fehlenden/ungültigen Werte ergänzen?
  6. Haben Sie genügend Daten, um die fehlenden/ungültigen Werte löschen zu können?
  7. Wenn alle oben genannten Optionen die Warnung nicht löschen, sollten Sie die Verwendung eines anderen Datensatzes in Betracht ziehen.

Siehe die SageMaker Canvas-Datenumwandlungsdokumentation um die oben erwähnten Imputationsschritte durchzuführen.

Validieren Sie alle Spalten

Abgesehen von der Zielspalte können Sie auch bei anderen Datenspalten (Funktionsspalten) auf Datenqualitätsprobleme stoßen. Feature-Spalten sind Eingabedaten, die zum Erstellen einer ML-Vorhersage verwendet werden.

  • Jedes Dataset sollte mindestens 1 Featurespalte und 1 Zielspalte (insgesamt 2 Spalten) haben. Andernfalls gibt SageMaker Canvas Ihnen eine Zu wenige Spalten in Ihren Daten Warnung. Sie müssen diese Anforderung erfüllen, bevor Sie mit dem Erstellen eines Modells fortfahren können.
    Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  • Danach müssen Sie sicherstellen, dass Ihre Daten mindestens 1 numerische Spalte haben. Wenn nicht, dann bekommst du die alle Feature-Spalten sind Textspalten Warnung. Dies liegt daran, dass Textspalten normalerweise während Standard-Builds gelöscht werden, wodurch das Modell ohne zu trainierende Features zurückbleibt. Daher wird dies dazu führen, dass Ihre Modellerstellung fehlschlägt. Sie können SageMaker Canvas verwenden, um einige der Textspalten in Zahlen zu codieren, oder den Schnellaufbau anstelle des Standardaufbaus verwenden.
    Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  • Die dritte Art von Warnung, die Sie möglicherweise für Feature-Spalten erhalten, ist Keine vollständigen Reihen. Diese Validierung prüft, ob Sie mindestens eine Zeile ohne fehlende Werte haben. SageMaker Canvas erfordert mindestens eine vollständige Zeile, andernfalls Ihre schneller Aufbau wird versagen. Versuchen Sie, die fehlenden Werte auszufüllen, bevor Sie das Modell erstellen.
    Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  • Die letzte Art der Validierung ist Mindestens ein Spaltenname enthält doppelte Unterstriche. Dies ist eine spezifische Anforderung für SageMaker Canvas. Wenn Sie doppelte Unterstriche (__) in Ihren Spaltenüberschriften haben, führt dies zu Ihrer schneller Aufbau Versagen. Benennen Sie die Spalten um, um doppelte Unterstriche zu entfernen, und versuchen Sie es dann erneut.
    Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Aufräumen

Um Zukunft zu vermeiden Sitzungsgebühren, melden Sie sich von SageMaker Canvas ab.

Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Zusammenfassung

SageMaker Canvas ist eine No-Code-ML-Lösung, die es Geschäftsanalysten ermöglicht, genaue ML-Modelle zu erstellen und Vorhersagen über eine visuelle Point-and-Click-Oberfläche zu generieren. Wir haben Ihnen gezeigt, wie SageMaker Canvas Ihnen hilft, die Datenqualität sicherzustellen und Datenprobleme zu mindern, indem es den Datensatz proaktiv validiert. Durch die frühzeitige Identifizierung der Probleme hilft Ihnen SageMaker Canvas dabei, hochwertige ML-Modelle zu erstellen und Build-Iterationen ohne Fachwissen in Data Science und Programmierung zu reduzieren. Weitere Informationen zu dieser neuen Funktion finden Sie unter SageMaker Canvas-Dokumentation.

Um loszulegen und mehr über SageMaker Canvas zu erfahren, beziehen Sie sich auf die folgenden Ressourcen:


Über die Autoren

Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Hariharan Suresh ist Senior Solutions Architect bei AWS. Seine Leidenschaft gilt Datenbanken, maschinellem Lernen und dem Entwerfen innovativer Lösungen. Bevor er zu AWS kam, war Hariharan Produktarchitekt, Core-Banking-Implementierungsspezialist und Entwickler und arbeitete über 11 Jahre lang mit BFSI-Organisationen zusammen. Außerhalb der Technik genießt er Gleitschirmfliegen und Radfahren.

Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Sainath Miriyala ist Senior Technical Account Manager bei AWS und arbeitet für Automobilkunden in den USA. Sainath hat eine Leidenschaft für das Entwerfen und Erstellen groß angelegter verteilter Anwendungen mit KI/ML. In seiner Freizeit verbringt Sainath Zeit mit Familie und Freunden.

Identifizieren und vermeiden Sie häufige Datenprobleme beim Erstellen von ML-Modellen ohne Code mit Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.James Wu ist Senior AI/ML Specialist Solution Architect bei AWS. Unterstützung von Kunden bei der Entwicklung und Erstellung von KI/ML-Lösungen. Die Arbeit von James deckt ein breites Spektrum von ML-Anwendungsfällen ab, wobei sein Hauptinteresse auf Computer Vision, Deep Learning und der Skalierung von ML im gesamten Unternehmen liegt. Bevor er zu AWS kam, war James über 10 Jahre lang Architekt, Entwickler und Technologieführer, davon 6 Jahre im Ingenieurwesen und 4 Jahre in der Marketing- und Werbebranche.

Zeitstempel:

Mehr von AWS Maschinelles Lernen