Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse

Die explorative Datenanalyse (EDA) ist eine häufig von Business-Analysten durchgeführte Aufgabe, um Muster zu entdecken, Beziehungen zu verstehen, Annahmen zu validieren und Anomalien in ihren Daten zu identifizieren. Beim maschinellen Lernen (ML) ist es wichtig, zuerst die Daten und ihre Beziehungen zu verstehen, bevor man mit der Modellerstellung beginnt. Herkömmliche ML-Entwicklungszyklen können manchmal Monate dauern und erfordern fortgeschrittene Data Science- und ML-Engineering-Fähigkeiten, während No-Code-ML-Lösungen Unternehmen dabei helfen können, die Bereitstellung von ML-Lösungen auf Tage oder sogar Stunden zu beschleunigen.

Amazon SageMaker-Leinwand ist ein No-Code-ML-Tool, das Business-Analysten hilft, genaue ML-Vorhersagen zu generieren, ohne Code schreiben zu müssen oder ohne ML-Erfahrung zu benötigen. Canvas bietet eine benutzerfreundliche visuelle Oberfläche zum Laden, Bereinigen und Transformieren der Datensätze, gefolgt von der Erstellung von ML-Modellen und der Generierung genauer Vorhersagen.

In diesem Beitrag gehen wir durch die Durchführung von EDA, um dank der integrierten erweiterten Visualisierungen von Canvas ein besseres Verständnis Ihrer Daten zu erlangen, bevor Sie Ihr ML-Modell erstellen. Diese Visualisierungen helfen Ihnen, die Beziehungen zwischen Features in Ihren Datasets zu analysieren und Ihre Daten besser zu verstehen. Dies geschieht intuitiv, mit der Möglichkeit, mit den Daten zu interagieren und Erkenntnisse zu gewinnen, die bei Ad-hoc-Abfragen möglicherweise unbemerkt bleiben. Sie können schnell über den „Datenvisualisierer“ in Canvas erstellt werden, bevor ML-Modelle erstellt und trainiert werden.

Lösungsüberblick

Diese Visualisierungen erweitern die bereits von Canvas angebotenen Möglichkeiten zur Datenaufbereitung und -exploration, einschließlich der Fähigkeit, fehlende Werte zu korrigieren und Ausreißer zu ersetzen; Datensätze filtern, verbinden und ändern; und bestimmte Zeitwerte aus Zeitstempeln extrahieren. Um mehr darüber zu erfahren, wie Canvas Ihnen beim Bereinigen, Transformieren und Vorbereiten Ihres Datensatzes helfen kann, schauen Sie sich das an Bereiten Sie Daten mit erweiterten Transformationen vor.

Für unseren Anwendungsfall untersuchen wir, warum Kunden in ein beliebiges Unternehmen wechseln, und veranschaulichen, wie EDA aus Sicht eines Analysten helfen kann. Der Datensatz, den wir in diesem Beitrag verwenden, ist ein synthetischer Datensatz eines Telekommunikations-Mobilfunkanbieters zur Vorhersage der Kundenabwanderung, den Sie herunterladen können (churn.csv), oder bringen Sie Ihren eigenen Datensatz zum Experimentieren mit. Anweisungen zum Importieren Ihres eigenen Datensatzes finden Sie unter Importieren von Daten in Amazon SageMaker Canvas.

Voraussetzungen:

Folgen Sie den Anweisungen in Voraussetzungen für die Einrichtung von Amazon SageMaker Canvas bevor Sie weitermachen.

Importieren Sie Ihren Datensatz in Canvas

Führen Sie die folgenden Schritte aus, um das Beispiel-Dataset in Canvas zu importieren:

  1. Melden Sie sich als Geschäftsbenutzer bei Canvas an.Zunächst laden wir den zuvor erwähnten Datensatz von unserem lokalen Computer auf Canvas hoch. Wenn Sie andere Quellen verwenden möchten, wie z Amazon RedShift, beziehen auf Stellen Sie eine Verbindung zu einer externen Datenquelle her.
  2. Auswählen Import.Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  3. Auswählen Hochladen, Dann wählen Wählen Sie Dateien von Ihrem Computer aus.
  4. Wählen Sie Ihren Datensatz (churn.csv) und wählen Sie Daten importieren.Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  5. Wählen Sie den Datensatz aus und wählen Sie Modell erstellen.Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  6. Aussichten für Modellbezeichnung, geben Sie einen Namen ein (für diesen Beitrag haben wir den Namen Abwanderungsvorhersage vergeben).
  7. Auswählen Erstellen.
    Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
    Sobald Sie Ihren Datensatz auswählen, wird Ihnen eine Übersicht angezeigt, die die Datentypen, fehlende Werte, nicht übereinstimmende Werte, eindeutige Werte und die Mittel- oder Moduswerte der jeweiligen Spalten umreißt.Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
    Aus EDA-Perspektive können Sie beobachten, dass im Datensatz keine fehlenden oder nicht übereinstimmenden Werte vorhanden sind. Als Geschäftsanalyst möchten Sie möglicherweise einen ersten Einblick in die Modellerstellung erhalten, noch bevor Sie mit der Datenexploration beginnen, um zu ermitteln, wie das Modell funktioniert und welche Faktoren zur Leistung des Modells beitragen. Canvas bietet Ihnen die Möglichkeit, Erkenntnisse aus Ihren Daten zu gewinnen, bevor Sie ein Modell erstellen, indem Sie zunächst eine Vorschau des Modells anzeigen.
  8. Bevor Sie Daten untersuchen, wählen Sie aus Vorschaumodell.Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  9. Wählen Sie die Spalte aus, die vorhergesagt werden soll (Abwanderung). Canvas erkennt automatisch, dass es sich um eine Vorhersage mit zwei Kategorien handelt.
  10. Auswählen Vorschaumodell. SageMaker Canvas verwendet eine Teilmenge Ihrer Daten, um schnell ein Modell zu erstellen, um zu überprüfen, ob Ihre Daten bereit sind, eine genaue Vorhersage zu generieren. Anhand dieses Beispielmodells können Sie die aktuelle Modellgenauigkeit und die relative Auswirkung jeder Spalte auf Vorhersagen nachvollziehen.

Der folgende Screenshot zeigt unsere Vorschau.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Die Modellvorschau zeigt, dass das Modell in 95.6 % der Fälle das richtige Ziel (Abwanderung?) vorhersagt. Sie können auch die anfängliche Spaltenauswirkung sehen (Einfluss, den jede Spalte auf die Zielspalte hat). Lassen Sie uns einige Daten untersuchen, visualisieren und transformieren und dann mit dem Erstellen eines Modells fortfahren.

Datenexploration

Canvas bietet bereits einige gängige grundlegende Visualisierungen, wie z. B. die Datenverteilung in einer Rasteransicht auf der Bauen Tab. Diese eignen sich hervorragend, um einen allgemeinen Überblick über die Daten zu erhalten, zu verstehen, wie die Daten verteilt sind, und um einen zusammenfassenden Überblick über den Datensatz zu erhalten.

Als Geschäftsanalyst müssen Sie möglicherweise allgemeine Einblicke in die Verteilung der Daten sowie in die Auswirkung der Verteilung auf die Zielspalte (Abwanderung) erhalten, um die Datenbeziehung leicht zu verstehen, bevor Sie das Modell erstellen. Sie können jetzt wählen Rasteransicht um sich einen Überblick über die Datenverteilung zu verschaffen.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Der folgende Screenshot zeigt die Übersicht über die Verteilung des Datensatzes.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Folgende Beobachtungen können wir machen:

  • Das Telefon nimmt zu viele einzigartige Werte an, um von praktischem Nutzen zu sein. Wir wissen, dass Telefon eine Kunden-ID ist, und möchten kein Modell erstellen, das bestimmte Kunden berücksichtigt, sondern allgemeiner lernen, was zu Abwanderung führen könnte. Sie können diese Variable entfernen.
  • Die meisten numerischen Merkmale sind gut verteilt, nach a Gauß Glockenkurve. In ML möchten Sie, dass die Daten normal verteilt werden, da jede Variable, die eine Normalverteilung aufweist, mit höherer Genauigkeit prognostiziert werden kann.

Gehen wir tiefer und sehen Sie sich die erweiterten Visualisierungen an, die in Canvas verfügbar sind.

Datenvisualisierung

Als Geschäftsanalysten möchten Sie sehen, ob es Beziehungen zwischen Datenelementen gibt und wie sie mit der Abwanderung zusammenhängen. Mit Canvas können Sie Ihre Daten untersuchen und visualisieren, was Ihnen hilft, erweiterte Einblicke in Ihre Daten zu gewinnen, bevor Sie Ihre ML-Modelle erstellen. Sie können mithilfe von Streudiagrammen, Balkendiagrammen und Boxplots visualisieren, was Ihnen helfen kann, Ihre Daten zu verstehen und die Beziehungen zwischen Features zu erkennen, die die Modellgenauigkeit beeinflussen könnten.

Führen Sie die folgenden Schritte aus, um mit der Erstellung Ihrer Visualisierungen zu beginnen:

  • Auf dem Bauen Registerkarte der Canvas-App, wählen Sie Datenvisualisierer.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Ein wichtiger Beschleuniger der Visualisierung in Canvas ist die Datenvisualisierer. Lassen Sie uns die Stichprobengröße ändern, um eine bessere Perspektive zu erhalten.

  • Wählen Sie die Anzahl der Zeilen neben aus Visualisierungsbeispiel.
  • Verwenden Sie den Schieberegler, um die gewünschte Probengröße auszuwählen.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

  • Auswählen Aktualisierung um die Änderung Ihrer Stichprobengröße zu bestätigen.

Möglicherweise möchten Sie die Stichprobengröße basierend auf Ihrem Datensatz ändern. In einigen Fällen haben Sie möglicherweise einige hundert bis einige tausend Zeilen, in denen Sie das gesamte Dataset auswählen können. In einigen Fällen haben Sie möglicherweise mehrere tausend Zeilen, in diesem Fall können Sie je nach Anwendungsfall einige hundert oder einige tausend Zeilen auswählen.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Ein Streudiagramm zeigt die Beziehung zwischen zwei quantitativen Variablen, die für dieselben Personen gemessen wurden. In unserem Fall ist es wichtig, die Beziehung zwischen Werten zu verstehen, um auf Korrelation zu prüfen.

Da wir Anrufe, Minuten und Gebühren haben, werden wir die Korrelation zwischen ihnen für Tag, Abend und Nacht darstellen.

Zuerst erstellen wir eine Streudiagramm zwischen Tagesgebühr vs. Tagesmin.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wir können beobachten, dass mit steigenden Day Mins auch die Day Charge steigt.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Gleiches gilt für Abendanrufe.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Nachtanrufe haben auch das gleiche Muster.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Da Minuten und Ladung linear zuzunehmen scheinen, können Sie beobachten, dass sie eine hohe Korrelation zueinander aufweisen. Das Einbeziehen dieser Merkmalspaare in einige ML-Algorithmen kann zusätzlichen Speicherplatz beanspruchen und die Trainingsgeschwindigkeit verringern, und ähnliche Informationen in mehr als einer Spalte können dazu führen, dass das Modell die Auswirkungen überbetont und zu einer unerwünschten Verzerrung des Modells führt. Lassen Sie uns eine Funktion aus jedem der stark korrelierten Paare entfernen: Day Charge aus dem Paar mit Day Mins, Night Charge aus dem Paar mit Night Mins und Intl Charge aus dem Paar mit Intl Mins.

Datenbilanz und Variation

Ein Balkendiagramm ist ein Diagramm zwischen einer kategorialen Variablen auf der x-Achse und einer numerischen Variablen auf der y-Achse, um die Beziehung zwischen beiden Variablen zu untersuchen. Lassen Sie uns ein Balkendiagramm erstellen, um zu sehen, wie die Anrufe über unsere Zielspalte Churn for True und False verteilt sind. Wählen Balkendiagramm und ziehen Sie Day Calls und Churn per Drag-and-Drop auf die Y- bzw. X-Achse.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Lassen Sie uns nun das gleiche Balkendiagramm für abendliche Anrufe im Vergleich zur Abwanderung erstellen.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Als Nächstes erstellen wir ein Balkendiagramm für Nachtanrufe im Vergleich zur Abwanderung.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Es sieht so aus, als gäbe es einen Unterschied im Verhalten zwischen Kunden, die abgewandert sind, und denen, die dies nicht getan haben.

Boxplots sind nützlich, da sie Unterschiede im Verhalten der Daten nach Klasse (Abwanderung oder nicht) zeigen. Da wir die Abwanderung (Zielspalte) vorhersagen werden, erstellen wir ein Boxplot mit einigen Features für unsere Zielspalte, um deskriptive Statistiken zum Dataset wie Mittelwert, Maximum, Minimum, Median und Ausreißer abzuleiten.

Auswählen Box-Plot und ziehen Sie Day mins und Churn per Drag-and-Drop auf die Y- bzw. X-Achse.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Sie können den gleichen Ansatz auch für andere Spalten gegen unsere Zielspalte (Churn) ausprobieren.

Lassen Sie uns nun ein Boxplot der Tagesminuten gegen Kundendienstanrufe erstellen, um zu verstehen, wie sich die Kundendienstanrufe über den Tagesminutenwert erstrecken. Sie können sehen, dass Kundendienstanrufe keine Abhängigkeit oder Korrelation zum Tag-Minuten-Wert haben.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Aus unseren Beobachtungen können wir feststellen, dass der Datensatz ziemlich ausgewogen ist. Wir möchten, dass die Daten gleichmäßig auf wahre und falsche Werte verteilt werden, damit das Modell nicht auf einen Wert ausgerichtet ist.

Transformationen

Basierend auf unseren Beobachtungen lassen wir die Spalte Telefon weg, weil es sich nur um eine Kontonummer handelt, und die Spalten Day Charge, Eve Charge, Night Charge, weil sie sich überschneidende Informationen wie die Min-Spalten enthalten, aber wir können zur Bestätigung erneut eine Vorschau ausführen.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Lassen Sie uns nach der Datenanalyse und -transformation erneut eine Vorschau des Modells anzeigen.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Sie können beobachten, dass sich die geschätzte Genauigkeit des Modells von 95.6 % auf 93.6 % geändert hat (dies kann variieren), jedoch hat sich die Spaltenauswirkung (Funktionswichtigkeit) für bestimmte Spalten erheblich geändert, was sowohl die Geschwindigkeit des Trainings als auch den Einfluss der Spalten verbessert die Vorhersage, wenn wir zu den nächsten Schritten der Modellerstellung übergehen. Unser Datensatz erfordert keine zusätzliche Transformation, aber wenn nötig, könnten Sie davon profitieren ML-Datentransformationen zum Bereinigen, Transformieren und Vorbereiten Ihrer Daten für die Modellerstellung.

Erstellen Sie das Modell

Sie können jetzt damit fortfahren, ein Modell zu erstellen und die Ergebnisse zu analysieren. Weitere Informationen finden Sie unter Prognostizieren Sie die Kundenabwanderung mit maschinellem Lernen ohne Code mithilfe von Amazon SageMaker Canvas.

Aufräumen

Um Zukunft zu vermeiden Sitzungsgebühren, ausloggen aus Leinwand.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Zusammenfassung

In diesem Beitrag haben wir gezeigt, wie Sie Canvas-Visualisierungsfunktionen für EDA verwenden können, um Ihre Daten vor der Modellerstellung besser zu verstehen, genaue ML-Modelle zu erstellen und Vorhersagen mit einer visuellen Point-and-Click-Oberfläche ohne Code zu generieren.


Über die Autoren

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Rajakumar Sampathkumar ist Principal Technical Account Manager bei AWS, berät Kunden bei der Ausrichtung von Unternehmen und Technologien und unterstützt die Neuerfindung ihrer Cloud-Betriebsmodelle und -prozesse. Er interessiert sich leidenschaftlich für Cloud und maschinelles Lernen. Raj ist auch ein Spezialist für maschinelles Lernen und arbeitet mit AWS-Kunden zusammen, um ihre AWS-Workloads und -Architekturen zu entwerfen, bereitzustellen und zu verwalten.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Raul Nabera ist Data Analytics Consultant bei AWS Professional Services. Seine aktuelle Arbeit konzentriert sich darauf, Kunden zu ermöglichen, ihre Daten- und Machine-Learning-Workloads auf AWS aufzubauen. In seiner Freizeit spielt er gerne Cricket und Volleyball.

Verwenden Sie Amazon SageMaker Canvas für die explorative Datenanalyse PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.Raviteja Yelamanchili ist Enterprise Solutions Architect bei Amazon Web Services mit Sitz in New York. Er arbeitet mit großen Finanzdienstleistungsunternehmen zusammen, um hochsichere, skalierbare, zuverlässige und kostengünstige Anwendungen in der Cloud zu entwerfen und bereitzustellen. Er bringt über 11 Jahre Erfahrung in den Bereichen Risikomanagement, Technologieberatung, Datenanalyse und maschinelles Lernen mit. Wenn er nicht gerade Kunden hilft, reist er gerne und spielt PS5.

Zeitstempel:

Mehr von AWS Maschinelles Lernen