Visualisieren Sie eine Amazon Comprehend-Analyse mit einer Wortwolke in Amazon QuickSight

Neuauflage von Plato

Verfolger: 0

Die Suche nach Erkenntnissen in einem Repository mit Freitextdokumenten kann wie die Suche nach der Nadel im Heuhaufen sein. Ein traditioneller Ansatz könnte darin bestehen, Wörter zu zählen oder andere grundlegende Analysen zum Analysieren von Dokumenten zu verwenden, aber mit der Leistungsfähigkeit von Amazon AI und den Tools für maschinelles Lernen (ML) können wir ein tieferes Verständnis des Inhalts erlangen.

Amazon verstehen ist ein vollständig verwalteter Dienst, der natürliche Sprachverarbeitung (NLP) nutzt, um Erkenntnisse über den Inhalt von Dokumenten zu gewinnen. Amazon Comprehend entwickelt Erkenntnisse, indem es die Entitäten, Schlüsselphrasen, Stimmungen, Themen und benutzerdefinierten Elemente in einem Dokument erkennt. Amazon Comprehend kann auf der Grundlage des Verständnisses der Dokumentstruktur und der Entitätsbeziehungen neue Erkenntnisse gewinnen. Mit Amazon Comprehend können Sie beispielsweise ein gesamtes Dokumenten-Repository nach Schlüsselphrasen durchsuchen.

Mit Amazon Comprehend können Nicht-ML-Experten ganz einfach Aufgaben erledigen, die normalerweise Stunden dauern. Mit Amazon Comprehend entfällt ein Großteil der Zeit, die zum Bereinigen, Erstellen und Trainieren Ihres eigenen Modells erforderlich ist. Zum Erstellen tieferer benutzerdefinierter Modelle in NLP oder einer anderen Domäne, Amazon Sage Maker ermöglicht Ihnen bei Bedarf das Erstellen, Trainieren und Bereitstellen von Modellen in einem viel konventionelleren ML-Workflow.

In diesem Beitrag verwenden wir Amazon Comprehend und andere AWS-Dienste, um ein Dokumenten-Repository zu analysieren und neue Erkenntnisse daraus zu extrahieren. Dann verwenden wir Amazon QuickSight um eine einfache, aber wirkungsvolle visuelle Wortwolke zu erstellen, mit der Sie Themen oder Trends leicht erkennen können.

Lösungsübersicht

Das folgende Diagramm zeigt die Lösungsarchitektur.

Visualisieren Sie eine Amazon Comprehend-Analyse mit einer Wortwolke in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Zunächst sammeln wir die zu analysierenden Daten und laden sie in ein Amazon Simple Storage-Service (Amazon S3)-Bucket in einem AWS-Konto. In diesem Beispiel verwenden wir textformatierte Dateien. Die Daten werden dann von Amazon Comprehend analysiert. Amazon Comprehend erstellt eine JSON-formatierte Ausgabe, die mit in ein Datenbankformat umgewandelt und verarbeitet werden muss AWS-Kleber. Wir überprüfen die Daten und extrahieren mithilfe von spezifisch formatierten Datentabellen Amazonas Athena für eine QuickSight-Analyse anhand einer Wortwolke. Weitere Informationen zu Visualisierungen finden Sie unter Visualisieren von Daten in Amazon QuickSight.

Voraussetzungen:

Für diese exemplarische Vorgehensweise sollten Sie die folgenden Voraussetzungen erfüllen:

Hochladen von Daten in einen S3-Bucket

Laden Sie Ihre Daten in einen S3-Bucket hoch. Für diesen Beitrag verwenden wir den UTF-8-formatierten Text der US-Verfassung als Eingabedatei. Anschließend können Sie die Daten analysieren und Visualisierungen erstellen.

Analysieren Sie Daten mit Amazon Comprehend

Es gibt viele Arten von Text- und Bildinformationen, die mit Amazon Comprehend verarbeitet werden können. Neben Textdateien können Sie auch verwenden Amazon Comprehend für Klassifizierung und Entitätserkennung in einem Schritt um Bilddateien, PDF-Dateien und Microsoft Word-Dateien als Eingabe zu akzeptieren, die in diesem Beitrag nicht behandelt werden.

Um Ihre Daten zu analysieren, führen Sie die folgenden Schritte aus:

Wählen Sie in der Amazon Comprehend-Konsole aus Analysejobs im Navigationsbereich.
Auswählen Analysejob erstellen.
Geben Sie einen Namen für Ihren Job ein.
Aussichten für Analysetyp, wählen Schlüsselphrasen.
Aussichten für Sprachewählen Englisch.
Aussichten für Speicherort der EingabedatenGeben Sie als Voraussetzung den von Ihnen erstellten Ordner an.
Aussichten für Speicherort der AusgabedatenGeben Sie als Voraussetzung den von Ihnen erstellten Ordner an.
Auswählen Erstellen Sie eine IAM-Rolle.
Geben Sie ein Suffix für den Rollennamen ein.
Auswählen Job erstellen.

Der Job wird ausgeführt und der Status wird angezeigt Analysejobs

Visualisieren Sie eine Amazon Comprehend-Analyse mit einer Wortwolke in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Warten Sie, bis der Analyseauftrag abgeschlossen ist. Amazon Comprehend erstellt eine Datei und legt sie im von Ihnen angegebenen Ausgabedatenordner ab. Die Datei liegt im .gz- oder GZIP-Format vor.

Diese Datei muss heruntergeladen und in ein nicht komprimiertes Format konvertiert werden. Mit der Amazon S3-Konsole können Sie ein Objekt aus dem Datenordner oder S3-Bucket herunterladen.

Wählen Sie auf der Amazon S3-Konsole das Objekt aus und wählen Sie Herunterladen. Wenn Sie das Objekt in einen bestimmten Ordner herunterladen möchten, wählen Sie Herunterladen auf die Aktionen Menü.
Nachdem Sie die Datei auf Ihren lokalen Computer heruntergeladen haben, öffnen Sie die ZIP-Datei und speichern Sie sie als unkomprimierte Datei.

Die unkomprimierte Datei muss in den Ausgabeordner hochgeladen werden, bevor der AWS Glue-Crawler sie verarbeiten kann. Für dieses Beispiel laden wir die unkomprimierte Datei in denselben Ausgabeordner hoch, den wir in späteren Schritten verwenden.

Navigieren Sie in der Amazon S3-Konsole zu Ihrem S3-Bucket und wählen Sie aus Hochladen.
Auswählen Hinzufügen von Dateien.
Wählen Sie die unkomprimierten Dateien von Ihrem lokalen Computer aus.
Auswählen Hochladen.

Nachdem Sie die Datei hochgeladen haben, löschen Sie die ursprüngliche ZIP-Datei.

Wählen Sie in der Amazon S3-Konsole den Bucket aus und wählen Sie Löschen.
Bestätigen Sie den Dateinamen, um die Datei dauerhaft zu löschen, indem Sie den Dateinamen in das Textfeld eingeben.
Auswählen Objekte löschen.

Dadurch verbleibt eine Datei im Ausgabeordner: die unkomprimierte Datei.

Konvertieren Sie JSON-Daten mit AWS Glue in das Tabellenformat

In diesem Schritt bereiten Sie die Amazon Comprehend-Ausgabe vor, die als Eingabe in Athena verwendet werden soll. Die Amazon Comprehend-Ausgabe erfolgt im JSON-Format. Sie können AWS Glue verwenden, um JSON in eine Datenbankstruktur umzuwandeln, die schließlich von QuickSight gelesen wird.

Wählen Sie in der AWS Glue-Konsole aus Crawlers im Navigationsbereich.
Auswählen Crawler erstellen.
Geben Sie einen Namen für Ihren Crawler ein.
Auswählen Weiter.
Aussichten für Sind Ihre Daten bereits Glue-Tabellen zugeordnet?Wählen Noch nicht.
Fügen Sie eine Datenquelle hinzu.
Aussichten für S3-PfadGeben Sie den Speicherort des Amazon Comprehend-Ausgabedatenordners ein.

Achten Sie darauf, das Ende hinzuzufügen / zum Pfadnamen. AWS Glue durchsucht den Ordnerpfad nach allen Dateien.

Auswählen Crawlen Sie alle Unterordner.
Auswählen Fügen Sie eine S3-Datenquelle hinzu.

Visualisieren Sie eine Amazon Comprehend-Analyse mit einer Wortwolke in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Erstelle eine neue AWS Identity and Access Management and (IAM)-Rolle für den Crawler.
Geben Sie einen Namen für die IAM-Rolle ein.
Auswählen Ausgewählte IAM-Rolle aktualisieren um sicherzustellen, dass die neue Rolle dem Crawler zugewiesen wird.
Auswählen Weiter , um die Ausgabeinformationen (Datenbankinformationen) einzugeben.
Auswählen Datenbank hinzufügen.
Geben Sie einen Datenbanknamen ein.
Auswählen Weiter.
Auswählen Crawler erstellen.
Auswählen Führen Sie den Crawler aus um den Crawler auszuführen.

Sie können den Crawler-Status auf der AWS Glue-Konsole überwachen.

Verwenden Sie Athena, um Tabellen für QuickSight vorzubereiten

Athena extrahiert Daten aus den Datenbanktabellen, die der AWS Glue-Crawler erstellt hat, um ein Format bereitzustellen, das QuickSight zum Erstellen der Wortwolke verwendet.

Wählen Sie auf der Athena-Konsole Abfrage-Editor im Navigationsbereich.
Aussichten für Datenquelle, wählen AWSDataKatalog.
Aussichten für Datenbase, wählen Sie die Datenbank aus, die der Crawler erstellt hat.

Visualisieren Sie eine Amazon Comprehend-Analyse mit einer Wortwolke in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Um eine für QuickSight kompatible Tabelle zu erstellen, müssen die Daten aus den Arrays entschachtelt werden.

Der erste Schritt besteht darin, eine temporäre Datenbank mit den relevanten Amazon Comprehend-Daten zu erstellen:

CREATE TABLE temp AS
SELECT keyphrases, nested
FROM output
CROSS JOIN UNNEST(output.keyphrases) AS t (nested)

Die folgende Anweisung beschränkt sich auf Phrasen mit mindestens drei Wörtern und gruppiert sie nach Häufigkeit der Phrasen:

CREATE TABLE tableforquicksight AS
SELECT COUNT(*) AS count, nested.text
FROM temp
WHERE nested.Score > .9 AND length(nested.text) - length(replace(nested.text, ' ', '')) + 1 > 2
GROUP BY nested.text
ORDER BY count desc

Verwenden Sie QuickSight, um die Ausgabe zu visualisieren

Abschließend können Sie die visuelle Ausgabe der Analyse erstellen.

Wählen Sie in der QuickSight-Konsole Eine neue Analyse.
Auswählen Neuer Datensatz.
Aussichten für Erstellen Sie einen Datensatz, wählen Aus neuen Datenquellen.
Auswählen Athena als Datenquelle.
Geben Sie einen Namen für die Datenquelle ein und wählen Sie Datenquelle erstellen.

Visualisieren Sie eine Amazon Comprehend-Analyse mit einer Wortwolke in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Auswählen Visualize.

Visualisieren Sie eine Amazon Comprehend-Analyse mit einer Wortwolke in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Stellen Sie sicher, dass QuickSight Zugriff auf die S3-Buckets hat, in denen die Athena-Tabellen gespeichert sind.

Wählen Sie in der QuickSight-Konsole das Benutzerprofilsymbol und dann „ QuickSight verwalten.

Auswählen Sicherheit & Berechtigungen.

Suchen Sie nach dem Abschnitt QuickSight-Zugriff auf AWS-Services.

Durch die Konfiguration des Zugriffs auf AWS-Dienste kann QuickSight auf die Daten in diesen Diensten zugreifen. Der Zugriff von Benutzern und Gruppen kann über die Optionen gesteuert werden.

Stellen Sie sicher, dass Amazon S3 Zugriff gewährt wird.

Jetzt können Sie die Wortwolke erstellen.

Wählen Sie unten die Wortwolke aus Visuelle Typen.
Ziehen Sie Text nach Gruppiere nach und zähle bis Größe.

Visualisieren Sie eine Amazon Comprehend-Analyse mit einer Wortwolke in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
Wählen Sie das Optionsmenü (drei Punkte) in der Visualisierung, um auf die Bearbeitungsoptionen zuzugreifen. Beispielsweise möchten Sie möglicherweise den Begriff „Sonstiges“ aus der Anzeige ausblenden. Sie können auch Elemente wie den Titel und den Untertitel für Ihr Bild bearbeiten. Um die Wortwolke als PDF herunterzuladen, wählen Sie Herunterladen in der QuickSight-Symbolleiste.

Aufräumen

Um laufende Kosten zu vermeiden, löschen Sie alle nicht verwendeten Daten und Prozesse oder Ressourcen, die auf der jeweiligen Servicekonsole bereitgestellt werden.

Zusammenfassung

Amazon Comprehend nutzt NLP, um Erkenntnisse über den Inhalt von Dokumenten zu gewinnen. Es entwickelt Erkenntnisse, indem es die Entitäten, Schlüsselphrasen, Sprache, Gefühle und andere gemeinsame Elemente in einem Dokument erkennt. Mit Amazon Comprehend können Sie neue Produkte erstellen, die auf dem Verständnis der Struktur von Dokumenten basieren. Mit Amazon Comprehend können Sie beispielsweise ein gesamtes Dokumenten-Repository nach Schlüsselphrasen durchsuchen.

In diesem Beitrag wurden die Schritte zum Erstellen einer Wortwolke zur Visualisierung einer Textinhaltsanalyse von Amazon Comprehend mithilfe von AWS-Tools und QuickSight zur Visualisierung der Daten beschrieben.

Bleiben wir über den Kommentarbereich in Kontakt!

Über die Autoren

Visualisieren Sie eine Amazon Comprehend-Analyse mit einer Wortwolke in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Kris Gedman ist der Vertriebsleiter für Einzelhandel und CPG in den USA Ost bei Amazon Web Services. Wenn er nicht arbeitet, verbringt er gerne Zeit mit seinen Freunden und seiner Familie, besonders im Sommer auf Cape Cod. Kris ist ein vorübergehend pensionierter Ninja-Krieger, aber er liebt es, seine beiden Söhne im Moment zu beobachten und zu trainieren.

Visualisieren Sie eine Amazon Comprehend-Analyse mit einer Wortwolke in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Clark Lefavour ist ein leitender Lösungsarchitekt bei Amazon Web Services und unterstützt Unternehmenskunden in der Ostregion. Clark lebt in Neuengland und verbringt gerne Zeit damit, in der Küche Rezepte zu entwerfen.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
PlatoESG. Automobil / Elektrofahrzeuge, Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
ChartPrime. Verbessern Sie Ihr Handelsspiel mit ChartPrime. Hier zugreifen.
BlockOffsets. Modernisierung des Eigentums an Umweltkompensationen. Hier zugreifen.
Quelle: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/

Zeitstempel: 13. September 2023

Hosten von YOLOv8 PyTorch-Modellen auf Amazon SageMaker-Endpunkten

Quellcluster:

AWS Maschinelles Lernen

Quellknoten: 1811060

Zeitstempel: 7. März 2023

Visualisieren Sie eine Amazon Comprehend-Analyse mit einer Wortwolke in Amazon QuickSight | Amazon Web Services

Neuauflage von Plato

Lösungsübersicht

Voraussetzungen:

Hochladen von Daten in einen S3-Bucket

Analysieren Sie Daten mit Amazon Comprehend

Konvertieren Sie JSON-Daten mit AWS Glue in das Tabellenformat

Verwenden Sie Athena, um Tabellen für QuickSight vorzubereiten

Verwenden Sie QuickSight, um die Ausgabe zu visualisieren

Aufräumen

Zusammenfassung

Über die Autoren

Mehr von AWS Maschinelles Lernen

Verteiltes Training und effiziente Skalierung mit den Amazon SageMaker Model Parallel- und Data Parallel Libraries | Amazon Web Services

Abwanderungsvorhersage mit den in Amazon SageMaker integrierten tabellarischen Algorithmen LightGBM, CatBoost, TabTransformer und AutoGluon-Tabular

Suchen Sie mithilfe der intelligenten Suche mit dem Quip-Konnektor für Amazon Kendra nach Wissen in Quip-Dokumenten

Transfer Learning für TensorFlow-Bildklassifizierungsmodelle in Amazon SageMaker

Erkennung und Hochfrequenzüberwachung von Methanemissionspunktquellen mithilfe der Geodatenfunktionen von Amazon SageMaker | Amazon Web Services

Beschleunigen Sie das Kundenerfolgsmanagement durch E-Mail-Klassifizierung mit Hugging Face auf Amazon SageMaker | Amazon Web Services

Hosten von YOLOv8 PyTorch-Modellen auf Amazon SageMaker-Endpunkten

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto