Die Suche nach Erkenntnissen in einem Repository mit Freitextdokumenten kann wie die Suche nach der Nadel im Heuhaufen sein. Ein traditioneller Ansatz könnte darin bestehen, Wörter zu zählen oder andere grundlegende Analysen zum Analysieren von Dokumenten zu verwenden, aber mit der Leistungsfähigkeit von Amazon AI und den Tools für maschinelles Lernen (ML) können wir ein tieferes Verständnis des Inhalts erlangen.
Amazon verstehen ist ein vollständig verwalteter Dienst, der natürliche Sprachverarbeitung (NLP) nutzt, um Erkenntnisse über den Inhalt von Dokumenten zu gewinnen. Amazon Comprehend entwickelt Erkenntnisse, indem es die Entitäten, Schlüsselphrasen, Stimmungen, Themen und benutzerdefinierten Elemente in einem Dokument erkennt. Amazon Comprehend kann auf der Grundlage des Verständnisses der Dokumentstruktur und der Entitätsbeziehungen neue Erkenntnisse gewinnen. Mit Amazon Comprehend können Sie beispielsweise ein gesamtes Dokumenten-Repository nach Schlüsselphrasen durchsuchen.
Mit Amazon Comprehend können Nicht-ML-Experten ganz einfach Aufgaben erledigen, die normalerweise Stunden dauern. Mit Amazon Comprehend entfällt ein Großteil der Zeit, die zum Bereinigen, Erstellen und Trainieren Ihres eigenen Modells erforderlich ist. Zum Erstellen tieferer benutzerdefinierter Modelle in NLP oder einer anderen Domäne, Amazon Sage Maker ermöglicht Ihnen bei Bedarf das Erstellen, Trainieren und Bereitstellen von Modellen in einem viel konventionelleren ML-Workflow.
In diesem Beitrag verwenden wir Amazon Comprehend und andere AWS-Dienste, um ein Dokumenten-Repository zu analysieren und neue Erkenntnisse daraus zu extrahieren. Dann verwenden wir Amazon QuickSight um eine einfache, aber wirkungsvolle visuelle Wortwolke zu erstellen, mit der Sie Themen oder Trends leicht erkennen können.
Lösungsübersicht
Das folgende Diagramm zeigt die Lösungsarchitektur.
Zunächst sammeln wir die zu analysierenden Daten und laden sie in ein Amazon Simple Storage-Service (Amazon S3)-Bucket in einem AWS-Konto. In diesem Beispiel verwenden wir textformatierte Dateien. Die Daten werden dann von Amazon Comprehend analysiert. Amazon Comprehend erstellt eine JSON-formatierte Ausgabe, die mit in ein Datenbankformat umgewandelt und verarbeitet werden muss AWS-Kleber. Wir überprüfen die Daten und extrahieren mithilfe von spezifisch formatierten Datentabellen Amazonas Athena für eine QuickSight-Analyse anhand einer Wortwolke. Weitere Informationen zu Visualisierungen finden Sie unter Visualisieren von Daten in Amazon QuickSight.
Voraussetzungen:
Für diese exemplarische Vorgehensweise sollten Sie die folgenden Voraussetzungen erfüllen:
Hochladen von Daten in einen S3-Bucket
Laden Sie Ihre Daten in einen S3-Bucket hoch. Für diesen Beitrag verwenden wir den UTF-8-formatierten Text der US-Verfassung als Eingabedatei. Anschließend können Sie die Daten analysieren und Visualisierungen erstellen.
Analysieren Sie Daten mit Amazon Comprehend
Es gibt viele Arten von Text- und Bildinformationen, die mit Amazon Comprehend verarbeitet werden können. Neben Textdateien können Sie auch verwenden Amazon Comprehend für Klassifizierung und Entitätserkennung in einem Schritt um Bilddateien, PDF-Dateien und Microsoft Word-Dateien als Eingabe zu akzeptieren, die in diesem Beitrag nicht behandelt werden.
Um Ihre Daten zu analysieren, führen Sie die folgenden Schritte aus:
- Wählen Sie in der Amazon Comprehend-Konsole aus Analysejobs im Navigationsbereich.
- Auswählen Analysejob erstellen.
- Geben Sie einen Namen für Ihren Job ein.
- Aussichten für Analysetyp, wählen Schlüsselphrasen.
- Aussichten für Sprachewählen Englisch.
- Aussichten für Speicherort der EingabedatenGeben Sie als Voraussetzung den von Ihnen erstellten Ordner an.
- Aussichten für Speicherort der AusgabedatenGeben Sie als Voraussetzung den von Ihnen erstellten Ordner an.
- Auswählen Erstellen Sie eine IAM-Rolle.
- Geben Sie ein Suffix für den Rollennamen ein.
- Auswählen Job erstellen.
Der Job wird ausgeführt und der Status wird angezeigt Analysejobs
Warten Sie, bis der Analyseauftrag abgeschlossen ist. Amazon Comprehend erstellt eine Datei und legt sie im von Ihnen angegebenen Ausgabedatenordner ab. Die Datei liegt im .gz- oder GZIP-Format vor.
Diese Datei muss heruntergeladen und in ein nicht komprimiertes Format konvertiert werden. Mit der Amazon S3-Konsole können Sie ein Objekt aus dem Datenordner oder S3-Bucket herunterladen.
- Wählen Sie auf der Amazon S3-Konsole das Objekt aus und wählen Sie Herunterladen. Wenn Sie das Objekt in einen bestimmten Ordner herunterladen möchten, wählen Sie Herunterladen auf die Aktionen Menü.
- Nachdem Sie die Datei auf Ihren lokalen Computer heruntergeladen haben, öffnen Sie die ZIP-Datei und speichern Sie sie als unkomprimierte Datei.
Die unkomprimierte Datei muss in den Ausgabeordner hochgeladen werden, bevor der AWS Glue-Crawler sie verarbeiten kann. Für dieses Beispiel laden wir die unkomprimierte Datei in denselben Ausgabeordner hoch, den wir in späteren Schritten verwenden.
- Navigieren Sie in der Amazon S3-Konsole zu Ihrem S3-Bucket und wählen Sie aus Hochladen.
- Auswählen Hinzufügen von Dateien.
- Wählen Sie die unkomprimierten Dateien von Ihrem lokalen Computer aus.
- Auswählen Hochladen.
Nachdem Sie die Datei hochgeladen haben, löschen Sie die ursprüngliche ZIP-Datei.
- Wählen Sie in der Amazon S3-Konsole den Bucket aus und wählen Sie Löschen.
- Bestätigen Sie den Dateinamen, um die Datei dauerhaft zu löschen, indem Sie den Dateinamen in das Textfeld eingeben.
- Auswählen Objekte löschen.
Dadurch verbleibt eine Datei im Ausgabeordner: die unkomprimierte Datei.
Konvertieren Sie JSON-Daten mit AWS Glue in das Tabellenformat
In diesem Schritt bereiten Sie die Amazon Comprehend-Ausgabe vor, die als Eingabe in Athena verwendet werden soll. Die Amazon Comprehend-Ausgabe erfolgt im JSON-Format. Sie können AWS Glue verwenden, um JSON in eine Datenbankstruktur umzuwandeln, die schließlich von QuickSight gelesen wird.
- Wählen Sie in der AWS Glue-Konsole aus Crawlers im Navigationsbereich.
- Auswählen Crawler erstellen.
- Geben Sie einen Namen für Ihren Crawler ein.
- Auswählen Weiter.
- Aussichten für Sind Ihre Daten bereits Glue-Tabellen zugeordnet?Wählen Noch nicht.
- Fügen Sie eine Datenquelle hinzu.
- Aussichten für S3-PfadGeben Sie den Speicherort des Amazon Comprehend-Ausgabedatenordners ein.
Achten Sie darauf, das Ende hinzuzufügen /
zum Pfadnamen. AWS Glue durchsucht den Ordnerpfad nach allen Dateien.
- Auswählen Crawlen Sie alle Unterordner.
- Auswählen Fügen Sie eine S3-Datenquelle hinzu.
- Erstelle eine neue AWS Identity and Access Management and (IAM)-Rolle für den Crawler.
- Geben Sie einen Namen für die IAM-Rolle ein.
- Auswählen Ausgewählte IAM-Rolle aktualisieren um sicherzustellen, dass die neue Rolle dem Crawler zugewiesen wird.
- Auswählen Weiter , um die Ausgabeinformationen (Datenbankinformationen) einzugeben.
- Auswählen Datenbank hinzufügen.
- Geben Sie einen Datenbanknamen ein.
- Auswählen Weiter.
- Auswählen Crawler erstellen.
- Auswählen Führen Sie den Crawler aus um den Crawler auszuführen.
Sie können den Crawler-Status auf der AWS Glue-Konsole überwachen.
Verwenden Sie Athena, um Tabellen für QuickSight vorzubereiten
Athena extrahiert Daten aus den Datenbanktabellen, die der AWS Glue-Crawler erstellt hat, um ein Format bereitzustellen, das QuickSight zum Erstellen der Wortwolke verwendet.
- Wählen Sie auf der Athena-Konsole Abfrage-Editor im Navigationsbereich.
- Aussichten für Datenquelle, wählen AWSDataKatalog.
- Aussichten für Datenbase, wählen Sie die Datenbank aus, die der Crawler erstellt hat.
Um eine für QuickSight kompatible Tabelle zu erstellen, müssen die Daten aus den Arrays entschachtelt werden.
- Der erste Schritt besteht darin, eine temporäre Datenbank mit den relevanten Amazon Comprehend-Daten zu erstellen:
- Die folgende Anweisung beschränkt sich auf Phrasen mit mindestens drei Wörtern und gruppiert sie nach Häufigkeit der Phrasen:
Verwenden Sie QuickSight, um die Ausgabe zu visualisieren
Abschließend können Sie die visuelle Ausgabe der Analyse erstellen.
- Wählen Sie in der QuickSight-Konsole Eine neue Analyse.
- Auswählen Neuer Datensatz.
- Aussichten für Erstellen Sie einen Datensatz, wählen Aus neuen Datenquellen.
- Auswählen Athena als Datenquelle.
- Geben Sie einen Namen für die Datenquelle ein und wählen Sie Datenquelle erstellen.
- Auswählen Visualize.
Stellen Sie sicher, dass QuickSight Zugriff auf die S3-Buckets hat, in denen die Athena-Tabellen gespeichert sind.
- Wählen Sie in der QuickSight-Konsole das Benutzerprofilsymbol und dann „ QuickSight verwalten.
- Auswählen
Sicherheit & Berechtigungen.
- Suchen Sie nach dem Abschnitt QuickSight-Zugriff auf AWS-Services.
Durch die Konfiguration des Zugriffs auf AWS-Dienste kann QuickSight auf die Daten in diesen Diensten zugreifen. Der Zugriff von Benutzern und Gruppen kann über die Optionen gesteuert werden.
- Stellen Sie sicher, dass Amazon S3 Zugriff gewährt wird.
Jetzt können Sie die Wortwolke erstellen.
- Wählen Sie unten die Wortwolke aus Visuelle Typen.
- Ziehen Sie Text nach Gruppiere nach und zähle bis Größe.
Wählen Sie das Optionsmenü (drei Punkte) in der Visualisierung, um auf die Bearbeitungsoptionen zuzugreifen. Beispielsweise möchten Sie möglicherweise den Begriff „Sonstiges“ aus der Anzeige ausblenden. Sie können auch Elemente wie den Titel und den Untertitel für Ihr Bild bearbeiten. Um die Wortwolke als PDF herunterzuladen, wählen Sie Herunterladen in der QuickSight-Symbolleiste.
Aufräumen
Um laufende Kosten zu vermeiden, löschen Sie alle nicht verwendeten Daten und Prozesse oder Ressourcen, die auf der jeweiligen Servicekonsole bereitgestellt werden.
Zusammenfassung
Amazon Comprehend nutzt NLP, um Erkenntnisse über den Inhalt von Dokumenten zu gewinnen. Es entwickelt Erkenntnisse, indem es die Entitäten, Schlüsselphrasen, Sprache, Gefühle und andere gemeinsame Elemente in einem Dokument erkennt. Mit Amazon Comprehend können Sie neue Produkte erstellen, die auf dem Verständnis der Struktur von Dokumenten basieren. Mit Amazon Comprehend können Sie beispielsweise ein gesamtes Dokumenten-Repository nach Schlüsselphrasen durchsuchen.
In diesem Beitrag wurden die Schritte zum Erstellen einer Wortwolke zur Visualisierung einer Textinhaltsanalyse von Amazon Comprehend mithilfe von AWS-Tools und QuickSight zur Visualisierung der Daten beschrieben.
Bleiben wir über den Kommentarbereich in Kontakt!
Über die Autoren
Kris Gedman ist der Vertriebsleiter für Einzelhandel und CPG in den USA Ost bei Amazon Web Services. Wenn er nicht arbeitet, verbringt er gerne Zeit mit seinen Freunden und seiner Familie, besonders im Sommer auf Cape Cod. Kris ist ein vorübergehend pensionierter Ninja-Krieger, aber er liebt es, seine beiden Söhne im Moment zu beobachten und zu trainieren.
Clark Lefavour ist ein leitender Lösungsarchitekt bei Amazon Web Services und unterstützt Unternehmenskunden in der Ostregion. Clark lebt in Neuengland und verbringt gerne Zeit damit, in der Küche Rezepte zu entwerfen.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
- PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
- PlatoESG. Automobil / Elektrofahrzeuge, Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
- PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
- ChartPrime. Verbessern Sie Ihr Handelsspiel mit ChartPrime. Hier zugreifen.
- BlockOffsets. Modernisierung des Eigentums an Umweltkompensationen. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :hast
- :Ist
- :nicht
- :Wo
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- LiveBuzz
- Akzeptieren
- Zugang
- Konto
- hinzufügen
- Zusatz
- AI
- Alle
- bereits
- ebenfalls
- Amazon
- Amazon verstehen
- Amazon QuickSight
- Amazon Web Services
- an
- Analyse
- analysieren
- analysiert
- und
- jedem
- Ansatz
- Architektur
- SIND
- AS
- zugewiesen
- At
- vermeiden
- AWS
- AWS-Kleber
- basierend
- basic
- BE
- Bevor
- beginnen
- Box
- bauen
- Building
- aber
- by
- CAN
- Gebühren
- Auswählen
- gewählt
- Einstufung
- Cloud
- test name
- Bemerkungen
- gemeinsam
- kompatibel
- abschließen
- begreifen
- Computer
- Konsul (Console)
- Verfassung
- Inhalt
- gesteuert
- konventionellen
- verkaufen
- umgewandelt
- Zählen
- cpg
- Crawler
- erstellen
- erstellt
- schafft
- Cross
- Original
- Kunden
- technische Daten
- Datenbase
- tiefer
- einsetzen
- beschrieben
- erwünscht
- entwickelt
- diskutiert
- Display
- angezeigt
- do
- Dokument
- Unterlagen
- Domain
- herunterladen
- leicht
- Osten
- Elemente
- eliminiert
- ermöglicht
- England
- Enter
- Eingabe
- Unternehmen
- Ganz
- Entitäten
- Einheit
- insbesondere
- Beispiel
- Experten
- Extrakt
- Familie
- Reichen Sie das
- Mappen
- Suche nach
- Vorname
- Folgende
- Aussichten für
- Format
- Frequenz
- Freunde
- für
- voll
- sammeln
- erzeugen
- erteilt
- Gruppe an
- Gruppen
- Haben
- he
- Verbergen
- seine
- STUNDEN
- HTML
- http
- HTTPS
- ICON
- Identitätsschutz
- if
- zeigt
- Image
- in
- Information
- Varianten des Eingangssignals:
- Einblicke
- in
- IT
- Artikel
- Job
- join
- jpg
- JSON
- Wesentliche
- Sprache
- später
- Führer
- lernen
- am wenigsten
- Verlassen
- Lasst uns
- Gefällt mir
- Grenzen
- Belastung
- aus einer regionalen
- Standorte
- liebt
- Maschine
- Maschinelles Lernen
- verwaltet
- viele
- MENÜ
- Microsoft
- könnte
- ML
- Modell
- für
- Überwachen
- mehr
- viel
- sollen
- Name
- Natürliche
- Verarbeitung natürlicher Sprache
- Navigieren
- Menü
- erforderlich
- Bedürfnisse
- Neu
- neue Produkte
- ninja
- Nlp
- Normalerweise
- jetzt an
- Objekt
- of
- on
- EINEM
- laufend
- XNUMXh geöffnet
- Optionen
- or
- Auftrag
- Original
- Andere
- Möglichkeiten für das Ausgangssignal:
- besitzen
- Seite
- Brot
- Weg
- permanent
- Sätze
- Ort
- Plato
- Datenintelligenz von Plato
- PlatoData
- Post
- Werkzeuge
- größte treibende
- Danach
- Voraussetzungen
- Prozessdefinierung
- Verarbeitet
- anpassen
- Verarbeitung
- Produkte
- Profil
- die
- vorausgesetzt
- Lesen Sie mehr
- bereit
- erkennen
- siehe
- Region
- Beziehungen
- relevant
- verbleibenden
- Quelle
- Downloads
- diejenigen
- Einzelhandel
- Rollen
- Führen Sie
- Vertrieb
- gleich
- Speichern
- Scan
- Ergebnis
- Suche
- Abschnitt
- Gefühl
- Gefühle
- Lösungen
- sollte
- Einfacher
- Lösung
- Lösungen
- Quelle
- spezifisch
- Ausgabe
- Spot
- Erklärung
- Status
- bleiben
- Schritt
- Shritte
- Lagerung
- gelagert
- Struktur
- so
- Unterstützung
- sicher
- Tabelle
- Nehmen
- und Aufgaben
- vorübergehend
- Begriff
- Text
- zur Verbesserung der Gesundheitsgerechtigkeit
- Das
- ihr
- Themen
- dann
- fehlen uns die Worte.
- diejenigen
- nach drei
- Durch
- Zeit
- Titel
- zu
- Werkzeuge
- aufnehmen
- traditionell
- Nachgestellte
- Training
- verwandelt
- Trends
- XNUMX
- Typen
- Letztlich
- für
- Verständnis
- ungenutzt
- hochgeladen
- us
- -
- benutzt
- Mitglied
- Nutzer
- verwendet
- Verwendung von
- überprüfen
- Visualisierung
- visualisieren
- Walkthrough
- wollen
- beobachten
- we
- Netz
- Web-Services
- wann
- welche
- werden wir
- mit
- Word
- Worte
- Arbeitsablauf.
- arbeiten,
- noch
- Du
- Ihr
- Zephyrnet