Visualiseer een Amazon Comprehend-analyse met een woordwolk in Amazon QuickSight

Heruitgegeven door Plato

volgers: 0

Zoeken naar inzichten in een verzameling vrije tekstdocumenten kan lijken op het vinden van een speld in een hooiberg. Een traditionele aanpak zou kunnen zijn om het tellen van woorden of een andere basisanalyse te gebruiken om documenten te ontleden, maar met de kracht van Amazon AI en machine learning (ML) tools kunnen we een dieper inzicht in de inhoud krijgen.

Amazon begrijpt het is een volledig beheerde service die natuurlijke taalverwerking (NLP) gebruikt om inzichten over de inhoud van documenten te verkrijgen. Amazon Comprehend ontwikkelt inzichten door de entiteiten, sleutelzinnen, sentimenten, thema's en aangepaste elementen in een document te herkennen. Amazon Comprehend kan nieuwe inzichten creëren op basis van inzicht in de documentstructuur en entiteitsrelaties. Met Amazon Comprehend kunt u bijvoorbeeld een volledige documentopslag scannen op sleutelzinnen.

Met Amazon Comprehend kunnen niet-ML-experts eenvoudig taken uitvoeren die normaal gesproken uren duren. Amazon Comprehend elimineert een groot deel van de tijd die nodig is om je eigen model op te schonen, te bouwen en te trainen. Voor het bouwen van diepere aangepaste modellen in NLP of een ander domein, Amazon Sage Maker stelt u in staat modellen te bouwen, trainen en implementeren in een veel conventionelere ML-workflow, indien gewenst.

In dit bericht gebruiken we Amazon Comprehend en andere AWS-services om nieuwe inzichten te analyseren en te extraheren uit een opslagplaats met documenten. Vervolgens gebruiken wij Amazon QuickSight om een eenvoudig maar krachtig woordwolkbeeld te genereren waarmee u gemakkelijk thema's of trends kunt herkennen.

Overzicht van de oplossing

Het volgende diagram illustreert de oplossingsarchitectuur.

Visualiseer een Amazon Comprehend-analyse met een woordwolk in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Om te beginnen verzamelen we de te analyseren gegevens en laden deze in een Amazon eenvoudige opslagservice (Amazon S3) bucket in een AWS-account. In dit voorbeeld gebruiken we tekstgeformatteerde bestanden. De gegevens worden vervolgens geanalyseerd door Amazon Comprehend. Amazon Comprehend maakt een JSON-geformatteerde uitvoer die moet worden getransformeerd en verwerkt in een databaseformaat met behulp van AWS lijm. We verifiëren de gegevens en extraheren specifiek opgemaakte gegevenstabellen met behulp van Amazone Athene voor een QuickSight-analyse met behulp van een woordwolk. Voor meer informatie over visualisaties raadpleegt u Gegevens visualiseren in Amazon QuickSight.

Voorwaarden

Voor deze walkthrough moet u aan de volgende vereisten voldoen:

Gegevens uploaden naar een S3-bucket

Upload uw gegevens naar een S3-bucket. Voor dit bericht gebruiken we UTF-8-geformatteerde tekst van de Amerikaanse grondwet als invoerbestand. Vervolgens bent u klaar om de gegevens te analyseren en visualisaties te maken.

Analyseer gegevens met Amazon Comprehend

Er zijn veel soorten tekst- en afbeeldingsinformatie die kunnen worden verwerkt met Amazon Comprehend. Naast tekstbestanden kunt u ook Amazon Comprehend voor classificatie in één stap en entiteitsherkenning om afbeeldingsbestanden, PDF-bestanden en Microsoft Word-bestanden als invoer te accepteren, die niet in dit bericht worden besproken.

Om uw gegevens te analyseren, voert u de volgende stappen uit:

Kies op de Amazon Comprehend-console Analyse banen in het navigatievenster.
Kies Maak een analyseopdracht.
Voer een naam in voor uw taak.
Voor Type analyse, kiezen Sleutelzinnen.
Voor TaalKiezen Engels.
Voor Locatie van invoergegevens, geef als vereiste de map op die u hebt gemaakt.
Voor Uitvoergegevens locatie, geef als vereiste de map op die u hebt gemaakt.
Kies Maak een IAM-rol.
Voer een achtervoegsel in voor de rolnaam.
Kies Baan creëren.

De taak wordt uitgevoerd en de status wordt weergegeven op het scherm Analyse banen pagina.

Visualiseer een Amazon Comprehend-analyse met een woordwolk in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Wacht tot de analysetaak is voltooid. Amazon Comprehend maakt een bestand en plaatst dit in de map met uitvoergegevens die u hebt opgegeven. Het bestand heeft de indeling .gz of GZIP.

Dit bestand moet worden gedownload en geconverteerd naar een niet-gecomprimeerd formaat. U kunt een object downloaden uit de gegevensmap of de S3-bucket met behulp van de Amazon S3-console.

Selecteer op de Amazon S3-console het object en kies Downloaden. Als u het object naar een specifieke map wilt downloaden, kiest u Downloaden op de Acties menu.
Nadat u het bestand naar uw lokale computer hebt gedownload, opent u het gezipte bestand en slaat u het op als een niet-gecomprimeerd bestand.

Het niet-gecomprimeerde bestand moet naar de uitvoermap worden geüpload voordat de AWS Glue-crawler het kan verwerken. Voor dit voorbeeld uploaden we het niet-gecomprimeerde bestand naar dezelfde uitvoermap die we in latere stappen gebruiken.

Navigeer op de Amazon S3-console naar uw S3-bucket en kies Uploaden.
Kies Bestanden toevoegen.
Kies de niet-gecomprimeerde bestanden van uw lokale computer.
Kies Uploaden.

Nadat u het bestand heeft geüpload, verwijdert u het originele gecomprimeerde bestand.

Selecteer op de Amazon S3-console de bucket en kies Verwijder.
Bevestig de bestandsnaam om het bestand permanent te verwijderen door de bestandsnaam in het tekstvak in te voeren.
Kies Objecten verwijderen.

Hierdoor blijft er één bestand achter in de uitvoermap: het niet-gecomprimeerde bestand.

Converteer JSON-gegevens naar tabelformaat met AWS Glue

In deze stap bereidt u de Amazon Comprehend-uitvoer voor om te gebruiken als invoer in Athena. De Amazon Comprehend-uitvoer is in JSON-indeling. U kunt AWS Glue gebruiken om JSON om te zetten in een databasestructuur die uiteindelijk door QuickSight kan worden gelezen.

Kies op de AWS Glue-console: crawlers in het navigatievenster.
Kies Creëren van crawler.
Voer een naam in voor uw crawler.
Kies Volgende.
Voor Zijn uw gegevens al toegewezen aan Glue-tabellen?selecteer Nog niet.
Voeg een gegevensbron toe.
Voor S3-padVoer de locatie in van de Amazon Comprehend-uitvoergegevensmap.

Zorg ervoor dat u de trailing toevoegt / naar de padnaam. AWS Glue zoekt in het mappad naar alle bestanden.

kies Crawl alle submappen.
Kies Voeg een S3-gegevensbron toe.

Visualiseer een Amazon Comprehend-analyse met een woordwolk in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Maak een nieuw AWS Identiteits- en toegangsbeheer (IAM)-rol voor de crawler.
Voer een naam in voor de IAM-rol.
Kies Update de gekozen IAM-rol om er zeker van te zijn dat de nieuwe rol aan de crawler wordt toegewezen.
Kies Volgende om de uitvoergegevens (database) in te voeren.
Kies Voeg database toe.
Voer een databasenaam in.
Kies Volgende.
Kies Creëren van crawler.
Kies Voer de crawler uit om de crawler te laten draaien.

U kunt de crawlerstatus volgen op de AWS Glue-console.

Gebruik Athena om tabellen voor QuickSight voor te bereiden

Athena zal gegevens extraheren uit de databasetabellen die de AWS Glue-crawler heeft gemaakt om een formaat te bieden dat QuickSight zal gebruiken om de woordwolk te creëren.

Kies op de Athena-console Query-editor in het navigatievenster.
Voor Databron, kiezen AwsDataCatalogus.
Voor Database, kies de database die de crawler heeft gemaakt.

Visualiseer een Amazon Comprehend-analyse met een woordwolk in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Om een tabel te maken die compatibel is met QuickSight, moeten de gegevens uit de arrays worden verwijderd.

De eerste stap is het creëren van een tijdelijke database met de relevante Amazon Comprehend-gegevens:

CREATE TABLE temp AS
SELECT keyphrases, nested
FROM output
CROSS JOIN UNNEST(output.keyphrases) AS t (nested)

De volgende verklaring beperkt zich tot zinsneden van ten minste drie woorden en groepen op basis van de frequentie van de zinsneden:

CREATE TABLE tableforquicksight AS
SELECT COUNT(*) AS count, nested.text
FROM temp
WHERE nested.Score > .9 AND length(nested.text) - length(replace(nested.text, ' ', '')) + 1 > 2
GROUP BY nested.text
ORDER BY count desc

Gebruik QuickSight om de output te visualiseren

Ten slotte kunt u de visuele output van de analyse creëren.

Kies op de QuickSight-console Nieuwe analyse.
Kies Nieuwe dataset.
Voor Een gegevensset maken, kiezen Uit nieuwe databronnen.
Kies Athene als de gegevensbron.
Voer een naam in voor de gegevensbron en kies Maak een gegevensbron.

Visualiseer een Amazon Comprehend-analyse met een woordwolk in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Kies Visualiseer.

Visualiseer een Amazon Comprehend-analyse met een woordwolk in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Zorg ervoor dat QuickSight toegang heeft tot de S3-buckets waar de Athena-tafels zijn opgeslagen.

Kies op de QuickSight-console het gebruikersprofielpictogram en kies Beheer QuickSight.

Kies Beveiliging en machtigingen.

Zoek de sectie QuickSight-toegang tot AWS-services.

Door de toegang tot AWS-services te configureren, heeft QuickSight toegang tot de gegevens in die services. Toegang door gebruikers en groepen kan worden beheerd via de opties.

Controleer of Amazon S3 toegang heeft.

Nu kunt u de woordwolk maken.

Kies de woordwolk hieronder Visuele typen.
Sleep tekst naar Groeperen op en tel tot Maat.

Visualiseer een Amazon Comprehend-analyse met een woordwolk in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Kies het optiemenu (drie stippen) in de visualisatie om toegang te krijgen tot de bewerkingsopties. Mogelijk wilt u bijvoorbeeld de term 'andere' verbergen op het display. U kunt ook items zoals de titel en ondertitel van uw visual bewerken. Om de woordwolk als PDF te downloaden, kiest u Downloaden op de QuickSight-werkbalk.

Opruimen

Om te voorkomen dat er doorlopende kosten in rekening worden gebracht, verwijdert u alle ongebruikte gegevens, processen of bronnen die op de betreffende serviceconsole zijn ingericht.

Conclusie

Amazon Comprehend gebruikt NLP om inzichten over de inhoud van documenten te verkrijgen. Het ontwikkelt inzichten door de entiteiten, sleutelzinnen, taal, gevoelens en andere veel voorkomende elementen in een document te herkennen. U kunt Amazon Comprehend gebruiken om nieuwe producten te maken op basis van inzicht in de structuur van documenten. Met Amazon Comprehend kunt u bijvoorbeeld een volledige documentopslag scannen op sleutelzinnen.

In dit bericht worden de stappen beschreven om een woordwolk te bouwen om een tekstinhoudsanalyse van Amazon Comprehend te visualiseren met behulp van AWS-tools en QuickSight om de gegevens te visualiseren.

Laten we contact houden via het opmerkingengedeelte!

Over de auteurs

Visualiseer een Amazon Comprehend-analyse met een woordwolk in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Kris Gedman is verkoopleider in de VS-Oost voor Retail & CPG bij Amazon Web Services. Als hij niet werkt, brengt hij graag tijd door met zijn vrienden en familie, vooral in de zomer op Cape Cod. Kris is een tijdelijk gepensioneerde Ninja Warrior, maar hij houdt er voorlopig van om naar zijn twee zonen te kijken en deze te coachen.

Visualiseer een Amazon Comprehend-analyse met een woordwolk in Amazon QuickSight | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Clark Lefavour is een Solutions Architect-leider bij Amazon Web Services en ondersteunt zakelijke klanten in de regio Oost. Clark is gevestigd in New England en brengt graag tijd door met het ontwerpen van recepten in de keuken.

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. Automotive / EV's, carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
ChartPrime. Verhoog uw handelsspel met ChartPrime. Toegang hier.
BlockOffsets. Eigendom voor milieucompensatie moderniseren. Toegang hier.
Bron: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/

Tijdstempel: 13 september 2023

Hosting van YOLOv8 PyTorch-modellen op Amazon SageMaker Endpoints

Broncluster:

AWS-machine learning

Bronknooppunt: 1811060

Tijdstempel: 7-2023-XNUMX

Visualiseer een Amazon Comprehend-analyse met een woordwolk in Amazon QuickSight | Amazon-webservices

Heruitgegeven door Plato

Overzicht van de oplossing

Voorwaarden

Gegevens uploaden naar een S3-bucket

Analyseer gegevens met Amazon Comprehend

Converteer JSON-gegevens naar tabelformaat met AWS Glue

Gebruik Athena om tabellen voor QuickSight voor te bereiden

Gebruik QuickSight om de output te visualiseren

Opruimen

Conclusie

Over de auteurs

Meer van AWS-machine learning

Gedistribueerde training en efficiënt schalen met de Amazon SageMaker Model Parallel en Data Parallel Libraries | Amazon-webservices

Churn-voorspelling met behulp van de ingebouwde tabelalgoritmen van Amazon SageMaker LightGBM, CatBoost, TabTransformer en AutoGluon-Tabular

Zoek naar kennis in Quip-documenten met intelligent zoeken met behulp van de Quip-connector voor Amazon Kendra

Leren overdragen voor TensorFlow-beeldclassificatiemodellen in Amazon SageMaker

Detectie en hoogfrequente monitoring van puntbronnen met methaanemissie met behulp van de geospatiale mogelijkheden van Amazon SageMaker | Amazon-webservices

Versnel het succesbeheer van klanten door middel van e-mailclassificatie met Hugging Face op Amazon SageMaker | Amazon-webservices

Hosting van YOLOv8 PyTorch-modellen op Amazon SageMaker Endpoints

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account