Zoeken naar inzichten in een verzameling vrije tekstdocumenten kan lijken op het vinden van een speld in een hooiberg. Een traditionele aanpak zou kunnen zijn om het tellen van woorden of een andere basisanalyse te gebruiken om documenten te ontleden, maar met de kracht van Amazon AI en machine learning (ML) tools kunnen we een dieper inzicht in de inhoud krijgen.
Amazon begrijpt het is een volledig beheerde service die natuurlijke taalverwerking (NLP) gebruikt om inzichten over de inhoud van documenten te verkrijgen. Amazon Comprehend ontwikkelt inzichten door de entiteiten, sleutelzinnen, sentimenten, thema's en aangepaste elementen in een document te herkennen. Amazon Comprehend kan nieuwe inzichten creรซren op basis van inzicht in de documentstructuur en entiteitsrelaties. Met Amazon Comprehend kunt u bijvoorbeeld een volledige documentopslag scannen op sleutelzinnen.
Met Amazon Comprehend kunnen niet-ML-experts eenvoudig taken uitvoeren die normaal gesproken uren duren. Amazon Comprehend elimineert een groot deel van de tijd die nodig is om je eigen model op te schonen, te bouwen en te trainen. Voor het bouwen van diepere aangepaste modellen in NLP of een ander domein, Amazon Sage Maker stelt u in staat modellen te bouwen, trainen en implementeren in een veel conventionelere ML-workflow, indien gewenst.
In dit bericht gebruiken we Amazon Comprehend en andere AWS-services om nieuwe inzichten te analyseren en te extraheren uit een opslagplaats met documenten. Vervolgens gebruiken wij Amazon QuickSight om een โโeenvoudig maar krachtig woordwolkbeeld te genereren waarmee u gemakkelijk thema's of trends kunt herkennen.
Overzicht van de oplossing
Het volgende diagram illustreert de oplossingsarchitectuur.
Om te beginnen verzamelen we de te analyseren gegevens en laden deze in een Amazon eenvoudige opslagservice (Amazon S3) bucket in een AWS-account. In dit voorbeeld gebruiken we tekstgeformatteerde bestanden. De gegevens worden vervolgens geanalyseerd door Amazon Comprehend. Amazon Comprehend maakt een JSON-geformatteerde uitvoer die moet worden getransformeerd en verwerkt in een databaseformaat met behulp van AWS lijm. We verifiรซren de gegevens en extraheren specifiek opgemaakte gegevenstabellen met behulp van Amazone Athene voor een QuickSight-analyse met behulp van een woordwolk. Voor meer informatie over visualisaties raadpleegt u Gegevens visualiseren in Amazon QuickSight.
Voorwaarden
Voor deze walkthrough moet u aan de volgende vereisten voldoen:
Gegevens uploaden naar een S3-bucket
Upload uw gegevens naar een S3-bucket. Voor dit bericht gebruiken we UTF-8-geformatteerde tekst van de Amerikaanse grondwet als invoerbestand. Vervolgens bent u klaar om de gegevens te analyseren en visualisaties te maken.
Analyseer gegevens met Amazon Comprehend
Er zijn veel soorten tekst- en afbeeldingsinformatie die kunnen worden verwerkt met Amazon Comprehend. Naast tekstbestanden kunt u ook Amazon Comprehend voor classificatie in รฉรฉn stap en entiteitsherkenning om afbeeldingsbestanden, PDF-bestanden en Microsoft Word-bestanden als invoer te accepteren, die niet in dit bericht worden besproken.
Om uw gegevens te analyseren, voert u de volgende stappen uit:
- Kies op de Amazon Comprehend-console Analyse banen in het navigatievenster.
- Kies Maak een analyseopdracht.
- Voer een naam in voor uw taak.
- Voor Type analyse, kiezen Sleutelzinnen.
- Voor TaalKiezen Engels.
- Voor Locatie van invoergegevens, geef als vereiste de map op die u hebt gemaakt.
- Voor Uitvoergegevens locatie, geef als vereiste de map op die u hebt gemaakt.
- Kies Maak een IAM-rol.
- Voer een achtervoegsel in voor de rolnaam.
- Kies Baan creรซren.
De taak wordt uitgevoerd en de status wordt weergegeven op het scherm Analyse banen pagina.
Wacht tot de analysetaak is voltooid. Amazon Comprehend maakt een bestand en plaatst dit in de map met uitvoergegevens die u hebt opgegeven. Het bestand heeft de indeling .gz of GZIP.
Dit bestand moet worden gedownload en geconverteerd naar een niet-gecomprimeerd formaat. U kunt een object downloaden uit de gegevensmap of de S3-bucket met behulp van de Amazon S3-console.
- Selecteer op de Amazon S3-console het object en kies Downloaden. Als u het object naar een specifieke map wilt downloaden, kiest u Downloaden op de Acties menu.
- Nadat u het bestand naar uw lokale computer hebt gedownload, opent u het gezipte bestand en slaat u het op als een niet-gecomprimeerd bestand.
Het niet-gecomprimeerde bestand moet naar de uitvoermap worden geรผpload voordat de AWS Glue-crawler het kan verwerken. Voor dit voorbeeld uploaden we het niet-gecomprimeerde bestand naar dezelfde uitvoermap die we in latere stappen gebruiken.
- Navigeer op de Amazon S3-console naar uw S3-bucket en kies Uploaden.
- Kies Bestanden toevoegen.
- Kies de niet-gecomprimeerde bestanden van uw lokale computer.
- Kies Uploaden.
Nadat u het bestand heeft geรผpload, verwijdert u het originele gecomprimeerde bestand.
- Selecteer op de Amazon S3-console de bucket en kies Verwijder.
- Bevestig de bestandsnaam om het bestand permanent te verwijderen door de bestandsnaam in het tekstvak in te voeren.
- Kies Objecten verwijderen.
Hierdoor blijft er รฉรฉn bestand achter in de uitvoermap: het niet-gecomprimeerde bestand.
Converteer JSON-gegevens naar tabelformaat met AWS Glue
In deze stap bereidt u de Amazon Comprehend-uitvoer voor om te gebruiken als invoer in Athena. De Amazon Comprehend-uitvoer is in JSON-indeling. U kunt AWS Glue gebruiken om JSON om te zetten in een databasestructuur die uiteindelijk door QuickSight kan worden gelezen.
- Kies op de AWS Glue-console: crawlers in het navigatievenster.
- Kies Creรซren van crawler.
- Voer een naam in voor uw crawler.
- Kies Volgende.
- Voor Zijn uw gegevens al toegewezen aan Glue-tabellen?selecteer Nog niet.
- Voeg een gegevensbron toe.
- Voor S3-padVoer de locatie in van de Amazon Comprehend-uitvoergegevensmap.
Zorg ervoor dat u de trailing toevoegt /
naar de padnaam. AWS Glue zoekt in het mappad naar alle bestanden.
- kies Crawl alle submappen.
- Kies Voeg een S3-gegevensbron toe.
- Maak een nieuw AWS Identiteits- en toegangsbeheer (IAM)-rol voor de crawler.
- Voer een naam in voor de IAM-rol.
- Kies Update de gekozen IAM-rol om er zeker van te zijn dat de nieuwe rol aan de crawler wordt toegewezen.
- Kies Volgende om de uitvoergegevens (database) in te voeren.
- Kies Voeg database toe.
- Voer een databasenaam in.
- Kies Volgende.
- Kies Creรซren van crawler.
- Kies Voer de crawler uit om de crawler te laten draaien.
U kunt de crawlerstatus volgen op de AWS Glue-console.
Gebruik Athena om tabellen voor QuickSight voor te bereiden
Athena zal gegevens extraheren uit de databasetabellen die de AWS Glue-crawler heeft gemaakt om een โโformaat te bieden dat QuickSight zal gebruiken om de woordwolk te creรซren.
- Kies op de Athena-console Query-editor in het navigatievenster.
- Voor Databron, kiezen AwsDataCatalogus.
- Voor Database, kies de database die de crawler heeft gemaakt.
Om een โโtabel te maken die compatibel is met QuickSight, moeten de gegevens uit de arrays worden verwijderd.
- De eerste stap is het creรซren van een tijdelijke database met de relevante Amazon Comprehend-gegevens:
- De volgende verklaring beperkt zich tot zinsneden van ten minste drie woorden en groepen op basis van de frequentie van de zinsneden:
Gebruik QuickSight om de output te visualiseren
Ten slotte kunt u de visuele output van de analyse creรซren.
- Kies op de QuickSight-console Nieuwe analyse.
- Kies Nieuwe dataset.
- Voor Een gegevensset maken, kiezen Uit nieuwe databronnen.
- Kies Athene als de gegevensbron.
- Voer een naam in voor de gegevensbron en kies Maak een gegevensbron.
- Kies Visualiseer.
Zorg ervoor dat QuickSight toegang heeft tot de S3-buckets waar de Athena-tafels zijn opgeslagen.
- Kies op de QuickSight-console het gebruikersprofielpictogram en kies Beheer QuickSight.
- Kies Beveiliging en machtigingen.
- Zoek de sectie QuickSight-toegang tot AWS-services.
Door de toegang tot AWS-services te configureren, heeft QuickSight toegang tot de gegevens in die services. Toegang door gebruikers en groepen kan worden beheerd via de opties.
- Controleer of Amazon S3 toegang heeft.
Nu kunt u de woordwolk maken.
- Kies de woordwolk hieronder Visuele typen.
- Sleep tekst naar Groeperen op en tel tot Maat.
Kies het optiemenu (drie stippen) in de visualisatie om toegang te krijgen tot de bewerkingsopties. Mogelijk wilt u bijvoorbeeld de term 'andere' verbergen op het display. U kunt ook items zoals de titel en ondertitel van uw visual bewerken. Om de woordwolk als PDF te downloaden, kiest u Downloaden op de QuickSight-werkbalk.
Opruimen
Om te voorkomen dat er doorlopende kosten in rekening worden gebracht, verwijdert u alle ongebruikte gegevens, processen of bronnen die op de betreffende serviceconsole zijn ingericht.
Conclusie
Amazon Comprehend gebruikt NLP om inzichten over de inhoud van documenten te verkrijgen. Het ontwikkelt inzichten door de entiteiten, sleutelzinnen, taal, gevoelens en andere veel voorkomende elementen in een document te herkennen. U kunt Amazon Comprehend gebruiken om nieuwe producten te maken op basis van inzicht in de structuur van documenten. Met Amazon Comprehend kunt u bijvoorbeeld een volledige documentopslag scannen op sleutelzinnen.
In dit bericht worden de stappen beschreven om een โโwoordwolk te bouwen om een โโtekstinhoudsanalyse van Amazon Comprehend te visualiseren met behulp van AWS-tools en QuickSight om de gegevens te visualiseren.
Laten we contact houden via het opmerkingengedeelte!
Over de auteurs
Kris Gedman is verkoopleider in de VS-Oost voor Retail & CPG bij Amazon Web Services. Als hij niet werkt, brengt hij graag tijd door met zijn vrienden en familie, vooral in de zomer op Cape Cod. Kris is een tijdelijk gepensioneerde Ninja Warrior, maar hij houdt er voorlopig van om naar zijn twee zonen te kijken en deze te coachen.
Clark Lefavour is een Solutions Architect-leider bij Amazon Web Services en ondersteunt zakelijke klanten in de regio Oost. Clark is gevestigd in New England en brengt graag tijd door met het ontwerpen van recepten in de keuken.
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
- PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
- PlatoESG. Automotive / EV's, carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
- Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
- ChartPrime. Verhoog uw handelsspel met ChartPrime. Toegang hier.
- BlockOffsets. Eigendom voor milieucompensatie moderniseren. Toegang hier.
- Bron: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- : heeft
- :is
- :niet
- :waar
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- Over
- ACCEPTEREN
- toegang
- Account
- toevoegen
- toevoeging
- AI
- Alles
- al
- ook
- Amazone
- Amazon begrijpt het
- Amazon QuickSight
- Amazon Web Services
- an
- analyse
- analyseren
- geanalyseerd
- en
- elke
- nadering
- architectuur
- ZIJN
- AS
- toegewezen
- At
- vermijd
- AWS
- AWS lijm
- gebaseerde
- basis-
- BE
- vaardigheden
- beginnen
- Box camera's
- bouw
- Gebouw
- maar
- by
- CAN
- lasten
- Kies
- uitgekozen
- classificatie
- Cloud
- coaching
- opmerkingen
- Gemeen
- verenigbaar
- compleet
- begrijpen
- computer
- troosten
- Grondwet
- content
- gecontroleerd
- conventioneel
- converteren
- geconverteerd
- telling
- CPG
- crawler
- en je merk te creรซren
- aangemaakt
- creรซert
- Cross
- gewoonte
- Klanten
- gegevens
- Database
- diepere
- implementeren
- beschreven
- gewenste
- ontwikkelt
- besproken
- Display
- weergegeven
- do
- document
- documenten
- domein
- Download
- gemakkelijk
- oosten
- geeft je de mogelijkheid
- elimineert
- maakt
- Engeland
- Enter
- het invoeren van
- Enterprise
- Geheel
- entiteiten
- entiteit
- vooral
- voorbeeld
- deskundigen
- extract
- familie
- Dien in
- Bestanden
- het vinden van
- Voornaam*
- volgend
- Voor
- formaat
- Frequentie
- vrienden
- oppompen van
- geheel
- verzamelen
- voortbrengen
- verleend
- Groep
- Groep
- Hebben
- he
- Verbergen
- zijn
- HOURS
- HTML
- http
- HTTPS
- ICON
- Identiteit
- if
- illustreert
- beeld
- in
- informatie
- invoer
- inzichten
- in
- IT
- artikelen
- Jobomschrijving:
- mee
- jpg
- json
- sleutel
- taal
- later
- leider
- leren
- minst
- Verlof
- Laten we
- als
- grenzen
- laden
- lokaal
- plaats
- houdt
- machine
- machine learning
- beheerd
- veel
- Menu
- Microsoft
- macht
- ML
- model
- modellen
- monitor
- meer
- veel
- Dan moet je
- naam
- Naturel
- Natural Language Processing
- OP DEZE WEBSITE VIND JE
- Navigatie
- nodig
- behoeften
- New
- nieuwe producten
- ninja
- nlp
- normaal
- nu
- object
- of
- on
- EEN
- lopend
- open
- Opties
- or
- bestellen
- origineel
- Overige
- uitgang
- het te bezitten.
- pagina
- brood
- pad
- blijvend
- zinnen
- plaats
- Plato
- Plato gegevensintelligentie
- PlatoData
- Post
- energie
- krachtige
- Voorbereiden
- vereisten
- Verwerkt
- processen
- verwerking
- Producten
- Profiel
- zorgen voor
- mits
- Lees
- klaar
- herkennen
- verwijzen
- regio
- Relaties
- relevante
- resterende
- bewaarplaats
- Resources
- degenen
- <HR>Retail
- Rol
- lopen
- verkoop
- dezelfde
- Bespaar
- aftasten
- partituur
- Ontdek
- sectie
- sentiment
- sentimenten
- service
- Diensten
- moet
- Eenvoudig
- oplossing
- Oplossingen
- bron
- specifiek
- Uitgaven
- Spot
- Statement
- Status
- blijven
- Stap voor
- Stappen
- mediaopslag
- opgeslagen
- structuur
- dergelijk
- Ondersteuning
- zeker
- tafel
- Nemen
- taken
- tijdelijk
- termijn
- tekst
- dat
- De
- hun
- thema's
- harte
- dit
- die
- drie
- Door
- niet de tijd of
- Titel
- naar
- tools
- traditioneel
- Trailing
- Trainen
- getransformeerd
- Trends
- twee
- types
- Tenslotte
- voor
- begrip
- ongebruikt
- geรผpload
- us
- .
- gebruikt
- Gebruiker
- gebruikers
- toepassingen
- gebruik
- controleren
- via
- visualisatie
- visualiseren
- walkthrough
- willen
- kijken
- we
- web
- webservices
- wanneer
- welke
- wil
- Met
- Woord
- woorden
- workflow
- werkzaam
- nog
- You
- Your
- zephyrnet