At søge efter indsigt i et lager af tekstdokumenter i frit format kan være som at finde en nål i en høstak. En traditionel tilgang kan være at bruge ordtælling eller anden grundlæggende analyse til at analysere dokumenter, men med kraften fra Amazon AI og maskinlæringsværktøjer (ML) kan vi opnå en dybere forståelse af indholdet.
Amazon Comprehend er en fuldt administreret tjeneste, der bruger naturlig sprogbehandling (NLP) til at udtrække indsigt om indholdet af dokumenter. Amazon Comprehend udvikler indsigt ved at genkende entiteter, nøglesætninger, følelser, temaer og tilpassede elementer i et dokument. Amazon Comprehend kan skabe ny indsigt baseret på forståelse af dokumentstrukturen og enhedsrelationer. For eksempel kan du med Amazon Comprehend scanne et helt dokumentlager for nøglesætninger.
Amazon Comprehend lader ikke-ML-eksperter nemt udføre opgaver, der normalt tager timevis. Amazon Comprehend eliminerer meget af den tid, der er nødvendig for at rense, bygge og træne din egen model. For at bygge dybere tilpassede modeller i NLP eller et hvilket som helst andet domæne, Amazon SageMaker giver dig mulighed for at bygge, træne og implementere modeller i et meget mere konventionelt ML-workflow, hvis det ønskes.
I dette indlæg bruger vi Amazon Comprehend og andre AWS-tjenester til at analysere og udtrække ny indsigt fra et lager af dokumenter. Så bruger vi Amazon QuickSight at generere et simpelt, men kraftfuldt ordsky-visuelt billede for nemt at se temaer eller tendenser.
Oversigt over løsning
Følgende diagram illustrerer løsningsarkitekturen.
Til at begynde med samler vi de data, der skal analyseres, og indlæser dem i en Amazon Simple Storage Service (Amazon S3)-bøtte på en AWS-konto. I dette eksempel bruger vi tekstformaterede filer. Dataene analyseres derefter af Amazon Comprehend. Amazon Comprehend opretter et JSON-formateret output, der skal transformeres og behandles til et databaseformat vha AWS Lim. Vi verificerer dataene og udtrækker specifikke formaterede datatabeller vha Amazonas Athena til en QuickSight-analyse ved hjælp af en ordsky. For mere information om visualiseringer, se Visualisering af data i Amazon QuickSight.
Forudsætninger
For denne gennemgang skal du have følgende forudsætninger:
Upload data til en S3-bøtte
Upload dine data til en S3-bøtte. Til dette indlæg bruger vi UTF-8-formateret tekst fra den amerikanske forfatning som inputfil. Så er du klar til at analysere dataene og lave visualiseringer.
Analyser data ved hjælp af Amazon Comprehend
Der er mange typer tekst- og billedinformation, der kan behandles ved hjælp af Amazon Comprehend. Ud over tekstfiler kan du bruge Amazon Comprehend til et-trins klassificering og enhedsgenkendelse til at acceptere billedfiler, PDF-filer og Microsoft Word-filer som input, som ikke er diskuteret i dette indlæg.
For at analysere dine data skal du udføre følgende trin:
- På Amazon Comprehend-konsollen skal du vælge Analyse job i navigationsruden.
- Vælg Opret analysejob.
- Indtast et navn til dit job.
- Til Analyse type, vælg Nøglesætninger.
- Til Sprog¸ vælg Engelsk.
- Til Input data placering, skal du angive den mappe, du har oprettet, som en forudsætning.
- Til Outputdataplacering, skal du angive den mappe, du har oprettet, som en forudsætning.
- Vælg Opret en IAM-rolle.
- Indtast et suffiks for rollenavnet.
- Vælg Skab job.
Jobbet vil køre, og status vil blive vist på Analyse job .
Vent på, at analysejobbet er fuldført. Amazon Comprehend vil oprette en fil og placere den i den outputdatamappe, du har angivet. Filen er i .gz- eller GZIP-format.
Denne fil skal downloades og konverteres til et ikke-komprimeret format. Du kan downloade et objekt fra datamappen eller S3-bøtten ved hjælp af Amazon S3-konsollen.
- På Amazon S3-konsollen skal du vælge objektet og vælge Hent. Hvis du vil downloade objektet til en bestemt mappe, skal du vælge Hent på den handlinger menu.
- Når du har downloadet filen til din lokale computer, skal du åbne den zippede fil og gemme den som en ukomprimeret fil.
Den ukomprimerede fil skal uploades til outputmappen, før AWS Glue-crawleren kan behandle den. I dette eksempel uploader vi den ukomprimerede fil til den samme outputmappe, som vi bruger i senere trin.
- På Amazon S3-konsollen skal du navigere til din S3-bøtte og vælge Upload.
- Vælg Tilføj filer.
- Vælg de ukomprimerede filer fra din lokale computer.
- Vælg Upload.
Når du har uploadet filen, skal du slette den originale zippede fil.
- På Amazon S3-konsollen skal du vælge bøtten og vælge Slette.
- Bekræft filnavnet for at slette filen permanent ved at indtaste filnavnet i tekstboksen.
- Vælg Slet objekter.
Dette vil efterlade én fil tilbage i outputmappen: den ukomprimerede fil.
Konverter JSON-data til tabelformat ved hjælp af AWS Glue
I dette trin forbereder du Amazon Comprehend-outputtet til at blive brugt som input til Athena. Amazon Comprehend-outputtet er i JSON-format. Du kan bruge AWS Glue til at konvertere JSON til en databasestruktur for i sidste ende at blive læst af QuickSight.
- På AWS Glue-konsollen skal du vælge Crawlere i navigationsruden.
- Vælg Opret crawler.
- Indtast et navn til din webcrawler.
- Vælg Næste.
- Til Er dine data allerede knyttet til limtabeller, Vælg Endnu ikke.
- Tilføj en datakilde.
- Til S3 sti, indtast placeringen af Amazon Comprehend-outputdatamappen.
Sørg for at tilføje den efterfølgende /
til stiens navn. AWS Glue vil søge i mappestien for alle filer.
- Type Gennemgå alle undermapper.
- Vælg Tilføj en S3-datakilde.
- Opret en ny AWS identitets- og adgangsstyring (IAM) rolle for crawleren.
- Indtast et navn til IAM-rollen.
- Vælg Opdater valgt IAM-rolle for at være sikker på, at den nye rolle er tildelt til crawleren.
- Vælg Næste for at indtaste output (database) information.
- Vælg Tilføj database.
- Indtast et databasenavn.
- Vælg Næste.
- Vælg Opret crawler.
- Vælg Kør crawler at køre crawleren.
Du kan overvåge crawlerens status på AWS Glue-konsollen.
Brug Athena til at forberede borde til QuickSight
Athena vil udtrække data fra databasetabellerne, som AWS Glue-crawleren har oprettet for at give et format, som QuickSight vil bruge til at skabe ordskyen.
- Vælg på Athena-konsollen Forespørgselsredaktør i navigationsruden.
- Til Datakilde, vælg AwsDataCatalog.
- Til Database, vælg den database, som crawleren oprettede.
For at oprette en tabel, der er kompatibel med QuickSight, skal dataene fjernes fra arrays.
- Det første trin er at oprette en midlertidig database med de relevante Amazon Comprehend-data:
- Følgende erklæring begrænser til sætninger på mindst tre ord og grupper efter sætningernes hyppighed:
Brug QuickSight til at visualisere output
Til sidst kan du skabe det visuelle output fra analysen.
- Vælg på QuickSight-konsollen Ny analyse.
- Vælg Nyt datasæt.
- Til Opret et datasæt, vælg Fra nye datakilder.
- Vælg Athena som datakilde.
- Indtast et navn til datakilden, og vælg Opret datakilde.
- Vælg Visualiser.
Sørg for, at QuickSight har adgang til S3-spandene, hvor Athena-bordene opbevares.
- På QuickSight-konsollen skal du vælge brugerprofilikonet og vælge Administrer QuickSight.
- Vælg Sikkerhed og tilladelser.
- Se efter afsnittet QuickSight-adgang til AWS-tjenester.
Ved at konfigurere adgang til AWS-tjenester kan QuickSight få adgang til dataene i disse tjenester. Adgang for brugere og grupper kan styres gennem mulighederne.
- Bekræft, at Amazon S3 har fået adgang.
Nu kan du oprette ordskyen.
- Vælg ordskyen under Visuelle typer.
- Træk tekst til Gruppe af og tælle til Størrelse.
Vælg indstillingsmenuen (tre prikker) i visualiseringen for at få adgang til redigeringsmulighederne. For eksempel vil du måske skjule udtrykket "andet" fra displayet. Du kan også redigere elementer som f.eks. titlen og underteksten til din visualisering. For at downloade ordskyen som PDF skal du vælge Hent på QuickSight-værktøjslinjen.
Ryd op
For at undgå at pådrage sig løbende gebyrer skal du slette alle ubrugte data og processer eller ressourcer, der er tilvejebragt på deres respektive servicekonsol.
Konklusion
Amazon Comprehend bruger NLP til at udtrække indsigt om indholdet af dokumenter. Det udvikler indsigt ved at genkende entiteter, nøglesætninger, sprog, følelser og andre almindelige elementer i et dokument. Du kan bruge Amazon Comprehend til at skabe nye produkter baseret på forståelse af strukturen af dokumenter. For eksempel kan du med Amazon Comprehend scanne et helt dokumentlager for nøglesætninger.
Dette indlæg beskrev trinene til at bygge en ordsky for at visualisere en tekstindholdsanalyse fra Amazon Comprehend ved hjælp af AWS-værktøjer og QuickSight til at visualisere dataene.
Lad os holde kontakten via kommentarfeltet!
Om forfatterne
Kris Gedman er USA's East salgsleder for Retail & CPG hos Amazon Web Services. Når han ikke arbejder, nyder han at tilbringe tid med sine venner og familie, især om sommeren på Cape Cod. Kris er en midlertidigt pensioneret Ninja Warrior, men han elsker at se og træne sine to sønner indtil videre.
Clark Lefavour er en Solutions Architect-leder hos Amazon Web Services, der understøtter virksomhedskunder i den østlige region. Clark er baseret i New England og nyder at bruge tid på at bygge opskrifter i køkkenet.
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
- PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
- PlatoESG. Automotive/elbiler, Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
- PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
- ChartPrime. Løft dit handelsspil med ChartPrime. Adgang her.
- BlockOffsets. Modernisering af miljømæssig offset-ejerskab. Adgang her.
- Kilde: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :har
- :er
- :ikke
- :hvor
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- Om
- Acceptere
- adgang
- Konto
- tilføje
- Desuden
- AI
- Alle
- allerede
- også
- Amazon
- Amazon Comprehend
- Amazon QuickSight
- Amazon Web Services
- an
- analyse
- analysere
- analyseret
- ,
- enhver
- tilgang
- arkitektur
- ER
- AS
- tildelt
- At
- undgå
- AWS
- AWS Lim
- baseret
- grundlæggende
- BE
- før
- begynde
- Boks
- bygge
- Bygning
- men
- by
- CAN
- afgifter
- Vælg
- valgt
- klassificering
- Cloud
- coaching
- kommentarer
- Fælles
- kompatibel
- fuldføre
- forstå
- computer
- Konsol
- Forfatning
- indhold
- kontrolleret
- konventionelle
- konvertere
- konverteret
- tælle
- CpG
- crawler
- skabe
- oprettet
- skaber
- Cross
- skik
- Kunder
- data
- Database
- dybere
- indsætte
- beskrevet
- ønskes
- udvikler
- drøftet
- Skærm
- vises
- do
- dokumentet
- dokumenter
- domæne
- downloade
- nemt
- Øst
- elementer
- eliminerer
- muliggør
- England
- Indtast
- indtastning
- Enterprise
- Hele
- enheder
- enhed
- især
- eksempel
- eksperter
- ekstrakt
- familie
- File (Felt)
- Filer
- finde
- Fornavn
- efter
- Til
- format
- Frekvens
- venner
- fra
- fuldt ud
- samle
- generere
- bevilget
- gruppe
- Gruppens
- Have
- he
- Skjule
- hans
- HOURS
- HTML
- http
- HTTPS
- ICON
- Identity
- if
- illustrerer
- billede
- in
- oplysninger
- indgang
- indsigt
- ind
- IT
- Varer
- Job
- deltage
- jpg
- json
- Nøgle
- Sprog
- senere
- leder
- læring
- mindst
- Forlade
- Lets
- ligesom
- grænser
- belastning
- lokale
- placering
- elsker
- maskine
- machine learning
- lykkedes
- mange
- Menu
- microsoft
- måske
- ML
- model
- modeller
- Overvåg
- mere
- meget
- skal
- navn
- Natural
- Natural Language Processing
- Naviger
- Navigation
- behov
- behov
- Ny
- nye produkter
- ninja
- NLP
- Normalt
- nu
- objekt
- of
- on
- ONE
- igangværende
- åbent
- Indstillinger
- or
- ordrer
- original
- Andet
- output
- egen
- side
- brød
- sti
- permanent
- sætninger
- Place
- plato
- Platon Data Intelligence
- PlatoData
- Indlæg
- magt
- vigtigste
- Forbered
- forudsætninger
- behandle
- Behandlet
- Processer
- forarbejdning
- Produkter
- Profil
- give
- forudsat
- Læs
- klar
- anerkende
- henvise
- region
- Relationer
- relevant
- resterende
- Repository
- Ressourcer
- dem
- detail
- roller
- Kør
- salg
- samme
- Gem
- scanne
- score
- Søg
- Sektion
- stemningen
- følelser
- tjeneste
- Tjenester
- bør
- Simpelt
- løsninger
- Løsninger
- Kilde
- specifikke
- udgifterne
- Spot
- Statement
- Status
- forblive
- Trin
- Steps
- opbevaring
- opbevaret
- struktur
- sådan
- Støtte
- sikker
- bord
- Tag
- opgaver
- midlertidig
- semester
- tekst
- at
- deres
- temaer
- derefter
- denne
- dem
- tre
- Gennem
- tid
- Titel
- til
- værktøjer
- traditionelle
- Trailing
- Tog
- omdannet
- Tendenser
- to
- typer
- Ultimativt
- under
- forståelse
- ubrugt
- uploadet
- us
- brug
- anvendte
- Bruger
- brugere
- bruger
- ved brug af
- verificere
- via
- visualisering
- Visualiser
- går igennem
- ønsker
- ser
- we
- web
- webservices
- hvornår
- som
- vilje
- med
- ord
- ord
- workflow
- arbejder
- endnu
- Du
- Din
- zephyrnet