Å søke etter innsikt i et arkiv med tekstdokumenter i fri form kan være som å finne en nål i en høystakk. En tradisjonell tilnærming kan være å bruke ordtelling eller annen grunnleggende analyse for å analysere dokumenter, men med kraften til Amazon AI og maskinlæringsverktøy (ML) kan vi samle en dypere forståelse av innholdet.
Amazon Comprehend er en fullstendig administrert tjeneste som bruker naturlig språkbehandling (NLP) for å hente ut innsikt om innholdet i dokumenter. Amazon Comprehend utvikler innsikt ved å gjenkjenne enhetene, nøkkelsetningene, følelsene, temaene og tilpassede elementene i et dokument. Amazon Comprehend kan skape ny innsikt basert på forståelse av dokumentstrukturen og enhetsrelasjoner. Med Amazon Comprehend kan du for eksempel skanne et helt dokumentlager for nøkkelsetninger.
Amazon Comprehend lar ikke-ML-eksperter enkelt utføre oppgaver som vanligvis tar timer med tid. Amazon Comprehend eliminerer mye av tiden som trengs for å rengjøre, bygge og trene din egen modell. For å bygge dypere tilpassede modeller i NLP eller et hvilket som helst annet domene, Amazon SageMaker lar deg bygge, trene og distribuere modeller i en mye mer konvensjonell ML-arbeidsflyt hvis ønskelig.
I dette innlegget bruker vi Amazon Comprehend og andre AWS-tjenester for å analysere og trekke ut ny innsikt fra et arkiv med dokumenter. Så bruker vi Amazon QuickSight å generere en enkel, men kraftig ordsky-visualisering for enkelt å oppdage temaer eller trender.
Oversikt over løsning
Følgende diagram illustrerer løsningsarkitekturen.
Til å begynne med samler vi dataene som skal analyseres og laster dem inn i en Amazon enkel lagringstjeneste (Amazon S3)-bøtte i en AWS-konto. I dette eksemplet bruker vi tekstformaterte filer. Dataene blir deretter analysert av Amazon Comprehend. Amazon Comprehend lager en JSON-formatert utgang som må transformeres og behandles til et databaseformat ved hjelp av AWS Lim. Vi verifiserer dataene og trekker ut spesifikke formaterte datatabeller ved hjelp av Amazonas Athena for en QuickSight-analyse ved hjelp av en ordsky. For mer informasjon om visualiseringer, se Visualisere data i Amazon QuickSight.
Forutsetninger
For dette gjennomgangen bør du ha følgende forutsetninger:
Last opp data til en S3-bøtte
Last opp dataene dine til en S3-bøtte. For dette innlegget bruker vi UTF-8-formatert tekst fra den amerikanske grunnloven som inndatafil. Da er du klar til å analysere dataene og lage visualiseringer.
Analyser data ved hjelp av Amazon Comprehend
Det finnes mange typer tekstbasert informasjon og bildeinformasjon som kan behandles ved hjelp av Amazon Comprehend. I tillegg til tekstfiler kan du bruke Amazon Comprehend for ett-trinns klassifisering og enhetsgjenkjenning for å godta bildefiler, PDF-filer og Microsoft Word-filer som input, som ikke er omtalt i dette innlegget.
For å analysere dataene dine, fullfør følgende trinn:
- Velg på Amazon Comprehend-konsollen Analyse jobber i navigasjonsruten.
- Velg Lag analysejobb.
- Skriv inn et navn for jobben din.
- Til Analysetype, velg Nøkkelfraser.
- Til Språk¸ velg Engelsk.
- Til Inndataplassering, spesifiser mappen du opprettet som en forutsetning.
- Til Utdata plassering, spesifiser mappen du opprettet som en forutsetning.
- Velg Lag en IAM-rolle.
- Skriv inn et suffiks for rollenavnet.
- Velg Lag jobb.
Jobben vil kjøre og statusen vil vises på Analyse jobber side.
Vent til analysejobben er fullført. Amazon Comprehend vil opprette en fil og plassere den i utdatamappen du oppga. Filen er i .gz- eller GZIP-format.
Denne filen må lastes ned og konverteres til et ikke-komprimert format. Du kan laste ned et objekt fra datamappen eller S3-bøtten ved å bruke Amazon S3-konsollen.
- På Amazon S3-konsollen velger du objektet og velger Last ned. Hvis du vil laste ned objektet til en bestemt mappe, velger du Last ned på handlinger menyen.
- Etter at du har lastet ned filen til din lokale datamaskin, åpner du den zippede filen og lagrer den som en ukomprimert fil.
Den ukomprimerte filen må lastes opp til utdatamappen før AWS Glue-crawler kan behandle den. For dette eksemplet laster vi opp den ukomprimerte filen til den samme utdatamappen som vi bruker i senere trinn.
- På Amazon S3-konsollen, naviger til S3-bøtten din og velg Last opp.
- Velg Legg til filer.
- Velg de ukomprimerte filene fra din lokale datamaskin.
- Velg Last opp.
Etter at du har lastet opp filen, sletter du den originale zippede filen.
- På Amazon S3-konsollen velger du bøtte og velger Delete.
- Bekreft filnavnet for å slette filen permanent ved å skrive inn filnavnet i tekstboksen.
- Velg Slett objekter.
Dette vil etterlate én fil igjen i utdatamappen: den ukomprimerte filen.
Konverter JSON-data til tabellformat ved hjelp av AWS Glue
I dette trinnet forbereder du Amazon Comprehend-utgangen som skal brukes som input til Athena. Amazon Comprehend-utgangen er i JSON-format. Du kan bruke AWS Glue til å konvertere JSON til en databasestruktur som til slutt kan leses av QuickSight.
- Velg på AWS Lim-konsollen crawlers i navigasjonsruten.
- Velg Opprett crawler.
- Skriv inn et navn for robotsøkeprogrammet.
- Velg neste.
- Til Er dataene dine allerede kartlagt til limtabeller, plukke ut Ikke ennå.
- Legg til en datakilde.
- Til S3 sti, skriv inn plasseringen til Amazon Comprehend-utdatamappen.
Sørg for å legge til etterfølgende /
til banenavnet. AWS Glue vil søke i mappebanen for alle filer.
- Plukke ut Gjennomgå alle undermapper.
- Velg Legg til en S3-datakilde.
- Lage en ny AWS identitets- og tilgangsadministrasjon (IAM) rolle for robotsøkeprogrammet.
- Skriv inn et navn for IAM-rollen.
- Velg Oppdater valgt IAM-rolle for å være sikker på at den nye rollen er tildelt robotsøkeprogrammet.
- Velg neste for å angi utdata (database) informasjon.
- Velg Legg til database.
- Skriv inn et databasenavn.
- Velg neste.
- Velg Opprett crawler.
- Velg Kjør bånd for å kjøre søkeroboten.
Du kan overvåke crawler-statusen på AWS Glue-konsollen.
Bruk Athena til å forberede tabeller for QuickSight
Athena vil trekke ut data fra databasetabellene AWS Glue-søkeroboten opprettet for å gi et format som QuickSight vil bruke for å lage ordskyen.
- Velg på Athena-konsollen Spørringsredaktør i navigasjonsruten.
- Til Datakilde, velg AwsDataCatalog.
- Til Database, velg databasen som søkeroboten opprettet.
For å lage en tabell som er kompatibel for QuickSight, må dataene ikke nestes fra matrisene.
- Det første trinnet er å lage en midlertidig database med relevante Amazon Comprehend-data:
- Følgende setning begrenser til setninger med minst tre ord og grupper etter frekvensen av setningene:
Bruk QuickSight for å visualisere utdata
Til slutt kan du lage det visuelle resultatet fra analysen.
- Velg på QuickSight-konsollen Ny analyse.
- Velg Nytt datasett.
- Til Lag et datasett, velg Fra nye datakilder.
- Velg Athena som datakilde.
- Skriv inn et navn for datakilden og velg Lag datakilde.
- Velg Visualisere.
Sørg for at QuickSight har tilgang til S3-bøttene der Athena-bordene er lagret.
- På QuickSight-konsollen velger du brukerprofilikonet og velger Administrer QuickSight.
- Velg Sikkerhet og tillatelser.
- Se etter seksjonen QuickSight-tilgang til AWS-tjenester.
Ved å konfigurere tilgang til AWS-tjenester kan QuickSight få tilgang til dataene i disse tjenestene. Tilgang for brukere og grupper kan kontrolleres gjennom alternativene.
- Bekreft at Amazon S3 har tilgang.
Nå kan du lage ordskyen.
- Velg ordskyen under Visuelle typer.
- Dra tekst til Gruppe av og telle til Størrelse.
Velg alternativmenyen (tre prikker) i visualiseringen for å få tilgang til redigeringsalternativene. For eksempel vil du kanskje skjule begrepet "annet" fra skjermen. Du kan også redigere elementer som tittelen og undertittelen for det visuelle bildet ditt. For å laste ned ordskyen som PDF, velg Last ned på QuickSight-verktøylinjen.
Rydd opp
For å unngå å pådra seg løpende gebyrer, slett alle ubrukte data og prosesser eller ressurser levert på deres respektive tjenestekonsoll.
konklusjonen
Amazon Comprehend bruker NLP for å hente ut innsikt om innholdet i dokumenter. Den utvikler innsikt ved å gjenkjenne enhetene, nøkkelsetningene, språket, følelsene og andre vanlige elementer i et dokument. Du kan bruke Amazon Comprehend til å lage nye produkter basert på forståelse av strukturen til dokumenter. Med Amazon Comprehend kan du for eksempel skanne et helt dokumentlager for nøkkelsetninger.
Dette innlegget beskrev trinnene for å bygge en ordsky for å visualisere en tekstinnholdsanalyse fra Amazon Comprehend ved å bruke AWS-verktøy og QuickSight for å visualisere dataene.
La oss holde kontakten via kommentarfeltet!
Om forfatterne
Kris Gedman er USAs øst-salgsleder for Retail & CPG hos Amazon Web Services. Når han ikke jobber, liker han å tilbringe tid med venner og familie, spesielt om sommeren på Cape Cod. Kris er en midlertidig pensjonert Ninja Warrior, men han elsker å se og trene sine to sønner foreløpig.
Clark Lefavour er en Solutions Architect-leder hos Amazon Web Services, og støtter bedriftskunder i Øst-regionen. Clark er basert i New England og liker å bruke tid på å lage oppskrifter på kjøkkenet.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
- PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
- PlatoESG. Bil / elbiler, Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
- PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
- ChartPrime. Hev handelsspillet ditt med ChartPrime. Tilgang her.
- BlockOffsets. Modernisering av eierskap for miljøkompensasjon. Tilgang her.
- kilde: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- : har
- :er
- :ikke
- :hvor
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- Om oss
- Aksepterer
- adgang
- Logg inn
- legge til
- tillegg
- AI
- Alle
- allerede
- også
- Amazon
- Amazon Comprehend
- Amazon QuickSight
- Amazon Web Services
- an
- analyse
- analysere
- analysert
- og
- noen
- tilnærming
- arkitektur
- ER
- AS
- tildelt
- At
- unngå
- AWS
- AWS Lim
- basert
- grunnleggende
- BE
- før du
- begynne
- Eske
- bygge
- Bygning
- men
- by
- CAN
- avgifter
- Velg
- valgt ut
- klassifisering
- Cloud
- coaching
- kommentarer
- Felles
- kompatibel
- fullføre
- fatte
- datamaskin
- Konsoll
- Grunnloven
- innhold
- kontrolleres
- konvensjonell
- konvertere
- konvertert
- telling
- CPG
- crawler
- skape
- opprettet
- skaper
- Kryss
- skikk
- Kunder
- dato
- Database
- dypere
- utplassere
- beskrevet
- ønsket
- utvikler
- diskutert
- Vise
- vises
- do
- dokument
- dokumenter
- domene
- nedlasting
- lett
- øst
- elementer
- eliminerer
- muliggjør
- England
- Enter
- går inn
- Enterprise
- Hele
- enheter
- enhet
- spesielt
- eksempel
- eksperter
- trekke ut
- familie
- filet
- Filer
- finne
- Først
- etter
- Til
- format
- Frekvens
- venner
- fra
- fullt
- samle
- generere
- innvilget
- Gruppe
- Gruppens
- Ha
- he
- Gjemme seg
- hans
- TIMER
- HTML
- http
- HTTPS
- ICON
- Identitet
- if
- illustrerer
- bilde
- in
- informasjon
- inngang
- innsikt
- inn
- IT
- varer
- Jobb
- bli medlem
- jpg
- JSON
- nøkkel
- Språk
- seinere
- leder
- læring
- minst
- Permisjon
- Lar
- i likhet med
- grenser
- laste
- lokal
- plassering
- elsker
- maskin
- maskinlæring
- fikk til
- mange
- Meny
- Microsoft
- kunne
- ML
- modell
- modeller
- Overvåke
- mer
- mye
- må
- navn
- Naturlig
- Natural Language Processing
- Naviger
- Navigasjon
- nødvendig
- behov
- Ny
- nye produkter
- ninja
- nlp
- normalt
- nå
- objekt
- of
- on
- ONE
- pågående
- åpen
- alternativer
- or
- rekkefølge
- original
- Annen
- produksjon
- egen
- side
- brød
- banen
- permanent
- setninger
- Sted
- plato
- Platon Data Intelligence
- PlatonData
- Post
- makt
- kraftig
- Forbered
- forutsetninger
- prosess
- Bearbeidet
- Prosesser
- prosessering
- Produkter
- Profil
- gi
- forutsatt
- Lese
- klar
- gjenkjenne
- referere
- region
- Relasjoner
- relevant
- gjenværende
- Repository
- Ressurser
- de
- detaljhandel
- Rolle
- Kjør
- salg
- samme
- Spar
- skanne
- Resultat
- Søk
- Seksjon
- sentiment
- følelser
- tjeneste
- Tjenester
- bør
- Enkelt
- løsning
- Solutions
- kilde
- spesifikk
- utgifter
- Spot
- Uttalelse
- status
- opphold
- Trinn
- Steps
- lagring
- lagret
- struktur
- slik
- Støtte
- sikker
- bord
- Ta
- oppgaver
- midlertidig
- begrep
- tekst
- Det
- De
- deres
- temaer
- deretter
- denne
- De
- tre
- Gjennom
- tid
- Tittel
- til
- verktøy
- berøre
- tradisjonelle
- Etterfølgende
- Tog
- forvandlet
- Trender
- to
- typer
- Til syvende og sist
- etter
- forståelse
- ubrukt
- lastet opp
- us
- bruke
- brukt
- Bruker
- Brukere
- bruker
- ved hjelp av
- verifisere
- av
- visualisering
- visualisere
- walkthrough
- ønsker
- se
- we
- web
- webtjenester
- når
- hvilken
- vil
- med
- ord
- ord
- arbeidsflyt
- arbeid
- ennå
- Du
- Din
- zephyrnet