Att söka efter insikter i ett arkiv med textdokument i fritt format kan vara som att hitta en nål i en höstack. Ett traditionellt tillvägagångssätt kan vara att använda ordräkning eller annan grundläggande analys för att analysera dokument, men med kraften hos Amazon AI och verktyg för maskininlärning (ML) kan vi få en djupare förståelse av innehållet.
Amazon Comprehend är en fullständigt hanterad tjänst som använder naturlig språkbehandling (NLP) för att extrahera insikter om innehållet i dokument. Amazon Comprehend utvecklar insikter genom att känna igen enheter, nyckelfraser, känslor, teman och anpassade element i ett dokument. Amazon Comprehend kan skapa nya insikter baserat på att förstå dokumentstrukturen och entitetsrelationer. Med Amazon Comprehend kan du till exempel skanna ett helt dokumentlager efter nyckelfraser.
Amazon Comprehend låter icke-ML-experter enkelt utföra uppgifter som normalt tar timmar av tid. Amazon Comprehend eliminerar mycket av tiden som behövs för att rengöra, bygga och träna din egen modell. För att bygga djupare anpassade modeller i NLP eller någon annan domän, Amazon SageMaker gör det möjligt för dig att bygga, träna och distribuera modeller i ett mycket mer konventionellt ML-arbetsflöde om så önskas.
I det här inlägget använder vi Amazon Comprehend och andra AWS-tjänster för att analysera och extrahera nya insikter från ett arkiv med dokument. Sedan använder vi Amazon QuickSight för att skapa en enkel men kraftfull ordmolnvisual för att enkelt upptäcka teman eller trender.
Översikt över lösningen
Följande diagram illustrerar lösningsarkitekturen.
Till att börja med samlar vi in data som ska analyseras och laddar den i en Amazon enkel lagringstjänst (Amazon S3) hink i ett AWS-konto. I det här exemplet använder vi textformaterade filer. Uppgifterna analyseras sedan av Amazon Comprehend. Amazon Comprehend skapar en JSON-formaterad utdata som måste omvandlas och bearbetas till ett databasformat med hjälp av AWS-lim. Vi verifierar data och extraherar specifika formaterade datatabeller med hjälp av Amazonas Athena för en QuickSight-analys med hjälp av ett ordmoln. För mer information om visualiseringar, se Visualisera data i Amazon QuickSight.
Förutsättningar
För detta genomgång bör du ha följande förutsättningar:
Ladda upp data till en S3-bucket
Ladda upp din data till en S3-bucket. För det här inlägget använder vi UTF-8-formaterad text från den amerikanska konstitutionen som indatafil. Sedan är du redo att analysera data och skapa visualiseringar.
Analysera data med Amazon Comprehend
Det finns många typer av textbaserad information och bildinformation som kan bearbetas med Amazon Comprehend. Förutom textfiler kan du använda Amazon Comprehend för klassificering i ett steg och enhetsigenkänning för att acceptera bildfiler, PDF-filer och Microsoft Word-filer som indata, som inte diskuteras i det här inlägget.
Utför följande steg för att analysera din data:
- Välj på Amazon Comprehend-konsolen Analysjobb i navigeringsfönstret.
- Välja Skapa analysjobb.
- Ange ett namn för ditt jobb.
- För Analystypväljer Nyckelfraser.
- För Språk¸ välja Engelska.
- För Plats för indata, ange mappen du skapade som en förutsättning.
- För Utdata data plats, ange mappen du skapade som en förutsättning.
- Välja Skapa en IAM-roll.
- Ange ett suffix för rollnamnet.
- Välja Skapa jobb.
Jobbet körs och statusen kommer att visas på Analysjobb sida.
Vänta tills analysjobbet är klart. Amazon Comprehend kommer att skapa en fil och placera den i utdatamappen du angav. Filen är i .gz- eller GZIP-format.
Den här filen måste laddas ner och konverteras till ett icke-komprimerat format. Du kan ladda ner ett objekt från datamappen eller S3-hinken med Amazon S3-konsolen.
- På Amazon S3-konsolen, välj objektet och välj Download. Om du vill ladda ner objektet till en specifik mapp väljer du Download på Handlingar meny.
- När du har laddat ner filen till din lokala dator öppnar du den zippade filen och sparar den som en okomprimerad fil.
Den okomprimerade filen måste laddas upp till utdatamappen innan AWS Glue-sökroboten kan bearbeta den. För det här exemplet laddar vi upp den okomprimerade filen till samma utdatamapp som vi använder i senare steg.
- På Amazon S3-konsolen, navigera till din S3-hink och välj Ladda.
- Välja Lägg till filer.
- Välj de okomprimerade filerna från din lokala dator.
- Välja Ladda.
När du har laddat upp filen tar du bort den ursprungliga zippade filen.
- På Amazon S3-konsolen, välj hinken och välj Radera.
- Bekräfta filnamnet för att permanent radera filen genom att ange filnamnet i textrutan.
- Välja Ta bort objekt.
Detta lämnar en fil kvar i utdatamappen: den okomprimerade filen.
Konvertera JSON-data till tabellformat med AWS Glue
I det här steget förbereder du Amazon Comprehend-utgången för att användas som indata i Athena. Amazon Comprehend-utgången är i JSON-format. Du kan använda AWS Glue för att konvertera JSON till en databasstruktur för att slutligen läsas av QuickSight.
- Välj på AWS Lim-konsolen crawlers i navigeringsfönstret.
- Välja Skapa sökrobot.
- Ange ett namn för din sökrobot.
- Välja Nästa.
- För Är din data redan mappad till limtabeller, Välj Ännu.
- Lägg till en datakälla.
- För S3 väg, ange platsen för Amazon Comprehend-utdatamappen.
Var noga med att lägga till efterföljande /
till sökvägens namn. AWS Glue kommer att söka i mappsökvägen för alla filer.
- Välja Genomsök alla undermappar.
- Välja Lägg till en S3-datakälla.
- Skapa en ny AWS identitets- och åtkomsthantering (IAM) roll för sökroboten.
- Ange ett namn för IAM-rollen.
- Välja Uppdatera vald IAM-roll för att vara säker på att den nya rollen är tilldelad sökroboten.
- Välja Nästa för att ange utdata (databas) information.
- Välja Lägg till databas.
- Ange ett databasnamn.
- Välja Nästa.
- Välja Skapa sökrobot.
- Välja Kör sökrobot för att köra sökroboten.
Du kan övervaka sökrobotens status på AWS Glue-konsolen.
Använd Athena för att förbereda bord för QuickSight
Athena kommer att extrahera data från databastabellerna som AWS Glue-sökroboten skapade för att tillhandahålla ett format som QuickSight kommer att använda för att skapa ordmolnet.
- Välj på Athena-konsolen Frågeredigerare i navigeringsfönstret.
- För Datakällaväljer AwsDataCatalog.
- För Databas, välj den databas som sökroboten skapade.
För att skapa en tabell som är kompatibel för QuickSight måste data inte kapslas från arrayerna.
- Det första steget är att skapa en tillfällig databas med relevant Amazon Comprehend-data:
- Följande påstående begränsar till fraser med minst tre ord och grupper efter frasernas frekvens:
Använd QuickSight för att visualisera utdata
Slutligen kan du skapa det visuella resultatet från analysen.
- Välj på QuickSight-konsolen Ny analys.
- Välja Nytt datasätt.
- För Skapa en datauppsättningväljer Från nya datakällor.
- Välja Athena som datakälla.
- Ange ett namn för datakällan och välj Skapa datakälla.
- Välja visualisera.
Se till att QuickSight har tillgång till S3-hinkarna där Athena-borden förvaras.
- På QuickSight-konsolen väljer du användarprofilikonen och väljer Hantera QuickSight.
- Välja Säkerhet och behörigheter.
- Leta efter avsnittet QuickSight-åtkomst till AWS-tjänster.
Genom att konfigurera åtkomst till AWS-tjänster kan QuickSight komma åt data i dessa tjänster. Åtkomst för användare och grupper kan styras genom alternativen.
- Kontrollera att Amazon S3 har beviljats åtkomst.
Nu kan du skapa ordmolnet.
- Välj ordet moln under Visuella typer.
- Dra text till Grupp av och räkna till Storlek.
Välj alternativmenyn (tre punkter) i visualiseringen för att komma åt redigeringsalternativen. Du kanske till exempel vill dölja termen "annat" från displayen. Du kan också redigera objekt som titeln och undertexten för din bild. För att ladda ner ordmolnet som PDF, välj Download på QuickSights verktygsfält.
Städa upp
För att undvika att ådra sig pågående avgifter, radera all oanvänd data och processer eller resurser som tillhandahålls på deras respektive tjänstkonsol.
Slutsats
Amazon Comprehend använder NLP för att extrahera insikter om innehållet i dokument. Den utvecklar insikter genom att känna igen enheter, nyckelfraser, språk, känslor och andra vanliga element i ett dokument. Du kan använda Amazon Comprehend för att skapa nya produkter baserat på att förstå strukturen i dokument. Med Amazon Comprehend kan du till exempel skanna ett helt dokumentlager efter nyckelfraser.
Det här inlägget beskrev stegen för att bygga ett ordmoln för att visualisera en textinnehållsanalys från Amazon Comprehend med hjälp av AWS-verktyg och QuickSight för att visualisera data.
Låt oss hålla kontakten via kommentarsfältet!
Om författarna
Kris Gedman är försäljningsledare i öst i USA för Retail & CPG på Amazon Web Services. När han inte arbetar njuter han av att umgås med sina vänner och familj, särskilt somrarna på Cape Cod. Kris är en tillfälligt pensionerad Ninja Warrior men han älskar att titta på och coacha sina två söner för tillfället.
Clark Lefavour är en Solutions Architect-ledare på Amazon Web Services, som stödjer företagskunder i den östra regionen. Clark är baserad i New England och tycker om att tillbringa tid med att skapa recept i köket.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Fordon / elbilar, Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- ChartPrime. Höj ditt handelsspel med ChartPrime. Tillgång här.
- BlockOffsets. Modernisera miljökompensation ägande. Tillgång här.
- Källa: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- : har
- :är
- :inte
- :var
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- Om oss
- Acceptera
- tillgång
- Konto
- lägga till
- Dessutom
- AI
- Alla
- redan
- också
- amason
- Amazon Comprehend
- Amazon QuickSight
- Amazon Web Services
- an
- analys
- analysera
- analyseras
- och
- vilken som helst
- tillvägagångssätt
- arkitektur
- ÄR
- AS
- delad
- At
- undvika
- AWS
- AWS-lim
- baserat
- grundläggande
- BE
- innan
- börja
- Box
- SLUTRESULTAT
- Byggnad
- men
- by
- KAN
- avgifter
- Välja
- valda
- klassificering
- cloud
- coaching
- kommentarer
- Gemensam
- kompatibel
- fullborda
- förstå
- dator
- Konsol
- Konstitutionen
- innehåll
- kontrolleras
- konventionell
- konvertera
- konverterad
- räkna
- CpG
- sökrobot
- skapa
- skapas
- skapar
- Cross
- beställnings
- Kunder
- datum
- Databas
- djupare
- distribuera
- beskriven
- önskas
- utvecklar
- diskuteras
- Visa
- visas
- do
- dokumentera
- dokument
- domän
- ladda ner
- lätt
- öster
- element
- eliminerar
- möjliggör
- England
- ange
- in
- Företag
- Hela
- enheter
- enhet
- speciellt
- exempel
- experter
- extrahera
- familj
- Fil
- Filer
- finna
- Förnamn
- efter
- För
- format
- Frekvens
- vänner
- från
- fullständigt
- samla
- generera
- beviljats
- Grupp
- Gruppens
- Har
- he
- Dölja
- hans
- ÖPPETTIDER
- html
- http
- HTTPS
- IKON
- Identitet
- if
- illustrerar
- bild
- in
- informationen
- ingång
- insikter
- in
- IT
- artikel
- Jobb
- delta
- jpg
- json
- Nyckel
- språk
- senare
- ledare
- inlärning
- t minst
- Lämna
- Lets
- tycka om
- gränser
- läsa in
- lokal
- läge
- älskar
- Maskinen
- maskininlärning
- förvaltade
- många
- Meny
- Microsoft
- kanske
- ML
- modell
- modeller
- Övervaka
- mer
- mycket
- måste
- namn
- Natural
- Naturlig språkbehandling
- Navigera
- Navigering
- behövs
- behov
- Nya
- nya produkter
- Ninja
- nlp
- normalt
- nu
- objektet
- of
- on
- ONE
- pågående
- öppet
- Tillbehör
- or
- beställa
- ursprungliga
- Övriga
- produktion
- egen
- sida
- panelen
- bana
- permanent
- fraser
- Plats
- plato
- Platon Data Intelligence
- PlatonData
- Inlägg
- kraft
- den mäktigaste
- Förbered
- förutsättningar
- process
- Bearbetad
- processer
- bearbetning
- Produkter
- Profil
- ge
- förutsatt
- Läsa
- redo
- känna igen
- hänvisa
- region
- Förhållanden
- relevanta
- Återstående
- Repository
- Resurser
- att
- detaljhandeln
- Roll
- Körning
- försäljning
- Samma
- Save
- scanna
- göra
- Sök
- §
- känsla
- känslor
- service
- Tjänster
- skall
- Enkelt
- lösning
- Lösningar
- Källa
- specifik
- Spendera
- Spot
- .
- status
- bo
- Steg
- Steg
- förvaring
- lagras
- struktur
- sådana
- Stödjande
- säker
- bord
- Ta
- uppgifter
- temporär
- termin
- text
- den där
- Smakämnen
- deras
- teman
- sedan
- detta
- de
- tre
- Genom
- tid
- Titel
- till
- verktyg
- Rör
- traditionell
- Trailing
- Tåg
- transformerad
- Trender
- två
- typer
- Ytterst
- under
- förståelse
- oanvänd
- uppladdad
- us
- användning
- Begagnade
- Användare
- användare
- användningar
- med hjälp av
- verifiera
- via
- visualisering
- visualisera
- genomgång
- vill
- tittar
- we
- webb
- webbservice
- när
- som
- kommer
- med
- ord
- ord
- arbetsflöde
- arbetssätt
- ännu
- Om er
- Din
- zephyrnet