Iskanje vpogledov v repozitorij besedilnih dokumentov proste oblike je lahko kot iskanje igle v kupu sena. Tradicionalni pristop bi lahko bil uporaba štetja besed ali druge osnovne analize za razčlenjevanje dokumentov, vendar z močjo orodij Amazon AI in strojnega učenja (ML) lahko pridobimo globlje razumevanje vsebine.
Amazonsko razumevanje je v celoti upravljana storitev, ki uporablja obdelavo naravnega jezika (NLP) za pridobivanje vpogledov v vsebino dokumentov. Amazon Comprehend razvija vpoglede s prepoznavanjem entitet, ključnih fraz, občutkov, tem in elementov po meri v dokumentu. Amazon Comprehend lahko ustvari nove vpoglede na podlagi razumevanja strukture dokumenta in odnosov med entitetami. Na primer, z Amazon Comprehend lahko skenirate celotno shrambo dokumentov za ključne fraze.
Amazon Comprehend omogoča strokovnjakom, ki niso strokovnjaki za ML, enostavno opravljanje nalog, ki običajno zahtevajo več ur časa. Amazon Comprehend odpravi veliko časa, potrebnega za čiščenje, gradnjo in usposabljanje lastnega modela. Za gradnjo globljih modelov po meri v NLP ali kateri koli drugi domeni, Amazon SageMaker omogoča gradnjo, usposabljanje in uvajanje modelov v veliko bolj običajnem delovnem procesu ML, če želite.
V tej objavi uporabljamo Amazon Comprehend in druge storitve AWS za analizo in pridobivanje novih vpogledov iz skladišča dokumentov. Nato uporabimo Amazon QuickSight za ustvarjanje preprostega, a zmogljivega vizualnega besednega oblaka za preprosto odkrivanje tem ali trendov.
Pregled rešitve
Naslednji diagram prikazuje arhitekturo rešitev.
Za začetek zberemo podatke za analizo in jih naložimo v Preprosta storitev shranjevanja Amazon (Amazon S3) vedro v računu AWS. V tem primeru uporabljamo datoteke v besedilnem formatu. Podatke nato analizira Amazon Comprehend. Amazon Comprehend ustvari izhod v formatu JSON, ki ga je treba preoblikovati in obdelati v format baze podatkov z uporabo AWS lepilo. Podatke preverimo in izvlečemo določene oblikovane podatkovne tabele z uporabo Amazonska Atena za analizo QuickSight z besednim oblakom. Za več informacij o vizualizacijah glejte Vizualizacija podatkov v Amazon QuickSight.
Predpogoji
Za ta korak morate imeti naslednje predpogoje:
Naložite podatke v vedro S3
Naložite svoje podatke v vedro S3. Za to objavo kot vhodno datoteko uporabljamo besedilo ameriške ustave v formatu UTF-8. Potem ste pripravljeni na analizo podatkov in ustvarjanje vizualizacij.
Analizirajte podatke z uporabo Amazon Comprehend
Z Amazon Comprehend je mogoče obdelati veliko vrst besedilnih in slikovnih informacij. Poleg besedilnih datotek lahko uporabite Amazon Comprehend za klasifikacijo v enem koraku in prepoznavanje entitet za sprejemanje slikovnih datotek, datotek PDF in datotek Microsoft Word kot vnos, ki niso obravnavani v tej objavi.
Za analizo podatkov izvedite naslednje korake:
- Na konzoli Amazon Comprehend izberite Opravila za analizo v podoknu za krmarjenje.
- Izberite Ustvarite analizo.
- Vnesite ime za svoje delovno mesto.
- za Vrsta analize, izberite Ključne fraze.
- za Jezik¸ izberite Angleščina.
- za Lokacija vhodnih podatkov, določite mapo, ki ste jo ustvarili, kot predpogoj.
- za Lokacija izhodnih podatkov, določite mapo, ki ste jo ustvarili, kot predpogoj.
- Izberite Ustvari IAM vlogo.
- Vnesite pripono za ime vloge.
- Izberite Ustvari službo.
Opravilo se bo zagnalo in stanje bo prikazano na Opravila za analizo stran.
Počakajte, da se analiza zaključi. Amazon Comprehend bo ustvaril datoteko in jo postavil v mapo z izhodnimi podatki, ki ste jo posredovali. Datoteka je v formatu .gz ali GZIP.
To datoteko je treba prenesti in pretvoriti v nestisnjeno obliko. Predmet lahko prenesete iz podatkovne mape ali vedra S3 s konzolo Amazon S3.
- Na konzoli Amazon S3 izberite predmet in izberite Prenos. Če želite predmet prenesti v določeno mapo, izberite Prenos o Proces meni.
- Ko prenesete datoteko v lokalni računalnik, odprite stisnjeno datoteko in jo shranite kot nestisnjeno datoteko.
Nestisnjeno datoteko je treba naložiti v izhodno mapo, preden jo pajek AWS Glue lahko obdela. V tem primeru naložimo nestisnjeno datoteko v isto izhodno mapo, ki jo uporabimo v kasnejših korakih.
- Na konzoli Amazon S3 se pomaknite do svojega vedra S3 in izberite Pošiljanje.
- Izberite Dodaj datoteke.
- Izberite nestisnjene datoteke iz lokalnega računalnika.
- Izberite Pošiljanje.
Ko naložite datoteko, izbrišite izvirno stisnjeno datoteko.
- Na konzoli Amazon S3 izberite vedro in izberite Brisanje.
- Potrdite ime datoteke, da jo trajno izbrišete, tako da v besedilno polje vnesete ime datoteke.
- Izberite Izbrišite predmete.
Tako bo v izhodni mapi ostala ena datoteka: nestisnjena datoteka.
Pretvorite podatke JSON v obliko tabele z uporabo AWS Glue
V tem koraku pripravite izhod Amazon Comprehend, ki bo uporabljen kot vhod v Atheno. Izhod Amazon Comprehend je v formatu JSON. AWS Glue lahko uporabite za pretvorbo JSON v strukturo zbirke podatkov, ki jo na koncu prebere QuickSight.
- Na konzoli AWS Glue izberite Pajki v podoknu za krmarjenje.
- Izberite Ustvari pajka.
- Vnesite ime za vašega pajka.
- Izberite Naslednji.
- za Ali so vaši podatki že preslikani v lepilne tabeletako, da izberete Ne še.
- Dodajte vir podatkov.
- za S3 pot, vnesite lokacijo mape z izhodnimi podatki Amazon Comprehend.
Ne pozabite dodati sledi /
do imena poti. AWS Glue bo iskal vse datoteke po poti mape.
- Izberite Preiščite vse podmape.
- Izberite Dodajte vir podatkov S3.
- Ustvari novo AWS upravljanje identitete in dostopa (IAM) vlogo za pajka.
- Vnesite ime za vlogo IAM.
- Izberite Posodobite izbrano vlogo IAM da zagotovite, da je nova vloga dodeljena pajku.
- Izberite Naslednji za vnos izhodnih informacij (baze podatkov).
- Izberite Dodaj bazo podatkov.
- Vnesite ime baze podatkov.
- Izberite Naslednji.
- Izberite Ustvari pajka.
- Izberite Zaženi pajek za zagon pajka.
Stanje pajka lahko spremljate na konzoli AWS Glue.
Uporabite Atheno za pripravo tabel za QuickSight
Athena bo izvlekla podatke iz tabel baze podatkov, ki jih je ustvaril pajek AWS Glue, da zagotovi obliko, ki jo bo QuickSight uporabil za ustvarjanje besednega oblaka.
- Na konzoli Athena izberite Urejevalnik poizvedb v podoknu za krmarjenje.
- za Vir podatkov, izberite AwsDataCatalog.
- za Baze podatkov, izberite bazo podatkov, ki jo je ustvaril pajek.
Če želite ustvariti tabelo, združljivo s QuickSightom, je treba podatke odstraniti iz nizov.
- Prvi korak je ustvariti začasno zbirko podatkov z ustreznimi podatki Amazon Comprehend:
- Naslednja izjava omejuje fraze z najmanj tremi besedami in skupinami glede na pogostost fraz:
Uporabite QuickSight za vizualizacijo izhoda
Končno lahko iz analize ustvarite vizualni rezultat.
- Na konzoli QuickSight izberite Nova analiza.
- Izberite Nov nabor podatkov.
- za Ustvarite nabor podatkov, izberite Iz novih podatkovnih virov.
- Izberite Athena kot vir podatkov.
- Vnesite ime za vir podatkov in izberite Ustvarite vir podatkov.
- Izberite Vizualiziraj.
Prepričajte se, da ima QuickSight dostop do veder S3, kjer so shranjene mize Athena.
- Na konzoli QuickSight izberite ikono uporabniškega profila in izberite Upravljajte QuickSight.
- Izberite Varnost in dovoljenja.
- Poiščite razdelek QuickSight dostop do storitev AWS.
S konfiguracijo dostopa do storitev AWS lahko QuickSight dostopa do podatkov v teh storitvah. Dostop uporabnikov in skupin je mogoče nadzorovati prek možnosti.
- Preverite, ali je Amazonu S3 odobren dostop.
Zdaj lahko ustvarite besedni oblak.
- Izberite besedni oblak pod Vizualne vrste.
- Povlecite besedilo na Skupina z in štejte do Velikosti.
Izberite meni z možnostmi (tri pike) v vizualizaciji za dostop do možnosti urejanja. Na primer, morda želite skriti izraz »drugo« na zaslonu. Urejate lahko tudi elemente, kot sta naslov in podnaslov za sliko. Če želite besedni oblak prenesti kot PDF, izberite Prenos v orodni vrstici QuickSight.
Čiščenje
Da bi se izognili nenehnim zaračunavanjem, izbrišite vse neuporabljene podatke in procese ali vire, ki so na voljo na njihovi ustrezni servisni konzoli.
zaključek
Amazon Comprehend uporablja NLP za pridobivanje vpogledov v vsebino dokumentov. Razvija vpoglede s prepoznavanjem entitet, ključnih fraz, jezika, čustev in drugih pogostih elementov v dokumentu. Amazon Comprehend lahko uporabite za ustvarjanje novih izdelkov na podlagi razumevanja strukture dokumentov. Na primer, z Amazon Comprehend lahko skenirate celotno shrambo dokumentov za ključne fraze.
Ta objava opisuje korake za izdelavo besednega oblaka za vizualizacijo analize vsebine besedila iz Amazon Comprehend z uporabo orodij AWS in QuickSight za vizualizacijo podatkov.
Ostanimo v stiku prek razdelka za komentarje!
O avtorjih
Kris Gedman je vodja prodaje na vzhodu ZDA za Retail & CPG pri Amazon Web Services. Ko ni v službi, rad preživlja čas s prijatelji in družino, še posebej poleti na Cape Codu. Kris je začasno upokojeni ninja bojevnik, vendar za zdaj rad opazuje in poučuje svoja dva sinova.
Clark Lefavour je vodja arhitekta rešitev pri Amazon Web Services, ki podpira poslovne stranke v vzhodni regiji. Clark živi v Novi Angliji in rad preživlja čas z arhitekturnimi recepti v kuhinji.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Avtomobili/EV, Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- ChartPrime. Izboljšajte svojo igro trgovanja s ChartPrime. Dostopite tukaj.
- BlockOffsets. Posodobitev okoljskega offset lastništva. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :ima
- : je
- :ne
- :kje
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- O meni
- Sprejmi
- dostop
- Račun
- dodajte
- Poleg tega
- AI
- vsi
- že
- Prav tako
- Amazon
- Amazonsko razumevanje
- Amazon QuickSight
- Amazon Web Services
- an
- Analiza
- analizirati
- analizirati
- in
- kaj
- pristop
- Arhitektura
- SE
- AS
- dodeljena
- At
- izogniti
- AWS
- AWS lepilo
- temeljijo
- Osnovni
- BE
- pred
- začetek
- Pasovi
- izgradnjo
- Building
- vendar
- by
- CAN
- Stroški
- Izberite
- izbran
- Razvrstitev
- Cloud
- coaching
- komentarji
- Skupno
- združljiv
- dokončanje
- razumeti
- računalnik
- Konzole
- Ustava
- vsebina
- nadzorom
- konvencionalne
- pretvorbo
- pretvori
- štetje
- cpg
- gosenicah
- ustvarjajo
- ustvaril
- ustvari
- Cross
- po meri
- Stranke, ki so
- datum
- Baze podatkov
- globlje
- razporedi
- opisano
- želeno
- razvija
- razpravljali
- zaslon
- prikazano
- do
- dokument
- Dokumenti
- domena
- prenesi
- enostavno
- East
- elementi
- odpravlja
- omogoča
- Anglija
- Vnesite
- V
- Podjetje
- Celotna
- subjekti
- entiteta
- zlasti
- Primer
- Strokovnjaki
- ekstrakt
- družina
- file
- datoteke
- iskanje
- prva
- po
- za
- format
- frekvenca
- prijatelji
- iz
- v celoti
- zbiranje
- ustvarjajo
- odobreno
- skupina
- Skupine
- Imajo
- he
- Skrij
- njegov
- URE
- HTML
- http
- HTTPS
- ICON
- identiteta
- if
- ponazarja
- slika
- in
- Podatki
- vhod
- vpogledi
- v
- IT
- Izdelkov
- Job
- pridružite
- jpg
- json
- Ključne
- jezik
- pozneje
- Vodja
- učenje
- vsaj
- pustite
- Lets
- kot
- Meje
- obremenitev
- lokalna
- kraj aktivnosti
- ljubi
- stroj
- strojno učenje
- upravlja
- več
- Meni
- Microsoft
- morda
- ML
- Model
- modeli
- monitor
- več
- veliko
- morajo
- Ime
- naravna
- Obdelava Natural Language
- Krmarjenje
- ostalo
- potrebna
- potrebe
- Novo
- novi izdelki
- ninja
- nlp
- Običajno
- zdaj
- predmet
- of
- on
- ONE
- v teku
- odprite
- možnosti
- or
- Da
- izvirno
- Ostalo
- izhod
- lastne
- Stran
- podokno
- pot
- trajno
- stavki
- Kraj
- platon
- Platonova podatkovna inteligenca
- PlatoData
- Prispevek
- moč
- močan
- Pripravimo
- predpogoji
- Postopek
- Predelano
- Procesi
- obravnavati
- Izdelki
- profil
- zagotavljajo
- če
- Preberi
- pripravljen
- prepoznavanje
- glejte
- okolica
- Razmerja
- pomembno
- Preostalih
- Skladišče
- viri
- tisti,
- Trgovina na drobno
- vloga
- Run
- prodaja
- Enako
- Shrani
- skeniranje
- rezultat
- Iskalnik
- Oddelek
- sentiment
- čustva
- Storitev
- Storitve
- shouldnt
- Enostavno
- Rešitev
- rešitve
- vir
- specifična
- Poraba
- Komercialni
- Izjava
- Status
- bivanje
- Korak
- Koraki
- shranjevanje
- shranjeni
- Struktura
- taka
- Podpora
- Preverite
- miza
- Bodite
- Naloge
- začasna
- Izraz
- besedilo
- da
- O
- njihove
- teme
- POTEM
- ta
- tisti,
- 3
- skozi
- čas
- Naslov
- do
- orodja
- na dotik
- tradicionalna
- Zamujala
- Vlak
- preoblikovati
- Trends
- dva
- Vrste
- Konec koncev
- pod
- razumevanje
- neuporabljeno
- naložili
- us
- uporaba
- Rabljeni
- uporabnik
- Uporabniki
- uporablja
- uporabo
- preverjanje
- preko
- vizualizacija
- vizualizirati
- walkthrough
- želeli
- gledanju
- we
- web
- spletne storitve
- kdaj
- ki
- bo
- z
- beseda
- besede
- potek dela
- deluje
- še
- Vi
- Vaša rutina za
- zefirnet