Kavandite otsimine vabas vormis tekstidokumentide hoidlast võib olla nagu nõela otsimine heinakuhjast. Traditsiooniline lähenemisviis võib olla sõnade loendamise või muu põhianalüüsi kasutamine dokumentide sõelumiseks, kuid Amazoni AI ja masinõppe (ML) tööriistade abil saame sisust sügavamalt aru saada.
Amazoni mõistmine on täielikult hallatav teenus, mis kasutab dokumentide sisu kohta ülevaate saamiseks loomuliku keele töötlemist (NLP). Amazon Comprehend arendab teadmisi, tuvastades dokumendis olevad olemid, võtmefraasid, tunded, teemad ja kohandatud elemendid. Amazon Comprehend saab luua uusi teadmisi, mis põhinevad dokumendi struktuuri ja olemisuhete mõistmisel. Näiteks Amazon Comprehendi abil saate võtmefraaside otsimiseks skannida tervet dokumendihoidlat.
Amazon Comprehend võimaldab mitte-ML-ekspertidel hõlpsasti teha ülesandeid, mis tavaliselt võtavad tunde. Amazon Comprehend kaotab suure osa ajast, mis kulub teie enda mudeli puhastamiseks, ehitamiseks ja treenimiseks. NLP-s või mõnes muus domeenis sügavamate kohandatud mudelite loomiseks Amazon SageMaker võimaldab teil soovi korral luua, koolitada ja juurutada mudeleid palju tavapärasemas ML-töövoos.
Selles postituses kasutame Amazon Comprehendi ja muid AWS-i teenuseid, et analüüsida ja hankida dokumentide hoidlast uusi teadmisi. Siis kasutame Amazon QuickSight lihtsa, kuid võimsa sõnapilve visuaali loomiseks, et hõlpsasti tuvastada teemasid või trende.
Ülevaade lahendusest
Järgnev diagramm illustreerib lahenduse arhitektuuri.
Alustuseks kogume analüüsitavad andmed ja laadime need an Amazoni lihtne salvestusteenus (Amazon S3) ämber AWS-i kontol. Selles näites kasutame tekstivormingus faile. Seejärel analüüsib andmeid Amazon Comprehend. Amazon Comprehend loob JSON-vormingus väljundi, mis tuleb teisendada ja töödelda andmebaasivormingusse AWS liim. Kontrollime andmeid ja eraldame konkreetsete vormindatud andmetabelite abil Amazonase Athena QuickSighti analüüsi jaoks sõnapilve abil. Visualisatsioonide kohta lisateabe saamiseks vaadake Andmete visualiseerimine Amazon QuickSightis.
Eeldused
Selle ülevaate jaoks peaksid teil olema järgmised eeltingimused.
Laadige andmed üles S3 ämbrisse
Laadige oma andmed üles S3 ämbrisse. Selle postituse jaoks kasutame sisendfailina USA põhiseaduse UTF-8 vormingus teksti. Seejärel olete valmis andmeid analüüsima ja visualiseeringuid looma.
Analüüsige andmeid Amazon Comprehendi abil
Amazon Comprehendi abil saab töödelda mitut tüüpi teksti- ja pilditeavet. Lisaks tekstifailidele saate kasutada Amazon Comprehend üheastmeliseks klassifitseerimiseks ja olemi tuvastamiseks et aktsepteerida sisendina pildifaile, PDF-faile ja Microsoft Wordi faile, mida selles postituses ei käsitleta.
Andmete analüüsimiseks toimige järgmiselt.
- Amazon Comprehendi konsoolil valige Analüüsitööd navigeerimispaanil.
- Vali Looge analüüsitöö.
- Sisestage oma töö nimi.
- eest Analüüsi tüüp, vali Põhifraasid.
- eest Keel¸ vali Inglise.
- eest Sisendandmete asukoht, määrake eeltingimusena loodud kaust.
- eest Väljundandmete asukoht, määrake eeltingimusena loodud kaust.
- Vali Looge IAM-i roll.
- Sisestage rolli nime järelliide.
- Vali Loo töökoht.
Töö käivitub ja olek kuvatakse ekraanil Analüüsitööd lehel.
Oodake, kuni analüüsitöö on lõpule viidud. Amazon Comprehend loob faili ja asetab selle teie esitatud väljundandmete kausta. Fail on .gz- või GZIP-vormingus.
See fail tuleb alla laadida ja teisendada tihendamata vormingusse. Objekti saate alla laadida andmekaustast või S3 ämbrist, kasutades Amazon S3 konsooli.
- Valige Amazon S3 konsoolil objekt ja valige Lae. Kui soovite objekti konkreetsesse kausta alla laadida, valige Lae kohta Meetmete menüü.
- Pärast faili allalaadimist kohalikku arvutisse avage pakitud fail ja salvestage see tihendamata failina.
Tihendamata fail tuleb väljundkausta üles laadida, enne kui AWS Glue'i roomaja saab seda töödelda. Selle näite puhul laadime tihendamata faili üles samasse väljundkausta, mida kasutame hilisemates etappides.
- Navigeerige Amazon S3 konsoolis oma S3 ämbrisse ja valige Täiendava.
- Vali Lisa failid.
- Valige oma kohalikust arvutist tihendamata failid.
- Vali Täiendava.
Pärast faili üleslaadimist kustutage algne ZIP-fail.
- Valige Amazon S3 konsoolil ämber ja valige kustutama.
- Kinnitage faili nimi, et faili jäädavalt kustutada, sisestades failinime tekstikasti.
- Vali Kustuta objektid.
See jätab väljundkausta alles ühe faili: tihendamata faili.
Teisendage JSON-andmed tabelivormingusse, kasutades AWS-liimi
Selles etapis valmistate ette Amazon Comprehendi väljundi, mida kasutatakse Athena sisendina. Amazon Comprehendi väljund on JSON-vormingus. AWS-liimi saate kasutada JSON-i teisendamiseks andmebaasistruktuuriks, mida QuickSight lõpuks loeb.
- Valige AWS Glue konsoolil Indekserid navigeerimispaanil.
- Vali Loo roomaja.
- Sisestage roomaja nimi.
- Vali järgmine.
- eest Kas teie andmed on juba liimitabelitega kaardistatud?valige Mitte veel.
- Lisage andmeallikas.
- eest S3 tee, sisestage Amazon Comprehendi väljundandmete kausta asukoht.
Lisage kindlasti lõpp /
tee nimele. AWS Glue otsib kõigi failide kaustateed.
- valima Rooma kõik alamkaustad üles.
- Vali Lisage S3 andmeallikas.
- Loo uus AWS-i identiteedi- ja juurdepääsuhaldus (IAM) roll roomajal.
- Sisestage IAM-i rolli nimi.
- Vali Värskendage valitud IAM-i rolli veendumaks, et uus roll on roomajale määratud.
- Vali järgmine väljundi (andmebaasi) teabe sisestamiseks.
- Vali Lisa andmebaas.
- Sisestage andmebaasi nimi.
- Vali järgmine.
- Vali Loo roomaja.
- Vali Käivitage roomaja roomiku käivitamiseks.
Roomaja olekut saate jälgida AWS Glue konsoolil.
Kasutage QuickSighti jaoks tabelite ettevalmistamiseks Athenat
Athena ekstraheerib andmed andmebaasi tabelitest, mille AWS Glue roomaja on loonud, et pakkuda vormingut, mida QuickSight kasutab sõnapilve loomiseks.
- Valige Athena konsoolil Päringu redaktor navigeerimispaanil.
- eest Andmeallikas, vali AwsDataCatalog.
- eest andmebaas, valige roomaja loodud andmebaas.
QuickSightiga ühilduva tabeli loomiseks peavad andmed olema massiividest pesastamata.
- Esimene samm on luua ajutine andmebaas asjakohaste Amazon Comprehendi andmetega:
- Järgmine väide piirab fraase, mis koosnevad vähemalt kolmest sõnast ja fraaside sageduse rühmadest:
Väljundi visualiseerimiseks kasutage QuickSighti
Lõpuks saate luua analüüsist visuaalse väljundi.
- Valige QuickSighti konsoolil Uus analüüs.
- Vali Uus andmestik.
- eest Looge andmestik, vali Uutest andmeallikatest.
- Vali Athena andmeallikana.
- Sisestage andmeallika nimi ja valige Loo andmeallikas.
- Vali Visualiseerima.
Veenduge, et QuickSightil oleks juurdepääs S3 ämbritele, kus Athena tabeleid hoitakse.
- Valige QuickSighti konsoolil kasutajaprofiili ikoon ja valige QuickSighti haldamine.
- Vali Turvalisus ja load.
- Otsige jaotist QuickSighti juurdepääs AWS-i teenustele.
AWS-i teenustele juurdepääsu konfigureerimisel pääseb QuickSight juurde nende teenuste andmetele. Kasutajate ja rühmade juurdepääsu saab juhtida valikute kaudu.
- Veenduge, et Amazon S3-le on juurdepääs antud.
Nüüd saate luua sõnapilve.
- Valige all sõna pilv Visuaalsed tüübid.
- Lohistage tekst kohta Grupi poolt ja loe kuni SUURUS.
Redigeerimisvalikutele juurdepääsuks valige visualiseerimises suvandite menüü (kolm punkti). Näiteks võite soovida kuvalt peita termini „muu”. Saate redigeerida ka selliseid elemente nagu visuaali pealkiri ja alapealkiri. Sõnapilve PDF-vormingus allalaadimiseks valige Lae QuickSighti tööriistaribal.
Koristage
Pidevate tasude vältimiseks kustutage kõik kasutamata andmed ja protsessid või ressursid, mis on nende vastaval teeninduskonsoolil ette nähtud.
Järeldus
Amazon Comprehend kasutab dokumentide sisu kohta ülevaate saamiseks NLP-d. See arendab teadmisi, tuvastades dokumendi olemid, võtmefraasid, keele, tunded ja muud levinud elemendid. Amazon Comprehendi abil saate luua uusi tooteid, mis põhinevad dokumentide struktuuri mõistmisel. Näiteks Amazon Comprehendi abil saate võtmefraaside otsimiseks skannida tervet dokumendihoidlat.
Selles postituses kirjeldati samme sõnapilve loomiseks, et visualiseerida Amazon Comprehendi tekstisisu analüüsi, kasutades andmete visualiseerimiseks AWS-i tööriistu ja QuickSighti.
Hoiame ühendust kommentaaride rubriigi kaudu!
Autoritest
Kris Gedman on USA idaosas jaemüügi ja CPG müügijuht Amazon Web Servicesis. Kui ta ei tööta, veedab ta meelsasti aega oma sõprade ja perega, eriti suviti Cape Codis. Kris on ajutiselt pensionil olev ninjasõdalane, kuid talle meeldib praegu oma kahte poega jälgida ja juhendada.
Clark Lefavour on lahenduste arhitekti juht ettevõttes Amazon Web Services, kes toetab idapiirkonna ärikliente. Clark asub Uus-Inglismaal ja naudib aega köögis retseptide väljatöötamiseks.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
- PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
- PlatoESG. Autod/elektrisõidukid, Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
- PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
- ChartPrime. Tõsta oma kauplemismängu ChartPrime'iga kõrgemale. Juurdepääs siia.
- BlockOffsets. Keskkonnakompensatsiooni omandi ajakohastamine. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :on
- :on
- :mitte
- : kus
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- MEIST
- aktsepteerima
- juurdepääs
- konto
- lisama
- lisamine
- AI
- Materjal: BPA ja flataatide vaba plastik
- juba
- Ka
- Amazon
- Amazoni mõistmine
- Amazon QuickSight
- Amazon Web Services
- an
- analüüs
- analüüsima
- analüüsitud
- ja
- mistahes
- lähenemine
- arhitektuur
- OLEME
- AS
- määratud
- At
- vältima
- AWS
- AWS liim
- põhineb
- põhiline
- BE
- enne
- alustama
- Kast
- ehitama
- Ehitus
- kuid
- by
- CAN
- koormuste
- Vali
- valitud
- klassifikatsioon
- Cloud
- coaching
- kommentaarid
- ühine
- kokkusobiv
- täitma
- mõista
- arvuti
- konsool
- Põhiseadus
- sisu
- kontrollitud
- tavaline
- muutma
- ümber
- loendamine
- cpg
- roomik
- looma
- loodud
- loob
- Rist
- tava
- Kliendid
- andmed
- andmebaas
- sügavam
- juurutada
- kirjeldatud
- soovitud
- arendab
- arutatud
- Ekraan
- kuvatakse
- do
- dokument
- dokumendid
- domeen
- lae alla
- kergesti
- Ida
- elemendid
- kõrvaldab
- võimaldab
- Inglismaa
- sisene
- Sisse
- ettevõte
- Kogu
- üksuste
- üksus
- eriti
- näide
- ekspertide
- väljavõte
- pere
- fail
- Faile
- leidmine
- esimene
- Järel
- eest
- formaat
- Sagedus
- sõbrad
- Alates
- täielikult
- koguma
- tekitama
- antud
- Grupp
- Grupi omad
- Olema
- he
- varjama
- tema
- Lahtiolekuajad
- HTML
- http
- HTTPS
- ICON
- Identity
- if
- illustreerib
- pilt
- in
- info
- sisend
- teadmisi
- sisse
- IT
- kirjed
- töö
- liituma
- jpg
- Json
- Võti
- keel
- pärast
- juht
- õppimine
- kõige vähem
- Lahkuma
- Lets
- nagu
- piirid
- koormus
- kohalik
- liising
- armastab
- masin
- masinõpe
- juhitud
- palju
- menüü
- Microsoft
- võib
- ML
- mudel
- mudelid
- Jälgida
- rohkem
- palju
- peab
- nimi
- Natural
- Natural Language Processing
- Navigate
- NAVIGATSIOON
- vaja
- vajadustele
- Uus
- uute toodete
- ninja
- nlp
- Tavaliselt
- nüüd
- objekt
- of
- on
- ONE
- jätkuv
- avatud
- Valikud
- or
- et
- originaal
- Muu
- väljund
- enda
- lehekülg
- pane
- tee
- püsivalt
- fraasid
- Koht
- Platon
- Platoni andmete intelligentsus
- PlatoData
- post
- võim
- võimas
- Valmistama
- eeldused
- protsess
- Töödeldud
- Protsessid
- töötlemine
- Toodet
- profiil
- anda
- tingimusel
- Lugenud
- valmis
- tunnustamine
- viitama
- piirkond
- Suhted
- asjakohane
- ülejäänud
- Hoidla
- Vahendid
- need
- jaemüük
- Roll
- jooks
- müük
- sama
- Säästa
- skaneerida
- skoor
- Otsing
- Osa
- tunne
- tunded
- teenus
- Teenused
- peaks
- lihtne
- lahendus
- Lahendused
- allikas
- konkreetse
- Kulutused
- Kaubandus-
- väljavõte
- olek
- jääma
- Samm
- Sammud
- ladustamine
- ladustatud
- struktuur
- selline
- Toetamine
- kindel
- tabel
- Võtma
- ülesanded
- ajutine
- termin
- tekst
- et
- .
- oma
- teemad
- SIIS
- see
- need
- kolm
- Läbi
- aeg
- Kapslid
- et
- töövahendid
- puudutama
- traditsiooniline
- Tagumise
- Rong
- ümber
- Trends
- kaks
- liigid
- lõpuks
- all
- mõistmine
- kasutamata
- laetud
- us
- kasutama
- Kasutatud
- Kasutaja
- Kasutajad
- kasutusalad
- kasutamine
- kontrollima
- kaudu
- visualiseerimine
- visualiseeri
- läbikäiguks
- tahan
- vaadates
- we
- web
- veebiteenused
- millal
- mis
- will
- koos
- sõna
- sõnad
- töövoog
- töö
- veel
- sa
- Sinu
- sephyrnet