Oivallusten etsiminen vapaamuotoisten tekstiasiakirjojen arkistosta voi olla kuin neulan löytäminen heinäsuovasta. Perinteinen lähestymistapa voisi olla sanalaskennan tai muun perusanalyysin käyttäminen asiakirjojen jäsentämiseen, mutta Amazon AI:n ja koneoppimistyökalujen (ML) avulla voimme saada syvempää ymmärrystä sisällöstä.
Amazonin käsitys on täysin hallittu palvelu, joka käyttää luonnollisen kielen käsittelyä (NLP) saadakseen näkemyksiä asiakirjojen sisällöstä. Amazon Comprehend kehittää oivalluksia tunnistamalla asiakirjan entiteetit, avainlauseet, tunteet, teemat ja mukautetut elementit. Amazon Comprehend voi luoda uusia oivalluksia dokumentin rakenteen ja entiteettisuhteiden ymmärtämisen perusteella. Esimerkiksi Amazon Comprehendin avulla voit skannata avainlauseita koko asiakirjavarastosta.
Amazon Comprehendin avulla muut kuin ML-asiantuntijat voivat tehdä helposti tehtäviä, jotka vievät yleensä tunteja. Amazon Comprehend poistaa suuren osan ajasta, joka tarvitaan oman mallisi puhdistamiseen, rakentamiseen ja kouluttamiseen. Jos haluat luoda syvempiä mukautettuja malleja NLP:ssä tai missä tahansa muussa toimialueessa, Amazon Sage Maker avulla voit halutessasi rakentaa, kouluttaa ja ottaa käyttöön malleja paljon perinteisemmässä ML-työnkulussa.
Tässä viestissä käytämme Amazon Comprehendia ja muita AWS-palveluita analysoimaan ja poimimaan uusia oivalluksia dokumenttivarastosta. Sitten käytämme Amazon QuickSight luoda yksinkertaisen mutta tehokkaan sanapilvivisuaalin, jonka avulla voit helposti havaita teemoja tai trendejä.
Katsaus ratkaisuun
Seuraava kaavio kuvaa ratkaisuarkkitehtuuria.
Aluksi keräämme analysoitavat tiedot ja lataamme ne Amazonin yksinkertainen tallennuspalvelu (Amazon S3) -ämpäri AWS-tilillä. Tässä esimerkissä käytämme tekstimuotoisia tiedostoja. Amazon Comprehend analysoi tiedot. Amazon Comprehend luo JSON-muotoisen tulosteen, joka on muunnettava ja prosessoitava tietokantamuotoon käyttämällä AWS-liima. Tarkistamme tiedot ja poimimme erityisiä muotoiltuja tietotaulukoita käyttämällä Amazon Athena QuickSight-analyysiin sanapilven avulla. Lisätietoja visualisoinneista on kohdassa Datan visualisointi Amazon QuickSightissa.
Edellytykset
Tätä kävelyä varten sinulla tulisi olla seuraavat edellytykset:
Lataa tiedot S3-ämpäriin
Lataa tietosi S3-ämpäriin. Tässä viestissä käytämme syöttötiedostona UTF-8-muotoista Yhdysvaltain perustuslain tekstiä. Sitten olet valmis analysoimaan tiedot ja luomaan visualisointeja.
Analysoi tietoja Amazon Comprehendin avulla
On olemassa monenlaisia teksti- ja kuvatietoja, joita voidaan käsitellä Amazon Comprehendin avulla. Tekstitiedostojen lisäksi voit käyttää Amazon Comprehend yksivaiheiseen luokitteluun ja kokonaisuuden tunnistamiseen hyväksyä kuvatiedostoja, PDF-tiedostoja ja Microsoft Word -tiedostoja syötteenä, joita ei käsitellä tässä viestissä.
Analysoidaksesi tietosi, suorita seuraavat vaiheet:
- Valitse Amazon Comprehend -konsolista Analyysi työpaikkoja navigointipaneelissa.
- Valita Luo analyysityö.
- Anna työllesi nimi.
- varten Analyysityyppi, valitse Tärkeimmät lauseet.
- varten Kieli¸ valitse Englanti.
- varten Syötetietojen sijainti, määritä ennakkoehtona luomasi kansio.
- varten Lähtötietojen sijainti, määritä ennakkoehtona luomasi kansio.
- Valita Luo IAM-rooli.
- Anna roolin nimen pääte.
- Valita Luo työpaikka.
Työ suoritetaan ja tila näkyy näytössä Analyysi työpaikkoja sivu.
Odota analyysityön valmistumista. Amazon Comprehend luo tiedoston ja sijoittaa sen antamaasi lähtötietokansioon. Tiedosto on .gz- tai GZIP-muodossa.
Tämä tiedosto on ladattava ja muutettava pakkaamattomaan muotoon. Voit ladata kohteen tietokansiosta tai S3-ämpäristä Amazon S3 -konsolin avulla.
- Valitse kohde Amazon S3 -konsolissa ja valitse Lataa. Jos haluat ladata objektin tiettyyn kansioon, valitse Lataa på den Toiminnot valikosta.
- Kun olet ladannut tiedoston paikalliselle tietokoneelle, avaa pakattu tiedosto ja tallenna se pakkaamattomana tiedostona.
Pakkaamaton tiedosto on ladattava tulostuskansioon, ennen kuin AWS Glue -indeksointirobotti voi käsitellä sen. Tässä esimerkissä lataamme pakkaamattoman tiedoston samaan tulostuskansioon, jota käytämme myöhemmissä vaiheissa.
- Siirry Amazon S3 -konsolissa S3-ämpäriisi ja valitse Lataa.
- Valita Lisätä tiedostoja.
- Valitse pakkaamattomat tiedostot paikalliselta tietokoneeltasi.
- Valita Lataa.
Kun olet ladannut tiedoston, poista alkuperäinen zip-tiedosto.
- Valitse Amazon S3 -konsolissa ämpäri ja valitse Poista.
- Vahvista tiedoston nimi, jos haluat poistaa tiedoston pysyvästi, kirjoittamalla tiedoston nimi tekstiruutuun.
- Valita Poista objektit.
Tällöin tulostuskansioon jää yksi tiedosto: pakkaamaton tiedosto.
Muunna JSON-tiedot taulukkomuotoon AWS-liimalla
Tässä vaiheessa valmistelet Amazon Comprehend -tulosteen käytettäväksi syötteenä Athenassa. Amazon Comprehend -tulostus on JSON-muodossa. Voit käyttää AWS Gluea muuntaaksesi JSONin tietokantarakenteeksi, jonka QuickSight voi lopulta lukea.
- Valitse AWS-liimakonsolista Indeksoijat navigointipaneelissa.
- Valita Luo indeksointirobotti.
- Anna indeksointirobotille nimi.
- Valita seuraava.
- varten Onko tietosi jo yhdistetty liimataulukoihinvalitse Ei vielä.
- Lisää tietolähde.
- varten S3 polku, anna Amazon Comprehend -tulostustietokansion sijainti.
Muista lisätä loppuosa /
polun nimeen. AWS Glue etsii kaikkien tiedostojen kansiopolun.
- valita Indeksoi kaikki alikansiot.
- Valita Lisää S3-tietolähde.
- Luoda uusi AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) -rooli indeksointirobotille.
- Anna IAM-roolin nimi.
- Valita Päivitä valittu IAM-rooli varmistaaksesi, että uusi rooli on määritetty indeksointirobotille.
- Valita seuraava syöttääksesi lähtötiedot (tietokanta).
- Valita Lisää tietokanta.
- Anna tietokannan nimi.
- Valita seuraava.
- Valita Luo indeksointirobotti.
- Valita Suorita indeksoija indeksointirobotin ajamiseen.
Voit seurata indeksointirobotin tilaa AWS Glue -konsolissa.
Käytä Athenaa taulukoiden valmistukseen QuickSightia varten
Athena poimii tiedot AWS Glue -indeksointirobotin luomista tietokantataulukoista tarjotakseen muodon, jota QuickSight käyttää sanapilven luomiseen.
- Valitse Athena-konsolista Kyselyeditori navigointipaneelissa.
- varten Tietolähde, valitse AwsDataCatalog.
- varten tietokanta, valitse indeksointirobotin luoma tietokanta.
QuickSightin kanssa yhteensopivan taulukon luomiseksi tietojen on oltava sisäkkäisiä taulukoista.
- Ensimmäinen askel on luoda väliaikainen tietokanta asiaankuuluvilla Amazon Comprehend -tiedoilla:
- Seuraava lause rajoittaa vähintään kolmen sanan ilmauksia ja ryhmiä lauseiden tiheyden mukaan:
Käytä QuickSightia tulosteen visualisointiin
Lopuksi voit luoda visuaalisen tulosteen analyysistä.
- Valitse QuickSight-konsolista Uusi analyysi.
- Valita Uusi tietojoukko.
- varten Luo tietojoukko, valitse Uusista tietolähteistä.
- Valita Athena tietolähteenä.
- Anna tietolähteen nimi ja valitse Luo tietolähde.
- Valita havainnollistaa.
Varmista, että QuickSightilla on pääsy S3-ämpäriin, joihin Athena-pöydät on tallennettu.
- Valitse QuickSight-konsolissa käyttäjäprofiilin kuvake ja valitse Hallitse QuickSightia.
- Valita Suojaus ja käyttöoikeudet.
- Etsi jakso QuickSight-pääsy AWS-palveluihin.
Määrittämällä pääsyn AWS-palveluihin QuickSight voi käyttää kyseisten palvelujen tietoja. Käyttäjien ja ryhmien pääsyä voidaan hallita vaihtoehtojen kautta.
- Varmista, että Amazon S3:lle on myönnetty käyttöoikeus.
Nyt voit luoda sanapilven.
- Valitse sana pilvi alta Visuaaliset tyypit.
- Vedä teksti kohteeseen Ryhmän mukaan ja laskea Koko.
Valitse visualisoinnissa asetusvalikko (kolme pistettä) päästäksesi muokkausvaihtoehtoihin. Voit esimerkiksi haluta piilottaa termin "muu" näytöltä. Voit myös muokata kohteita, kuten visuaalisi otsikkoa ja alaotsikkoa. Lataa sanapilvi PDF-tiedostona valitsemalla Lataa QuickSight-työkalurivillä.
Puhdistaa
Jatkuvien maksujen välttämiseksi poista kaikki käyttämättömät tiedot ja prosessit tai resurssit, jotka on varattu palvelukonsolissaan.
Yhteenveto
Amazon Comprehend käyttää NLP:tä saadakseen näkemyksiä asiakirjojen sisällöstä. Se kehittää oivalluksia tunnistamalla asiakirjan entiteetit, avainsanat, kielen, tunteet ja muut yleiset elementit. Amazon Comprehendin avulla voit luoda uusia tuotteita dokumenttien rakenteen ymmärtämisen perusteella. Esimerkiksi Amazon Comprehendin avulla voit skannata avainlauseita koko asiakirjavarastosta.
Tässä viestissä kuvattiin vaiheet sanapilven luomiseksi Amazon Comprehendin tekstisisältöanalyysin visualisoimiseksi käyttämällä AWS-työkaluja ja QuickSightia tietojen visualisointiin.
Pysytään yhteydessä kommenttiosion kautta!
Tietoja Tekijät
Kris Gedman on USA:n idän myyntijohtaja Retail & CPG:ssä Amazon Web Services -palvelussa. Kun hän ei ole töissä, hän viettää aikaa ystäviensä ja perheensä kanssa, etenkin kesäisin Cape Codilla. Kris on väliaikaisesti eläkkeellä oleva Ninja Warrior, mutta hän rakastaa toistaiseksi kahden poikansa katsomista ja valmentamista.
Clark Lefavour on Solutions Architect -johtaja Amazon Web Services -palvelussa, joka tukee yritysasiakkaita itäisellä alueella. Clark sijaitsee Uudessa Englannissa ja viettää aikaa keittiössä reseptien suunnittelussa.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. Autot / sähköautot, hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- ChartPrime. Nosta kaupankäyntipeliäsi ChartPrimen avulla. Pääsy tästä.
- BlockOffsets. Ympäristövastuun omistuksen nykyaikaistaminen. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :on
- :On
- :ei
- :missä
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- Meistä
- Hyväksyä
- pääsy
- Tili
- lisätä
- Lisäksi
- AI
- Kaikki
- jo
- Myös
- Amazon
- Amazonin käsitys
- Amazon QuickSight
- Amazon Web Services
- an
- analyysi
- analysoida
- analysoidaan
- ja
- Kaikki
- lähestymistapa
- arkkitehtuuri
- OVAT
- AS
- osoitettu
- At
- välttää
- AWS
- AWS-liima
- perustua
- perustiedot
- BE
- ennen
- alkaa
- Laatikko
- rakentaa
- Rakentaminen
- mutta
- by
- CAN
- maksut
- Valita
- valittu
- luokittelu
- pilvi
- valmennus
- kommentit
- Yhteinen
- yhteensopiva
- täydellinen
- ymmärtää
- tietokone
- Console
- Perustuslaki
- pitoisuus
- hallinnassa
- tavanomainen
- muuntaa
- muunnetaan
- laskenta
- CpG
- tela
- luoda
- luotu
- luo
- Ylittää
- asiakassuhde
- Asiakkaat
- tiedot
- tietokanta
- syvempää
- sijoittaa
- on kuvattu
- haluttu
- kehittää
- keskusteltiin
- näyttö
- näyttöön
- do
- asiakirja
- asiakirjat
- verkkotunnuksen
- download
- helposti
- Itään
- elementtejä
- eliminoi
- mahdollistaa
- Englanti
- enter
- kirjoittamalla
- yritys
- Koko
- yksiköt
- kokonaisuus
- erityisesti
- esimerkki
- asiantuntijat
- uute
- perhe
- filee
- Asiakirjat
- löytäminen
- Etunimi
- jälkeen
- varten
- muoto
- Taajuus
- ystäviä
- alkaen
- täysin
- kerätä
- tuottaa
- myönnetty
- Ryhmä
- Ryhmän
- Olla
- he
- Piilottaa
- hänen
- TUNTIA
- HTML
- http
- HTTPS
- ICON
- Identiteetti
- if
- havainnollistaa
- kuva
- in
- tiedot
- panos
- oivalluksia
- tulee
- IT
- kohdetta
- Job
- yhdistää
- jpg
- json
- avain
- Kieli
- myöhemmin
- johtaja
- oppiminen
- vähiten
- jättää
- Lets
- pitää
- rajat
- kuormitus
- paikallinen
- sijainti
- rakastaa
- kone
- koneoppiminen
- onnistui
- monet
- valikko
- Microsoft
- ehkä
- ML
- malli
- mallit
- monitori
- lisää
- paljon
- täytyy
- nimi
- Luonnollinen
- Luonnollinen kielen käsittely
- Navigoida
- suunnistus
- tarvitaan
- tarpeet
- Uusi
- uusia tuotteita
- ninja
- NLP
- Normaalisti
- nyt
- objekti
- of
- on
- ONE
- jatkuva
- avata
- Vaihtoehdot
- or
- tilata
- alkuperäinen
- Muut
- ulostulo
- oma
- sivulla
- lasi
- polku
- vakinaisesti
- lausekkeet
- Paikka
- Platon
- Platonin tietotieto
- PlatonData
- Kirje
- teho
- voimakas
- Valmistella
- edellytyksiä
- prosessi
- Käsitelty
- Prosessit
- käsittely
- Tuotteemme
- Profiili
- toimittaa
- mikäli
- Lue
- valmis
- tunnustaa
- katso
- alue
- Ihmissuhteet
- merkityksellinen
- jäljellä oleva
- säilytyspaikka
- Esittelymateriaalit
- ne
- vähittäiskauppa
- Rooli
- ajaa
- myynti
- sama
- Säästä
- skannata
- pisteet
- Haku
- Osa
- näkemys
- tunteet
- palvelu
- Palvelut
- shouldnt
- Yksinkertainen
- ratkaisu
- Ratkaisumme
- lähde
- erityinen
- menot
- Kaupallinen
- Lausunto
- Tila
- pysyä
- Vaihe
- Askeleet
- Levytila
- tallennettu
- rakenne
- niin
- Tukea
- varma
- taulukko
- ottaa
- tehtävät
- tilapäinen
- termi
- teksti
- että
- -
- heidän
- Teemat
- sitten
- tätä
- ne
- kolmella
- Kautta
- aika
- Otsikko
- että
- työkalut
- kosketa
- perinteinen
- Kumulatiivinen
- Juna
- transformoitu
- Trendit
- kaksi
- tyypit
- Lopulta
- varten
- ymmärtäminen
- käyttämätön
- ladattu
- us
- käyttää
- käytetty
- käyttäjä
- Käyttäjät
- käyttötarkoituksiin
- käyttämällä
- todentaa
- kautta
- visualisointi
- havainnollistaa
- läpikäynti
- haluta
- katsomassa
- we
- verkko
- verkkopalvelut
- kun
- joka
- tulee
- with
- sana
- sanoja
- työnkulku
- työskentely
- vielä
- Voit
- Sinun
- zephyrnet