A szabad formátumú szöveges dokumentumok tárában való betekintést keresni olyan lehet, mint tűt találni a szénakazalban. Hagyományos megközelítés lehet a szószámlálás vagy más alapvető elemzés használata a dokumentumok elemzéséhez, de az Amazon AI és a gépi tanulási (ML) eszközök erejével mélyebben megérthetjük a tartalmat.
Amazon Comprehend egy teljesen felügyelt szolgáltatás, amely természetes nyelvi feldolgozást (NLP) használ, hogy betekintést nyerjen a dokumentumok tartalmába. Az Amazon Comprehend az entitások, kulcskifejezések, érzelmek, témák és egyéni elemek felismerésével fejleszt betekintést egy dokumentumban. Az Amazon Comprehend új betekintést tud létrehozni a dokumentumszerkezet és az entitáskapcsolatok megértése alapján. Például az Amazon Comprehend segítségével egy teljes dokumentumtárat átvizsgálhat kulcskifejezésekért.
Az Amazon Comprehend lehetővé teszi, hogy a nem ML-szakértők könnyen elvégezzenek olyan feladatokat, amelyek általában órákig tartanak. Az Amazon Comprehend kiküszöböli a saját modell tisztításához, megépítéséhez és betanításához szükséges idő nagy részét. Mélyebb egyedi modellek építéséhez NLP-ben vagy bármely más tartományban, Amazon SageMaker lehetővé teszi a modellek építését, betanítását és üzembe helyezését egy sokkal hagyományosabb ML munkafolyamatban, ha kívánja.
Ebben a bejegyzésben az Amazon Comprehend és más AWS-szolgáltatások segítségével elemezzük és új betekintést nyerünk a dokumentumok tárházából. Akkor használjuk Amazon QuickSight egyszerű, de erőteljes szófelhő-vizuális létrehozásához, amely könnyedén felismerheti a témákat vagy trendeket.
A megoldás áttekintése
A következő ábra a megoldás architektúráját mutatja be.
Kezdésként összegyűjtjük az elemezni kívánt adatokat, és betöltjük egy Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör egy AWS-fiókban. Ebben a példában szöveges formátumú fájlokat használunk. Az adatokat ezután az Amazon Comprehend elemzi. Az Amazon Comprehend létrehoz egy JSON formátumú kimenetet, amelyet át kell alakítani és adatbázisformátummá kell feldolgozni AWS ragasztó. Ellenőrizzük az adatokat, és speciális formázott adattáblázatokat vonunk ki a segítségével Amazon Athéné egy szófelhő segítségével végzett QuickSight elemzéshez. A vizualizációkkal kapcsolatos további információkért lásd: Adatok megjelenítése az Amazon QuickSightban.
Előfeltételek
Ehhez az áttekintéshez a következő előfeltételekkel kell rendelkeznie:
Töltse fel az adatokat egy S3 tárolóba
Töltse fel adatait egy S3 tárolóba. Ebben a bejegyzésben az Egyesült Államok alkotmányának UTF-8 formátumú szövegét használjuk bemeneti fájlként. Ezután készen áll az adatok elemzésére és vizualizációk létrehozására.
Adatok elemzése az Amazon Comprehend segítségével
Az Amazon Comprehend segítségével sokféle szövegalapú és képi információ feldolgozható. A szöveges fájlok mellett használhatja Amazon Comprehend az egylépcsős osztályozáshoz és entitásfelismeréshez hogy elfogadja a képfájlokat, PDF-fájlokat és Microsoft Word-fájlokat bemenetként, amelyeket ebben a bejegyzésben nem tárgyalunk.
Az adatok elemzéséhez hajtsa végre a következő lépéseket:
- Az Amazon Comprehend konzolon válassza a lehetőséget Elemző munkák a navigációs ablaktáblában.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Elemzési feladat létrehozása.
- Adja meg a munkája nevét.
- A Elemzés típusa, választ Kulcs kifejezések.
- A Nyelvválaszt Angol.
- A Bemeneti adatok helye, adja meg előfeltételként a létrehozott mappát.
- A Kimeneti adatok helye, adja meg előfeltételként a létrehozott mappát.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Hozzon létre egy IAM-szerepet.
- Adjon meg egy utótagot a szerepkör nevéhez.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Állás létrehozása.
A feladat lefut, és az állapota megjelenik a Elemző munkák cimre.
Várja meg, amíg az elemzési feladat befejeződik. Az Amazon Comprehend létrehoz egy fájlt, és elhelyezi azt a megadott kimeneti adatok mappájába. A fájl .gz vagy GZIP formátumú.
Ezt a fájlt le kell tölteni, és nem tömörített formátumba kell konvertálni. Az Amazon S3 konzol segítségével letölthet egy objektumot az adatmappából vagy az S3 vödörből.
- Az Amazon S3 konzolon jelölje ki az objektumot, és válassza ki Letöltés. Ha egy adott mappába szeretné letölteni az objektumot, válassza a lehetőséget Letöltés a Hozzászólások menüben.
- Miután letöltötte a fájlt a helyi számítógépére, nyissa meg a tömörített fájlt, és mentse el tömörítetlen fájlként.
A tömörítetlen fájlt fel kell tölteni a kimeneti mappába, mielőtt az AWS Glue bejáró feldolgozhatná. Ebben a példában a tömörítetlen fájlt ugyanabba a kimeneti mappába töltjük fel, amelyet a későbbi lépésekben használunk.
- Az Amazon S3 konzolon navigáljon az S3 tárolóhoz, és válassza ki Feltöltés.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Fájlok hozzáadása.
- Válassza ki a tömörítetlen fájlokat a helyi számítógépéről.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Feltöltés.
A fájl feltöltése után törölje az eredeti tömörített fájlt.
- Az Amazon S3 konzolon válassza ki a vödröt, és válassza ki töröl.
- Erősítse meg a fájl nevét a fájl végleges törléséhez a fájlnév beírásával a szövegmezőbe.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Objektumok törlése.
Ezzel egy fájl marad a kimeneti mappában: a tömörítetlen fájl.
Konvertálja a JSON-adatokat táblázatformátumba az AWS Glue segítségével
Ebben a lépésben előkészíti az Amazon Comprehend kimenetet az Athena bemeneteként való használatra. Az Amazon Comprehend kimenete JSON formátumú. Az AWS Glue segítségével konvertálhatja a JSON-t adatbázis-struktúrává, amelyet végül a QuickSight olvashat.
- Az AWS Glue konzolon válassza a lehetőséget Bejárók a navigációs ablaktáblában.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Bejáró létrehozása.
- Adja meg a robot nevét.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Következő.
- A Az adatok már hozzá vannak rendelve a ragasztótáblákhoz?válassza Még nem.
- Adjon hozzá egy adatforrást.
- A S3 útvonal, adja meg az Amazon Comprehend kimeneti adatmappa helyét.
Feltétlenül adja hozzá a végét /
az útvonal nevére. Az AWS Glue megkeresi az összes fájl elérési útját.
- választ Az összes almappa feltérképezése.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adjon hozzá egy S3 adatforrást.
- Újat csinálni AWS Identity and Access Management (IAM) szerepkört a bejáró számára.
- Adjon nevet az IAM-szerepnek.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a A kiválasztott IAM-szerep frissítése hogy biztos legyen az új szerepkör hozzárendelése a bejáróhoz.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Következő a kimeneti (adatbázis) információk megadásához.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatbázis hozzáadása.
- Adja meg az adatbázis nevét.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Következő.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Bejáró létrehozása.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Futtassa a bejárót futtatni a bejárót.
A bejáró állapotát az AWS Glue konzolon követheti nyomon.
Az Athena segítségével készítsen táblázatokat a QuickSight számára
Az Athena adatokat nyer ki az AWS Glue bejáró által létrehozott adatbázistáblákból, hogy olyan formátumot biztosítson, amelyet a QuickSight a szófelhő létrehozásához használ.
- Az Athena konzolon válassza a lehetőséget Lekérdezés-szerkesztő a navigációs ablaktáblában.
- A Adatforrás, választ AwsDataCatalog.
- A adatbázis, válassza ki a bejáró által létrehozott adatbázist.
A QuickSight-tal kompatibilis tábla létrehozásához az adatokat ki kell ágyazni a tömbökből.
- Az első lépés egy ideiglenes adatbázis létrehozása a vonatkozó Amazon Comprehend adatokkal:
- A következő állítás legalább három szóból álló kifejezésekre korlátozódik, és a kifejezések gyakorisága szerint csoportosít:
A kimenet megjelenítéséhez használja a QuickSight-ot
Végül létrehozhatja az elemzés vizuális kimenetét.
- A QuickSight konzolon válassza a lehetőséget Új elemzés.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Új adatkészlet.
- A Hozzon létre egy adatkészletet, választ Új adatforrásokból.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Athéné adatforrásként.
- Adja meg az adatforrás nevét, és válassza ki Adatforrás létrehozása.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Képzeld el.
Győződjön meg arról, hogy a QuickSight hozzáfér az S3 tárolókhoz, ahol az Athena asztalok vannak tárolva.
- A QuickSight konzolon válassza ki a felhasználói profil ikont, és válassza a lehetőséget A QuickSight kezelése.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Biztonság és engedélyek.
- Keresse meg a részt QuickSight hozzáférés az AWS szolgáltatásokhoz.
Az AWS-szolgáltatásokhoz való hozzáférés konfigurálásával a QuickSight hozzáférhet ezekben a szolgáltatásokban lévő adatokhoz. A felhasználók és csoportok hozzáférése az opciókon keresztül szabályozható.
- Ellenőrizze, hogy az Amazon S3 hozzáférést kapott.
Most létrehozhatja a szófelhőt.
- Válassza ki a felhő szót alatta Vizuális típusok.
- Húzza a szöveget ide Csoportosít és számolj Méret.
A szerkesztési opciók eléréséhez válassza ki a Beállítások menüt (három pont) a vizualizációban. Előfordulhat például, hogy el szeretné rejteni a kijelzőn az „egyéb” kifejezést. Az elemeket, például a vizualizáció címét és alcímét is szerkesztheti. A szófelhő PDF formátumban történő letöltéséhez válassza a lehetőséget Letöltés a QuickSight eszköztáron.
Tisztítsuk meg
A folyamatos költségek elkerülése érdekében töröljön minden fel nem használt adatot, folyamatot vagy erőforrást a megfelelő szolgáltatási konzolon.
Következtetés
Az Amazon Comprehend az NLP-t használja, hogy betekintést nyerjen a dokumentumok tartalmába. Betekintést fejleszt a dokumentum entitásainak, kulcskifejezéseinek, nyelvezetének, érzéseinek és egyéb gyakori elemeinek felismerésével. Az Amazon Comprehend segítségével új termékeket hozhat létre a dokumentumok szerkezetének megértése alapján. Például az Amazon Comprehend segítségével egy teljes dokumentumtárat átvizsgálhat kulcskifejezésekért.
Ez a bejegyzés leírja a szófelhő felépítésének lépéseit az Amazon Comprehend szöveges tartalomelemzésének megjelenítéséhez az AWS eszközök és a QuickSight segítségével az adatok megjelenítéséhez.
Maradjunk kapcsolatban a megjegyzés rovaton keresztül!
A szerzőkről
Kris Gedman az Amazon Web Services kiskereskedelmi és CPG értékesítési vezetője az Egyesült Államok keleti részén. Amikor nem dolgozik, szívesen tölt időt barátaival és családjával, különösen nyaranta Cape Codon. Kris ideiglenesen visszavonult nindzsa harcos, de egyelőre szereti nézni és oktatni két fiát.
Clark Lefavour az Amazon Web Services Solutions Architect vezetője, aki a keleti régió vállalati ügyfeleit támogatja. Clark New England-i székhelyű, és szívesen tölti az idejét receptek kidolgozásával a konyhában.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Autóipar / elektromos járművek, Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- ChartPrime. Emelje fel kereskedési játékát a ChartPrime segítségével. Hozzáférés itt.
- BlockOffsets. A környezetvédelmi ellentételezési tulajdon korszerűsítése. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :van
- :is
- :nem
- :ahol
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- Rólunk
- Elfogad!
- hozzáférés
- Fiók
- hozzá
- mellett
- AI
- Minden termék
- már
- Is
- amazon
- Amazon Comprehend
- Amazon QuickSight
- Az Amazon Web Services
- an
- elemzés
- elemez
- elemzett
- és a
- bármilyen
- megközelítés
- építészet
- VANNAK
- AS
- kijelölt
- At
- elkerülése érdekében
- AWS
- AWS ragasztó
- alapján
- alapvető
- BE
- előtt
- kezdődik
- Doboz
- épít
- Épület
- de
- by
- TUD
- díjak
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- választott
- besorolás
- felhő
- coaching
- Hozzászólások
- Közös
- összeegyeztethető
- teljes
- megért
- számítógép
- Konzol
- Alkotmány
- tartalom
- vezérelt
- hagyományos
- megtérít
- átalakított
- számolás
- cpg
- lánctalpas
- teremt
- készítette
- teremt
- Kereszt
- szokás
- Ügyfelek
- dátum
- adatbázis
- mélyebb
- telepíteni
- leírt
- kívánatos
- fejleszt
- tárgyalt
- kijelző
- Megjelenik
- do
- dokumentum
- dokumentumok
- domain
- letöltés
- könnyen
- Keleti
- elemek
- megszünteti
- lehetővé teszi
- Anglia
- belép
- belépés
- Vállalkozás
- Egész
- Szervezetek
- egység
- különösen
- példa
- szakértők
- kivonat
- család
- filé
- Fájlok
- megtalálása
- vezetéknév
- következő
- A
- formátum
- Frekvencia
- barátok
- ból ből
- teljesen
- gyűjt
- generál
- megadott
- Csoport
- Csoportok
- Legyen
- he
- elrejt
- övé
- NYITVATARTÁS
- HTML
- http
- HTTPS
- ICON
- Identitás
- if
- illusztrálja
- kép
- in
- információ
- bemenet
- meglátások
- bele
- IT
- tételek
- Munka
- csatlakozik
- jpg
- json
- Kulcs
- nyelv
- a későbbiekben
- vezető
- tanulás
- legkevésbé
- Szabadság
- Lets
- mint
- határértékek
- kiszámításának
- helyi
- elhelyezkedés
- szeret
- gép
- gépi tanulás
- sikerült
- sok
- Menü
- microsoft
- esetleg
- ML
- modell
- modellek
- monitor
- több
- sok
- kell
- név
- Természetes
- Természetes nyelvi feldolgozás
- Keresse
- Navigáció
- szükséges
- igények
- Új
- új termékek
- Nindzsa
- NLP
- rendszerint
- Most
- tárgy
- of
- on
- ONE
- folyamatban lévő
- nyitva
- Opciók
- or
- érdekében
- eredeti
- Más
- teljesítmény
- saját
- oldal
- üvegtábla
- ösvény
- tartósan
- kifejezés
- Hely
- Plató
- Platón adatintelligencia
- PlatoData
- állás
- hatalom
- erős
- Készít
- előfeltételek
- folyamat
- Feldolgozott
- Folyamatok
- feldolgozás
- Termékek
- profil
- ad
- feltéve,
- Olvass
- kész
- felismerés
- utal
- vidék
- Kapcsolatok
- megmaradó
- raktár
- Tudástár
- azok
- kiskereskedelem
- Szerep
- futás
- értékesítés
- azonos
- Megtakarítás
- beolvasás
- pontszám
- Keresés
- Rész
- érzés
- érzések
- szolgáltatás
- Szolgáltatások
- kellene
- Egyszerű
- megoldások
- Megoldások
- forrás
- különleges
- Költési
- Spot
- nyilatkozat
- Állapot
- tartózkodás
- Lépés
- Lépései
- tárolás
- memorizált
- struktúra
- ilyen
- Támogató
- biztos
- táblázat
- Vesz
- feladatok
- ideiglenes
- kifejezés
- szöveg
- hogy
- A
- azok
- témák
- akkor
- ezt
- azok
- három
- Keresztül
- idő
- Cím
- nak nek
- szerszámok
- érintse
- hagyományos
- Utánfutó
- Vonat
- át
- Trends
- kettő
- típusok
- Végül
- alatt
- megértés
- felhasználatlan
- feltöltve
- us
- használ
- használt
- használó
- Felhasználók
- használ
- segítségével
- ellenőrzése
- keresztül
- megjelenítés
- Képzeld
- végigjátszás
- akar
- őrzés
- we
- háló
- webes szolgáltatások
- amikor
- ami
- lesz
- val vel
- szó
- szavak
- munkafolyamat
- dolgozó
- még
- te
- A te
- zephyrnet