Căutarea de informații într-un depozit de documente text în formă liberă poate fi ca și cum ai găsi un ac într-un car de fân. O abordare tradițională ar putea fi utilizarea numărării cuvintelor sau a altor analize de bază pentru a analiza documente, dar cu puterea Amazon AI și a instrumentelor de învățare automată (ML), putem aduna o înțelegere mai profundă a conținutului.
Amazon Comprehend este un serviciu complet gestionat care utilizează procesarea limbajului natural (NLP) pentru a extrage informații despre conținutul documentelor. Amazon Comprehend dezvoltă informații prin recunoașterea entităților, expresiilor cheie, sentimentelor, temelor și elementelor personalizate dintr-un document. Amazon Comprehend poate crea noi perspective bazate pe înțelegerea structurii documentului și a relațiilor dintre entități. De exemplu, cu Amazon Comprehend, puteți scana un întreg depozit de documente pentru fraze cheie.
Amazon Comprehend le permite experților non-ML să efectueze cu ușurință sarcini care în mod normal durează ore întregi. Amazon Comprehend elimină o mare parte din timpul necesar pentru curățarea, construirea și antrenamentul propriului model. Pentru a construi modele personalizate mai profunde în NLP sau în orice alt domeniu, Amazon SageMaker vă permite să construiți, antrenați și implementați modele într-un flux de lucru ML mult mai convențional, dacă doriți.
În această postare, folosim Amazon Comprehend și alte servicii AWS pentru a analiza și a extrage informații noi dintr-un depozit de documente. Apoi, folosim Amazon QuickSight pentru a genera un nor de cuvinte simplu, dar puternic, pentru a identifica cu ușurință teme sau tendințe.
Prezentare generală a soluției
Următoarea diagramă ilustrează arhitectura soluției.
Pentru început, adunăm datele pentru a fi analizate și le încărcăm într-un Serviciul Amazon de stocare simplă (Amazon S3) într-un cont AWS. În acest exemplu, folosim fișiere formatate text. Datele sunt apoi analizate de Amazon Comprehend. Amazon Comprehend creează o ieșire formatată JSON care trebuie transformată și procesată într-un format de bază de date folosind AWS Adeziv. Verificăm datele și extragem tabele de date formatate specifice folosind Amazon Atena pentru o analiză QuickSight folosind un nor de cuvinte. Pentru mai multe informații despre vizualizări, consultați Vizualizarea datelor în Amazon QuickSight.
Cerințe preliminare
Pentru această prezentare generală, ar trebui să aveți următoarele condiții prealabile:
Încărcați date într-un compartiment S3
Încărcați datele într-o găleată S3. Pentru această postare, folosim textul formatat UTF-8 din Constituția SUA ca fișier de intrare. Apoi sunteți gata să analizați datele și să creați vizualizări.
Analizați datele folosind Amazon Comprehend
Există multe tipuri de informații bazate pe text și imagini care pot fi procesate folosind Amazon Comprehend. Pe lângă fișierele text, puteți utiliza Amazon Comprehend pentru clasificarea într-un singur pas și recunoașterea entităților pentru a accepta fișiere imagine, fișiere PDF și fișiere Microsoft Word ca intrare, care nu sunt discutate în această postare.
Pentru a vă analiza datele, parcurgeți următorii pași:
- În consola Amazon Comprehend, alegeți Joburi de analiză în panoul de navigare.
- Alege Creați job de analiză.
- Introduceți un nume pentru postul dvs.
- Pentru Tipul analizei, alege Fraze cheie.
- Pentru Limb㸠alege Engleză.
- Pentru Locația datelor de intrare, specificați folderul pe care l-ați creat ca o condiție prealabilă.
- Pentru Locația datelor de ieșire, specificați folderul pe care l-ați creat ca o condiție prealabilă.
- Alege Creați un rol IAM.
- Introduceți un sufix pentru numele rolului.
- Alege Creați loc de muncă.
Lucrarea va rula și starea va fi afișată pe Joburi de analiză .
Așteptați finalizarea lucrării de analiză. Amazon Comprehend va crea un fișier și îl va plasa în folderul de date de ieșire pe care l-ați furnizat. Fișierul este în format .gz sau GZIP.
Acest fișier trebuie descărcat și convertit într-un format necomprimat. Puteți descărca un obiect din folderul de date sau din compartimentul S3 folosind consola Amazon S3.
- Pe consola Amazon S3, selectați obiectul și alegeți Descarcă. Dacă doriți să descărcați obiectul într-un anumit folder, alegeți Descarcă pe Acţiuni meniu.
- După ce descărcați fișierul pe computerul local, deschideți fișierul arhivat și salvați-l ca fișier necomprimat.
Fișierul necomprimat trebuie să fie încărcat în folderul de ieșire înainte ca crawler-ul AWS Glue să îl poată procesa. Pentru acest exemplu, încărcăm fișierul necomprimat în același folder de ieșire pe care îl folosim în pașii ulterioare.
- Pe consola Amazon S3, navigați la găleata S3 și alegeți Încărcați.
- Alege Adăugați fișiere.
- Alegeți fișierele necomprimate de pe computerul local.
- Alege Încărcați.
După ce încărcați fișierul, ștergeți fișierul original arhivat.
- Pe consola Amazon S3, selectați găleata și alegeți Șterge.
- Confirmați numele fișierului pentru a șterge definitiv fișierul introducând numele fișierului în caseta de text.
- Alege Ștergeți obiecte.
Acest lucru va lăsa un fișier rămas în folderul de ieșire: fișierul necomprimat.
Convertiți datele JSON în format tabel folosind AWS Glue
În acest pas, pregătiți ieșirea Amazon Comprehend pentru a fi utilizată ca intrare în Athena. Ieșirea Amazon Comprehend este în format JSON. Puteți utiliza AWS Glue pentru a converti JSON într-o structură de bază de date pentru a fi citită în cele din urmă de QuickSight.
- Pe consola AWS Glue, alegeți crawlere în panoul de navigare.
- Alege Creați un crawler.
- Introduceți un nume pentru crawler-ul dvs.
- Alege Pagina Următoare →.
- Pentru Datele dvs. sunt deja mapate la tabelele Glue, Selectați Nu inca.
- Adăugați o sursă de date.
- Pentru Calea S3, introduceți locația folderului de date de ieșire Amazon Comprehend.
Asigurați-vă că adăugați finalul /
la numele căii. AWS Glue va căuta în calea folderului toate fișierele.
- Selectați Accesați cu crawlere toate subfolderele.
- Alege Adăugați o sursă de date S3.
- Creaza un nou Gestionarea identității și accesului AWS (IAM) rol pentru crawler.
- Introduceți un nume pentru rolul IAM.
- Alege Actualizați rolul IAM ales pentru a fi sigur că noul rol este atribuit crawler-ului.
- Alege Pagina Următoare → pentru a introduce informațiile de ieșire (baza de date).
- Alege Adăugați o bază de date.
- Introduceți un nume de bază de date.
- Alege Pagina Următoare →.
- Alege Creați un crawler.
- Alege Rulați crawlerul a rula crawlerul.
Puteți monitoriza starea crawler-ului pe consola AWS Glue.
Utilizați Athena pentru a pregăti mesele pentru QuickSight
Athena va extrage date din tabelele bazei de date create de crawler-ul AWS Glue pentru a oferi un format pe care QuickSight îl va folosi pentru a crea cloud de cuvinte.
- Pe consola Athena, alegeți Editor de interogări în panoul de navigare.
- Pentru Sursă de date, alege AwsDataCatalog.
- Pentru Baza de date, alegeți baza de date creată de crawler.
Pentru a crea un tabel compatibil cu QuickSight, datele trebuie să fie neimbricate din matrice.
- Primul pas este să creați o bază de date temporară cu datele relevante Amazon Comprehend:
- Următoarea afirmație limitează expresii de cel puțin trei cuvinte și grupuri în funcție de frecvența frazelor:
Utilizați QuickSight pentru a vizualiza rezultatul
În cele din urmă, puteți crea rezultatul vizual din analiză.
- Pe consola QuickSight, alegeți Noua analiză.
- Alege Set de date nou.
- Pentru Creați un set de date, alege Din noi surse de date.
- Alege Athena ca sursă de date.
- Introduceți un nume pentru sursa de date și alegeți Creați sursa de date.
- Alege imagina.
Asigurați-vă că QuickSight are acces la gălețile S3 unde sunt stocate mesele Athena.
- Pe consola QuickSight, alegeți pictograma profilului de utilizator și alegeți Gestionați QuickSight.
- Alege Securitate și permisiuni.
- Căutați secțiunea Acces QuickSight la serviciile AWS.
Prin configurarea accesului la serviciile AWS, QuickSight poate accesa datele din aceste servicii. Accesul utilizatorilor și grupurilor poate fi controlat prin intermediul opțiunilor.
- Verificați că Amazon S3 are acces.
Acum puteți crea norul de cuvinte.
- Alegeți norul de cuvinte de sub Tipuri vizuale.
- Trageți textul în A se grupa cu și numără până la Mărimea.
Alegeți meniul de opțiuni (trei puncte) din vizualizare pentru a accesa opțiunile de editare. De exemplu, este posibil să doriți să ascundeți termenul „altul” de pe afișaj. De asemenea, puteți edita elemente precum titlul și subtitrarea pentru imaginea dvs. Pentru a descărca norul de cuvinte ca PDF, alegeți Descarcă pe bara de instrumente QuickSight.
A curăța
Pentru a evita costurile curente, ștergeți orice date și procese sau resurse neutilizate furnizate pe consola de servicii respectivă.
Concluzie
Amazon Comprehend folosește NLP pentru a extrage informații despre conținutul documentelor. Ea dezvoltă perspective prin recunoașterea entităților, expresiilor cheie, limbajului, sentimentelor și a altor elemente comune dintr-un document. Puteți utiliza Amazon Comprehend pentru a crea produse noi bazate pe înțelegerea structurii documentelor. De exemplu, cu Amazon Comprehend, puteți scana un întreg depozit de documente pentru fraze cheie.
Această postare a descris pașii pentru a construi un nor de cuvinte pentru a vizualiza o analiză a conținutului textului de la Amazon Comprehend folosind instrumente AWS și QuickSight pentru a vizualiza datele.
Să rămânem în legătură prin secțiunea de comentarii!
Despre Autori
Kris Gedman este liderul vânzărilor din estul SUA pentru Retail & CPG la Amazon Web Services. Când nu lucrează, îi place să petreacă timpul cu prietenii și familia, în special verile pe Cape Cod. Kris este un războinic ninja pensionat temporar, dar îi place să-și privească și să-și antreneze cei doi fii deocamdată.
Clark Lefavour este un arhitect de soluții lider la Amazon Web Services, sprijinind clienții întreprinderi din regiunea de Est. Clark are sediul în New England și îi place să petreacă timp arhitectând rețete în bucătărie.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
- PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
- PlatoESG. Automobile/VE-uri, carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
- PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
- ChartPrime. Crește-ți jocul de tranzacționare cu ChartPrime. Accesați Aici.
- BlockOffsets. Modernizarea proprietății de compensare a mediului. Accesați Aici.
- Sursa: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :are
- :este
- :nu
- :Unde
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- Despre Noi
- Accept
- acces
- Cont
- adăuga
- plus
- AI
- TOATE
- deja
- de asemenea
- Amazon
- Amazon Comprehend
- Amazon QuickSight
- Amazon Web Services
- an
- analiză
- analiza
- analizate
- și
- Orice
- abordare
- arhitectură
- SUNT
- AS
- alocate
- At
- evita
- AWS
- AWS Adeziv
- bazat
- de bază
- BE
- înainte
- începe
- Cutie
- construi
- Clădire
- dar
- by
- CAN
- taxe
- Alege
- ales
- clasificare
- Cloud
- coaching-ul
- comentarii
- Comun
- compatibil
- Completă
- înţelege
- calculator
- Consoleze
- Constituţie
- conţinut
- controlată
- convențional
- converti
- convertit
- socoteală
- CpG
- tractor pe şenile
- crea
- a creat
- creează
- Trece
- personalizat
- clienţii care
- de date
- Baza de date
- Mai adânc
- implementa
- descris
- dorit
- dezvoltă
- discutat
- Afişa
- afișat
- do
- document
- documente
- domeniu
- Descarca
- cu ușurință
- Est
- element
- elimină
- permite
- Anglia
- Intrați
- intrarea
- Afacere
- Întreg
- entități
- entitate
- mai ales
- exemplu
- experți
- extrage
- familie
- Fișier
- Fişiere
- descoperire
- First
- următor
- Pentru
- format
- Frecvență
- Prietenii lui
- din
- complet
- aduna
- genera
- acordate
- grup
- Grupului
- Avea
- he
- Ascunde
- lui
- ORE
- HTML
- http
- HTTPS
- ICON
- Identitate
- if
- ilustrează
- imagine
- in
- informații
- intrare
- perspective
- în
- IT
- articole
- Loc de munca
- alătura
- jpg
- JSON
- Cheie
- limbă
- mai tarziu
- lider
- învăţare
- cel mai puțin
- Părăsi
- Permite
- ca
- Limitele
- încărca
- local
- locaţie
- iubeste
- maşină
- masina de învățare
- gestionate
- multe
- Meniu
- Microsoft
- ar putea
- ML
- model
- Modele
- monitor
- mai mult
- mult
- trebuie sa
- nume
- Natural
- Procesarea limbajului natural
- Navigaţi
- Navigare
- necesar
- nevoilor
- Nou
- produse noi
- ninja
- nlp
- în mod normal
- acum
- obiect
- of
- on
- ONE
- în curs de desfășurare
- deschide
- Opţiuni
- or
- comandă
- original
- Altele
- producție
- propriu
- pagină
- pâine
- cale
- permanent
- Expresii
- Loc
- Plato
- Informații despre date Platon
- PlatoData
- Post
- putere
- puternic
- Pregăti
- premise
- proces
- Procesat
- procese
- prelucrare
- Produse
- Profil
- furniza
- prevăzut
- Citeste
- gata
- recunoscând
- trimite
- regiune
- Relaţii
- rămas
- depozit
- Resurse
- respectiv
- cu amănuntul
- Rol
- Alerga
- de vânzări
- acelaşi
- Economisiți
- scanare
- scor
- Caută
- Secțiune
- sentiment
- sentimente
- serviciu
- Servicii
- să
- simplu
- soluţie
- soluţii
- Sursă
- specific
- Cheltuire
- Loc
- Declarație
- Stare
- şedere
- Pas
- paşi
- depozitare
- stocate
- structura
- astfel de
- De sprijin
- sigur
- tabel
- Lua
- sarcini
- temporar
- durată
- a) Sport and Nutrition Awareness Day in Manasia Around XNUMX people from the rural commune Manasia have participated in a sports and healthy nutrition oriented activity in one of the community’s sports ready yards. This activity was meant to gather, mainly, middle-aged people from a Romanian rural community and teach them about the benefits that sports have on both their mental and physical health and on how sporting activities can be used to bring people from a community closer together. Three trainers were made available for this event, so that the participants would get the best possible experience physically and so that they could have the best access possible to correct information and good sports/nutrition practices. b) Sports Awareness Day in Poiana Țapului A group of young participants have taken part in sporting activities meant to teach them about sporting conduct, fairplay, and safe physical activities. The day culminated with a football match.
- acea
- lor
- tematică
- apoi
- acest
- aceste
- trei
- Prin
- timp
- Titlu
- la
- Unelte
- atingeţi
- tradiţional
- Adulmecare
- Tren
- transformat
- Tendinţe
- Două
- Tipuri
- în cele din urmă
- în
- înţelegere
- nefolosit
- încărcat
- us
- utilizare
- utilizat
- Utilizator
- utilizatorii
- utilizări
- folosind
- verifica
- de
- vizualizare
- imagina
- walkthrough
- vrea
- vizionarea
- we
- web
- servicii web
- cand
- care
- voi
- cu
- Cuvânt
- cuvinte
- flux de lucru
- de lucru
- încă
- Tu
- Ta
- zephyrnet