Wyszukiwanie wniosków w repozytorium dokumentów tekstowych w dowolnej formie może być jak szukanie igły w stogu siana. Tradycyjne podejście może polegać na liczeniu słów lub innej podstawowej analizie do analizowania dokumentów, ale dzięki mocy narzędzi Amazon AI i uczenia maszynowego (ML) możemy uzyskać głębsze zrozumienie treści.
Amazon Comprehend to w pełni zarządzana usługa, która wykorzystuje przetwarzanie języka naturalnego (NLP) w celu uzyskania wglądu w treść dokumentów. Amazon Comprehend opracowuje spostrzeżenia, rozpoznając encje, frazy kluczowe, nastroje, motywy i niestandardowe elementy w dokumencie. Amazon Comprehend może tworzyć nowe spostrzeżenia w oparciu o zrozumienie struktury dokumentu i relacji między jednostkami. Na przykład dzięki Amazon Comprehend możesz przeskanować całe repozytorium dokumentów w poszukiwaniu kluczowych fraz.
Amazon Comrehend pozwala ekspertom nie zajmującym się uczeniem maszynowym z łatwością wykonywać zadania, które zwykle zajmują wiele godzin. Amazon Comprehend eliminuje większość czasu potrzebnego na czyszczenie, budowanie i trenowanie własnego modelu. Do budowania głębszych, niestandardowych modeli w NLP lub dowolnej innej dziedzinie, Amazon Sage Maker umożliwia w razie potrzeby budowanie, trenowanie i wdrażanie modeli w znacznie bardziej konwencjonalnym przepływie pracy ML.
W tym poście korzystamy z Amazon Comprehend i innych usług AWS do analizy i wydobywania nowych spostrzeżeń z repozytorium dokumentów. Następnie używamy Amazon QuickSight aby wygenerować prostą, ale potężną wizualizację chmury słów, aby łatwo rozpoznać motywy i trendy.
Przegląd rozwiązania
Poniższy schemat ilustruje architekturę rozwiązania.
Na początek zbieramy dane do analizy i ładujemy je do pliku Usługa Amazon Simple Storage Wiadro (Amazon S3) na koncie AWS. W tym przykładzie używamy plików w formacie tekstowym. Dane są następnie analizowane przez Amazon Comrehend. Amazon Comprehend tworzy dane wyjściowe w formacie JSON, które należy przekształcić i przetworzyć do formatu bazy danych za pomocą Klej AWS. Weryfikujemy dane i wyodrębniamy określone sformatowane tabele danych za pomocą Amazonka Atena do analizy QuickSight przy użyciu chmury słów. Więcej informacji na temat wizualizacji znajdziesz w artykule Wizualizacja danych w Amazon QuickSight.
Wymagania wstępne
W tej instrukcji należy spełnić następujące wymagania wstępne:
Prześlij dane do zasobnika S3
Prześlij swoje dane do segmentu S3. W tym poście jako pliku wejściowego używamy tekstu Konstytucji Stanów Zjednoczonych w formacie UTF-8. Następnie możesz przystąpić do analizy danych i tworzenia wizualizacji.
Analizuj dane za pomocą Amazon Comrehend
Istnieje wiele rodzajów informacji tekstowych i obrazowych, które można przetwarzać za pomocą usługi Amazon Comprehend. Oprócz plików tekstowych możesz używać Amazon Comrehend do jednoetapowej klasyfikacji i rozpoznawania podmiotów aby zaakceptować jako dane wejściowe pliki obrazów, pliki PDF i pliki Microsoft Word, które nie są omawiane w tym poście.
Aby przeanalizować swoje dane, wykonaj następujące kroki:
- Na konsoli Amazon Comprehend wybierz Analiza zadań w okienku nawigacji.
- Dodaj Utwórz zadanie analizy.
- Wpisz nazwę swojej pracy.
- W razie zamówieenia projektu Typ analizywybierz Kluczowe frazy.
- W razie zamówieenia projektu Wybierz język¸ wybierz Angielski.
- W razie zamówieenia projektu Wprowadź lokalizację danych, jako warunek wstępny określ utworzony folder.
- W razie zamówieenia projektu Lokalizacja danych wyjściowych, jako warunek wstępny określ utworzony folder.
- Dodaj Utwórz rolę IAM.
- Wprowadź przyrostek nazwy roli.
- Dodaj Utwórz pracę.
Zadanie zostanie uruchomione, a jego status zostanie wyświetlony na ekranie Analiza zadań strona.
Poczekaj na zakończenie zadania analizy. Amazon Comprehend utworzy plik i umieści go w podanym folderze danych wyjściowych. Plik ma format .gz lub GZIP.
Ten plik należy pobrać i przekonwertować do formatu nieskompresowanego. Możesz pobrać obiekt z folderu danych lub segmentu S3 za pomocą konsoli Amazon S3.
- Na konsoli Amazon S3 wybierz obiekt i wybierz Do pobrania. Jeśli chcesz pobrać obiekt do określonego folderu, wybierz Do pobrania na Akcje menu.
- Po pobraniu pliku na komputer lokalny otwórz spakowany plik i zapisz go jako plik nieskompresowany.
Nieskompresowany plik musi zostać przesłany do folderu wyjściowego, zanim robot AWS Glue będzie mógł go przetworzyć. W tym przykładzie przesyłamy nieskompresowany plik do tego samego folderu wyjściowego, którego używamy w późniejszych krokach.
- Na konsoli Amazon S3 przejdź do segmentu S3 i wybierz Prześlij.
- Dodaj Dodaj pliki.
- Wybierz nieskompresowane pliki z komputera lokalnego.
- Dodaj Prześlij.
Po przesłaniu pliku usuń oryginalny spakowany plik.
- Na konsoli Amazon S3 wybierz wiadro i wybierz Usuń.
- Potwierdź nazwę pliku, aby trwale usunąć plik, wpisując nazwę pliku w polu tekstowym.
- Dodaj Usuń obiekty.
Spowoduje to pozostawienie jednego pliku w folderze wyjściowym: pliku nieskompresowanego.
Konwertuj dane JSON na format tabeli za pomocą kleju AWS
Na tym etapie przygotowujesz dane wyjściowe Amazon Comrehend do wykorzystania jako dane wejściowe w Athenie. Dane wyjściowe Amazon Comrehend są w formacie JSON. Możesz użyć AWS Glue, aby przekonwertować JSON na strukturę bazy danych, która ostatecznie zostanie odczytana przez QuickSight.
- Na konsoli AWS Glue wybierz Roboty w okienku nawigacji.
- Dodaj Utwórz robota.
- Wprowadź nazwę swojego robota.
- Dodaj Następna.
- W razie zamówieenia projektu Czy Twoje dane są już zmapowane do tabel kleju?, Wybierz Nieoceniony.
- Dodaj źródło danych.
- W razie zamówieenia projektu Ścieżka S3, wprowadź lokalizację folderu danych wyjściowych Amazon Comprehend.
Pamiętaj, aby dodać końcówkę /
do nazwy ścieżki. AWS Glue przeszuka ścieżkę folderu dla wszystkich plików.
- Wybierz Przeszukaj wszystkie podfoldery.
- Dodaj Dodaj źródło danych S3.
- Stwórz nowy AWS Zarządzanie tożsamością i dostępem (IAM) dla robota.
- Wpisz nazwę roli uprawnień.
- Dodaj Zaktualizuj wybraną rolę uprawnień aby mieć pewność, że nowa rola została przypisana do robota.
- Dodaj Następna aby wprowadzić informacje wyjściowe (bazy danych).
- Dodaj Dodaj bazę danych.
- Wprowadź nazwę bazy danych.
- Dodaj Następna.
- Dodaj Utwórz robota.
- Dodaj Uruchom robota aby uruchomić przeszukiwacz.
Możesz monitorować status robota w konsoli AWS Glue.
Użyj Atheny, aby przygotować tabele dla QuickSight
Athena wyodrębni dane z tabel bazy danych utworzonych przez przeszukiwacza AWS Glue w celu zapewnienia formatu, którego QuickSight użyje do utworzenia chmury słów.
- Na konsoli Athena wybierz Edytor zapytań w okienku nawigacji.
- W razie zamówieenia projektu Źródło danychwybierz Katalog danych Aws.
- W razie zamówieenia projektu Baza danychwybierz bazę danych utworzoną przez przeszukiwacz.
Aby utworzyć tabelę zgodną z QuickSight, dane muszą zostać odłączone od tablic.
- Pierwszym krokiem jest utworzenie tymczasowej bazy danych zawierającej odpowiednie dane Amazon Comrehend:
- Poniższe stwierdzenie ogranicza się do wyrażeń składających się z co najmniej trzech słów i grup według częstotliwości występowania wyrażeń:
Użyj QuickSight do wizualizacji wyników
Na koniec możesz utworzyć wizualny wynik analizy.
- W konsoli QuickSight wybierz Nowa analiza.
- Dodaj Nowy zestaw danych.
- W razie zamówieenia projektu Utwórz zbiór danychwybierz Z nowych źródeł danych.
- Dodaj Athena jako źródło danych.
- Wprowadź nazwę źródła danych i wybierz Utwórz źródło danych.
- Dodaj Wyobrażać sobie.
Upewnij się, że QuickSight ma dostęp do segmentów S3, w których przechowywane są tabele Athena.
- W konsoli QuickSight wybierz ikonę profilu użytkownika i wybierz Zarządzaj QuickSight.
- Dodaj Bezpieczeństwo i uprawnienia.
- Poszukaj sekcji Dostęp QuickSight do usług AWS.
Konfigurując dostęp do usług AWS, QuickSight może uzyskać dostęp do danych w tych usługach. Dostęp użytkowników i grup można kontrolować za pomocą opcji.
- Sprawdź, czy Amazon S3 ma przyznany dostęp.
Teraz możesz stworzyć chmurę słów.
- Wybierz chmurę słów pod Typy wizualne.
- Przeciągnij tekst do Grupuj według i policz do Rozmiar.
Wybierz menu opcji (trzy kropki) na wizualizacji, aby uzyskać dostęp do opcji edycji. Możesz na przykład ukryć termin „inne” na wyświetlaczu. Możesz także edytować elementy, takie jak tytuł i podtytuł wizualizacji. Aby pobrać chmurę słów w formacie PDF, wybierz Do pobrania na pasku narzędzi QuickSight.
Sprzątać
Aby uniknąć naliczania bieżących opłat, usuń wszelkie nieużywane dane i procesy lub zasoby udostępnione w odpowiedniej konsoli usług.
Wnioski
Amazon Comprehend wykorzystuje NLP do wyciągania wniosków na temat treści dokumentów. Rozwija wiedzę poprzez rozpoznawanie jednostek, fraz kluczowych, języka, nastrojów i innych typowych elementów w dokumencie. Możesz wykorzystać Amazon Comprehend do tworzenia nowych produktów w oparciu o zrozumienie struktury dokumentów. Na przykład dzięki Amazon Comprehend możesz przeskanować całe repozytorium dokumentów w poszukiwaniu kluczowych fraz.
W tym poście opisano kroki tworzenia chmury słów w celu wizualizacji analizy zawartości tekstu z Amazon Comrehend przy użyciu narzędzi AWS i QuickSight do wizualizacji danych.
Pozostańmy w kontakcie za pośrednictwem sekcji komentarzy!
O autorach
Chrisa Gedmana jest liderem sprzedaży na wschodzie USA w obszarze handlu detalicznego i CPG w Amazon Web Services. Kiedy nie pracuje, lubi spędzać czas z przyjaciółmi i rodziną, zwłaszcza latem na Cape Cod. Kris jest chwilowo emerytowanym wojownikiem ninja, ale na razie uwielbia obserwować i trenować swoich dwóch synów.
Clarka Lefavoura jest liderem architekta rozwiązań w Amazon Web Services, obsługującym klientów korporacyjnych w regionie wschodnim. Clark mieszka w Nowej Anglii i lubi spędzać czas na opracowywaniu przepisów w kuchni.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
- PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
- PlatonESG. Motoryzacja / pojazdy elektryczne, Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
- Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
- ChartPrime. Podnieś poziom swojej gry handlowej dzięki ChartPrime. Dostęp tutaj.
- Przesunięcia bloków. Modernizacja własności offsetu środowiskowego. Dostęp tutaj.
- Źródło: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :ma
- :Jest
- :nie
- :Gdzie
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- O nas
- Akceptuj
- dostęp
- Konto
- Dodaj
- dodatek
- AI
- Wszystkie kategorie
- już
- również
- Amazonka
- Amazon Comprehend
- Amazon QuickSight
- Amazon Web Services
- an
- analiza
- w czasie rzeczywistym sprawiają,
- analizowane
- i
- każdy
- podejście
- architektura
- SĄ
- AS
- przydzielony
- At
- uniknąć
- AWS
- Klej AWS
- na podstawie
- podstawowy
- BE
- zanim
- rozpocząć
- Pudełko
- budować
- Budowanie
- ale
- by
- CAN
- Opłaty
- Dodaj
- wybrany
- klasyfikacja
- Chmura
- Coaching
- komentarze
- wspólny
- zgodny
- kompletny
- zrozumieć
- komputer
- Konsola
- Konstytucja
- zawartość
- kontrolowanych
- Konwencjonalny
- konwertować
- przeliczone
- rachunkowość
- cpg
- crawler
- Stwórz
- stworzony
- tworzy
- Krzyż
- zwyczaj
- Klientów
- dane
- Baza danych
- głębiej
- rozwijać
- opisane
- życzenia
- rozwija się
- omówione
- Wyświetlacz
- wystawiany
- do
- dokument
- dokumenty
- domena
- pobieranie
- z łatwością
- Wschód
- Elementy
- eliminuje
- Umożliwia
- Anglia
- Wchodzę
- wprowadzenie
- Enterprise
- Cały
- podmioty
- jednostka
- szczególnie
- przykład
- eksperci
- wyciąg
- członków Twojej rodziny
- filet
- Akta
- znalezieniu
- i terminów, a
- następujący
- W razie zamówieenia projektu
- format
- Częstotliwość
- przyjaciele
- od
- w pełni
- zbierać
- Generować
- udzielony
- Zarządzanie
- Grupy
- Have
- he
- Ukryj
- jego
- GODZINY
- HTML
- http
- HTTPS
- ICON
- tożsamość
- if
- ilustruje
- obraz
- in
- Informacja
- wkład
- spostrzeżenia
- najnowszych
- IT
- szt
- Praca
- przystąpić
- jpg
- json
- Klawisz
- język
- później
- lider
- nauka
- najmniej
- Pozostawiać
- pozwala
- lubić
- Limity
- załadować
- miejscowy
- lokalizacja
- kocha
- maszyna
- uczenie maszynowe
- zarządzane
- wiele
- Menu
- Microsoft
- może
- ML
- model
- modele
- monitor
- jeszcze
- dużo
- musi
- Nazwa
- Naturalny
- Przetwarzanie języka naturalnego
- Nawigacja
- Nawigacja
- potrzebne
- wymagania
- Nowości
- Nowe produkty
- ninja
- nlp
- normalnie
- już dziś
- przedmiot
- of
- on
- ONE
- trwający
- koncepcja
- Opcje
- or
- zamówienie
- oryginalny
- Inne
- wydajność
- własny
- strona
- chleb
- ścieżka
- na stałe
- Zwroty
- Miejsce
- plato
- Analiza danych Platona
- PlatoDane
- Post
- power
- mocny
- Przygotować
- warunki wstępne
- wygląda tak
- Obrobiony
- procesów
- przetwarzanie
- Produkty
- Profil
- zapewniać
- pod warunkiem,
- Czytaj
- gotowy
- rozpoznawanie
- odnosić się
- region
- Relacje
- pozostały
- składnica
- Zasoby
- osób
- detaliczny
- Rola
- run
- sole
- taki sam
- Zapisz
- skanować
- wynik
- Szukaj
- Sekcja
- sentyment
- uczucia
- usługa
- Usługi
- powinien
- Prosty
- rozwiązanie
- Rozwiązania
- Źródło
- specyficzny
- Spędzanie
- Spot
- Zestawienie sprzedaży
- Rynek
- pobyt
- Ewolucja krok po kroku
- Cel
- przechowywanie
- przechowywany
- Struktura
- taki
- Wspierający
- pewnie
- stół
- Brać
- zadania
- tymczasowy
- semestr
- XNUMX
- że
- Połączenia
- ich
- motywy
- następnie
- to
- tych
- trzy
- Przez
- czas
- Tytuł
- do
- narzędzia
- Kontakt
- tradycyjny
- Wleczona
- Pociąg
- przekształcony
- Trendy
- drugiej
- typy
- Ostatecznie
- dla
- zrozumienie
- nieużywana
- przesłanych
- us
- posługiwać się
- używany
- Użytkownik
- Użytkownicy
- zastosowania
- za pomocą
- zweryfikować
- przez
- wyobrażanie sobie
- wyobrażać sobie
- solucja
- chcieć
- oglądania
- we
- sieć
- usługi internetowe
- jeśli chodzi o komunikację i motywację
- który
- będzie
- w
- słowo
- słowa
- workflow
- pracujący
- jeszcze
- You
- Twój
- zefirnet