Việc tìm kiếm thông tin chi tiết trong kho lưu trữ tài liệu văn bản dạng tự do có thể giống như mò kim đáy bể. Cách tiếp cận truyền thống có thể là sử dụng tính năng đếm từ hoặc phân tích cơ bản khác để phân tích tài liệu, nhưng với sức mạnh của Amazon AI và các công cụ học máy (ML), chúng ta có thể thu thập hiểu biết sâu hơn về nội dung.
Amazon hiểu là một dịch vụ được quản lý đầy đủ, sử dụng xử lý ngôn ngữ tự nhiên (NLP) để trích xuất thông tin chuyên sâu về nội dung tài liệu. Amazon Comprehend phát triển thông tin chi tiết bằng cách nhận dạng các thực thể, cụm từ khóa, cảm xúc, chủ đề và các thành phần tùy chỉnh trong tài liệu. Amazon Comprehend có thể tạo ra những hiểu biết mới dựa trên sự hiểu biết về cấu trúc tài liệu và các mối quan hệ thực thể. Ví dụ: với Amazon Comprehend, bạn có thể quét toàn bộ kho tài liệu để tìm các cụm từ khóa.
Amazon Comprehend cho phép các chuyên gia không phải chuyên gia ML dễ dàng thực hiện các tác vụ thường mất hàng giờ. Amazon Comprehend loại bỏ phần lớn thời gian cần thiết để dọn dẹp, xây dựng và huấn luyện mô hình của riêng bạn. Để xây dựng các mô hình tùy chỉnh sâu hơn trong NLP hoặc bất kỳ miền nào khác, Amazon SageMaker cho phép bạn xây dựng, đào tạo và triển khai các mô hình theo quy trình làm việc ML thông thường hơn nhiều nếu muốn.
Trong bài đăng này, chúng tôi sử dụng Amazon Comprehend và các dịch vụ AWS khác để phân tích và trích xuất thông tin chi tiết mới từ kho tài liệu. Sau đó, chúng tôi sử dụng Amazon QuickSight để tạo hình ảnh đám mây từ đơn giản nhưng mạnh mẽ nhằm dễ dàng phát hiện các chủ đề hoặc xu hướng.
Tổng quan về giải pháp
Sơ đồ sau minh họa kiến trúc giải pháp.
Để bắt đầu, chúng tôi thu thập dữ liệu cần phân tích và tải nó vào một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) trong tài khoản AWS. Trong ví dụ này, chúng tôi sử dụng các tệp có định dạng văn bản. Dữ liệu sau đó được phân tích bởi Amazon Comprehend. Amazon Comprehend tạo đầu ra có định dạng JSON cần được chuyển đổi và xử lý thành định dạng cơ sở dữ liệu bằng cách sử dụng Keo AWS. Chúng tôi xác minh dữ liệu và trích xuất các bảng dữ liệu được định dạng cụ thể bằng cách sử dụng amazon Athena để phân tích QuickSight bằng cách sử dụng đám mây từ. Để biết thêm thông tin về trực quan hóa, hãy tham khảo Trực quan hóa dữ liệu trong Amazon QuickSight.
Điều kiện tiên quyết
Đối với hướng dẫn này, bạn nên có các điều kiện tiên quyết sau:
Tải dữ liệu lên nhóm S3
Tải dữ liệu của bạn lên vùng lưu trữ S3. Đối với bài đăng này, chúng tôi sử dụng văn bản có định dạng UTF-8 của Hiến pháp Hoa Kỳ làm tệp đầu vào. Sau đó, bạn đã sẵn sàng phân tích dữ liệu và tạo hình ảnh trực quan.
Phân tích dữ liệu bằng Amazon Comprehend
Có nhiều loại thông tin dựa trên văn bản và hình ảnh có thể được xử lý bằng Amazon Comprehend. Ngoài các tập tin văn bản, bạn có thể sử dụng Amazon Comprehend để phân loại và nhận dạng thực thể một bước để chấp nhận các tệp hình ảnh, tệp PDF và tệp Microsoft Word làm đầu vào, những tệp này không được thảo luận trong bài đăng này.
Để phân tích dữ liệu của bạn, hãy hoàn thành các bước sau:
- Trên bảng điều khiển Hiểu toàn diện của Amazon, chọn Công việc phân tích trong khung điều hướng.
- Chọn Tạo công việc phân tích.
- Nhập tên cho công việc của bạn.
- Trong Loại phân tích, chọn Cụm từ khóa.
- Trong Ngôn ngữchọn Tiếng Anh.
- Trong Vị trí dữ liệu đầu vào, hãy chỉ định thư mục bạn đã tạo làm điều kiện tiên quyết.
- Trong Vị trí dữ liệu đầu ra, hãy chỉ định thư mục bạn đã tạo làm điều kiện tiên quyết.
- Chọn Tạo vai trò IAM.
- Nhập hậu tố cho tên vai trò.
- Chọn Tạo việc làm.
Công việc sẽ chạy và trạng thái sẽ được hiển thị trên Công việc phân tích .
Đợi công việc phân tích hoàn tất. Amazon Comprehend sẽ tạo một tệp và đặt nó vào thư mục dữ liệu đầu ra mà bạn đã cung cấp. Tệp có định dạng .gz hoặc GZIP.
Tệp này cần được tải xuống và chuyển đổi sang định dạng không nén. Bạn có thể tải xuống một đối tượng từ thư mục dữ liệu hoặc bộ chứa S3 bằng bảng điều khiển Amazon S3.
- Trên bảng điều khiển Amazon S3, chọn đối tượng và chọn Tải về. Nếu bạn muốn tải đối tượng xuống một thư mục cụ thể, hãy chọn Tải về trên Hoạt động đơn.
- Sau khi bạn tải tệp xuống máy tính cục bộ của mình, hãy mở tệp nén và lưu dưới dạng tệp không nén.
Tệp không nén phải được tải lên thư mục đầu ra trước khi trình thu thập dữ liệu AWS Glue có thể xử lý tệp đó. Trong ví dụ này, chúng tôi tải tệp không nén lên cùng thư mục đầu ra mà chúng tôi sử dụng trong các bước sau.
- Trên bảng điều khiển Amazon S3, hãy điều hướng đến bộ chứa S3 của bạn và chọn Tải lên.
- Chọn Thêm file.
- Chọn các tệp không nén từ máy tính cục bộ của bạn.
- Chọn Tải lên.
Sau khi bạn tải tệp lên, hãy xóa tệp nén gốc.
- Trên bảng điều khiển Amazon S3, chọn nhóm và chọn Xóa bỏ.
- Xác nhận tên tệp để xóa tệp vĩnh viễn bằng cách nhập tên tệp vào hộp văn bản.
- Chọn Xóa các đối tượng.
Thao tác này sẽ để lại một tệp còn lại trong thư mục đầu ra: tệp không nén.
Chuyển đổi dữ liệu JSON sang định dạng bảng bằng AWS Glue
Ở bước này, bạn chuẩn bị đầu ra Amazon Comprehend để sử dụng làm đầu vào cho Athena. Đầu ra của Amazon Comprehend có định dạng JSON. Bạn có thể sử dụng AWS Glue để chuyển đổi JSON thành cấu trúc cơ sở dữ liệu để QuickSight đọc được cuối cùng.
- Trên bảng điều khiển AWS Glue, hãy chọn Trình thu thập thông tin trong khung điều hướng.
- Chọn Tạo trình thu thập thông tin.
- Nhập tên cho trình thu thập thông tin của bạn.
- Chọn Sau.
- Trong Dữ liệu của bạn đã được ánh xạ tới bảng Keo chưa, lựa chọn Chưa được.
- Thêm nguồn dữ liệu.
- Trong Đường dẫn S3, nhập vị trí của thư mục dữ liệu đầu ra Amazon Comprehend.
Hãy chắc chắn để thêm dấu /
vào tên đường dẫn. AWS Glue sẽ tìm kiếm đường dẫn thư mục cho tất cả các tệp.
- Chọn Thu thập tất cả các thư mục con.
- Chọn Thêm nguồn dữ liệu S3.
- Tạo một cái mới Quản lý truy cập và nhận dạng AWS (IAM) cho trình thu thập thông tin.
- Nhập tên cho vai trò IAM.
- Chọn Cập nhật vai trò IAM đã chọn để đảm bảo vai trò mới được gán cho trình thu thập thông tin.
- Chọn Sau để nhập thông tin đầu ra (cơ sở dữ liệu).
- Chọn Thêm cơ sở dữ liệu.
- Nhập tên cơ sở dữ liệu.
- Chọn Sau.
- Chọn Tạo trình thu thập thông tin.
- Chọn Chạy trình thu thập thông tin để chạy trình thu thập thông tin.
Bạn có thể theo dõi trạng thái của trình thu thập thông tin trên bảng điều khiển AWS Glue.
Sử dụng Athena để chuẩn bị bảng cho QuickSight
Athena sẽ trích xuất dữ liệu từ các bảng cơ sở dữ liệu mà trình thu thập dữ liệu AWS Glue đã tạo để cung cấp định dạng mà QuickSight sẽ sử dụng để tạo đám mây từ.
- Trên bảng điều khiển Athena, chọn Trình chỉnh sửa truy vấn trong khung điều hướng.
- Trong Nguồn dữ liệu, chọn Danh mục dữ liệu Aws.
- Trong Cơ sở dữ liệu, hãy chọn cơ sở dữ liệu mà trình thu thập thông tin đã tạo.
Để tạo bảng tương thích với QuickSight, dữ liệu phải được tách khỏi mảng.
- Bước đầu tiên là tạo cơ sở dữ liệu tạm thời với dữ liệu Amazon Comprehend có liên quan:
- Tuyên bố sau đây giới hạn các cụm từ có ít nhất ba từ và nhóm theo tần suất của các cụm từ:
Sử dụng QuickSight để trực quan hóa đầu ra
Cuối cùng, bạn có thể tạo đầu ra trực quan từ quá trình phân tích.
- Trên bảng điều khiển QuickSight, chọn Phân tích mới.
- Chọn Tập dữ liệu mới.
- Trong Tạo tập dữ liệu, chọn Từ nguồn dữ liệu mới.
- Chọn Athena làm nguồn dữ liệu.
- Nhập tên cho nguồn dữ liệu và chọn Tạo nguồn dữ liệu.
- Chọn Hình dung.
Đảm bảo QuickSight có quyền truy cập vào nhóm S3 nơi lưu trữ các bảng Athena.
- Trên bảng điều khiển QuickSight, chọn biểu tượng hồ sơ người dùng và chọn Quản lý QuickSight.
- Chọn Bảo mật và quyền.
- Tìm phần Quyền truy cập QuickSight vào các dịch vụ AWS.
Bằng cách định cấu hình quyền truy cập vào các dịch vụ AWS, QuickSight có thể truy cập dữ liệu trong các dịch vụ đó. Quyền truy cập của người dùng và nhóm có thể được kiểm soát thông qua các tùy chọn.
- Xác minh Amazon S3 được cấp quyền truy cập.
Bây giờ bạn có thể tạo đám mây từ.
- Chọn từ đám mây bên dưới Các loại hình ảnh.
- Kéo văn bản vào Nhóm theo và đếm đến Kích thước máy.
Chọn menu tùy chọn (ba dấu chấm) trong hình ảnh trực quan để truy cập các tùy chọn chỉnh sửa. Ví dụ: bạn có thể muốn ẩn cụm từ “khác” khỏi màn hình. Bạn cũng có thể chỉnh sửa các mục như tiêu đề, phụ đề cho hình ảnh của mình. Để tải xuống đám mây từ dưới dạng PDF, hãy chọn Tải về trên thanh công cụ QuickSight.
Làm sạch
Để tránh phát sinh phí liên tục, hãy xóa mọi dữ liệu và quy trình hoặc tài nguyên không sử dụng được cung cấp trên bảng điều khiển dịch vụ tương ứng.
Kết luận
Amazon Comprehend sử dụng NLP để trích xuất thông tin chuyên sâu về nội dung tài liệu. Nó phát triển những hiểu biết sâu sắc bằng cách nhận dạng các thực thể, cụm từ khóa, ngôn ngữ, tình cảm và các yếu tố phổ biến khác trong tài liệu. Bạn có thể sử dụng Amazon Comprehend để tạo ra sản phẩm mới dựa trên việc hiểu cấu trúc của tài liệu. Ví dụ: với Amazon Comprehend, bạn có thể quét toàn bộ kho tài liệu để tìm các cụm từ khóa.
Bài đăng này mô tả các bước xây dựng đám mây từ để trực quan hóa bản phân tích nội dung văn bản từ Amazon Comprehend bằng cách sử dụng các công cụ AWS và QuickSight để trực quan hóa dữ liệu.
Hãy giữ liên lạc qua phần bình luận nhé!
Về các tác giả
Kris Gedman là công ty dẫn đầu doanh số bán hàng Miền Đông Hoa Kỳ về Bán lẻ & CPG tại Amazon Web Services. Khi không làm việc, anh ấy thích dành thời gian cho bạn bè và gia đình, đặc biệt là mùa hè ở Cape Cod. Kris là một Chiến binh Ninja tạm thời đã nghỉ hưu nhưng hiện tại anh ấy rất thích theo dõi và huấn luyện hai con trai của mình.
Clark Lefavour là lãnh đạo Kiến trúc sư giải pháp tại Amazon Web Services, hỗ trợ khách hàng doanh nghiệp ở khu vực phía Đông. Clark có trụ sở tại New England và thích dành thời gian xây dựng các công thức nấu ăn trong nhà bếp.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Ô tô / Xe điện, Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- ChartPrime. Nâng cao trò chơi giao dịch của bạn với ChartPrime. Truy cập Tại đây.
- BlockOffsets. Hiện đại hóa quyền sở hữu bù đắp môi trường. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- : có
- :là
- :không phải
- :Ở đâu
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- Giới thiệu
- Chấp nhận
- truy cập
- Tài khoản
- thêm vào
- Ngoài ra
- AI
- Tất cả
- Đã
- Ngoài ra
- đàn bà gan dạ
- Amazon hiểu
- Amazon QuickSight
- Amazon Web Services
- an
- phân tích
- phân tích
- phân tích
- và
- bất kì
- phương pháp tiếp cận
- kiến trúc
- LÀ
- AS
- giao
- At
- tránh
- AWS
- Keo AWS
- dựa
- cơ bản
- BE
- trước
- bắt đầu
- Hộp
- xây dựng
- Xây dựng
- nhưng
- by
- CAN
- tải
- Chọn
- lựa chọn
- phân loại
- đám mây
- huấn luyện
- Bình luận
- Chung
- tương thích
- hoàn thành
- hiểu
- máy tính
- An ủi
- Hiến pháp
- nội dung
- kiểm soát
- thông thường
- chuyển đổi
- chuyển đổi
- hơn nữa
- cpg
- thu thập thông tin
- tạo
- tạo ra
- tạo ra
- Vượt qua
- khách hàng
- khách hàng
- dữ liệu
- Cơ sở dữ liệu
- sâu sắc hơn
- triển khai
- mô tả
- mong muốn
- phát triển
- thảo luận
- Giao diện
- hiển thị
- do
- tài liệu
- tài liệu
- miền
- tải về
- dễ dàng
- Đông
- các yếu tố
- loại trừ hết
- cho phép
- Nước Anh
- đăng ký hạng mục thi
- vào
- Doanh nghiệp
- Toàn bộ
- thực thể
- thực thể
- đặc biệt
- ví dụ
- các chuyên gia
- trích xuất
- gia đình
- Tập tin
- Các tập tin
- tìm kiếm
- Tên
- tiếp theo
- Trong
- định dạng
- tần số
- bạn bè
- từ
- đầy đủ
- thu thập
- tạo ra
- cấp
- Nhóm
- Các nhóm
- Có
- he
- Ẩn giấu
- của mình
- GIỜ LÀM VIỆC
- HTML
- http
- HTTPS
- ICON
- Bản sắc
- if
- minh họa
- hình ảnh
- in
- thông tin
- đầu vào
- những hiểu biết
- trong
- IT
- mặt hàng
- Việc làm
- tham gia
- jpg
- json
- Key
- Ngôn ngữ
- một lát sau
- lãnh đạo
- học tập
- ít nhất
- Rời bỏ
- cho phép
- Lượt thích
- giới hạn
- tải
- địa phương
- địa điểm thư viện nào
- yêu
- máy
- học máy
- quản lý
- nhiều
- Menu
- microsoft
- Might
- ML
- kiểu mẫu
- mô hình
- Màn Hình
- chi tiết
- nhiều
- phải
- tên
- Tự nhiên
- Xử lý ngôn ngữ tự nhiên
- Điều hướng
- THÔNG TIN
- cần thiết
- nhu cầu
- Mới
- sản phẩm mới
- ninja
- nlp
- Thông thường
- tại
- vật
- of
- on
- ONE
- đang diễn ra
- mở
- Các lựa chọn
- or
- gọi món
- nguyên
- Nền tảng khác
- đầu ra
- riêng
- trang
- cửa sổ
- con đường
- vĩnh viễn
- cụm từ
- Nơi
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- Bài đăng
- quyền lực
- mạnh mẽ
- Chuẩn bị
- điều kiện tiên quyết
- quá trình
- Xử lý
- Quy trình
- xử lý
- Sản phẩm
- Hồ sơ
- cho
- cung cấp
- Đọc
- sẵn sàng
- công nhận
- xem
- khu
- Mối quan hệ
- có liên quan
- còn lại
- kho
- Thông tin
- mà
- bán lẻ
- Vai trò
- chạy
- bán hàng
- tương tự
- Lưu
- quét
- Điểm số
- Tìm kiếm
- Phần
- tình cảm
- cảm xúc
- dịch vụ
- DỊCH VỤ
- nên
- Đơn giản
- giải pháp
- Giải pháp
- nguồn
- riêng
- Chi
- Spot
- Tuyên bố
- Trạng thái
- ở lại
- Bước
- Các bước
- là gắn
- lưu trữ
- cấu trúc
- như vậy
- Hỗ trợ
- chắc chắn
- bàn
- Hãy
- nhiệm vụ
- tạm thời
- kỳ hạn
- văn bản
- việc này
- Sản phẩm
- cung cấp their dịch
- chủ đề
- sau đó
- điều này
- những
- số ba
- Thông qua
- thời gian
- Yêu sách
- đến
- công cụ
- chạm
- truyền thống
- Trailing
- Train
- chuyển đổi
- Xu hướng
- hai
- loại
- Cuối cùng
- Dưới
- sự hiểu biết
- không sử dụng
- tải lên
- us
- sử dụng
- đã sử dụng
- người sử dang
- Người sử dụng
- sử dụng
- sử dụng
- xác minh
- thông qua
- hình dung
- hình dung
- hương
- muốn
- xem
- we
- web
- các dịch vụ web
- khi nào
- cái nào
- sẽ
- với
- Từ
- từ
- quy trình làm việc
- đang làm việc
- nhưng
- Bạn
- trên màn hình
- zephyrnet