Trong thời đại thông tin ngày nay, khối lượng dữ liệu khổng lồ được lưu trữ trong vô số tài liệu vừa là thách thức vừa là cơ hội cho các doanh nghiệp. Các phương pháp xử lý tài liệu truyền thống thường thiếu hiệu quả và độ chính xác, nhường chỗ cho sự đổi mới, hiệu quả chi phí và tối ưu hóa. Xử lý tài liệu đã chứng kiến những tiến bộ đáng kể với sự ra đời của Xử lý tài liệu thông minh (IDP). Với IDP, doanh nghiệp có thể chuyển đổi dữ liệu phi cấu trúc từ nhiều loại tài liệu khác nhau thành thông tin chi tiết có cấu trúc, hữu ích, nâng cao đáng kể hiệu quả và giảm bớt nỗ lực thủ công. Tuy nhiên, tiềm năng không kết thúc ở đó. Bằng cách tích hợp trí tuệ nhân tạo tổng quát (AI) vào quy trình, chúng tôi có thể nâng cao hơn nữa khả năng của IDP. AI sáng tạo không chỉ giới thiệu các khả năng nâng cao trong xử lý tài liệu mà còn giới thiệu khả năng thích ứng linh hoạt với việc thay đổi mẫu dữ liệu. Bài đăng này sẽ đưa bạn tìm hiểu sức mạnh tổng hợp của IDP và AI tổng hợp, tiết lộ cách chúng đại diện cho biên giới tiếp theo trong xử lý tài liệu.
Chúng tôi thảo luận chi tiết về IDP trong loạt bài Xử lý tài liệu thông minh với các dịch vụ AWS AI (Phần 1 và Phần 2). Trong bài đăng này, chúng tôi thảo luận về cách mở rộng kiến trúc IDP mới hoặc hiện có bằng các mô hình ngôn ngữ lớn (LLM). Cụ thể hơn, chúng tôi thảo luận về cách chúng tôi có thể tích hợp Văn bản Amazon với LangChain như một trình tải tài liệu và nền tảng Amazon để trích xuất dữ liệu từ tài liệu và sử dụng các khả năng AI tổng hợp trong các giai đoạn IDP khác nhau.
Amazon Textract là dịch vụ machine learning (ML) tự động trích xuất văn bản, chữ viết tay và dữ liệu từ các tài liệu được quét. Amazon Bedrock là dịch vụ được quản lý toàn phần cung cấp nhiều lựa chọn về mô hình nền tảng (FM) hiệu suất cao thông qua các API dễ sử dụng.
Sơ đồ sau đây là kiến trúc tham chiếu cấp cao giải thích cách bạn có thể nâng cao hơn nữa quy trình làm việc IDP bằng các mô hình nền tảng. Bạn có thể sử dụng LLM trong một hoặc tất cả các giai đoạn của IDP tùy thuộc vào trường hợp sử dụng và kết quả mong muốn.
Trong các phần sau, chúng ta sẽ đi sâu vào cách Amazon Textract được tích hợp vào quy trình công việc AI tổng hợp bằng cách sử dụng LangChain để xử lý tài liệu cho từng tác vụ cụ thể này. Các khối mã được cung cấp ở đây đã được cắt bớt để cho ngắn gọn. Tham khảo của chúng tôi Kho GitHub để có sổ ghi chép Python chi tiết và hướng dẫn từng bước.
Trích xuất văn bản từ tài liệu là một khía cạnh quan trọng khi xử lý tài liệu bằng LLM. Bạn có thể sử dụng Amazon Textract để trích xuất văn bản thô không có cấu trúc từ tài liệu và giữ lại các đối tượng có cấu trúc hoặc bán cấu trúc ban đầu như các cặp khóa-giá trị và bảng có trong tài liệu. Các gói tài liệu như yêu cầu chăm sóc sức khỏe và bảo hiểm hoặc thế chấp bao gồm các biểu mẫu phức tạp chứa nhiều thông tin ở các định dạng có cấu trúc, bán cấu trúc và không cấu trúc. Trích xuất tài liệu là một bước quan trọng ở đây vì LLM được hưởng lợi từ nội dung phong phú để tạo ra phản hồi chính xác và phù hợp hơn, điều này có thể ảnh hưởng đến chất lượng đầu ra của LLM.
LangChain là một khung mã nguồn mở mạnh mẽ để tích hợp với LLM. LLM nói chung rất linh hoạt nhưng có thể gặp khó khăn với các nhiệm vụ theo miền cụ thể, nơi cần có bối cảnh sâu hơn và phản hồi theo sắc thái. LangChain trao quyền cho các nhà phát triển trong những tình huống như vậy để xây dựng các tác nhân có thể chia nhỏ các nhiệm vụ phức tạp thành các nhiệm vụ phụ nhỏ hơn. Sau đó, các tác vụ phụ có thể đưa ngữ cảnh và bộ nhớ vào LLM bằng cách kết nối và xâu chuỗi các lời nhắc LLM.
Ưu đãi của LangChain bộ tải tài liệu có thể tải và chuyển đổi dữ liệu từ các tài liệu. Bạn có thể sử dụng chúng để cấu trúc tài liệu thành các định dạng ưa thích mà LLM có thể xử lý. Các AmazonTextractPDFLoader là một loại trình tải tài liệu của trình tải dịch vụ cung cấp cách thức nhanh chóng để tự động hóa quá trình xử lý tài liệu bằng cách sử dụng Amazon Textract kết hợp với LangChain. Để biết thêm chi tiết về AmazonTextractPDFLoader
, Tham khảo đến LangChain tài liệu. Để sử dụng trình tải tài liệu Amazon Textract, bạn bắt đầu bằng cách nhập nó từ thư viện LangChain:
from langchain.document_loaders import AmazonTextractPDFLoader
https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()
Bạn cũng có thể lưu trữ tài liệu trong Amazon S3 và tham khảo chúng bằng mẫu URL s3://, như được giải thích trong Truy cập nhóm bằng S3://và chuyển đường dẫn S3 này tới trình tải PDF của Amazon Textract:
import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()
Một tài liệu nhiều trang sẽ chứa nhiều trang văn bản, sau đó có thể được truy cập thông qua đối tượng tài liệu, đó là danh sách các trang. Đoạn mã sau lặp qua các trang trong đối tượng tài liệu và in văn bản tài liệu, có sẵn thông qua page_content
thuộc tính:
print(len(documents)) for document in documents: print(document.page_content)
Amazon Comprehend và LLM có thể được sử dụng hiệu quả để phân loại tài liệu. Amazon Comprehend là dịch vụ xử lý ngôn ngữ tự nhiên (NLP) sử dụng ML để trích xuất thông tin chuyên sâu từ văn bản. Amazon Comprehend cũng hỗ trợ đào tạo mô hình phân loại tùy chỉnh với khả năng nhận biết bố cục trên các tài liệu như PDF, Word và định dạng hình ảnh. Để biết thêm thông tin về cách sử dụng trình phân loại tài liệu Amazon Comprehend, hãy tham khảo Trình phân loại tài liệu Amazon Comprehend bổ sung hỗ trợ bố cục để có độ chính xác cao hơn.
Khi kết hợp với LLM, việc phân loại tài liệu trở thành một phương pháp mạnh mẽ để quản lý khối lượng lớn tài liệu. LLM rất hữu ích trong việc phân loại tài liệu vì chúng có thể phân tích văn bản, mẫu và các yếu tố ngữ cảnh trong tài liệu bằng cách hiểu ngôn ngữ tự nhiên. Bạn cũng có thể tinh chỉnh chúng cho các lớp tài liệu cụ thể. Khi một loại tài liệu mới được giới thiệu trong đường dẫn IDP cần phân loại, LLM có thể xử lý văn bản và phân loại tài liệu dựa trên một tập hợp các lớp. Sau đây là mã mẫu sử dụng trình tải tài liệu LangChain do Amazon Textract cung cấp để trích xuất văn bản từ tài liệu và sử dụng nó để phân loại tài liệu. Chúng tôi sử dụng Nhân chủng học Claude v2 mô hình thông qua Amazon Bedrock để thực hiện phân loại.
Trong ví dụ sau, trước tiên chúng tôi trích xuất văn bản từ báo cáo xuất viện của bệnh nhân và sử dụng LLM để phân loại nó dựa trên danh sách ba loại tài liệu khác nhau—DISCHARGE_SUMMARY
, RECEIPT
và PRESCRIPTION
. Ảnh chụp màn hình sau đây hiển thị báo cáo của chúng tôi.
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")
Tóm tắt bao gồm việc cô đọng một văn bản hoặc tài liệu nhất định thành một phiên bản ngắn hơn trong khi vẫn giữ được thông tin chính của nó. Kỹ thuật này có lợi cho việc truy xuất thông tin hiệu quả, giúp người dùng nhanh chóng nắm bắt được những điểm chính của tài liệu mà không cần đọc toàn bộ nội dung. Mặc dù Amazon Textract không trực tiếp thực hiện tóm tắt văn bản nhưng nó cung cấp các khả năng cơ bản để trích xuất toàn bộ văn bản từ tài liệu. Văn bản được trích xuất này đóng vai trò là đầu vào cho mô hình LLM của chúng tôi để thực hiện các tác vụ tóm tắt văn bản.
Sử dụng cùng một báo cáo xả mẫu, chúng tôi sử dụng AmazonTextractPDFLoader
để trích xuất văn bản từ tài liệu này. Như trước đây, chúng tôi sử dụng mô hình Claude v2 thông qua Amazon Bedrock và khởi tạo nó bằng lời nhắc chứa hướng dẫn về những việc cần làm với văn bản (trong trường hợp này là tóm tắt). Cuối cùng, chúng tôi chạy chuỗi LLM bằng cách chuyển văn bản được trích xuất từ trình tải tài liệu vào. Thao tác này sẽ chạy một hành động suy luận trên LLM với dấu nhắc bao gồm các hướng dẫn tóm tắt và văn bản của tài liệu được đánh dấu bằng Document
. Xem mã sau đây:
Mã tạo ra bản tóm tắt của báo cáo tóm tắt xuất viện của bệnh nhân:
Ví dụ trước sử dụng tài liệu một trang để thực hiện tóm tắt. Tuy nhiên, bạn có thể sẽ phải xử lý các tài liệu có nhiều trang cần tóm tắt. Một cách phổ biến để thực hiện tóm tắt trên nhiều trang là trước tiên tạo các bản tóm tắt trên các đoạn văn bản nhỏ hơn, sau đó kết hợp các phần tóm tắt nhỏ hơn để có được bản tóm tắt cuối cùng của tài liệu. Lưu ý rằng phương pháp này yêu cầu nhiều cuộc gọi tới LLM. Logic cho việc này có thể được tạo ra một cách dễ dàng; tuy nhiên, LangChain cung cấp chuỗi tóm tắt tích hợp có thể tóm tắt các văn bản lớn (từ các tài liệu nhiều trang). Việc tóm tắt có thể xảy ra thông qua map_reduce
Hoặc với stuff
các tùy chọn có sẵn dưới dạng tùy chọn để quản lý nhiều cuộc gọi đến LLM. Trong ví dụ sau, chúng tôi sử dụng map_reduce
để tóm tắt một tài liệu nhiều trang. Hình dưới đây minh họa quy trình làm việc của chúng tôi.
Trước tiên hãy bắt đầu bằng cách trích xuất tài liệu và xem tổng số mã thông báo trên mỗi trang cũng như tổng số trang:
Tiếp theo, chúng tôi sử dụng công cụ tích hợp sẵn của LangChain load_summarize_chain
để tóm tắt toàn bộ tài liệu:
from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())
Tiêu chuẩn hóa và hỏi đáp
Trong phần này, chúng ta thảo luận về các nhiệm vụ tiêu chuẩn hóa và Hỏi đáp.
Tiêu chuẩn hoá
Chuẩn hóa đầu ra là một nhiệm vụ tạo văn bản trong đó LLM được sử dụng để cung cấp định dạng nhất quán cho văn bản đầu ra. Tác vụ này đặc biệt hữu ích cho việc tự động hóa việc trích xuất thực thể khóa đòi hỏi đầu ra phải được căn chỉnh theo các định dạng mong muốn. Ví dụ: chúng tôi có thể làm theo các phương pháp hay nhất về kỹ thuật nhanh chóng để tinh chỉnh LLM nhằm định dạng ngày thành định dạng MM/DD/YYYY, định dạng này có thể tương thích với cột DATE của cơ sở dữ liệu. Khối mã sau đây hiển thị một ví dụ về cách thực hiện việc này bằng cách sử dụng LLM và kỹ thuật nhắc nhở. Chúng tôi không chỉ chuẩn hóa định dạng đầu ra cho các giá trị ngày mà còn nhắc mô hình tạo đầu ra cuối cùng ở định dạng JSON để dễ dàng sử dụng trong các ứng dụng tiếp theo của chúng tôi. Chúng tôi sử dụng Ngôn ngữ biểu thức LangChain (LCEL) để xâu chuỗi hai hành động lại với nhau. Hành động đầu tiên sẽ nhắc LLM tạo đầu ra có định dạng JSON chỉ gồm các ngày trong tài liệu. Hành động thứ hai lấy đầu ra JSON và chuẩn hóa định dạng ngày. Lưu ý rằng hành động hai bước này cũng có thể được thực hiện trong một bước duy nhất với kỹ thuật nhanh chóng thích hợp, như chúng ta sẽ thấy trong quá trình chuẩn hóa và tạo khuôn mẫu.
Đầu ra của mẫu mã trước đó là cấu trúc JSON có ngày 07/09/2020 và 08/09/2020, có định dạng DD/MM/YYYY và lần lượt là ngày nhập viện và xuất viện của bệnh nhân, theo vào báo cáo tóm tắt xuất viện.
Hỏi đáp với thế hệ tăng cường truy xuất
LLM được biết là lưu giữ thông tin thực tế, thường được gọi là kiến thức thế giới hoặc thế giới quan của họ. Khi được tinh chỉnh, chúng có thể tạo ra kết quả hiện đại. Tuy nhiên, có những hạn chế về mức độ hiệu quả của LLM có thể truy cập và vận dụng kiến thức này. Kết quả là, trong các nhiệm vụ phụ thuộc nhiều vào kiến thức cụ thể, hiệu suất của chúng có thể không tối ưu trong một số trường hợp sử dụng nhất định. Ví dụ: trong các tình huống Hỏi & Đáp, điều cần thiết là mô hình phải tuân thủ nghiêm ngặt bối cảnh được cung cấp trong tài liệu mà không chỉ dựa vào kiến thức thế giới của nó. Đi chệch khỏi điều này có thể dẫn đến trình bày sai, không chính xác hoặc thậm chí phản hồi không chính xác. Phương pháp được sử dụng phổ biến nhất để giải quyết vấn đề này được gọi là Truy xuất thế hệ tăng cường (GIẺ). Cách tiếp cận này tổng hợp các điểm mạnh của cả mô hình truy xuất và mô hình ngôn ngữ, nâng cao độ chính xác và chất lượng của các phản hồi được tạo ra.
LLM cũng có thể áp đặt các giới hạn về mã thông báo do hạn chế về bộ nhớ và giới hạn của phần cứng mà chúng chạy trên đó. Để giải quyết vấn đề này, các kỹ thuật như phân đoạn được sử dụng để chia các tài liệu lớn thành các phần nhỏ hơn phù hợp với giới hạn mã thông báo của LLM. Mặt khác, các phần nhúng được sử dụng trong NLP chủ yếu để nắm bắt ý nghĩa ngữ nghĩa của các từ và mối quan hệ của chúng với các từ khác trong không gian nhiều chiều. Những phần nhúng này biến đổi các từ thành vectơ, cho phép các mô hình xử lý và hiểu dữ liệu văn bản một cách hiệu quả. Bằng cách hiểu các sắc thái ngữ nghĩa giữa các từ và cụm từ, phần nhúng cho phép LLM tạo ra các kết quả đầu ra mạch lạc và phù hợp với ngữ cảnh. Lưu ý các thuật ngữ chính sau:
- Chunk – Quá trình này chia nhỏ một lượng lớn văn bản từ tài liệu thành các đoạn văn bản nhỏ hơn, có ý nghĩa.
- Nhúng – Đây là các phép biến đổi vectơ có chiều cố định của từng đoạn giữ lại thông tin ngữ nghĩa từ các đoạn. Những phần nhúng này sau đó được tải vào cơ sở dữ liệu vectơ.
- Cơ sở dữ liệu vectơ – Đây là cơ sở dữ liệu nhúng từ hoặc vectơ thể hiện ngữ cảnh của từ. Nó hoạt động như một nguồn kiến thức hỗ trợ các nhiệm vụ NLP trong quy trình xử lý tài liệu. Lợi ích của cơ sở dữ liệu vectơ ở đây là chỉ cho phép cung cấp ngữ cảnh cần thiết cho LLM trong quá trình tạo văn bản, như chúng tôi giải thích trong phần sau.
RAG sử dụng sức mạnh của phần nhúng để hiểu và tìm nạp các phân đoạn tài liệu có liên quan trong giai đoạn truy xuất. Bằng cách đó, RAG có thể hoạt động trong giới hạn mã thông báo của LLM, đảm bảo thông tin thích hợp nhất được chọn để tạo, dẫn đến kết quả đầu ra chính xác hơn và phù hợp với ngữ cảnh hơn.
Sơ đồ sau đây minh họa việc tích hợp các kỹ thuật này để tạo đầu vào cho LLM, nâng cao hiểu biết theo ngữ cảnh của chúng và cho phép phản hồi trong ngữ cảnh phù hợp hơn. Một cách tiếp cận liên quan đến tìm kiếm tương tự, sử dụng cả cơ sở dữ liệu vectơ và phân đoạn. Cơ sở dữ liệu vectơ lưu trữ các phần nhúng thể hiện thông tin ngữ nghĩa và việc phân chia văn bản thành các phần có thể quản lý được. Sử dụng bối cảnh này từ tìm kiếm tương tự, LLM có thể chạy các tác vụ như trả lời câu hỏi và các hoạt động theo miền cụ thể như phân loại và làm phong phú.
Đối với bài đăng này, chúng tôi sử dụng cách tiếp cận dựa trên RAG để thực hiện Hỏi đáp theo ngữ cảnh với các tài liệu. Trong mẫu mã sau đây, chúng tôi trích xuất văn bản từ một tài liệu rồi chia tài liệu thành các đoạn văn bản nhỏ hơn. Việc phân đoạn là bắt buộc vì chúng tôi có thể có các tài liệu lớn nhiều trang và LLM của chúng tôi có thể có giới hạn mã thông báo. Các khối này sau đó được tải vào cơ sở dữ liệu vectơ để thực hiện tìm kiếm tương tự trong các bước tiếp theo. Trong ví dụ sau, chúng tôi sử dụng mô hình Amazon Titan Embed Text v1, mô hình này thực hiện việc nhúng vectơ của các đoạn tài liệu:
Mã này tạo ra một ngữ cảnh có liên quan cho LLM bằng cách sử dụng các đoạn văn bản được trả về bởi hành động tìm kiếm tương tự từ cơ sở dữ liệu vectơ. Trong ví dụ này, chúng tôi sử dụng mã nguồn mở Cửa hàng vector FAISS như một cơ sở dữ liệu vectơ mẫu để lưu trữ các phần nhúng vectơ của từng đoạn văn bản. Sau đó chúng tôi định nghĩa cơ sở dữ liệu vector là một chó tha mồi LangChain, được chuyển vào RetrievalQA
xích. Điều này chạy nội bộ một truy vấn tìm kiếm tương tự trên cơ sở dữ liệu vectơ trả về n đoạn văn bản hàng đầu (trong đó n=3 trong ví dụ của chúng tôi) có liên quan đến câu hỏi. Cuối cùng, chuỗi LLM được chạy với bối cảnh liên quan (một nhóm các đoạn văn bản có liên quan) và câu hỏi để LLM trả lời. Để biết hướng dẫn từng bước về mã Hỏi & Đáp với RAG, hãy tham khảo sổ ghi chép Python trên GitHub.
Để thay thế cho FAISS, bạn cũng có thể sử dụng Khả năng cơ sở dữ liệu vector của Amazon OpenSearch Service, Dịch vụ cơ sở dữ liệu quan hệ của Amazon (Amazon RDS) dành cho PostgreSQL với pgvector tiện ích mở rộng dưới dạng cơ sở dữ liệu vectơ hoặc Cơ sở dữ liệu Chroma nguồn mở.
Hỏi đáp với dữ liệu dạng bảng
Dữ liệu dạng bảng trong tài liệu có thể là thách thức đối với LLM khi xử lý vì tính phức tạp về cấu trúc của nó. Amazon Textract có thể được tăng cường bằng LLM vì nó cho phép trích xuất bảng từ tài liệu ở định dạng lồng nhau của các thành phần như trang, bảng và ô. Thực hiện Hỏi & Đáp với dữ liệu dạng bảng là một quá trình gồm nhiều bước và có thể đạt được thông qua tự truy vấn. Sau đây là tổng quan về các bước:
- Trích xuất bảng từ tài liệu bằng Amazon Textract. Với Amazon Textract, cấu trúc dạng bảng (hàng, cột, tiêu đề) có thể được trích xuất từ tài liệu.
- Lưu trữ dữ liệu dạng bảng vào cơ sở dữ liệu vectơ cùng với thông tin siêu dữ liệu, chẳng hạn như tên tiêu đề và mô tả của từng tiêu đề.
- Sử dụng lời nhắc để xây dựng truy vấn có cấu trúc, sử dụng LLM, để lấy dữ liệu từ bảng.
- Sử dụng truy vấn để trích xuất dữ liệu bảng có liên quan từ cơ sở dữ liệu vectơ.
Ví dụ: trong bảng sao kê ngân hàng, với lời nhắc “Giao dịch có số tiền gửi lớn hơn 1000 đô la là gì”, LLM sẽ hoàn thành các bước sau:
- Tạo một truy vấn, chẳng hạn như
“Query: transactions” , “filter: greater than (Deposit$)”
. - Chuyển đổi truy vấn thành truy vấn có cấu trúc.
- Áp dụng truy vấn có cấu trúc vào cơ sở dữ liệu vectơ nơi lưu trữ dữ liệu bảng của chúng tôi.
Để biết hướng dẫn về mã mẫu từng bước của phần Hỏi & Đáp dạng bảng, hãy tham khảo sổ ghi chép Python trong GitHub.
Tạo khuôn mẫu và chuẩn hóa
Trong phần này, chúng ta xem xét cách sử dụng các kỹ thuật kỹ thuật nhanh chóng và cơ chế tích hợp của LangChain để tạo đầu ra bằng cách trích xuất từ một tài liệu trong một lược đồ cụ thể. Chúng tôi cũng thực hiện một số tiêu chuẩn hóa trên dữ liệu được trích xuất bằng cách sử dụng các kỹ thuật đã thảo luận trước đó. Chúng tôi bắt đầu bằng cách xác định mẫu cho đầu ra mong muốn của mình. Điều này sẽ đóng vai trò như một lược đồ và gói gọn các chi tiết về từng thực thể mà chúng ta muốn trích xuất từ văn bản của tài liệu.
Lưu ý rằng đối với mỗi thực thể, chúng tôi sử dụng mô tả để giải thích thực thể đó là gì nhằm giúp hỗ trợ LLM trích xuất giá trị từ văn bản của tài liệu. Trong mã mẫu sau, chúng tôi sử dụng mẫu này để tạo lời nhắc cho LLM cùng với văn bản được trích xuất từ tài liệu bằng cách sử dụng AmazonTextractPDFLoader
và sau đó thực hiện suy luận với mô hình:
Như bạn có thể thấy, {keys}
một phần của lời nhắc là các khóa từ mẫu của chúng tôi và {details}
là những chìa khóa cùng với mô tả của chúng. Trong trường hợp này, chúng tôi không nhắc mô hình một cách rõ ràng với định dạng đầu ra ngoài việc chỉ định trong hướng dẫn để tạo đầu ra ở định dạng JSON. Điều này phần lớn có hiệu quả; tuy nhiên, vì đầu ra từ LLM là tạo văn bản không xác định nên chúng tôi muốn chỉ định định dạng một cách rõ ràng như một phần của lệnh trong lời nhắc. Để giải quyết vấn đề này, chúng ta có thể sử dụng LangChain's trình phân tích cú pháp đầu ra có cấu trúc mô-đun để tận dụng kỹ thuật nhắc nhở tự động giúp chuyển đổi mẫu của chúng tôi thành lời nhắc hướng dẫn định dạng. Chúng tôi sử dụng mẫu được xác định trước đó để tạo lời nhắc hướng dẫn định dạng như sau:
Sau đó, chúng tôi sử dụng biến này trong dấu nhắc ban đầu làm hướng dẫn cho LLM để nó trích xuất và định dạng đầu ra trong lược đồ mong muốn bằng cách thực hiện một sửa đổi nhỏ cho dấu nhắc của chúng tôi:
Cho đến nay, chúng tôi chỉ trích xuất dữ liệu ra khỏi tài liệu theo lược đồ mong muốn. Tuy nhiên, chúng ta vẫn cần thực hiện một số tiêu chuẩn hóa. Ví dụ: chúng tôi muốn ngày nhập viện và ngày xuất viện của bệnh nhân được trích xuất ở định dạng DD/MM/YYYY. Trong trường hợp này, chúng tôi tăng cường description
của khóa với hướng dẫn định dạng:
Tham khảo sổ ghi chép Python trong GitHub để có hướng dẫn và giải thích đầy đủ từng bước.
Kiểm tra chính tả và sửa lỗi
LLM đã chứng tỏ khả năng vượt trội trong việc hiểu và tạo ra văn bản giống con người. Một trong những ứng dụng LLM ít được thảo luận nhưng vô cùng hữu ích là tiềm năng của chúng trong việc kiểm tra ngữ pháp và sửa câu trong tài liệu. Không giống như các trình kiểm tra ngữ pháp truyền thống dựa trên một bộ quy tắc được xác định trước, LLM sử dụng các mẫu mà chúng đã xác định từ lượng lớn dữ liệu văn bản để xác định những gì cấu thành ngôn ngữ chính xác hoặc trôi chảy. Điều này có nghĩa là họ có thể phát hiện các sắc thái, bối cảnh và sự tinh tế mà các hệ thống dựa trên quy tắc có thể bỏ sót.
Hãy tưởng tượng văn bản được trích từ bản tóm tắt xuất viện của bệnh nhân có nội dung “Bệnh nhân Jon Doe, người nhập viện vì bệnh viêm phổi nặng, đã cải thiện đáng kể và có thể xuất viện an toàn. Các cuộc tiếp theo được lên kế hoạch vào tuần tới.” Trình kiểm tra chính tả truyền thống có thể nhận ra lỗi “thừa nhận”, “viêm phổi”, “cải thiện” và “nex”. Tuy nhiên, bối cảnh của những lỗi này có thể dẫn đến những lỗi khác hoặc những gợi ý chung chung. Một LLM, được trang bị chương trình đào tạo chuyên sâu, có thể gợi ý: “Bệnh nhân John Doe, người nhập viện vì bệnh viêm phổi nặng, đã cho thấy sự cải thiện đáng kể và có thể xuất viện an toàn. Việc theo dõi được lên kế hoạch vào tuần tới.”
Sau đây là một tài liệu mẫu viết tay kém có cùng nội dung như đã giải thích trước đó.
Chúng tôi trích xuất tài liệu bằng trình tải tài liệu Amazon Textract, sau đó hướng dẫn LLM, thông qua kỹ thuật nhanh chóng, chỉnh sửa văn bản được trích xuất để sửa mọi lỗi chính tả và/hoặc ngữ pháp:
Đầu ra của mã trước hiển thị văn bản gốc được trích xuất bởi trình tải tài liệu, theo sau là văn bản đã sửa được tạo bởi LLM:
Hãy nhớ rằng LLM cũng mạnh mẽ như vậy nhưng điều cần thiết là phải xem các đề xuất của họ chỉ là những đề xuất đó. Mặc dù chúng nắm bắt được sự phức tạp của ngôn ngữ một cách ấn tượng nhưng chúng không thể sai lầm. Một số gợi ý có thể thay đổi ý nghĩa hoặc giọng điệu dự định của văn bản gốc. Do đó, điều quan trọng đối với người đánh giá là sử dụng các chỉnh sửa do LLM tạo ra làm hướng dẫn chứ không phải tuyệt đối. Sự cộng tác giữa trực giác của con người với khả năng LLM hứa hẹn một tương lai nơi giao tiếp bằng văn bản của chúng ta không chỉ không có lỗi mà còn phong phú hơn và nhiều sắc thái hơn.
Kết luận
AI sáng tạo đang thay đổi cách bạn có thể xử lý tài liệu bằng IDP để rút ra thông tin chi tiết. trong bài viết Tăng cường xử lý tài liệu thông minh AWS bằng AI tổng hợp, chúng tôi đã thảo luận về các giai đoạn khác nhau của quy trình và cách Ricoh, khách hàng của AWS, tăng cường quy trình IDP của họ bằng LLM. Trong bài đăng này, chúng tôi đã thảo luận về các cơ chế khác nhau nhằm tăng cường quy trình làm việc IDP với LLM thông qua Amazon Bedrock, Amazon Textract và khung LangChain phổ biến. Bạn có thể bắt đầu với trình tải tài liệu Amazon Textract mới với LangChain ngay hôm nay bằng cách sử dụng sổ ghi chép mẫu có sẵn trong Kho GitHub. Để biết thêm thông tin về cách làm việc với AI tổng hợp trên AWS, hãy tham khảo Công bố các công cụ mới để xây dựng với AI sáng tạo trên AWS.
Về các tác giả
Sonali Sahu đang dẫn đầu về xử lý tài liệu thông minh với nhóm dịch vụ AI/ML tại AWS. Cô ấy là một tác giả, nhà lãnh đạo tư tưởng và nhà công nghệ đam mê. Lĩnh vực trọng tâm cốt lõi của cô ấy là AI và ML, đồng thời cô ấy thường xuyên phát biểu tại các hội nghị và buổi gặp mặt về AI và ML trên khắp thế giới. Cô ấy có cả bề rộng và bề dày kinh nghiệm về công nghệ và ngành công nghệ, với chuyên môn trong ngành về chăm sóc sức khỏe, lĩnh vực tài chính và bảo hiểm.
Anjan Biswas là Kiến trúc sư giải pháp dịch vụ AI cấp cao, tập trung vào AI/ML và Phân tích dữ liệu. Anjan là thành viên của nhóm dịch vụ AI trên toàn thế giới và làm việc với khách hàng để giúp họ hiểu và phát triển các giải pháp cho các vấn đề kinh doanh với AI và ML. Anjan có hơn 14 năm kinh nghiệm làm việc với các tổ chức chuỗi cung ứng, sản xuất và bán lẻ toàn cầu, đồng thời đang tích cực giúp khách hàng bắt đầu và mở rộng quy mô trên các dịch vụ AI của AWS.
Chinmayee Rane là Kiến trúc sư giải pháp chuyên gia AI/ML tại Amazon Web Services. Cô đam mê toán học ứng dụng và học máy. Cô tập trung vào việc thiết kế các giải pháp xử lý tài liệu thông minh và AI tổng quát cho khách hàng AWS. Ngoài công việc, cô thích nhảy salsa và bachata.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/intelligent-document-processing-with-amazon-textract-amazon-bedrock-and-langchain/
- : có
- :là
- :không phải
- :Ở đâu
- .nex
- $1000
- $ LÊN
- 1
- 10
- 100
- 11
- 12
- 13
- 14
- 15%
- 16
- 22
- 23
- 33
- 35%
- 7
- 9
- a
- khả năng
- Giới thiệu
- Tuyệt đối
- truy cập
- truy cập
- Theo
- chính xác
- chính xác
- đạt được
- ngang qua
- Hoạt động
- hành động
- tích cực
- hoạt động
- hành vi
- Ad
- địa chỉ
- Thêm
- tham gia
- thừa nhận
- thừa nhận
- tiến bộ
- Lợi thế
- sự xuất hiện
- tuổi
- đại lý
- AI
- Dịch vụ AI
- AI / ML
- căn chỉnh
- Tất cả
- Cho phép
- cho phép
- dọc theo
- Ngoài ra
- thay thế
- Mặc dù
- đàn bà gan dạ
- Amazon hiểu
- Amazon RDS
- Văn bản Amazon
- Amazon Web Services
- số lượng
- an
- phân tích
- phân tích
- và
- trả lời
- nhân loại
- bất kì
- API
- các ứng dụng
- áp dụng
- cuộc hẹn
- phương pháp tiếp cận
- kiến trúc
- LÀ
- KHU VỰC
- xung quanh
- Nghệ thuật
- nhân tạo
- trí tuệ nhân tạo
- Trí tuệ nhân tạo (AI)
- AS
- khía cạnh
- hỗ trợ
- Trợ lý
- At
- tăng
- tăng cường
- tác giả
- tự động hóa
- Tự động
- tự động
- Tự động hóa
- có sẵn
- nhận thức
- AWS
- Khách hàng AWS
- Ngân hàng
- BE
- bởi vì
- trở thành
- được
- trước
- mang lại lợi ích
- hưởng lợi
- BEST
- thực hành tốt nhất
- giữa
- Chặn
- Khối
- cả hai
- bề rộng
- Nghỉ giải lao
- nghỉ giải lao
- xây dựng
- Xây dựng
- được xây dựng trong
- kinh doanh
- các doanh nghiệp
- nhưng
- by
- Cuộc gọi
- CAN
- Có thể có được
- khả năng
- nắm bắt
- trường hợp
- trường hợp
- Tế bào
- nhất định
- chuỗi
- chuỗi
- thách thức
- thách thức
- thay đổi
- Những thay đổi
- thay đổi
- Séc
- sự lựa chọn
- tuyên bố
- tốt nghiệp lớp XNUMX
- các lớp học
- phân loại
- Phân loại
- mã
- mạch lạc
- hợp tác
- Cột
- Cột
- kết hợp
- kết hợp
- đến
- Chung
- thông thường
- Giao tiếp
- tương thích
- hoàn thành
- phức tạp
- phức tạp
- hiểu
- ngắn gọn
- hội nghị
- Kết nối
- thích hợp
- bao gồm
- khó khăn
- xây dựng
- chứa
- chứa
- chứa
- nội dung
- bối cảnh
- theo ngữ cảnh
- chuyển đổi
- Trung tâm
- sửa chữa
- sửa chữa
- Sửa chữa
- có thể
- nghề
- chế tạo
- tạo ra
- quan trọng
- khách hàng
- khách hàng
- khách hàng
- Dancing
- dữ liệu
- Phân tích dữ liệu
- Cơ sở dữ liệu
- cơ sở dữ liệu
- Ngày
- Ngày
- nhiều
- sâu
- sâu sắc hơn
- định nghĩa
- xác định
- xác định
- chứng minh
- Tùy
- tiền gửi
- chiều sâu
- mô tả
- Mô tả
- thiết kế
- mong muốn
- chi tiết
- chi tiết
- chi tiết
- phát hiện
- Xác định
- phát triển
- phát triển
- Chế độ ăn uống
- khác nhau
- trực tiếp
- thảo luận
- thảo luận
- bổ nhào
- phân chia
- chia
- do
- Bác sĩ
- tài liệu
- tài liệu hướng dẫn
- tài liệu
- doe
- Không
- làm
- don
- thực hiện
- dont
- xuống
- đột ngột
- hai
- suốt trong
- năng động
- e
- mỗi
- Sớm hơn
- dễ dàng
- dễ sử dụng
- hiệu quả
- hiệu quả
- hiệu quả
- hiệu quả
- những nỗ lực
- hay
- các yếu tố
- nhúng
- việc làm
- trao quyền
- cho phép
- cho phép
- cho phép
- cuối
- Kỹ Sư
- nâng cao
- nâng cao
- tăng cường
- đảm bảo
- đảm bảo
- Toàn bộ
- thực thể
- thực thể
- đã trang bị
- lỗi
- thiết yếu
- Ngay cả
- ví dụ
- Trừ
- ngoại lệ
- hiện tại
- kinh nghiệm
- chuyên môn
- Giải thích
- Giải thích
- Giải thích
- giải thích
- rõ ràng
- biểu hiện
- thêm
- mở rộng
- mở rộng
- trích xuất
- khai thác
- Chất chiết xuất
- Rơi
- sai
- xa
- mệt mỏi
- Lĩnh vực
- Hình
- cuối cùng
- Cuối cùng
- tài chính
- Ngành tài chính
- Tên
- phù hợp với
- Tập trung
- tập trung
- theo
- sau
- tiếp theo
- sau
- Trong
- định dạng
- các hình thức
- tìm thấy
- Nền tảng
- Khung
- Miễn phí
- thường xuyên
- từ
- Frontier
- Full
- đầy đủ
- xa hơn
- tương lai
- Tổng Quát
- tạo ra
- tạo ra
- tạo
- tạo ra
- thế hệ
- thế hệ
- Trí tuệ nhân tạo
- được
- Cho
- được
- Toàn cầu
- ngữ pháp
- sự hiểu biết
- lớn hơn
- Nhóm
- hướng dẫn
- tay
- xử lý
- xảy ra
- Xảy ra
- phần cứng
- Có
- tiêu đề
- chăm sóc sức khỏe
- nặng nề
- giúp đỡ
- hữu ích
- giúp đỡ
- giúp
- cô
- tại đây
- cấp độ cao
- hiệu suất cao
- cao hơn
- giữ
- bệnh viện
- Độ đáng tin của
- Hướng dẫn
- Tuy nhiên
- HTML
- HTTPS
- Nhân loại
- i
- ID
- xác định
- if
- minh họa
- hình ảnh
- vô cùng
- Va chạm
- nhập khẩu
- quan trọng
- nhập khẩu
- áp đặt
- cải thiện
- in
- Bao gồm
- chỉ số
- ngành công nghiệp
- thông tin
- Thời đại thông tin
- sự đổi mới
- đầu vào
- những hiểu biết
- ví dụ
- hướng dẫn
- bảo hiểm
- tích hợp
- tích hợp
- Tích hợp
- hội nhập
- Sự thông minh
- Thông minh
- Xử lý tài liệu thông minh
- dự định
- nội bộ
- trong
- phức tạp
- giới thiệu
- giới thiệu
- Giới thiệu
- IT
- ITS
- Jackson
- nhà vệ sinh
- JOHN DOE
- jon
- jpg
- json
- chỉ
- Key
- phím
- Biết
- kiến thức
- nổi tiếng
- Ngôn ngữ
- lớn
- Bố trí
- dẫn
- lãnh đạo
- hàng đầu
- học tập
- để lại
- Thư viện
- Lượt thích
- Có khả năng
- hạn chế
- giới hạn
- Danh sách
- LLM
- tải
- loader
- logic
- Xem
- Rất nhiều
- máy
- học máy
- Làm
- quản lý
- quản lý
- quản lý
- quản lý
- nhãn hiệu
- sản xuất
- đánh dấu
- toán học
- Có thể..
- me
- có nghĩa là
- có ý nghĩa
- có nghĩa
- cơ chế
- cơ chế
- Meetups
- Bộ nhớ
- Siêu dữ liệu
- Siêu dữ liệu
- phương pháp
- phương pháp
- Might
- tâm
- bỏ lỡ
- sai lầm
- ML
- kiểu mẫu
- mô hình
- Mô-đun
- chi tiết
- Thế chấp
- hầu hết
- nhiều
- tên
- tên
- Tự nhiên
- Xử lý ngôn ngữ tự nhiên
- cần thiết
- Cần
- cần thiết
- nhu cầu
- Mới
- tiếp theo
- tuần tới
- nlp
- máy tính xách tay
- tại
- che
- con số
- vật
- đối tượng
- of
- Cung cấp
- thường
- on
- ONE
- có thể
- mã nguồn mở
- Hoạt động
- Cơ hội
- tối ưu
- Các lựa chọn
- or
- tổ chức
- nguyên
- Nền tảng khác
- nếu không thì
- vfoXNUMXfipXNUMXhfpiXNUMXufhpiXNUMXuf
- ra
- Kết quả
- đầu ra
- kết quả đầu ra
- bên ngoài
- kết thúc
- tổng quan
- gói
- trang
- trang
- Đau
- ghép đôi
- cặp
- một phần
- đặc biệt
- vượt qua
- thông qua
- Đi qua
- đam mê
- con đường
- bệnh nhân
- Họa tiết
- mô hình
- mỗi
- Thực hiện
- hiệu suất
- thực hiện
- biểu diễn
- thực hiện
- giai đoạn
- Bằng tiến sĩ
- cụm từ
- đường ống dẫn
- kế hoạch
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- xin vui lòng
- viêm phổi
- điểm
- Phổ biến
- có thể
- Bài đăng
- tiềm năng
- quyền lực
- -
- mạnh mẽ
- thực hành
- Chính xác
- Độ chính xác
- ưa thích
- trình bày
- trước đây
- chủ yếu
- In
- in
- Vấn đề
- vấn đề
- quá trình
- Xử lý
- xử lý
- sản xuất
- Hứa hẹn
- đúng
- cho
- cung cấp
- nhà cung cấp dịch vụ
- cung cấp
- Python
- Q & A
- chất lượng
- câu hỏi
- Nhanh chóng
- Mau
- Nguyên
- Reading
- công nhận
- giảm
- xem
- tài liệu tham khảo
- gọi
- Mối quan hệ
- có liên quan
- dựa
- dựa vào
- đáng chú ý
- báo cáo
- đại diện
- đại diện
- cần phải
- đòi hỏi
- tương ứng
- phản ứng
- hạn chế
- kết quả
- kết quả
- Kết quả
- bán lẻ
- giữ lại
- giữ lại
- Trả về
- Giàu
- Phòng
- quy tắc
- chạy
- chạy
- s
- một cách an toàn
- tương tự
- nói
- Quy mô
- kịch bản
- lên kế hoạch
- Tìm kiếm
- Thứ hai
- Phần
- phần
- ngành
- xem
- phân đoạn
- chọn
- cao cấp
- kết án
- Loạt Sách
- phục vụ
- phục vụ
- dịch vụ
- DỊCH VỤ
- định
- nghiêm trọng
- chị ấy
- ngắn
- nên
- thể hiện
- Chương trình
- có ý nghĩa
- duy nhất
- nhỏ
- nhỏ hơn
- đoạn
- So
- chỉ duy nhất
- Giải pháp
- động SOLVE
- một số
- nguồn
- Không gian
- Nói
- chuyên gia
- riêng
- đặc biệt
- quy định
- chính tả
- chia
- giai đoạn
- tiêu chuẩn hóa
- Bắt đầu
- bắt đầu
- nhà nước-of-the-art
- Tuyên bố
- Bước
- Các bước
- Vẫn còn
- hàng
- lưu trữ
- cửa hàng
- thế mạnh
- Chuỗi
- cấu trúc
- cấu trúc
- cấu trúc
- Đấu tranh
- tiếp theo
- Sau đó
- như vậy
- đề nghị
- tóm tắt
- TÓM TẮT
- cung cấp
- chuỗi cung ứng
- hỗ trợ
- Hỗ trợ
- sức mạnh tổng hợp
- hệ thống
- bàn
- Hãy
- mất
- Nhiệm vụ
- nhiệm vụ
- nhóm
- kỹ thuật
- kỹ thuật
- nhà công nghệ
- Công nghệ
- mẫu
- về
- văn bản
- văn bản
- hơn
- việc này
- Sản phẩm
- thế giới
- cung cấp their dịch
- Them
- sau đó
- Đó
- vì thế
- Kia là
- họ
- điều này
- nghĩ
- số ba
- Thông qua
- titan
- đến
- bây giờ
- hôm nay
- bên nhau
- mã thông báo
- Tokens
- TẤN
- công cụ
- hàng đầu
- Tổng số:
- truyền thống
- Trailing
- Hội thảo
- Giao dịch
- Chuyển đổi
- biến đổi
- đúng
- thử
- hai
- kiểu
- loại
- hiểu
- sự hiểu biết
- không giống
- hé lộ
- URL
- sử dụng
- ca sử dụng
- đã sử dụng
- Người sử dụng
- sử dụng
- sử dụng
- tận dụng
- Bằng cách sử dụng
- v1
- giá trị
- Các giá trị
- biến
- khác nhau
- Lớn
- linh hoạt
- phiên bản
- thông qua
- Xem
- khối lượng
- hương
- muốn
- là
- Đường..
- we
- web
- các dịch vụ web
- tuần
- TỐT
- Điều gì
- khi nào
- cái nào
- trong khi
- CHÚNG TÔI LÀ
- sẽ
- với
- ở trong
- không có
- chứng kiến
- Từ
- từ
- Công việc
- quy trình làm việc
- Luồng công việc
- đang làm việc
- công trinh
- thế giới
- sẽ
- viết
- X
- năm
- Bạn
- zephyrnet