Xử lý tài liệu thông minh với Amazon Textract, Amazon Bedrock và LangChain

Được xuất bản lại bởi Plato

Người theo dõi: 0

Trong thời đại thông tin ngày nay, khối lượng dữ liệu khổng lồ được lưu trữ trong vô số tài liệu vừa là thách thức vừa là cơ hội cho các doanh nghiệp. Các phương pháp xử lý tài liệu truyền thống thường thiếu hiệu quả và độ chính xác, nhường chỗ cho sự đổi mới, hiệu quả chi phí và tối ưu hóa. Xử lý tài liệu đã chứng kiến những tiến bộ đáng kể với sự ra đời của Xử lý tài liệu thông minh (IDP). Với IDP, doanh nghiệp có thể chuyển đổi dữ liệu phi cấu trúc từ nhiều loại tài liệu khác nhau thành thông tin chi tiết có cấu trúc, hữu ích, nâng cao đáng kể hiệu quả và giảm bớt nỗ lực thủ công. Tuy nhiên, tiềm năng không kết thúc ở đó. Bằng cách tích hợp trí tuệ nhân tạo tổng quát (AI) vào quy trình, chúng tôi có thể nâng cao hơn nữa khả năng của IDP. AI sáng tạo không chỉ giới thiệu các khả năng nâng cao trong xử lý tài liệu mà còn giới thiệu khả năng thích ứng linh hoạt với việc thay đổi mẫu dữ liệu. Bài đăng này sẽ đưa bạn tìm hiểu sức mạnh tổng hợp của IDP và AI tổng hợp, tiết lộ cách chúng đại diện cho biên giới tiếp theo trong xử lý tài liệu.

Chúng tôi thảo luận chi tiết về IDP trong loạt bài Xử lý tài liệu thông minh với các dịch vụ AWS AI (Phần 1 và Phần 2). Trong bài đăng này, chúng tôi thảo luận về cách mở rộng kiến trúc IDP mới hoặc hiện có bằng các mô hình ngôn ngữ lớn (LLM). Cụ thể hơn, chúng tôi thảo luận về cách chúng tôi có thể tích hợp Văn bản Amazon với LangChain như một trình tải tài liệu và nền tảng Amazon để trích xuất dữ liệu từ tài liệu và sử dụng các khả năng AI tổng hợp trong các giai đoạn IDP khác nhau.

Amazon Textract là dịch vụ machine learning (ML) tự động trích xuất văn bản, chữ viết tay và dữ liệu từ các tài liệu được quét. Amazon Bedrock là dịch vụ được quản lý toàn phần cung cấp nhiều lựa chọn về mô hình nền tảng (FM) hiệu suất cao thông qua các API dễ sử dụng.

Sơ đồ sau đây là kiến trúc tham chiếu cấp cao giải thích cách bạn có thể nâng cao hơn nữa quy trình làm việc IDP bằng các mô hình nền tảng. Bạn có thể sử dụng LLM trong một hoặc tất cả các giai đoạn của IDP tùy thuộc vào trường hợp sử dụng và kết quả mong muốn.

Trong các phần sau, chúng ta sẽ đi sâu vào cách Amazon Textract được tích hợp vào quy trình công việc AI tổng hợp bằng cách sử dụng LangChain để xử lý tài liệu cho từng tác vụ cụ thể này. Các khối mã được cung cấp ở đây đã được cắt bớt để cho ngắn gọn. Tham khảo của chúng tôi Kho GitHub để có sổ ghi chép Python chi tiết và hướng dẫn từng bước.

Trích xuất văn bản từ tài liệu là một khía cạnh quan trọng khi xử lý tài liệu bằng LLM. Bạn có thể sử dụng Amazon Textract để trích xuất văn bản thô không có cấu trúc từ tài liệu và giữ lại các đối tượng có cấu trúc hoặc bán cấu trúc ban đầu như các cặp khóa-giá trị và bảng có trong tài liệu. Các gói tài liệu như yêu cầu chăm sóc sức khỏe và bảo hiểm hoặc thế chấp bao gồm các biểu mẫu phức tạp chứa nhiều thông tin ở các định dạng có cấu trúc, bán cấu trúc và không cấu trúc. Trích xuất tài liệu là một bước quan trọng ở đây vì LLM được hưởng lợi từ nội dung phong phú để tạo ra phản hồi chính xác và phù hợp hơn, điều này có thể ảnh hưởng đến chất lượng đầu ra của LLM.

LangChain là một khung mã nguồn mở mạnh mẽ để tích hợp với LLM. LLM nói chung rất linh hoạt nhưng có thể gặp khó khăn với các nhiệm vụ theo miền cụ thể, nơi cần có bối cảnh sâu hơn và phản hồi theo sắc thái. LangChain trao quyền cho các nhà phát triển trong những tình huống như vậy để xây dựng các tác nhân có thể chia nhỏ các nhiệm vụ phức tạp thành các nhiệm vụ phụ nhỏ hơn. Sau đó, các tác vụ phụ có thể đưa ngữ cảnh và bộ nhớ vào LLM bằng cách kết nối và xâu chuỗi các lời nhắc LLM.

Ưu đãi của LangChain bộ tải tài liệu có thể tải và chuyển đổi dữ liệu từ các tài liệu. Bạn có thể sử dụng chúng để cấu trúc tài liệu thành các định dạng ưa thích mà LLM có thể xử lý. Các AmazonTextractPDFLoader là một loại trình tải tài liệu của trình tải dịch vụ cung cấp cách thức nhanh chóng để tự động hóa quá trình xử lý tài liệu bằng cách sử dụng Amazon Textract kết hợp với LangChain. Để biết thêm chi tiết về AmazonTextractPDFLoader, Tham khảo đến LangChain tài liệu. Để sử dụng trình tải tài liệu Amazon Textract, bạn bắt đầu bằng cách nhập nó từ thư viện LangChain:

from langchain.document_loaders import AmazonTextractPDFLoader

https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()

Bạn cũng có thể lưu trữ tài liệu trong Amazon S3 và tham khảo chúng bằng mẫu URL s3://, như được giải thích trong Truy cập nhóm bằng S3://và chuyển đường dẫn S3 này tới trình tải PDF của Amazon Textract:

import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()

Một tài liệu nhiều trang sẽ chứa nhiều trang văn bản, sau đó có thể được truy cập thông qua đối tượng tài liệu, đó là danh sách các trang. Đoạn mã sau lặp qua các trang trong đối tượng tài liệu và in văn bản tài liệu, có sẵn thông qua page_content thuộc tính:

print(len(documents)) for document in documents: print(document.page_content)

Amazon Comprehend và LLM có thể được sử dụng hiệu quả để phân loại tài liệu. Amazon Comprehend là dịch vụ xử lý ngôn ngữ tự nhiên (NLP) sử dụng ML để trích xuất thông tin chuyên sâu từ văn bản. Amazon Comprehend cũng hỗ trợ đào tạo mô hình phân loại tùy chỉnh với khả năng nhận biết bố cục trên các tài liệu như PDF, Word và định dạng hình ảnh. Để biết thêm thông tin về cách sử dụng trình phân loại tài liệu Amazon Comprehend, hãy tham khảo Trình phân loại tài liệu Amazon Comprehend bổ sung hỗ trợ bố cục để có độ chính xác cao hơn.

Khi kết hợp với LLM, việc phân loại tài liệu trở thành một phương pháp mạnh mẽ để quản lý khối lượng lớn tài liệu. LLM rất hữu ích trong việc phân loại tài liệu vì chúng có thể phân tích văn bản, mẫu và các yếu tố ngữ cảnh trong tài liệu bằng cách hiểu ngôn ngữ tự nhiên. Bạn cũng có thể tinh chỉnh chúng cho các lớp tài liệu cụ thể. Khi một loại tài liệu mới được giới thiệu trong đường dẫn IDP cần phân loại, LLM có thể xử lý văn bản và phân loại tài liệu dựa trên một tập hợp các lớp. Sau đây là mã mẫu sử dụng trình tải tài liệu LangChain do Amazon Textract cung cấp để trích xuất văn bản từ tài liệu và sử dụng nó để phân loại tài liệu. Chúng tôi sử dụng Nhân chủng học Claude v2 mô hình thông qua Amazon Bedrock để thực hiện phân loại.

Trong ví dụ sau, trước tiên chúng tôi trích xuất văn bản từ báo cáo xuất viện của bệnh nhân và sử dụng LLM để phân loại nó dựa trên danh sách ba loại tài liệu khác nhau—DISCHARGE_SUMMARY, RECEIPTvà PRESCRIPTION. Ảnh chụp màn hình sau đây hiển thị báo cáo của chúng tôi.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")

Tóm tắt bao gồm việc cô đọng một văn bản hoặc tài liệu nhất định thành một phiên bản ngắn hơn trong khi vẫn giữ được thông tin chính của nó. Kỹ thuật này có lợi cho việc truy xuất thông tin hiệu quả, giúp người dùng nhanh chóng nắm bắt được những điểm chính của tài liệu mà không cần đọc toàn bộ nội dung. Mặc dù Amazon Textract không trực tiếp thực hiện tóm tắt văn bản nhưng nó cung cấp các khả năng cơ bản để trích xuất toàn bộ văn bản từ tài liệu. Văn bản được trích xuất này đóng vai trò là đầu vào cho mô hình LLM của chúng tôi để thực hiện các tác vụ tóm tắt văn bản.

Sử dụng cùng một báo cáo xả mẫu, chúng tôi sử dụng AmazonTextractPDFLoader để trích xuất văn bản từ tài liệu này. Như trước đây, chúng tôi sử dụng mô hình Claude v2 thông qua Amazon Bedrock và khởi tạo nó bằng lời nhắc chứa hướng dẫn về những việc cần làm với văn bản (trong trường hợp này là tóm tắt). Cuối cùng, chúng tôi chạy chuỗi LLM bằng cách chuyển văn bản được trích xuất từ trình tải tài liệu vào. Thao tác này sẽ chạy một hành động suy luận trên LLM với dấu nhắc bao gồm các hướng dẫn tóm tắt và văn bản của tài liệu được đánh dấu bằng Document. Xem mã sau đây:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() template = """ Given a full document, give me a concise summary. Skip any preamble text and just give the summary. <document>{doc_text}</document>
<summary>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") num_tokens = bedrock_llm.get_num_tokens(document[0].page_content)
print (f"Our prompt has {num_tokens} tokens nn=========================n") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
summary = llm_chain.run(document[0].page_content) print(summary.replace("</summary>","").strip())

Mã tạo ra bản tóm tắt của báo cáo tóm tắt xuất viện của bệnh nhân:

Our prompt has 797 tokens =========================
35 yo M admitted for epigastric abdominal pain, nausea, fatigue. Found to likely have ulcer. Discharged with activity restrictions, antibiotics, diet changes, and follow up.

Ví dụ trước sử dụng tài liệu một trang để thực hiện tóm tắt. Tuy nhiên, bạn có thể sẽ phải xử lý các tài liệu có nhiều trang cần tóm tắt. Một cách phổ biến để thực hiện tóm tắt trên nhiều trang là trước tiên tạo các bản tóm tắt trên các đoạn văn bản nhỏ hơn, sau đó kết hợp các phần tóm tắt nhỏ hơn để có được bản tóm tắt cuối cùng của tài liệu. Lưu ý rằng phương pháp này yêu cầu nhiều cuộc gọi tới LLM. Logic cho việc này có thể được tạo ra một cách dễ dàng; tuy nhiên, LangChain cung cấp chuỗi tóm tắt tích hợp có thể tóm tắt các văn bản lớn (từ các tài liệu nhiều trang). Việc tóm tắt có thể xảy ra thông qua map_reduce Hoặc với stuff các tùy chọn có sẵn dưới dạng tùy chọn để quản lý nhiều cuộc gọi đến LLM. Trong ví dụ sau, chúng tôi sử dụng map_reduce để tóm tắt một tài liệu nhiều trang. Hình dưới đây minh họa quy trình làm việc của chúng tôi.

Xử lý tài liệu thông minh với Amazon Textract, Amazon Bedrock và LangChain | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Trước tiên hãy bắt đầu bằng cách trích xuất tài liệu và xem tổng số mã thông báo trên mỗi trang cũng như tổng số trang:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") loader = AmazonTextractPDFLoader(f"s3://{data_bucket}/bedrock-sample/health_plan.pdf")
document = loader.load()
num_docs = len(document)
print (f"There are {num_docs} pages in the document")
for index, doc in enumerate(document): num_tokens_first_doc = bedrock_llm.get_num_tokens(doc.page_content) print (f"Page {index+1} has approx. {num_tokens_first_doc} tokens") There are 5 pages in the document
Page 1 has approx. 533 tokens
Page 2 has approx. 1323 tokens
Page 3 has approx. 997 tokens
Page 4 has approx. 1643 tokens
Page 5 has approx. 867 tokens

Tiếp theo, chúng tôi sử dụng công cụ tích hợp sẵn của LangChain load_summarize_chain để tóm tắt toàn bộ tài liệu:

from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())

Tiêu chuẩn hóa và hỏi đáp

Trong phần này, chúng ta thảo luận về các nhiệm vụ tiêu chuẩn hóa và Hỏi đáp.

Tiêu chuẩn hoá

Chuẩn hóa đầu ra là một nhiệm vụ tạo văn bản trong đó LLM được sử dụng để cung cấp định dạng nhất quán cho văn bản đầu ra. Tác vụ này đặc biệt hữu ích cho việc tự động hóa việc trích xuất thực thể khóa đòi hỏi đầu ra phải được căn chỉnh theo các định dạng mong muốn. Ví dụ: chúng tôi có thể làm theo các phương pháp hay nhất về kỹ thuật nhanh chóng để tinh chỉnh LLM nhằm định dạng ngày thành định dạng MM/DD/YYYY, định dạng này có thể tương thích với cột DATE của cơ sở dữ liệu. Khối mã sau đây hiển thị một ví dụ về cách thực hiện việc này bằng cách sử dụng LLM và kỹ thuật nhắc nhở. Chúng tôi không chỉ chuẩn hóa định dạng đầu ra cho các giá trị ngày mà còn nhắc mô hình tạo đầu ra cuối cùng ở định dạng JSON để dễ dàng sử dụng trong các ứng dụng tiếp theo của chúng tôi. Chúng tôi sử dụng Ngôn ngữ biểu thức LangChain (LCEL) để xâu chuỗi hai hành động lại với nhau. Hành động đầu tiên sẽ nhắc LLM tạo đầu ra có định dạng JSON chỉ gồm các ngày trong tài liệu. Hành động thứ hai lấy đầu ra JSON và chuẩn hóa định dạng ngày. Lưu ý rằng hành động hai bước này cũng có thể được thực hiện trong một bước duy nhất với kỹ thuật nhanh chóng thích hợp, như chúng ta sẽ thấy trong quá trình chuẩn hóa và tạo khuôn mẫu.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") template1 = """ Given a full document, answer the question and format the output in the format specified. Skip any preamble text and just generate the JSON. <format>
{{ "key_name":"key_value"
}}
</format>
<document>{doc_text}</document>
<question>{question}</question>""" template2 = """ Given a JSON document, format the dates in the value fields precisely in the provided format. Skip any preamble text and just generate the JSON. <format>DD/MM/YYYY</format>
<json_document>{json_doc}</json_document> """ prompt1 = PromptTemplate(template=template1, input_variables=["doc_text", "question"])
llm_chain = LLMChain(prompt=prompt1, llm=bedrock_llm, verbose=True) prompt2 = PromptTemplate(template=template2, input_variables=["json_doc"])
llm_chain2 = LLMChain(prompt=prompt2, llm=bedrock_llm, verbose=True) chain = ( llm_chain | {'json_doc': lambda x: x['text'] } | llm_chain2
) std_op = chain.invoke({ "doc_text": document[0].page_content, "question": "Can you give me the patient admitted and discharge dates?"}) print(std_op['text']) { "admit_date":"07/09/2020", "discharge_date":"08/09/2020"
}

Đầu ra của mẫu mã trước đó là cấu trúc JSON có ngày 07/09/2020 và 08/09/2020, có định dạng DD/MM/YYYY và lần lượt là ngày nhập viện và xuất viện của bệnh nhân, theo vào báo cáo tóm tắt xuất viện.

Hỏi đáp với thế hệ tăng cường truy xuất

LLM được biết là lưu giữ thông tin thực tế, thường được gọi là kiến thức thế giới hoặc thế giới quan của họ. Khi được tinh chỉnh, chúng có thể tạo ra kết quả hiện đại. Tuy nhiên, có những hạn chế về mức độ hiệu quả của LLM có thể truy cập và vận dụng kiến thức này. Kết quả là, trong các nhiệm vụ phụ thuộc nhiều vào kiến thức cụ thể, hiệu suất của chúng có thể không tối ưu trong một số trường hợp sử dụng nhất định. Ví dụ: trong các tình huống Hỏi & Đáp, điều cần thiết là mô hình phải tuân thủ nghiêm ngặt bối cảnh được cung cấp trong tài liệu mà không chỉ dựa vào kiến thức thế giới của nó. Đi chệch khỏi điều này có thể dẫn đến trình bày sai, không chính xác hoặc thậm chí phản hồi không chính xác. Phương pháp được sử dụng phổ biến nhất để giải quyết vấn đề này được gọi là Truy xuất thế hệ tăng cường (GIẺ). Cách tiếp cận này tổng hợp các điểm mạnh của cả mô hình truy xuất và mô hình ngôn ngữ, nâng cao độ chính xác và chất lượng của các phản hồi được tạo ra.

LLM cũng có thể áp đặt các giới hạn về mã thông báo do hạn chế về bộ nhớ và giới hạn của phần cứng mà chúng chạy trên đó. Để giải quyết vấn đề này, các kỹ thuật như phân đoạn được sử dụng để chia các tài liệu lớn thành các phần nhỏ hơn phù hợp với giới hạn mã thông báo của LLM. Mặt khác, các phần nhúng được sử dụng trong NLP chủ yếu để nắm bắt ý nghĩa ngữ nghĩa của các từ và mối quan hệ của chúng với các từ khác trong không gian nhiều chiều. Những phần nhúng này biến đổi các từ thành vectơ, cho phép các mô hình xử lý và hiểu dữ liệu văn bản một cách hiệu quả. Bằng cách hiểu các sắc thái ngữ nghĩa giữa các từ và cụm từ, phần nhúng cho phép LLM tạo ra các kết quả đầu ra mạch lạc và phù hợp với ngữ cảnh. Lưu ý các thuật ngữ chính sau:

Chunk – Quá trình này chia nhỏ một lượng lớn văn bản từ tài liệu thành các đoạn văn bản nhỏ hơn, có ý nghĩa.
Nhúng – Đây là các phép biến đổi vectơ có chiều cố định của từng đoạn giữ lại thông tin ngữ nghĩa từ các đoạn. Những phần nhúng này sau đó được tải vào cơ sở dữ liệu vectơ.
Cơ sở dữ liệu vectơ – Đây là cơ sở dữ liệu nhúng từ hoặc vectơ thể hiện ngữ cảnh của từ. Nó hoạt động như một nguồn kiến thức hỗ trợ các nhiệm vụ NLP trong quy trình xử lý tài liệu. Lợi ích của cơ sở dữ liệu vectơ ở đây là chỉ cho phép cung cấp ngữ cảnh cần thiết cho LLM trong quá trình tạo văn bản, như chúng tôi giải thích trong phần sau.

RAG sử dụng sức mạnh của phần nhúng để hiểu và tìm nạp các phân đoạn tài liệu có liên quan trong giai đoạn truy xuất. Bằng cách đó, RAG có thể hoạt động trong giới hạn mã thông báo của LLM, đảm bảo thông tin thích hợp nhất được chọn để tạo, dẫn đến kết quả đầu ra chính xác hơn và phù hợp với ngữ cảnh hơn.

Sơ đồ sau đây minh họa việc tích hợp các kỹ thuật này để tạo đầu vào cho LLM, nâng cao hiểu biết theo ngữ cảnh của chúng và cho phép phản hồi trong ngữ cảnh phù hợp hơn. Một cách tiếp cận liên quan đến tìm kiếm tương tự, sử dụng cả cơ sở dữ liệu vectơ và phân đoạn. Cơ sở dữ liệu vectơ lưu trữ các phần nhúng thể hiện thông tin ngữ nghĩa và việc phân chia văn bản thành các phần có thể quản lý được. Sử dụng bối cảnh này từ tìm kiếm tương tự, LLM có thể chạy các tác vụ như trả lời câu hỏi và các hoạt động theo miền cụ thể như phân loại và làm phong phú.

Xử lý tài liệu thông minh với Amazon Textract, Amazon Bedrock và LangChain | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Đối với bài đăng này, chúng tôi sử dụng cách tiếp cận dựa trên RAG để thực hiện Hỏi đáp theo ngữ cảnh với các tài liệu. Trong mẫu mã sau đây, chúng tôi trích xuất văn bản từ một tài liệu rồi chia tài liệu thành các đoạn văn bản nhỏ hơn. Việc phân đoạn là bắt buộc vì chúng tôi có thể có các tài liệu lớn nhiều trang và LLM của chúng tôi có thể có giới hạn mã thông báo. Các khối này sau đó được tải vào cơ sở dữ liệu vectơ để thực hiện tìm kiếm tương tự trong các bước tiếp theo. Trong ví dụ sau, chúng tôi sử dụng mô hình Amazon Titan Embed Text v1, mô hình này thực hiện việc nhúng vectơ của các đoạn tài liệu:

from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import BedrockEmbeddings
from langchain.vectorstores import FAISS
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.chains import RetrievalQA loader = AmazonTextractPDFLoader("amazon_10k.pdf")
document = loader.load() text_splitter = RecursiveCharacterTextSplitter(chunk_size=400, separators=["nn", "n", ".", "!", "?", ",", " ", ""], chunk_overlap=0)
texts = text_splitter.split_documents(document)
embeddings = BedrockEmbeddings(client=bedrock, model_id="amazon.titan-embed-text-v1")
db = FAISS.from_documents(documents=texts, embedding=embeddings) retriever = db.as_retriever(search_type='mmr', search_kwargs={"k": 3}) template = """ Answer the question as truthfully as possible strictly using only the provided text, and if the answer is not contained within the text, say "I don't know". Skip any preamble text and reasoning and give just the answer. <text>{context}</text>
<question>{question}</question>
<answer>""" # define the prompt template
qa_prompt = PromptTemplate(template=template, input_variables=["context","question"]) chain_type_kwargs = { "prompt": qa_prompt, "verbose": False } # change verbose to True if you need to see what's happening bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
qa = RetrievalQA.from_chain_type( llm=bedrock_llm, chain_type="stuff", retriever=retriever, chain_type_kwargs=chain_type_kwargs, verbose=False # change verbose to True if you need to see what's happening
) question="Who is the administrator for this plan?"
result = qa.run(question)
print(result.strip())

Mã này tạo ra một ngữ cảnh có liên quan cho LLM bằng cách sử dụng các đoạn văn bản được trả về bởi hành động tìm kiếm tương tự từ cơ sở dữ liệu vectơ. Trong ví dụ này, chúng tôi sử dụng mã nguồn mở Cửa hàng vector FAISS như một cơ sở dữ liệu vectơ mẫu để lưu trữ các phần nhúng vectơ của từng đoạn văn bản. Sau đó chúng tôi định nghĩa cơ sở dữ liệu vector là một chó tha mồi LangChain, được chuyển vào RetrievalQA xích. Điều này chạy nội bộ một truy vấn tìm kiếm tương tự trên cơ sở dữ liệu vectơ trả về n đoạn văn bản hàng đầu (trong đó n=3 trong ví dụ của chúng tôi) có liên quan đến câu hỏi. Cuối cùng, chuỗi LLM được chạy với bối cảnh liên quan (một nhóm các đoạn văn bản có liên quan) và câu hỏi để LLM trả lời. Để biết hướng dẫn từng bước về mã Hỏi & Đáp với RAG, hãy tham khảo sổ ghi chép Python trên GitHub.

Để thay thế cho FAISS, bạn cũng có thể sử dụng Khả năng cơ sở dữ liệu vector của Amazon OpenSearch Service, Dịch vụ cơ sở dữ liệu quan hệ của Amazon (Amazon RDS) dành cho PostgreSQL với pgvector tiện ích mở rộng dưới dạng cơ sở dữ liệu vectơ hoặc Cơ sở dữ liệu Chroma nguồn mở.

Hỏi đáp với dữ liệu dạng bảng

Dữ liệu dạng bảng trong tài liệu có thể là thách thức đối với LLM khi xử lý vì tính phức tạp về cấu trúc của nó. Amazon Textract có thể được tăng cường bằng LLM vì nó cho phép trích xuất bảng từ tài liệu ở định dạng lồng nhau của các thành phần như trang, bảng và ô. Thực hiện Hỏi & Đáp với dữ liệu dạng bảng là một quá trình gồm nhiều bước và có thể đạt được thông qua tự truy vấn. Sau đây là tổng quan về các bước:

Trích xuất bảng từ tài liệu bằng Amazon Textract. Với Amazon Textract, cấu trúc dạng bảng (hàng, cột, tiêu đề) có thể được trích xuất từ tài liệu.
Lưu trữ dữ liệu dạng bảng vào cơ sở dữ liệu vectơ cùng với thông tin siêu dữ liệu, chẳng hạn như tên tiêu đề và mô tả của từng tiêu đề.
Sử dụng lời nhắc để xây dựng truy vấn có cấu trúc, sử dụng LLM, để lấy dữ liệu từ bảng.
Sử dụng truy vấn để trích xuất dữ liệu bảng có liên quan từ cơ sở dữ liệu vectơ.

Ví dụ: trong bảng sao kê ngân hàng, với lời nhắc “Giao dịch có số tiền gửi lớn hơn 1000 đô la là gì”, LLM sẽ hoàn thành các bước sau:

Tạo một truy vấn, chẳng hạn như “Query: transactions” , “filter: greater than (Deposit$)”.
Chuyển đổi truy vấn thành truy vấn có cấu trúc.
Áp dụng truy vấn có cấu trúc vào cơ sở dữ liệu vectơ nơi lưu trữ dữ liệu bảng của chúng tôi.

Để biết hướng dẫn về mã mẫu từng bước của phần Hỏi & Đáp dạng bảng, hãy tham khảo sổ ghi chép Python trong GitHub.

Tạo khuôn mẫu và chuẩn hóa

Trong phần này, chúng ta xem xét cách sử dụng các kỹ thuật kỹ thuật nhanh chóng và cơ chế tích hợp của LangChain để tạo đầu ra bằng cách trích xuất từ một tài liệu trong một lược đồ cụ thể. Chúng tôi cũng thực hiện một số tiêu chuẩn hóa trên dữ liệu được trích xuất bằng cách sử dụng các kỹ thuật đã thảo luận trước đó. Chúng tôi bắt đầu bằng cách xác định mẫu cho đầu ra mong muốn của mình. Điều này sẽ đóng vai trò như một lược đồ và gói gọn các chi tiết về từng thực thể mà chúng ta muốn trích xuất từ văn bản của tài liệu.

output_template= { "doctor_name":{ "type": "string", "description": "The doctor or provider's full name" }, "provider_id":{ "type": "string", "description": "The doctor or provider's ID" }, "patient_name":{ "type": "string", "description": "The patient's full name" }, …
}

Lưu ý rằng đối với mỗi thực thể, chúng tôi sử dụng mô tả để giải thích thực thể đó là gì nhằm giúp hỗ trợ LLM trích xuất giá trị từ văn bản của tài liệu. Trong mã mẫu sau, chúng tôi sử dụng mẫu này để tạo lời nhắc cho LLM cùng với văn bản được trích xuất từ tài liệu bằng cách sử dụng AmazonTextractPDFLoader và sau đó thực hiện suy luận với mô hình:

from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain template = """ You are a helpful assistant. Please extract the following details from the document and format the output as JSON using the keys. Skip any preamble text and generate the final answer. <details>
{details}
</details> <keys>
{keys}
</keys> <document>
{doc_text}
<document> <final_answer>""" details = "n".join([f"{key}: {value['description']}" for key, value in output_template.items()])
keys = "n".join([f"{key}" for key, value in output_template.items()]) prompt = PromptTemplate(template=template, input_variables=["details", "keys", "doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
output = llm_chain.run({"doc_text": full_text, "details": details, "keys": keys}) print(output) { "doctor_name": "Mateo Jackson, Phd", "provider_id": "XA/7B/00338763", "patient_name": "John Doe", … }

Như bạn có thể thấy, {keys} một phần của lời nhắc là các khóa từ mẫu của chúng tôi và {details} là những chìa khóa cùng với mô tả của chúng. Trong trường hợp này, chúng tôi không nhắc mô hình một cách rõ ràng với định dạng đầu ra ngoài việc chỉ định trong hướng dẫn để tạo đầu ra ở định dạng JSON. Điều này phần lớn có hiệu quả; tuy nhiên, vì đầu ra từ LLM là tạo văn bản không xác định nên chúng tôi muốn chỉ định định dạng một cách rõ ràng như một phần của lệnh trong lời nhắc. Để giải quyết vấn đề này, chúng ta có thể sử dụng LangChain's trình phân tích cú pháp đầu ra có cấu trúc mô-đun để tận dụng kỹ thuật nhắc nhở tự động giúp chuyển đổi mẫu của chúng tôi thành lời nhắc hướng dẫn định dạng. Chúng tôi sử dụng mẫu được xác định trước đó để tạo lời nhắc hướng dẫn định dạng như sau:

from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser response_schems = list() for key, value in output_template.items(): schema = ResponseSchema(name=key, description=value['description'], type=value['type']) response_schems.append(schema)
output_parser = StructuredOutputParser.from_response_schemas(response_schems)
format_instructions= output_parser.get_format_instructions()
print(format_instructions)

Sản phẩm format_instructions biến hiện giữ lời nhắc hướng dẫn định dạng:

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```": ```json
{ "doctor_name": string // The doctor or provider's full name "provider_id": string // The doctor or provider's ID "patient_name": string // The patient's full name …
}
```

Sau đó, chúng tôi sử dụng biến này trong dấu nhắc ban đầu làm hướng dẫn cho LLM để nó trích xuất và định dạng đầu ra trong lược đồ mong muốn bằng cách thực hiện một sửa đổi nhỏ cho dấu nhắc của chúng tôi:

template = """ You are a helpful assistant. Please extract the following details from the document and strictly follow the instructions described in the format instructions to format the output. Skip any preamble text and generate the final answer. Do not generate incomplete answer. <details>
{details}
</details> <format_instructions>
{format_instructions}
</format_instructions> <document>
{doc_text}
<document> <final_answer>"""

Cho đến nay, chúng tôi chỉ trích xuất dữ liệu ra khỏi tài liệu theo lược đồ mong muốn. Tuy nhiên, chúng ta vẫn cần thực hiện một số tiêu chuẩn hóa. Ví dụ: chúng tôi muốn ngày nhập viện và ngày xuất viện của bệnh nhân được trích xuất ở định dạng DD/MM/YYYY. Trong trường hợp này, chúng tôi tăng cường description của khóa với hướng dẫn định dạng:

new_output_template= { … "admitted_date":{ "type": "string", "description": "Date the patient was admitted to the hospital, this should be formatted in DD/MM/YYYY format." }, "discharge_date":{ "type": "string", "description": "Date the patient was discharged from the hospital, this should be formatted in DD/MM/YYYY format." …
}

Tham khảo sổ ghi chép Python trong GitHub để có hướng dẫn và giải thích đầy đủ từng bước.

Kiểm tra chính tả và sửa lỗi

LLM đã chứng tỏ khả năng vượt trội trong việc hiểu và tạo ra văn bản giống con người. Một trong những ứng dụng LLM ít được thảo luận nhưng vô cùng hữu ích là tiềm năng của chúng trong việc kiểm tra ngữ pháp và sửa câu trong tài liệu. Không giống như các trình kiểm tra ngữ pháp truyền thống dựa trên một bộ quy tắc được xác định trước, LLM sử dụng các mẫu mà chúng đã xác định từ lượng lớn dữ liệu văn bản để xác định những gì cấu thành ngôn ngữ chính xác hoặc trôi chảy. Điều này có nghĩa là họ có thể phát hiện các sắc thái, bối cảnh và sự tinh tế mà các hệ thống dựa trên quy tắc có thể bỏ sót.

Hãy tưởng tượng văn bản được trích từ bản tóm tắt xuất viện của bệnh nhân có nội dung “Bệnh nhân Jon Doe, người nhập viện vì bệnh viêm phổi nặng, đã cải thiện đáng kể và có thể xuất viện an toàn. Các cuộc tiếp theo được lên kế hoạch vào tuần tới.” Trình kiểm tra chính tả truyền thống có thể nhận ra lỗi “thừa nhận”, “viêm phổi”, “cải thiện” và “nex”. Tuy nhiên, bối cảnh của những lỗi này có thể dẫn đến những lỗi khác hoặc những gợi ý chung chung. Một LLM, được trang bị chương trình đào tạo chuyên sâu, có thể gợi ý: “Bệnh nhân John Doe, người nhập viện vì bệnh viêm phổi nặng, đã cho thấy sự cải thiện đáng kể và có thể xuất viện an toàn. Việc theo dõi được lên kế hoạch vào tuần tới.”

Sau đây là một tài liệu mẫu viết tay kém có cùng nội dung như đã giải thích trước đó.

Xử lý tài liệu thông minh với Amazon Textract, Amazon Bedrock và LangChain | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Chúng tôi trích xuất tài liệu bằng trình tải tài liệu Amazon Textract, sau đó hướng dẫn LLM, thông qua kỹ thuật nhanh chóng, chỉnh sửa văn bản được trích xuất để sửa mọi lỗi chính tả và/hoặc ngữ pháp:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/hand_written_note.pdf")
document = loader.load() template = """ Given a detailed 'Document', perform spelling and grammatical corrections. Ensure the output is coherent, polished, and free from errors. Skip any preamble text and give the answer. <document>{doc_text}</<document>
<answer> """ prompt = PromptTemplate(template=template, input_variables=["doc_text"])
llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
llm_chain = LLMChain(prompt=prompt, llm=llm) try: txt = document[0].page_content std_op = llm_chain.run({"doc_text": txt}) print("Extracted text") print("==============") print(txt) print("nCorrected text") print("==============") print(std_op.strip()) print("n")
except Exception as e: print(str(e))

Đầu ra của mã trước hiển thị văn bản gốc được trích xuất bởi trình tải tài liệu, theo sau là văn bản đã sửa được tạo bởi LLM:

Extracted text
==============
Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Corrected text
==============
Patient John Doe, who was admitted with severe pneumonia, has shown significant improvement and can be safely discharged. Follow-up appointments are scheduled for next week.

Hãy nhớ rằng LLM cũng mạnh mẽ như vậy nhưng điều cần thiết là phải xem các đề xuất của họ chỉ là những đề xuất đó. Mặc dù chúng nắm bắt được sự phức tạp của ngôn ngữ một cách ấn tượng nhưng chúng không thể sai lầm. Một số gợi ý có thể thay đổi ý nghĩa hoặc giọng điệu dự định của văn bản gốc. Do đó, điều quan trọng đối với người đánh giá là sử dụng các chỉnh sửa do LLM tạo ra làm hướng dẫn chứ không phải tuyệt đối. Sự cộng tác giữa trực giác của con người với khả năng LLM hứa hẹn một tương lai nơi giao tiếp bằng văn bản của chúng ta không chỉ không có lỗi mà còn phong phú hơn và nhiều sắc thái hơn.

Kết luận

AI sáng tạo đang thay đổi cách bạn có thể xử lý tài liệu bằng IDP để rút ra thông tin chi tiết. trong bài viết Tăng cường xử lý tài liệu thông minh AWS bằng AI tổng hợp, chúng tôi đã thảo luận về các giai đoạn khác nhau của quy trình và cách Ricoh, khách hàng của AWS, tăng cường quy trình IDP của họ bằng LLM. Trong bài đăng này, chúng tôi đã thảo luận về các cơ chế khác nhau nhằm tăng cường quy trình làm việc IDP với LLM thông qua Amazon Bedrock, Amazon Textract và khung LangChain phổ biến. Bạn có thể bắt đầu với trình tải tài liệu Amazon Textract mới với LangChain ngay hôm nay bằng cách sử dụng sổ ghi chép mẫu có sẵn trong Kho GitHub. Để biết thêm thông tin về cách làm việc với AI tổng hợp trên AWS, hãy tham khảo Công bố các công cụ mới để xây dựng với AI sáng tạo trên AWS.

Về các tác giả

Sonali Sahu đang dẫn đầu về xử lý tài liệu thông minh với nhóm dịch vụ AI/ML tại AWS. Cô ấy là một tác giả, nhà lãnh đạo tư tưởng và nhà công nghệ đam mê. Lĩnh vực trọng tâm cốt lõi của cô ấy là AI và ML, đồng thời cô ấy thường xuyên phát biểu tại các hội nghị và buổi gặp mặt về AI và ML trên khắp thế giới. Cô ấy có cả bề rộng và bề dày kinh nghiệm về công nghệ và ngành công nghệ, với chuyên môn trong ngành về chăm sóc sức khỏe, lĩnh vực tài chính và bảo hiểm.

Xử lý tài liệu thông minh với Amazon Textract, Amazon Bedrock và LangChain | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái. Anjan Biswas là Kiến trúc sư giải pháp dịch vụ AI cấp cao, tập trung vào AI/ML và Phân tích dữ liệu. Anjan là thành viên của nhóm dịch vụ AI trên toàn thế giới và làm việc với khách hàng để giúp họ hiểu và phát triển các giải pháp cho các vấn đề kinh doanh với AI và ML. Anjan có hơn 14 năm kinh nghiệm làm việc với các tổ chức chuỗi cung ứng, sản xuất và bán lẻ toàn cầu, đồng thời đang tích cực giúp khách hàng bắt đầu và mở rộng quy mô trên các dịch vụ AI của AWS.

Xử lý tài liệu thông minh với Amazon Textract, Amazon Bedrock và LangChain | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái. Chinmayee Rane là Kiến trúc sư giải pháp chuyên gia AI/ML tại Amazon Web Services. Cô đam mê toán học ứng dụng và học máy. Cô tập trung vào việc thiết kế các giải pháp xử lý tài liệu thông minh và AI tổng quát cho khách hàng AWS. Ngoài công việc, cô thích nhảy salsa và bachata.