การประมวลผลเอกสารอัจฉริยะด้วย Amazon Textract, Amazon Bedrock และ LangChain อเมซอนเว็บเซอร์วิส

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ในยุคข้อมูลปัจจุบัน ข้อมูลจำนวนมหาศาลที่เก็บไว้ในเอกสารจำนวนนับไม่ถ้วนถือเป็นทั้งความท้าทายและโอกาสสำหรับธุรกิจ วิธีการประมวลผลเอกสารแบบเดิมๆ มักจะขาดประสิทธิภาพและความแม่นยำ ทำให้เหลือพื้นที่สำหรับนวัตกรรม ความคุ้มทุน และการเพิ่มประสิทธิภาพ การประมวลผลเอกสารมีความก้าวหน้าอย่างมากจากการถือกำเนิดของ Intelligent Document Processing (IDP) ด้วย IDP ธุรกิจต่างๆ สามารถเปลี่ยนข้อมูลที่ไม่มีโครงสร้างจากเอกสารประเภทต่างๆ ให้เป็นข้อมูลเชิงลึกที่มีโครงสร้างและนำไปปฏิบัติได้ เพิ่มประสิทธิภาพได้อย่างมาก และลดความพยายามด้วยตนเอง อย่างไรก็ตาม ศักยภาพไม่ได้สิ้นสุดเพียงแค่นั้น ด้วยการบูรณาการปัญญาประดิษฐ์ (AI) ทั่วไปเข้ากับกระบวนการนี้ เราจะสามารถเพิ่มขีดความสามารถของ IDP ต่อไปได้ Generative AI ไม่เพียงแต่นำเสนอความสามารถที่ได้รับการปรับปรุงในการประมวลผลเอกสารเท่านั้น แต่ยังแนะนำความสามารถในการปรับตัวแบบไดนามิกเพื่อเปลี่ยนแปลงรูปแบบข้อมูลอีกด้วย โพสต์นี้จะนำคุณไปสู่การทำงานร่วมกันของ IDP และ AI เชิงสร้างสรรค์ โดยเผยให้เห็นว่าพวกเขาเป็นตัวแทนของขอบเขตถัดไปในการประมวลผลเอกสารอย่างไร

เราหารือเกี่ยวกับ IDP โดยละเอียดในซีรีส์การประมวลผลเอกสารอัจฉริยะด้วยบริการ AWS AI (1 หมายเลข และ 2 หมายเลข). ในโพสต์นี้ เราจะหารือถึงวิธีการขยายสถาปัตยกรรม IDP ใหม่หรือที่มีอยู่ด้วยโมเดลภาษาขนาดใหญ่ (LLM) โดยเฉพาะอย่างยิ่ง เราจะหารือถึงวิธีการบูรณาการ Amazon Text กับ หลังเชน เป็นตัวโหลดเอกสารและ อเมซอน เบดร็อค เพื่อดึงข้อมูลจากเอกสารและใช้ความสามารถด้าน AI เชิงสร้างสรรค์ภายในระยะ IDP ต่างๆ

Amazon Textract เป็นบริการ Machine Learning (ML) ที่จะแยกข้อความ ลายมือ และข้อมูลจากเอกสารที่สแกนโดยอัตโนมัติ Amazon Bedrock เป็นบริการที่มีการจัดการเต็มรูปแบบซึ่งนำเสนอตัวเลือกโมเดลพื้นฐาน (FM) ที่มีประสิทธิภาพสูงผ่าน API ที่ใช้งานง่าย

แผนภาพต่อไปนี้เป็นสถาปัตยกรรมอ้างอิงระดับสูงที่อธิบายวิธีที่คุณสามารถปรับปรุงเวิร์กโฟลว์ IDP ด้วยแบบจำลองพื้นฐานเพิ่มเติมได้ คุณสามารถใช้ LLM ในหนึ่งหรือทุกระยะของ IDP ขึ้นอยู่กับกรณีการใช้งานและผลลัพธ์ที่ต้องการ

ในส่วนต่อไปนี้ เราจะเจาะลึกเกี่ยวกับวิธีการผสานรวม Amazon Textract เข้ากับเวิร์กโฟลว์ AI เชิงสร้างสรรค์โดยใช้ LangChain เพื่อประมวลผลเอกสารสำหรับแต่ละงานเฉพาะเหล่านี้ บล็อกโค้ดที่ให้ไว้ที่นี่ถูกตัดออกเพื่อความกระชับ อ้างถึงของเรา พื้นที่เก็บข้อมูล GitHub สำหรับสมุดบันทึก Python โดยละเอียดและคำแนะนำแบบทีละขั้นตอน

การแยกข้อความออกจากเอกสารเป็นส่วนสำคัญในการประมวลผลเอกสารด้วย LLM คุณสามารถใช้ Amazon Textract เพื่อแยกข้อความดิบที่ไม่มีโครงสร้างออกจากเอกสารและเก็บรักษาออบเจ็กต์กึ่งโครงสร้างหรือโครงสร้างเดิม เช่น คู่คีย์-ค่าและตารางที่มีอยู่ในเอกสาร แพคเกจเอกสาร เช่น การเรียกร้องค่ารักษาพยาบาลและการประกัน หรือการจำนองประกอบด้วยรูปแบบที่ซับซ้อนซึ่งมีข้อมูลจำนวนมากในรูปแบบที่มีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้าง การแยกเอกสารเป็นขั้นตอนสำคัญที่นี่ เนื่องจาก LLM ได้รับประโยชน์จากเนื้อหาที่หลากหลายเพื่อสร้างการตอบสนองที่แม่นยำและเกี่ยวข้องมากขึ้น ซึ่งอาจส่งผลกระทบต่อคุณภาพของผลงานของ LLM

LangChain เป็นเฟรมเวิร์กโอเพ่นซอร์สที่ทรงพลังสำหรับการบูรณาการกับ LLM LLM โดยทั่วไปมีความหลากหลาย แต่อาจประสบปัญหากับงานเฉพาะโดเมนซึ่งจำเป็นต้องมีบริบทที่ลึกซึ้งและการตอบสนองที่เหมาะสมยิ่ง LangChain ช่วยให้นักพัฒนาในสถานการณ์ดังกล่าวสามารถสร้างตัวแทนที่สามารถแบ่งงานที่ซับซ้อนออกเป็นงานย่อยที่มีขนาดเล็กลงได้ งานย่อยสามารถแนะนำบริบทและหน่วยความจำใน LLM โดยการเชื่อมต่อและเชื่อมโยงพร้อมท์ LLM

ข้อเสนอของ LangChain ตัวโหลดเอกสาร ที่สามารถโหลดและแปลงข้อมูลจากเอกสารได้ คุณสามารถใช้เอกสารเหล่านี้เพื่อจัดโครงสร้างเอกสารให้อยู่ในรูปแบบที่ต้องการซึ่ง LLM สามารถประมวลผลได้ ที่ AmazonTextractPDFLoader คือตัวโหลดบริการประเภทตัวโหลดเอกสารที่ให้วิธีที่รวดเร็วในการประมวลผลเอกสารอัตโนมัติโดยใช้ Amazon Textract ร่วมกับ LangChain สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับ AmazonTextractPDFLoaderอ้างถึง หลังเชน เอกสารประกอบ หากต้องการใช้ตัวโหลดเอกสาร Amazon Textract คุณต้องเริ่มต้นด้วยการนำเข้าจากไลบรารี LangChain:

from langchain.document_loaders import AmazonTextractPDFLoader

https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()

คุณยังสามารถจัดเก็บเอกสารใน Amazon S3 และอ้างอิงเอกสารเหล่านั้นได้โดยใช้รูปแบบ s3:// URL ตามที่อธิบายไว้ใน การเข้าถึงบัคเก็ตโดยใช้ S3://และส่งเส้นทาง S3 นี้ไปยังตัวโหลด Amazon Textract PDF:

import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()

เอกสารหลายหน้าจะมีข้อความหลายหน้า ซึ่งสามารถเข้าถึงได้ผ่านออบเจ็กต์เอกสาร ซึ่งเป็นรายการหน้า โค้ดต่อไปนี้วนซ้ำหน้าต่างๆ ในออบเจ็กต์เอกสารและพิมพ์ข้อความในเอกสารซึ่งมีให้ใช้งานผ่านทาง page_content แอตทริบิวต์:

print(len(documents)) for document in documents: print(document.page_content)

Amazon Comprehend และ LLM สามารถนำไปใช้ในการจำแนกประเภทเอกสารได้อย่างมีประสิทธิภาพ Amazon Comprehend เป็นบริการประมวลผลภาษาธรรมชาติ (NLP) ที่ใช้ ML เพื่อดึงข้อมูลเชิงลึกจากข้อความ Amazon Comprehend ยังรองรับการฝึกโมเดลการจัดหมวดหมู่แบบกำหนดเองด้วยการรับรู้เค้าโครงในเอกสาร เช่น PDF, Word และรูปแบบรูปภาพ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้ตัวแยกประเภทเอกสาร Amazon Comprehend โปรดดูที่ ตัวแยกประเภทเอกสาร Amazon Comprehend เพิ่มการรองรับเค้าโครงเพื่อความแม่นยำที่สูงขึ้น.

เมื่อจับคู่กับ LLM การจัดประเภทเอกสารจะกลายเป็นแนวทางที่มีประสิทธิภาพในการจัดการเอกสารปริมาณมาก LLM มีประโยชน์ในการจำแนกเอกสารเนื่องจากสามารถวิเคราะห์ข้อความ รูปแบบ และองค์ประกอบตามบริบทในเอกสารโดยใช้ความเข้าใจภาษาธรรมชาติ คุณยังสามารถปรับแต่งให้เหมาะกับคลาสเอกสารเฉพาะได้อีกด้วย เมื่อเอกสารประเภทใหม่ในไปป์ไลน์ IDP จำเป็นต้องมีการจัดประเภท LLM จะสามารถประมวลผลข้อความและจัดหมวดหมู่เอกสารตามชุดของคลาสได้ ต่อไปนี้เป็นโค้ดตัวอย่างที่ใช้ตัวโหลดเอกสาร LangChain ที่ขับเคลื่อนโดย Amazon Textract เพื่อแยกข้อความออกจากเอกสารและใช้เพื่อจัดประเภทเอกสาร เราใช้ มานุษยวิทยาคลอดด์ v2 จำลองผ่าน Amazon Bedrock เพื่อดำเนินการจัดหมวดหมู่

ในตัวอย่างต่อไปนี้ ขั้นแรกเราจะแยกข้อความออกจากรายงานการจำหน่ายผู้ป่วย และใช้ LLM เพื่อจำแนกประเภทโดยพิจารณาจากรายการเอกสารสามประเภทที่แตกต่างกัน—DISCHARGE_SUMMARY, RECEIPTและ PRESCRIPTION. ภาพหน้าจอต่อไปนี้แสดงรายงานของเรา

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")

การสรุปเกี่ยวข้องกับการย่อข้อความหรือเอกสารที่กำหนดให้เป็นเวอร์ชันที่สั้นลงโดยยังคงรักษาข้อมูลสำคัญไว้ เทคนิคนี้มีประโยชน์สำหรับการดึงข้อมูลที่มีประสิทธิภาพ ซึ่งช่วยให้ผู้ใช้สามารถเข้าใจประเด็นสำคัญของเอกสารได้อย่างรวดเร็วโดยไม่ต้องอ่านเนื้อหาทั้งหมด แม้ว่า Amazon Textract จะไม่ดำเนินการสรุปข้อความโดยตรง แต่ก็มีความสามารถพื้นฐานในการแยกข้อความทั้งหมดออกจากเอกสาร ข้อความที่แยกออกมานี้ทำหน้าที่เป็นอินพุตให้กับโมเดล LLM ของเราสำหรับการดำเนินการสรุปข้อความ

โดยใช้รายงานการปล่อยตัวอย่างเดียวกันที่เราใช้ AmazonTextractPDFLoader เพื่อดึงข้อความจากเอกสารนี้ เช่นเคย เราใช้โมเดล Claude v2 ผ่าน Amazon Bedrock และเริ่มต้นด้วยข้อความแจ้งที่มีคำแนะนำว่าจะทำอย่างไรกับข้อความ (ในกรณีนี้คือการสรุป) สุดท้าย เรารัน LLM chain โดยส่งข้อความที่แยกออกมาจากตัวโหลดเอกสาร สิ่งนี้จะเรียกใช้การดำเนินการอนุมานบน LLM พร้อมข้อความที่ประกอบด้วยคำแนะนำในการสรุป และข้อความของเอกสารที่ทำเครื่องหมายด้วย Document. ดูรหัสต่อไปนี้:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() template = """ Given a full document, give me a concise summary. Skip any preamble text and just give the summary. <document>{doc_text}</document>
<summary>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") num_tokens = bedrock_llm.get_num_tokens(document[0].page_content)
print (f"Our prompt has {num_tokens} tokens nn=========================n") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
summary = llm_chain.run(document[0].page_content) print(summary.replace("</summary>","").strip())

รหัสสร้างข้อมูลสรุปของรายงานสรุปการจำหน่ายผู้ป่วย:

Our prompt has 797 tokens =========================
35 yo M admitted for epigastric abdominal pain, nausea, fatigue. Found to likely have ulcer. Discharged with activity restrictions, antibiotics, diet changes, and follow up.

ตัวอย่างก่อนหน้านี้ใช้เอกสารหน้าเดียวเพื่อดำเนินการสรุป อย่างไรก็ตาม คุณอาจจะต้องจัดการกับเอกสารที่มีหลายหน้าซึ่งจำเป็นต้องมีการสรุป วิธีทั่วไปในการสรุปข้อมูลในหลายหน้าคือการสร้างข้อมูลสรุปจากข้อความที่มีขนาดเล็กก่อน จากนั้นจึงรวมข้อมูลสรุปที่มีขนาดเล็กเพื่อให้ได้ข้อมูลสรุปขั้นสุดท้ายของเอกสาร โปรดทราบว่าวิธีนี้จำเป็นต้องมีการเรียก LLM หลายครั้ง ตรรกะสำหรับสิ่งนี้สามารถสร้างขึ้นมาได้อย่างง่ายดาย อย่างไรก็ตาม LangChain มีสายการสรุปในตัวที่สามารถสรุปข้อความขนาดใหญ่ (จากเอกสารหลายหน้า) การสรุปสามารถเกิดขึ้นได้ทั้งทาง map_reduce หรือกับ stuff ตัวเลือกซึ่งมีให้เป็นตัวเลือกในการจัดการการโทรหลายครั้งไปยัง LLM ในตัวอย่างต่อไปนี้ เราใช้ map_reduce เพื่อสรุปเอกสารหลายหน้า รูปต่อไปนี้แสดงให้เห็นถึงขั้นตอนการทำงานของเรา

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ขั้นแรกให้เริ่มต้นด้วยการแยกเอกสารและดูจำนวนโทเค็นทั้งหมดต่อหน้าและจำนวนหน้าทั้งหมด:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") loader = AmazonTextractPDFLoader(f"s3://{data_bucket}/bedrock-sample/health_plan.pdf")
document = loader.load()
num_docs = len(document)
print (f"There are {num_docs} pages in the document")
for index, doc in enumerate(document): num_tokens_first_doc = bedrock_llm.get_num_tokens(doc.page_content) print (f"Page {index+1} has approx. {num_tokens_first_doc} tokens") There are 5 pages in the document
Page 1 has approx. 533 tokens
Page 2 has approx. 1323 tokens
Page 3 has approx. 997 tokens
Page 4 has approx. 1643 tokens
Page 5 has approx. 867 tokens

ต่อไปเราใช้บิวท์อินของ LangChain load_summarize_chain เพื่อสรุปเอกสารทั้งหมด:

from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())

การกำหนดมาตรฐานและการถามตอบ

ในส่วนนี้ เราจะหารือเกี่ยวกับงานมาตรฐานและงานถามตอบ

มาตรฐาน

การกำหนดมาตรฐานเอาต์พุตเป็นงานสร้างข้อความที่ใช้ LLM เพื่อจัดรูปแบบข้อความเอาต์พุตที่สอดคล้องกัน งานนี้มีประโยชน์อย่างยิ่งสำหรับระบบอัตโนมัติของการแยกเอนทิตีคีย์ที่ต้องการให้เอาต์พุตสอดคล้องกับรูปแบบที่ต้องการ ตัวอย่างเช่น เราสามารถปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุดในด้านวิศวกรรมโดยทันทีเพื่อปรับแต่ง LLM เพื่อจัดรูปแบบวันที่เป็นรูปแบบ ดด/วว/ปปปป ซึ่งอาจเข้ากันได้กับคอลัมน์ DATE ของฐานข้อมูล บล็อกโค้ดต่อไปนี้แสดงตัวอย่างวิธีการดำเนินการโดยใช้ LLM และวิศวกรรมพร้อมท์ เราไม่เพียงแต่สร้างมาตรฐานให้กับรูปแบบเอาต์พุตสำหรับค่าวันที่เท่านั้น เรายังแจ้งให้โมเดลสร้างเอาต์พุตสุดท้ายในรูปแบบ JSON เพื่อให้สามารถใช้งานได้อย่างง่ายดายในแอปพลิเคชันดาวน์สตรีมของเรา เราใช้ ภาษานิพจน์ LangChain (LCE) เพื่อเชื่อมโยงสองการกระทำเข้าด้วยกัน การดำเนินการแรกจะแจ้งให้ LLM สร้างเอาต์พุตรูปแบบ JSON เฉพาะวันที่จากเอกสาร การดำเนินการที่สองจะใช้เอาต์พุต JSON และสร้างมาตรฐานให้กับรูปแบบวันที่ โปรดทราบว่าการดำเนินการสองขั้นตอนนี้อาจดำเนินการในขั้นตอนเดียวด้วยวิศวกรรมที่เหมาะสม ดังที่เราจะเห็นในการทำให้เป็นมาตรฐานและการสร้างเทมเพลต

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") template1 = """ Given a full document, answer the question and format the output in the format specified. Skip any preamble text and just generate the JSON. <format>
{{ "key_name":"key_value"
}}
</format>
<document>{doc_text}</document>
<question>{question}</question>""" template2 = """ Given a JSON document, format the dates in the value fields precisely in the provided format. Skip any preamble text and just generate the JSON. <format>DD/MM/YYYY</format>
<json_document>{json_doc}</json_document> """ prompt1 = PromptTemplate(template=template1, input_variables=["doc_text", "question"])
llm_chain = LLMChain(prompt=prompt1, llm=bedrock_llm, verbose=True) prompt2 = PromptTemplate(template=template2, input_variables=["json_doc"])
llm_chain2 = LLMChain(prompt=prompt2, llm=bedrock_llm, verbose=True) chain = ( llm_chain | {'json_doc': lambda x: x['text'] } | llm_chain2
) std_op = chain.invoke({ "doc_text": document[0].page_content, "question": "Can you give me the patient admitted and discharge dates?"}) print(std_op['text']) { "admit_date":"07/09/2020", "discharge_date":"08/09/2020"
}

ผลลัพธ์ของตัวอย่างโค้ดก่อนหน้าเป็นโครงสร้าง JSON ที่มีวันที่ 07/09/2020 และ 08/09/2020 ซึ่งอยู่ในรูปแบบ DD/MM/YYYY และเป็นวันที่ผู้ป่วยรับเข้าและออกจากโรงพยาบาล ตามลำดับ ตาม ไปยังรายงานสรุปการจำหน่าย

ถาม & ตอบกับรุ่น Augmented การดึงข้อมูล

LLM เป็นที่รู้กันว่าเก็บข้อมูลที่เป็นข้อเท็จจริง ซึ่งมักเรียกว่าความรู้โลกหรือมุมมองโลก เมื่อปรับแต่งอย่างละเอียด ก็จะสามารถสร้างผลลัพธ์ที่ล้ำสมัยได้ อย่างไรก็ตาม มีข้อจำกัดว่า LLM สามารถเข้าถึงและจัดการความรู้นี้ได้อย่างมีประสิทธิภาพเพียงใด ด้วยเหตุนี้ ในงานที่ต้องอาศัยความรู้เฉพาะอย่างมาก ประสิทธิภาพอาจไม่เหมาะสมกับกรณีการใช้งานบางกรณี ตัวอย่างเช่น ในสถานการณ์ถามตอบ จำเป็นอย่างยิ่งที่แบบจำลองจะต้องปฏิบัติตามบริบทที่ให้ไว้ในเอกสารอย่างเคร่งครัด โดยไม่ต้องอาศัยความรู้ระดับโลกเพียงอย่างเดียว การเบี่ยงเบนจากสิ่งนี้อาจนำไปสู่การบิดเบือนความจริง ความไม่ถูกต้อง หรือแม้แต่คำตอบที่ไม่ถูกต้อง วิธีการที่ใช้บ่อยที่สุดเพื่อแก้ไขปัญหานี้เรียกว่า การดึงข้อมูล Augmented Generation (แร็ก). แนวทางนี้ประสานจุดแข็งของทั้งแบบจำลองการดึงข้อมูลและแบบจำลองภาษา ช่วยเพิ่มความแม่นยำและคุณภาพของการตอบสนองที่สร้างขึ้น

LLM ยังสามารถกำหนดข้อจำกัดของโทเค็นได้เนื่องจากข้อจำกัดของหน่วยความจำและข้อจำกัดของฮาร์ดแวร์ที่ทำงานอยู่ เพื่อจัดการกับปัญหานี้ มีการใช้เทคนิคต่างๆ เช่น การแบ่งส่วนเพื่อแบ่งเอกสารขนาดใหญ่ออกเป็นส่วนเล็กๆ ที่อยู่ภายในขีดจำกัดโทเค็นของ LLM ในทางกลับกัน การฝังถูกนำมาใช้ใน NLP เป็นหลักเพื่อจับความหมายเชิงความหมายของคำและความสัมพันธ์กับคำอื่นๆ ในพื้นที่มิติสูง การฝังเหล่านี้แปลงคำให้เป็นเวกเตอร์ ช่วยให้โมเดลสามารถประมวลผลและทำความเข้าใจข้อมูลที่เป็นข้อความได้อย่างมีประสิทธิภาพ โดยการทำความเข้าใจความแตกต่างทางความหมายระหว่างคำและวลี การฝังช่วยให้ LLM สามารถสร้างผลลัพธ์ที่สอดคล้องกันและเกี่ยวข้องกับบริบท โปรดสังเกตคำศัพท์สำคัญต่อไปนี้:

การจัดเป็นกลุ่ม – กระบวนการนี้จะแบ่งข้อความจำนวนมากจากเอกสารออกเป็นส่วนย่อยๆ ของข้อความที่มีความหมาย
ฝัง – สิ่งเหล่านี้คือการแปลงเวกเตอร์มิติคงที่ของแต่ละชิ้นส่วนที่เก็บข้อมูลความหมายจากชิ้นส่วนต่างๆ การฝังเหล่านี้จะถูกโหลดลงในฐานข้อมูลเวกเตอร์ในภายหลัง
ฐานข้อมูลเวกเตอร์ – เป็นฐานข้อมูลของการฝังคำหรือเวกเตอร์ที่แสดงถึงบริบทของคำ โดยทำหน้าที่เป็นแหล่งความรู้ที่ช่วยงาน NLP ในไปป์ไลน์การประมวลผลเอกสาร ประโยชน์ของฐานข้อมูลเวกเตอร์ที่นี่คืออนุญาตให้เฉพาะบริบทที่จำเป็นเท่านั้นที่จะมอบให้กับ LLM ในระหว่างการสร้างข้อความ ดังที่เราอธิบายไว้ในส่วนต่อไปนี้

RAG ใช้พลังของการฝังเพื่อทำความเข้าใจและดึงส่วนเอกสารที่เกี่ยวข้องในระหว่างขั้นตอนการดึงข้อมูล ด้วยการทำเช่นนี้ RAG สามารถทำงานได้ภายในข้อจำกัดโทเค็นของ LLM ทำให้มั่นใจได้ว่าข้อมูลที่เกี่ยวข้องมากที่สุดจะถูกเลือกสำหรับการสร้าง ส่งผลให้ผลลัพธ์มีความแม่นยำและเกี่ยวข้องกับบริบทมากขึ้น

แผนภาพต่อไปนี้แสดงให้เห็นถึงการบูรณาการเทคนิคเหล่านี้เพื่อสร้างอินพุตให้กับ LLM ช่วยเพิ่มความเข้าใจในบริบท และช่วยให้สามารถตอบสนองต่อบริบทที่เกี่ยวข้องได้มากขึ้น วิธีหนึ่งเกี่ยวข้องกับการค้นหาความคล้ายคลึงกัน โดยใช้ทั้งฐานข้อมูลเวกเตอร์และการแยกส่วน ฐานข้อมูลเวกเตอร์จัดเก็บการฝังที่แสดงข้อมูลเชิงความหมาย และการแบ่งส่วนจะแบ่งข้อความออกเป็นส่วนต่างๆ ที่สามารถจัดการได้ การใช้บริบทนี้จากการค้นหาความคล้ายคลึง LLM สามารถรันงานต่างๆ เช่น การตอบคำถาม และการดำเนินการเฉพาะโดเมน เช่น การจำแนกประเภทและการเพิ่มคุณค่า

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

สำหรับโพสต์นี้ เราใช้วิธีการแบบ RAG เพื่อดำเนินการถามตอบในบริบทด้วยเอกสาร ในตัวอย่างโค้ดต่อไปนี้ เราจะแยกข้อความออกจากเอกสารแล้วแยกเอกสารออกเป็นข้อความชิ้นเล็กๆ จำเป็นต้องมีการแบ่งส่วนเนื่องจากเราอาจมีเอกสารหลายหน้าขนาดใหญ่ และ LLM ของเราอาจมีขีดจำกัดโทเค็น จากนั้นชิ้นส่วนเหล่านี้จะถูกโหลดลงในฐานข้อมูลเวกเตอร์เพื่อทำการค้นหาความคล้ายคลึงกันในขั้นตอนต่อๆ ไป ในตัวอย่างต่อไปนี้ เราใช้โมเดล Amazon Titan Embed Text v1 ซึ่งทำการฝังเวกเตอร์ของชิ้นเอกสาร:

from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import BedrockEmbeddings
from langchain.vectorstores import FAISS
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.chains import RetrievalQA loader = AmazonTextractPDFLoader("amazon_10k.pdf")
document = loader.load() text_splitter = RecursiveCharacterTextSplitter(chunk_size=400, separators=["nn", "n", ".", "!", "?", ",", " ", ""], chunk_overlap=0)
texts = text_splitter.split_documents(document)
embeddings = BedrockEmbeddings(client=bedrock, model_id="amazon.titan-embed-text-v1")
db = FAISS.from_documents(documents=texts, embedding=embeddings) retriever = db.as_retriever(search_type='mmr', search_kwargs={"k": 3}) template = """ Answer the question as truthfully as possible strictly using only the provided text, and if the answer is not contained within the text, say "I don't know". Skip any preamble text and reasoning and give just the answer. <text>{context}</text>
<question>{question}</question>
<answer>""" # define the prompt template
qa_prompt = PromptTemplate(template=template, input_variables=["context","question"]) chain_type_kwargs = { "prompt": qa_prompt, "verbose": False } # change verbose to True if you need to see what's happening bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
qa = RetrievalQA.from_chain_type( llm=bedrock_llm, chain_type="stuff", retriever=retriever, chain_type_kwargs=chain_type_kwargs, verbose=False # change verbose to True if you need to see what's happening
) question="Who is the administrator for this plan?"
result = qa.run(question)
print(result.strip())

โค้ดจะสร้างบริบทที่เกี่ยวข้องสำหรับ LLM โดยใช้ข้อความบางส่วนที่ส่งคืนโดยการดำเนินการค้นหาความคล้ายคลึงจากฐานข้อมูลเวกเตอร์ สำหรับตัวอย่างนี้ เราใช้โอเพ่นซอร์ส ร้านเวกเตอร์ FAISS เป็นฐานข้อมูลเวกเตอร์ตัวอย่างเพื่อจัดเก็บการฝังเวกเตอร์ของข้อความแต่ละชิ้น จากนั้นเรากำหนดฐานข้อมูลเวกเตอร์เป็น แลงเชน รีทรีฟเวอร์ซึ่งส่งผ่านเข้าสู่ RetrievalQA โซ่. สิ่งนี้จะเรียกใช้คำค้นหาที่คล้ายกันเป็นการภายในบนฐานข้อมูลเวกเตอร์ที่ส่งคืนข้อความด้านบน n (โดยที่ n=3 ในตัวอย่างของเรา) เป็นข้อความที่เกี่ยวข้องกับคำถาม สุดท้ายนี้ LLM chain จะดำเนินการพร้อมกับบริบทที่เกี่ยวข้อง (กลุ่มของข้อความที่เกี่ยวข้อง) และคำถามสำหรับ LLM ที่จะตอบ สำหรับการแนะนำโค้ดแบบทีละขั้นตอนของการถามตอบด้วย RAG โปรดดูที่สมุดบันทึก Python GitHub.

เป็นทางเลือกแทน FAISS คุณยังสามารถใช้ ความสามารถฐานข้อมูลเวกเตอร์ของ Amazon OpenSearch Service, บริการฐานข้อมูลเชิงสัมพันธ์ของ Amazon (Amazon RDS) สำหรับ PostgreSQL กับ pgvector ส่วนขยายเป็นฐานข้อมูลเวกเตอร์หรือฐานข้อมูล Chroma แบบโอเพ่นซอร์ส

ถามตอบพร้อมข้อมูลแบบตาราง

ข้อมูลแบบตารางภายในเอกสารอาจเป็นเรื่องยากสำหรับ LLM ในการประมวลผลเนื่องจากความซับซ้อนของโครงสร้าง สามารถเพิ่ม Amazon Textract ด้วย LLM ได้ เนื่องจากทำให้สามารถแยกตารางออกจากเอกสารในรูปแบบองค์ประกอบที่ซ้อนกัน เช่น หน้า ตาราง และเซลล์ การถามตอบด้วยข้อมูลแบบตารางเป็นกระบวนการที่มีหลายขั้นตอน และสามารถทำได้ผ่านทาง การสอบถามตนเอง. ต่อไปนี้เป็นภาพรวมของขั้นตอนต่างๆ:

แยกตารางออกจากเอกสารโดยใช้ Amazon Textract ด้วย Amazon Textract โครงสร้างแบบตาราง (แถว คอลัมน์ ส่วนหัว) สามารถแยกออกจากเอกสารได้
จัดเก็บข้อมูลแบบตารางลงในฐานข้อมูลเวกเตอร์พร้อมกับข้อมูลเมตาดาต้า เช่น ชื่อส่วนหัวและคำอธิบายของแต่ละส่วนหัว
ใช้พร้อมท์เพื่อสร้างแบบสอบถามที่มีโครงสร้างโดยใช้ LLM เพื่อรับข้อมูลจากตาราง
ใช้แบบสอบถามเพื่อแยกข้อมูลตารางที่เกี่ยวข้องจากฐานข้อมูลเวกเตอร์

ตัวอย่างเช่น ในใบแจ้งยอดธนาคาร เมื่อได้รับข้อความแจ้งว่า “ธุรกรรมใดบ้างที่มีเงินฝากมากกว่า $1000” LLM จะดำเนินการตามขั้นตอนต่อไปนี้ให้เสร็จสิ้น:

สร้างแบบสอบถาม เช่น “Query: transactions” , “filter: greater than (Deposit$)”.
แปลงแบบสอบถามเป็นแบบสอบถามแบบมีโครงสร้าง
ใช้การสืบค้นแบบมีโครงสร้างกับฐานข้อมูลเวกเตอร์ที่จัดเก็บข้อมูลตารางของเรา

สำหรับคำแนะนำแบบทีละขั้นตอนโค้ดตัวอย่างของการถามตอบแบบตาราง โปรดดูที่สมุดบันทึก Python GitHub.

การสร้างเทมเพลตและการทำให้เป็นมาตรฐาน

ในส่วนนี้ เราจะดูวิธีการใช้เทคนิคทางวิศวกรรมที่รวดเร็วและกลไกในตัวของ LangChain เพื่อสร้างเอาต์พุตที่มีการแตกไฟล์จากเอกสารใน schema ที่ระบุ นอกจากนี้เรายังดำเนินการสร้างมาตรฐานให้กับข้อมูลที่แยกออกมา โดยใช้เทคนิคที่กล่าวถึงก่อนหน้านี้ เราเริ่มต้นด้วยการกำหนดเทมเพลตสำหรับผลลัพธ์ที่เราต้องการ ซึ่งจะทำหน้าที่เป็นสคีมาและสรุปรายละเอียดเกี่ยวกับแต่ละเอนทิตีที่เราต้องการแยกออกจากข้อความในเอกสาร

output_template= { "doctor_name":{ "type": "string", "description": "The doctor or provider's full name" }, "provider_id":{ "type": "string", "description": "The doctor or provider's ID" }, "patient_name":{ "type": "string", "description": "The patient's full name" }, …
}

โปรดทราบว่าสำหรับแต่ละเอนทิตี เราใช้คำอธิบายเพื่ออธิบายว่าเอนทิตีนั้นคืออะไรเพื่อช่วย LLM ในการดึงค่าออกจากข้อความของเอกสาร ในโค้ดตัวอย่างต่อไปนี้ เราใช้เทมเพลตนี้เพื่อสร้างพรอมต์ของเราสำหรับ LLM พร้อมกับข้อความที่แยกจากเอกสารโดยใช้ AmazonTextractPDFLoader และดำเนินการอนุมานด้วยแบบจำลองต่อไป:

from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain template = """ You are a helpful assistant. Please extract the following details from the document and format the output as JSON using the keys. Skip any preamble text and generate the final answer. <details>
{details}
</details> <keys>
{keys}
</keys> <document>
{doc_text}
<document> <final_answer>""" details = "n".join([f"{key}: {value['description']}" for key, value in output_template.items()])
keys = "n".join([f"{key}" for key, value in output_template.items()]) prompt = PromptTemplate(template=template, input_variables=["details", "keys", "doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
output = llm_chain.run({"doc_text": full_text, "details": details, "keys": keys}) print(output) { "doctor_name": "Mateo Jackson, Phd", "provider_id": "XA/7B/00338763", "patient_name": "John Doe", … }

ในขณะที่คุณสามารถดูที่ {keys} ส่วนหนึ่งของพรอมต์คือคีย์จากเทมเพลตของเรา และ {details} เป็นกุญแจพร้อมกับคำอธิบาย ในกรณีนี้ เราจะไม่แจ้งโมเดลอย่างชัดเจนด้วยรูปแบบของเอาต์พุตนอกเหนือจากที่ระบุไว้ในคำสั่งเพื่อสร้างเอาต์พุตในรูปแบบ JSON วิธีนี้ใช้ได้ผลเป็นส่วนใหญ่ อย่างไรก็ตาม เนื่องจากเอาต์พุตจาก LLM เป็นการสร้างข้อความที่ไม่สามารถกำหนดได้ เราจึงต้องการระบุรูปแบบอย่างชัดเจนโดยเป็นส่วนหนึ่งของคำสั่งในพร้อมท์ เพื่อแก้ปัญหานี้ เราสามารถใช้ LangChain's ได้ ตัวแยกวิเคราะห์เอาต์พุตที่มีโครงสร้าง โมดูลเพื่อใช้ประโยชน์จากวิศวกรรมพร้อมท์อัตโนมัติที่ช่วยแปลงเทมเพลตของเราเป็นพรอมต์คำสั่งรูปแบบ เราใช้เทมเพลตที่กำหนดไว้ก่อนหน้านี้เพื่อสร้างพรอมต์คำสั่งรูปแบบดังต่อไปนี้:

from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser response_schems = list() for key, value in output_template.items(): schema = ResponseSchema(name=key, description=value['description'], type=value['type']) response_schems.append(schema)
output_parser = StructuredOutputParser.from_response_schemas(response_schems)
format_instructions= output_parser.get_format_instructions()
print(format_instructions)

พื้นที่ format_instructions ตัวแปรตอนนี้เก็บพรอมต์คำสั่งรูปแบบไว้:

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```": ```json
{ "doctor_name": string // The doctor or provider's full name "provider_id": string // The doctor or provider's ID "patient_name": string // The patient's full name …
}
```

จากนั้นเราใช้ตัวแปรนี้ภายในพร้อมต์ดั้งเดิมของเราเป็นคำสั่งสำหรับ LLM เพื่อที่จะแยกและจัดรูปแบบเอาต์พุตในสคีมาที่ต้องการโดยทำการแก้ไขเล็กน้อยในพรอมต์ของเรา:

template = """ You are a helpful assistant. Please extract the following details from the document and strictly follow the instructions described in the format instructions to format the output. Skip any preamble text and generate the final answer. Do not generate incomplete answer. <details>
{details}
</details> <format_instructions>
{format_instructions}
</format_instructions> <document>
{doc_text}
<document> <final_answer>"""

จนถึงตอนนี้ เราได้ดึงข้อมูลออกจากเอกสารในรูปแบบสคีมาที่ต้องการเท่านั้น อย่างไรก็ตาม เรายังจำเป็นต้องสร้างมาตรฐานบางประการ ตัวอย่างเช่น เราต้องการให้ดึงวันที่เข้ารับการรักษาและวันที่จำหน่ายของผู้ป่วยในรูปแบบ วว/ดด/ปปปป ในกรณีนี้ เราจะเพิ่ม description ของคีย์พร้อมคำสั่งการจัดรูปแบบ:

new_output_template= { … "admitted_date":{ "type": "string", "description": "Date the patient was admitted to the hospital, this should be formatted in DD/MM/YYYY format." }, "discharge_date":{ "type": "string", "description": "Date the patient was discharged from the hospital, this should be formatted in DD/MM/YYYY format." …
}

อ้างถึงสมุดบันทึก Python ใน GitHub สำหรับคำแนะนำและคำอธิบายแบบเต็มทีละขั้นตอน

การตรวจการสะกดและการแก้ไข

LLM ได้แสดงให้เห็นถึงความสามารถที่น่าทึ่งในการทำความเข้าใจและสร้างข้อความที่เหมือนมนุษย์ แอปพลิเคชั่น LLM ที่ได้รับการกล่าวถึงน้อยแต่มีประโยชน์อย่างมากก็คือศักยภาพในการตรวจสอบไวยากรณ์และการแก้ไขประโยคในเอกสาร แตกต่างจากเครื่องตรวจสอบไวยากรณ์แบบดั้งเดิมที่ต้องอาศัยชุดกฎที่กำหนดไว้ล่วงหน้า LLM ใช้รูปแบบที่ระบุได้จากข้อมูลข้อความจำนวนมหาศาลเพื่อกำหนดว่าภาษาใดถือเป็นภาษาที่ถูกต้องหรือคล่องแคล่ว ซึ่งหมายความว่าพวกเขาสามารถตรวจจับความแตกต่าง บริบท และรายละเอียดปลีกย่อยที่ระบบที่อิงกฎอาจพลาดได้

ลองนึกภาพข้อความที่ดึงมาจากสรุปการจำหน่ายผู้ป่วยซึ่งมีข้อความว่า "ผู้ป่วยจอน โด ซึ่งเข้ารับการรักษาด้วยโรคปอดบวมขั้นรุนแรง มีอาการดีขึ้นอย่างเห็นได้ชัด และสามารถออกจากโรงพยาบาลได้อย่างปลอดภัย การติดตามผลมีกำหนดในสัปดาห์หน้า” เครื่องตรวจการสะกดแบบดั้งเดิมอาจจดจำคำว่า "ยอมรับ" "โรคปอดบวม" "การปรับปรุง" และ "ต่อไป" ว่าเป็นข้อผิดพลาด อย่างไรก็ตาม บริบทของข้อผิดพลาดเหล่านี้อาจนำไปสู่ข้อผิดพลาดเพิ่มเติมหรือคำแนะนำทั่วไปได้ LLM ที่มาพร้อมกับการฝึกอบรมที่กว้างขวางอาจแนะนำว่า “ผู้ป่วย John Doe ซึ่งเข้ารับการรักษาด้วยโรคปอดบวมขั้นรุนแรง มีอาการดีขึ้นอย่างเห็นได้ชัดและสามารถออกจากโรงพยาบาลได้อย่างปลอดภัย การติดตามผลมีกำหนดในสัปดาห์หน้า”

ต่อไปนี้คือเอกสารตัวอย่างที่เขียนด้วยลายมือที่ไม่ดีซึ่งมีข้อความเดียวกับที่อธิบายไว้ก่อนหน้านี้

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

เราแยกเอกสารด้วยตัวโหลดเอกสาร Amazon Textract จากนั้นสั่ง LLM ผ่านทางวิศวกรรมทันที เพื่อแก้ไขข้อความที่แยกออกมาเพื่อแก้ไขการสะกดและหรือข้อผิดพลาดทางไวยากรณ์:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/hand_written_note.pdf")
document = loader.load() template = """ Given a detailed 'Document', perform spelling and grammatical corrections. Ensure the output is coherent, polished, and free from errors. Skip any preamble text and give the answer. <document>{doc_text}</<document>
<answer> """ prompt = PromptTemplate(template=template, input_variables=["doc_text"])
llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
llm_chain = LLMChain(prompt=prompt, llm=llm) try: txt = document[0].page_content std_op = llm_chain.run({"doc_text": txt}) print("Extracted text") print("==============") print(txt) print("nCorrected text") print("==============") print(std_op.strip()) print("n")
except Exception as e: print(str(e))

ผลลัพธ์ของโค้ดก่อนหน้าแสดงข้อความต้นฉบับที่แยกโดยตัวโหลดเอกสาร ตามด้วยข้อความที่แก้ไขที่สร้างโดย LLM:

Extracted text
==============
Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Corrected text
==============
Patient John Doe, who was admitted with severe pneumonia, has shown significant improvement and can be safely discharged. Follow-up appointments are scheduled for next week.

โปรดจำไว้ว่า แม้ว่า LLM จะมีอำนาจก็ตาม การมองว่าคำแนะนำของพวกเขาเป็นเพียงคำแนะนำเท่านั้น แม้ว่าพวกเขาจะจับความซับซ้อนของภาษาได้อย่างน่าประทับใจ แต่ก็ไม่ได้ผิดพลาด คำแนะนำบางอย่างอาจเปลี่ยนความหมายหรือน้ำเสียงที่ตั้งใจไว้ของข้อความต้นฉบับ ดังนั้นจึงจำเป็นอย่างยิ่งที่ผู้ตรวจสอบที่เป็นมนุษย์จะต้องใช้การแก้ไขที่สร้างโดย LLM เพื่อเป็นแนวทาง ไม่ใช่โดยสมบูรณ์ การทำงานร่วมกันของสัญชาตญาณของมนุษย์กับความสามารถของ LLM สัญญาถึงอนาคตที่การสื่อสารที่เป็นลายลักษณ์อักษรของเราไม่เพียงปราศจากข้อผิดพลาด แต่ยังสมบูรณ์ยิ่งขึ้นและเหมาะสมยิ่งขึ้นอีกด้วย

สรุป

Generative AI กำลังเปลี่ยนแปลงวิธีที่คุณสามารถประมวลผลเอกสารด้วย IDP เพื่อรับข้อมูลเชิงลึก ในการโพสต์ เพิ่มประสิทธิภาพการประมวลผลเอกสารอัจฉริยะของ AWS ด้วย AI เชิงสร้างสรรค์เราได้พูดคุยถึงขั้นตอนต่างๆ ของไปป์ไลน์ และวิธีที่ Ricoh ลูกค้า AWS ปรับปรุงไปป์ไลน์ IDP ด้วย LLM ในโพสต์นี้ เราได้พูดคุยถึงกลไกต่างๆ ในการเพิ่มเวิร์กโฟลว์ IDP ด้วย LLM ผ่าน Amazon Bedrock, Amazon Textract และเฟรมเวิร์ก LangChain ยอดนิยม คุณสามารถเริ่มต้นใช้งานตัวโหลดเอกสาร Amazon Textract ใหม่ด้วย LangChain ได้แล้ววันนี้ โดยใช้สมุดบันทึกตัวอย่างที่มีอยู่ในของเรา พื้นที่เก็บข้อมูล GitHub. สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการทำงานกับ Generative AI บน AWS โปรดดูที่ ประกาศเครื่องมือใหม่สำหรับการสร้างด้วย Generative AI บน AWS.

เกี่ยวกับผู้เขียน

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. โซนาลี ซาฮู เป็นผู้นำการประมวลผลเอกสารอัจฉริยะด้วยทีมบริการ AI/ML ใน AWS เธอเป็นนักเขียน ผู้นำทางความคิด และนักเทคโนโลยีที่กระตือรือร้น ประเด็นหลักที่เธอสนใจคือ AI และ ML และเธอมักจะพูดในการประชุมและการพบปะของ AI และ ML ทั่วโลก เธอมีประสบการณ์ทั้งเชิงกว้างและเชิงลึกในด้านเทคโนโลยีและอุตสาหกรรมเทคโนโลยี พร้อมความเชี่ยวชาญในอุตสาหกรรมด้านการดูแลสุขภาพ ภาคการเงิน และการประกันภัย

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. อัญชัน บิสวาส เป็นสถาปนิกอาวุโสด้านโซลูชันบริการ AI โดยมุ่งเน้นที่ AI/ML และการวิเคราะห์ข้อมูล Anjan เป็นส่วนหนึ่งของทีมบริการ AI ทั่วโลก และทำงานร่วมกับลูกค้าเพื่อช่วยให้พวกเขาเข้าใจและพัฒนาวิธีแก้ปัญหาทางธุรกิจด้วย AI และ ML Anjan มีประสบการณ์มากกว่า 14 ปีในการทำงานกับซัพพลายเชน การผลิต และองค์กรค้าปลีกระดับโลก และคอยช่วยเหลือลูกค้าในการเริ่มต้นและปรับขนาดบนบริการ AWS AI

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. ชินมยีระเนะ เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญ AI/ML ที่ Amazon Web Services เธอมีความหลงใหลในคณิตศาสตร์ประยุกต์และการเรียนรู้ของเครื่อง เธอมุ่งเน้นไปที่การออกแบบการประมวลผลเอกสารอัจฉริยะและโซลูชัน AI เชิงสร้างสรรค์สำหรับลูกค้า AWS นอกเวลางาน เธอชอบเต้นซัลซ่าและบาชาต้า