معالجة ذكية للمستندات باستخدام Amazon Textract وAmazon Bedrock وLangChain

أعاد نشره أفلاطون

المتابعون: 0

في عصر المعلومات الحالي، تمثل الكميات الهائلة من البيانات الموجودة في عدد لا يحصى من المستندات تحديًا وفرصة للشركات. غالبًا ما تنقص أساليب معالجة المستندات التقليدية من حيث الكفاءة والدقة، مما يترك مجالًا للابتكار وفعالية التكلفة والتحسينات. شهدت معالجة المستندات تطورات كبيرة مع ظهور معالجة المستندات الذكية (IDP). باستخدام IDP، يمكن للشركات تحويل البيانات غير المنظمة من أنواع المستندات المختلفة إلى رؤى منظمة وقابلة للتنفيذ، مما يعزز الكفاءة بشكل كبير ويقلل الجهود اليدوية. ومع ذلك، فإن الإمكانات لا تنتهي عند هذا الحد. ومن خلال دمج الذكاء الاصطناعي التوليدي (AI) في العملية، يمكننا تعزيز قدرات IDP بشكل أكبر. لا يقدم الذكاء الاصطناعي التوليدي إمكانات محسنة في معالجة المستندات فحسب، بل يقدم أيضًا قدرة ديناميكية على التكيف مع أنماط البيانات المتغيرة. يأخذك هذا المنشور عبر التآزر بين IDP والذكاء الاصطناعي التوليدي، ويكشف عن كيفية تمثيلهما للحدود التالية في معالجة المستندات.

نناقش IDP بالتفصيل في سلسلتنا المعالجة الذكية للمستندات باستخدام خدمات AWS AI (جزء 1 و جزء 2). في هذا المنشور، نناقش كيفية توسيع بنية IDP الجديدة أو الحالية باستخدام نماذج اللغات الكبيرة (LLMs). وبشكل أكثر تحديدًا، نناقش كيف يمكننا التكامل أمازون تيكستراك مع لانجشين كمحمل المستندات و أمازون بيدروك لاستخراج البيانات من المستندات واستخدام قدرات الذكاء الاصطناعي التوليدية ضمن مراحل IDP المختلفة.

Amazon Textract هي خدمة تعلم آلي (ML) تقوم تلقائيًا باستخراج النص والكتابة اليدوية والبيانات من المستندات الممسوحة ضوئيًا. Amazon Bedrock هي خدمة مُدارة بالكامل توفر مجموعة مختارة من نماذج الأساس عالية الأداء (FMs) من خلال واجهات برمجة التطبيقات سهلة الاستخدام.

الرسم التخطيطي التالي عبارة عن بنية مرجعية عالية المستوى تشرح كيف يمكنك تحسين سير عمل IDP بشكل أكبر باستخدام النماذج الأساسية. يمكنك استخدام LLMs في إحدى مراحل IDP أو جميعها اعتمادًا على حالة الاستخدام والنتيجة المرجوة.

في الأقسام التالية، سنتعمق في كيفية دمج Amazon Textract في مسارات عمل الذكاء الاصطناعي التوليدية باستخدام LangChain لمعالجة المستندات لكل من هذه المهام المحددة. تم تقليص كتل التعليمات البرمجية المتوفرة هنا للإيجاز. الرجوع إلى لدينا مستودع جيثب للحصول على دفاتر ملاحظات تفصيلية بلغة Python وإرشادات تفصيلية خطوة بخطوة.

يعد استخراج النص من المستندات جانبًا مهمًا عندما يتعلق الأمر بمعالجة المستندات باستخدام LLMs. يمكنك استخدام Amazon Textract لاستخراج نص أولي غير منظم من المستندات والحفاظ على الكائنات الأصلية شبه المنظمة أو المنظمة مثل أزواج القيمة الرئيسية والجداول الموجودة في المستند. تتكون حزم المستندات مثل مطالبات الرعاية الصحية والتأمين أو الرهون العقارية من نماذج معقدة تحتوي على الكثير من المعلومات عبر التنسيقات المنظمة وشبه المنظمة وغير المنظمة. يعد استخراج المستندات خطوة مهمة هنا لأن طلاب ماجستير القانون يستفيدون من المحتوى الغني لتوليد استجابات أكثر دقة وذات صلة، والتي قد تؤثر بخلاف ذلك على جودة مخرجات ماجستير القانون.

يعد LangChain إطارًا قويًا مفتوح المصدر للتكامل مع LLMs. تعد LLMs بشكل عام متعددة الاستخدامات ولكنها قد تواجه صعوبة في المهام الخاصة بالمجال حيث يلزم سياق أعمق واستجابات دقيقة. تعمل LangChain على تمكين المطورين في مثل هذه السيناريوهات من بناء وكلاء يمكنهم تقسيم المهام المعقدة إلى مهام فرعية أصغر. يمكن للمهام الفرعية بعد ذلك إدخال السياق والذاكرة في LLMs عن طريق ربط مطالبات LLM وتسلسلها.

عروض لانجشين محمل المستندات يمكنها تحميل وتحويل البيانات من المستندات. يمكنك استخدامها لتنظيم المستندات في التنسيقات المفضلة التي يمكن معالجتها بواسطة LLMs. ال AmazonTextractPDFLoader هو نوع محمل الخدمة لمحمل المستندات الذي يوفر طريقة سريعة لأتمتة معالجة المستندات باستخدام Amazon Textract مع LangChain. لمزيد من التفاصيل على AmazonTextractPDFLoader، الرجوع إلى لانجشين توثيق. لاستخدام أداة تحميل المستندات Amazon Textract، عليك أن تبدأ باستيراده من مكتبة LangChain:

from langchain.document_loaders import AmazonTextractPDFLoader

https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()

يمكنك أيضًا تخزين المستندات في Amazon S3 والرجوع إليها باستخدام نمط s3:// URL، كما هو موضح في الوصول إلى الجرافة باستخدام S3://، وقم بتمرير مسار S3 هذا إلى أداة تحميل Amazon Textract PDF:

import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()

سيحتوي المستند متعدد الصفحات على صفحات متعددة من النص، والتي يمكن بعد ذلك الوصول إليها عبر كائن المستندات، وهو عبارة عن قائمة من الصفحات. يتكرر الكود التالي عبر الصفحات الموجودة في كائن المستندات ويطبع نص المستند المتوفر عبر page_content صفة، عزا:

print(len(documents)) for document in documents: print(document.page_content)

يمكن استخدام Amazon Comprehend وLLMs بشكل فعال لتصنيف المستندات. Amazon Comprehend هي خدمة معالجة لغة طبيعية (NLP) تستخدم التعلم الآلي لاستخراج الرؤى من النص. يدعم Amazon Comprehend أيضًا التدريب على نماذج التصنيف المخصصة مع الوعي بالتخطيط للمستندات مثل ملفات PDF وWord وتنسيقات الصور. لمزيد من المعلومات حول استخدام مصنف المستندات Amazon Comprehend، راجع يضيف مصنف المستندات Amazon Comprehend دعمًا للتخطيط للحصول على دقة أعلى.

عند إقرانه مع LLMs، يصبح تصنيف المستندات أسلوبًا قويًا لإدارة كميات كبيرة من المستندات. تعد LLMs مفيدة في تصنيف المستندات لأنها تستطيع تحليل النص والأنماط والعناصر السياقية في المستند باستخدام فهم اللغة الطبيعية. يمكنك أيضًا ضبطها لتناسب فئات مستندات محددة. عندما يحتاج نوع مستند جديد تم تقديمه في مسار IDP إلى التصنيف، يمكن لـ LLM معالجة النص وتصنيف المستند في ضوء مجموعة من الفئات. ما يلي هو نموذج للتعليمة البرمجية يستخدم أداة تحميل المستندات LangChain المدعومة من Amazon Textract لاستخراج النص من المستند واستخدامه لتصنيف المستند. نحن نستخدم ال الأنثروبي كلود v2 النموذج عبر Amazon Bedrock لإجراء التصنيف.

في المثال التالي، نقوم أولاً باستخراج النص من تقرير خروج المريض واستخدام LLM لتصنيفه في ضوء قائمة بثلاثة أنواع مختلفة من المستندات—DISCHARGE_SUMMARY, RECEIPTو PRESCRIPTION. لقطة الشاشة التالية توضح تقريرنا.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")

يتضمن التلخيص تكثيف نص أو مستند معين في نسخة أقصر مع الاحتفاظ بمعلوماته الأساسية. تعتبر هذه التقنية مفيدة لاسترجاع المعلومات بكفاءة، مما يمكّن المستخدمين من فهم النقاط الرئيسية للمستند بسرعة دون قراءة المحتوى بالكامل. على الرغم من أن Amazon Textract لا يقوم بتلخيص النص بشكل مباشر، إلا أنه يوفر الإمكانيات الأساسية لاستخراج النص بالكامل من المستندات. يعمل هذا النص المستخرج كمدخل لنموذج LLM الخاص بنا لتنفيذ مهام تلخيص النص.

باستخدام نفس تقرير التفريغ العينة، نستخدم AmazonTextractPDFLoader لاستخراج النص من هذه الوثيقة. كما كان من قبل، نستخدم نموذج Claude v2 عبر Amazon Bedrock ونقوم بتهيئته بموجه يحتوي على تعليمات حول ما يجب فعله بالنص (في هذه الحالة، التلخيص). أخيرًا، نقوم بتشغيل سلسلة LLM عن طريق تمرير النص المستخرج من أداة تحميل المستندات. يؤدي هذا إلى تشغيل إجراء استدلالي على LLM مع الموجه الذي يتكون من تعليمات التلخيص، ووضع علامة على نص المستند Document. انظر الكود التالي:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() template = """ Given a full document, give me a concise summary. Skip any preamble text and just give the summary. <document>{doc_text}</document>
<summary>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") num_tokens = bedrock_llm.get_num_tokens(document[0].page_content)
print (f"Our prompt has {num_tokens} tokens nn=========================n") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
summary = llm_chain.run(document[0].page_content) print(summary.replace("</summary>","").strip())

يُنشئ الكود ملخصًا لتقرير ملخص خروج المريض:

Our prompt has 797 tokens =========================
35 yo M admitted for epigastric abdominal pain, nausea, fatigue. Found to likely have ulcer. Discharged with activity restrictions, antibiotics, diet changes, and follow up.

استخدم المثال السابق مستندًا من صفحة واحدة لإجراء التلخيص. ومع ذلك، من المحتمل أن تتعامل مع المستندات التي تحتوي على صفحات متعددة تحتاج إلى تلخيص. إحدى الطرق الشائعة لإجراء التلخيص على صفحات متعددة هي إنشاء ملخصات أولاً على أجزاء أصغر من النص ثم دمج الملخصات الأصغر للحصول على ملخص نهائي للمستند. لاحظ أن هذه الطريقة تتطلب استدعاءات متعددة لـ LLM. ويمكن صياغة المنطق وراء ذلك بسهولة؛ ومع ذلك، يوفر LangChain سلسلة تلخيص مدمجة يمكنها تلخيص النصوص الكبيرة (من مستندات متعددة الصفحات). يمكن أن يحدث التلخيص إما عن طريق map_reduce أو مع stuff الخيارات المتاحة كخيارات لإدارة المكالمات المتعددة إلى LLM. في المثال التالي نستخدم map_reduce لتلخيص وثيقة متعددة الصفحات. ويوضح الشكل التالي سير العمل لدينا.

معالجة ذكية للمستندات باستخدام Amazon Textract وAmazon Bedrock وLangChain | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

لنبدأ أولاً باستخراج المستند ومعرفة إجمالي عدد الرموز المميزة لكل صفحة وإجمالي عدد الصفحات:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") loader = AmazonTextractPDFLoader(f"s3://{data_bucket}/bedrock-sample/health_plan.pdf")
document = loader.load()
num_docs = len(document)
print (f"There are {num_docs} pages in the document")
for index, doc in enumerate(document): num_tokens_first_doc = bedrock_llm.get_num_tokens(doc.page_content) print (f"Page {index+1} has approx. {num_tokens_first_doc} tokens") There are 5 pages in the document
Page 1 has approx. 533 tokens
Page 2 has approx. 1323 tokens
Page 3 has approx. 997 tokens
Page 4 has approx. 1643 tokens
Page 5 has approx. 867 tokens

بعد ذلك، نستخدم LangChain المدمج load_summarize_chain لتلخيص الوثيقة بأكملها:

from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())

التقييس والأسئلة والأجوبة

في هذا القسم، نناقش توحيد المعايير ومهام الأسئلة والأجوبة.

التقييس

توحيد المخرجات هو مهمة إنشاء نص حيث يتم استخدام LLMs لتوفير تنسيق ثابت للنص الناتج. تعتبر هذه المهمة مفيدة بشكل خاص لأتمتة عملية استخراج الكيانات الرئيسية التي تتطلب توافق المخرجات مع التنسيقات المطلوبة. على سبيل المثال، يمكننا اتباع أفضل الممارسات الهندسية السريعة لضبط ماجستير إدارة الأعمال (LLM) لتنسيق التواريخ بتنسيق MM/DD/YYYY، والذي قد يكون متوافقًا مع عمود DATE في قاعدة البيانات. تعرض كتلة التعليمات البرمجية التالية مثالاً لكيفية القيام بذلك باستخدام LLM والهندسة السريعة. لا نقوم فقط بتوحيد تنسيق الإخراج لقيم التاريخ، بل نطالب النموذج أيضًا بإنشاء الإخراج النهائي بتنسيق JSON بحيث يمكن استهلاكه بسهولة في تطبيقاتنا النهائية. نحن نستخدم لغة التعبير LangChain (LCEL) لربط إجراءين معًا. يطالب الإجراء الأول LLM بإنشاء مخرجات تنسيق JSON للتواريخ الموجودة في المستند فقط. الإجراء الثاني يأخذ إخراج JSON ويوحد تنسيق التاريخ. لاحظ أنه يمكن أيضًا تنفيذ هذا الإجراء المكون من خطوتين في خطوة واحدة باستخدام الهندسة السريعة المناسبة، كما سنرى في التطبيع والقولبة.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") template1 = """ Given a full document, answer the question and format the output in the format specified. Skip any preamble text and just generate the JSON. <format>
{{ "key_name":"key_value"
}}
</format>
<document>{doc_text}</document>
<question>{question}</question>""" template2 = """ Given a JSON document, format the dates in the value fields precisely in the provided format. Skip any preamble text and just generate the JSON. <format>DD/MM/YYYY</format>
<json_document>{json_doc}</json_document> """ prompt1 = PromptTemplate(template=template1, input_variables=["doc_text", "question"])
llm_chain = LLMChain(prompt=prompt1, llm=bedrock_llm, verbose=True) prompt2 = PromptTemplate(template=template2, input_variables=["json_doc"])
llm_chain2 = LLMChain(prompt=prompt2, llm=bedrock_llm, verbose=True) chain = ( llm_chain | {'json_doc': lambda x: x['text'] } | llm_chain2
) std_op = chain.invoke({ "doc_text": document[0].page_content, "question": "Can you give me the patient admitted and discharge dates?"}) print(std_op['text']) { "admit_date":"07/09/2020", "discharge_date":"08/09/2020"
}

مخرجات نموذج التعليمات البرمجية السابق عبارة عن بنية JSON بالتواريخ 07/09/2020 و08/09/2020، والتي تكون بالتنسيق DD/MM/YYYY وهي تاريخ قبول المريض وخروجه من المستشفى، على التوالي، وفقًا إلى تقرير ملخص التسريح.

سؤال وجواب مع الجيل المعزز للاسترجاع

ومن المعروف أن LLMs يحتفظون بالمعلومات الواقعية، والتي يشار إليها غالبًا باسم معرفتهم بالعالم أو رؤيتهم للعالم. وعندما يتم ضبطها بدقة، فإنها يمكن أن تنتج أحدث النتائج. ومع ذلك، هناك قيود على مدى فعالية LLM في الوصول إلى هذه المعرفة ومعالجتها. ونتيجة لذلك، في المهام التي تعتمد بشكل كبير على معرفة محددة، قد لا يكون أدائها مثاليًا لحالات استخدام معينة. على سبيل المثال، في سيناريوهات الأسئلة والأجوبة، من الضروري أن يلتزم النموذج بشكل صارم بالسياق المقدم في المستند دون الاعتماد فقط على معرفته العالمية. يمكن أن يؤدي الانحراف عن هذا إلى تحريفات أو عدم دقة أو حتى استجابات غير صحيحة. تُعرف الطريقة الأكثر استخدامًا لمعالجة هذه المشكلة باسم الجيل المعزز الاسترداد (خرقة). يعمل هذا النهج على توحيد نقاط القوة في كل من نماذج الاسترجاع ونماذج اللغة، مما يعزز دقة وجودة الاستجابات الناتجة.

يمكن أيضًا أن تفرض LLMs قيودًا على الرمز المميز بسبب قيود الذاكرة الخاصة بها والقيود المفروضة على الأجهزة التي تعمل عليها. للتعامل مع هذه المشكلة، يتم استخدام تقنيات مثل التقطيع لتقسيم المستندات الكبيرة إلى أجزاء أصغر تتلاءم مع حدود الرمز المميز لـ LLM. من ناحية أخرى، يتم استخدام التضمينات في البرمجة اللغوية العصبية في المقام الأول لالتقاط المعنى الدلالي للكلمات وعلاقاتها مع الكلمات الأخرى في مساحة عالية الأبعاد. تعمل هذه التضمينات على تحويل الكلمات إلى متجهات، مما يسمح للنماذج بمعالجة البيانات النصية وفهمها بكفاءة. من خلال فهم الفروق الدقيقة الدلالية بين الكلمات والعبارات، تمكن التضمينات LLMs من إنشاء مخرجات متماسكة وذات صلة بالسياق. لاحظ المصطلحات الأساسية التالية:

تقطيع - تقوم هذه العملية بتقسيم كميات كبيرة من النص من المستندات إلى أجزاء نصية أصغر وذات معنى.
التضمينات - هذه عبارة عن تحويلات متجهة ذات أبعاد ثابتة لكل قطعة تحتفظ بالمعلومات الدلالية من القطع. يتم لاحقًا تحميل هذه التضمينات في قاعدة بيانات المتجهات.
قاعدة بيانات المتجهات - هذه قاعدة بيانات لتضمين الكلمات أو المتجهات التي تمثل سياق الكلمات. إنه بمثابة مصدر للمعرفة يساعد في مهام البرمجة اللغوية العصبية (NLP) في خطوط أنابيب معالجة المستندات. تتمثل فائدة قاعدة بيانات المتجهات هنا في أنها تسمح فقط بتوفير السياق الضروري لطلاب LLM أثناء إنشاء النص، كما نوضح في القسم التالي.

يستخدم RAG قوة التضمينات لفهم وجلب أجزاء الوثيقة ذات الصلة أثناء مرحلة الاسترجاع. ومن خلال القيام بذلك، يمكن لـ RAG العمل ضمن القيود الرمزية لـ LLMs، مما يضمن اختيار المعلومات الأكثر صلة للإنشاء، مما يؤدي إلى مخرجات أكثر دقة وذات صلة بالسياق.

يوضح الرسم البياني التالي تكامل هذه التقنيات لصياغة المدخلات إلى LLMs، وتعزيز فهمهم للسياق وتمكين استجابات أكثر صلة بالسياق. يتضمن أحد الأساليب البحث عن التشابه، وذلك باستخدام قاعدة بيانات المتجهات والتجزئة. تقوم قاعدة بيانات المتجهات بتخزين التضمينات التي تمثل المعلومات الدلالية، ويقوم التقسيم بتقسيم النص إلى أقسام يمكن التحكم فيها. باستخدام هذا السياق من بحث التشابه، يمكن لـ LLMs تشغيل مهام مثل الإجابة على الأسئلة والعمليات الخاصة بالمجال مثل التصنيف والإثراء.

بالنسبة لهذا المنشور، نستخدم نهجًا قائمًا على RAG لإجراء أسئلة وأجوبة في السياق مع المستندات. في نموذج التعليمات البرمجية التالي، نقوم باستخراج النص من مستند ثم نقوم بتقسيم المستند إلى أجزاء أصغر من النص. يعد التقطيع مطلوبًا لأنه قد يكون لدينا مستندات كبيرة متعددة الصفحات وقد يكون لدى LLMs لدينا حدود للرموز المميزة. يتم بعد ذلك تحميل هذه القطع في قاعدة بيانات المتجهات لإجراء بحث التشابه في الخطوات اللاحقة. في المثال التالي، نستخدم نموذج Amazon Titan Embed Text v1، الذي يقوم بإجراء عمليات التضمين المتجه لأجزاء المستند:

from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import BedrockEmbeddings
from langchain.vectorstores import FAISS
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.chains import RetrievalQA loader = AmazonTextractPDFLoader("amazon_10k.pdf")
document = loader.load() text_splitter = RecursiveCharacterTextSplitter(chunk_size=400, separators=["nn", "n", ".", "!", "?", ",", " ", ""], chunk_overlap=0)
texts = text_splitter.split_documents(document)
embeddings = BedrockEmbeddings(client=bedrock, model_id="amazon.titan-embed-text-v1")
db = FAISS.from_documents(documents=texts, embedding=embeddings) retriever = db.as_retriever(search_type='mmr', search_kwargs={"k": 3}) template = """ Answer the question as truthfully as possible strictly using only the provided text, and if the answer is not contained within the text, say "I don't know". Skip any preamble text and reasoning and give just the answer. <text>{context}</text>
<question>{question}</question>
<answer>""" # define the prompt template
qa_prompt = PromptTemplate(template=template, input_variables=["context","question"]) chain_type_kwargs = { "prompt": qa_prompt, "verbose": False } # change verbose to True if you need to see what's happening bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
qa = RetrievalQA.from_chain_type( llm=bedrock_llm, chain_type="stuff", retriever=retriever, chain_type_kwargs=chain_type_kwargs, verbose=False # change verbose to True if you need to see what's happening
) question="Who is the administrator for this plan?"
result = qa.run(question)
print(result.strip())

يقوم الكود بإنشاء سياق ذي صلة بـ LLM باستخدام أجزاء النص التي يتم إرجاعها بواسطة إجراء بحث التشابه من قاعدة بيانات المتجهات. في هذا المثال، نستخدم مصدرًا مفتوحًا متجر فايس ناقلات كقاعدة بيانات متجهة نموذجية لتخزين التضمينات المتجهة لكل جزء من النص. ثم نحدد قاعدة بيانات المتجهات على أنها a المسترد LangChain، والذي يتم تمريره إلى RetrievalQA سلسلة. يقوم هذا بتشغيل استعلام بحث تشابه داخليًا في قاعدة بيانات المتجهات التي تُرجع الجزء العلوي n (حيث n = 3 في مثالنا) من النص ذي الصلة بالسؤال. أخيرًا، يتم تشغيل سلسلة LLM مع السياق ذي الصلة (مجموعة من أجزاء النص ذات الصلة) والسؤال الذي يجب على LLM الإجابة عليه. للحصول على تعليمات برمجية تفصيلية خطوة بخطوة للأسئلة والأجوبة مع RAG، راجع دفتر ملاحظات Python الموجود على GitHub جيثب:.

كبديل لـ FAISS، يمكنك أيضًا استخدام إمكانات قاعدة بيانات متجهات خدمة Amazon OpenSearch Service, Amazon Relational Database Service (Amazon RDS) لـ PostgreSQL مع الالجائزة com.pgvector الامتداد كقواعد بيانات متجهة، أو قاعدة بيانات Chroma مفتوحة المصدر.

سؤال وجواب مع البيانات الجدولية

يمكن أن تشكل البيانات الجدولية داخل المستندات تحديًا بالنسبة لمعالجتها بسبب تعقيدها الهيكلي. يمكن تعزيز Amazon Textract باستخدام LLMs لأنه يتيح استخراج الجداول من المستندات بتنسيق متداخل من عناصر مثل الصفحة والجدول والخلايا. يعد إجراء الأسئلة والأجوبة باستخدام البيانات الجدولية عملية متعددة الخطوات، ويمكن تحقيقها من خلال الاستعلام الذاتي. وفيما يلي نظرة عامة على الخطوات:

استخراج الجداول من المستندات باستخدام Amazon Texttract. باستخدام Amazon Textract، يمكن استخراج البنية الجدولية (الصفوف والأعمدة والرؤوس) من المستند.
قم بتخزين البيانات الجدولية في قاعدة بيانات متجهة مع معلومات البيانات التعريفية، مثل أسماء الرؤوس ووصف كل رأس.
استخدم المطالبة لإنشاء استعلام منظم، باستخدام LLM، لاستخلاص البيانات من الجدول.
استخدم الاستعلام لاستخراج بيانات الجدول ذات الصلة من قاعدة بيانات المتجهات.

على سبيل المثال، في كشف حساب مصرفي، في ضوء المطالبة "ما هي المعاملات التي تزيد ودائعها عن 1000 دولار أمريكي"، سيكمل LLM الخطوات التالية:

صياغة استعلام، مثل “Query: transactions” , “filter: greater than (Deposit$)”.
تحويل الاستعلام إلى استعلام منظم.
قم بتطبيق الاستعلام المنظم على قاعدة بيانات المتجهات حيث يتم تخزين بيانات الجدول الخاص بنا.

للحصول على تعليمات برمجية نموذجية خطوة بخطوة للأسئلة والأجوبة باستخدام جدول، راجع دفتر ملاحظات Python في GitHub جيثب:.

القوالب والتطبيع

في هذا القسم، سنلقي نظرة على كيفية استخدام التقنيات الهندسية السريعة وآلية LangChain المدمجة لإنشاء مخرجات مع الاستخراجات من مستند في مخطط محدد. نقوم أيضًا ببعض التوحيد القياسي للبيانات المستخرجة، باستخدام التقنيات التي تمت مناقشتها سابقًا. نبدأ بتحديد قالب للمخرجات المطلوبة. سيكون هذا بمثابة مخطط ويلخص التفاصيل حول كل كيان نريد استخراجه من نص المستند.

output_template= { "doctor_name":{ "type": "string", "description": "The doctor or provider's full name" }, "provider_id":{ "type": "string", "description": "The doctor or provider's ID" }, "patient_name":{ "type": "string", "description": "The patient's full name" }, …
}

لاحظ أنه بالنسبة لكل كيان، نستخدم الوصف لشرح ماهية هذا الكيان للمساعدة في مساعدة LLM في استخراج القيمة من نص المستند. في نموذج التعليمات البرمجية التالي، نستخدم هذا القالب لصياغة المطالبة الخاصة بنا لماجستير القانون مع النص المستخرج من المستند باستخدام AmazonTextractPDFLoader ومن ثم إجراء الاستدلال مع النموذج:

from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain template = """ You are a helpful assistant. Please extract the following details from the document and format the output as JSON using the keys. Skip any preamble text and generate the final answer. <details>
{details}
</details> <keys>
{keys}
</keys> <document>
{doc_text}
<document> <final_answer>""" details = "n".join([f"{key}: {value['description']}" for key, value in output_template.items()])
keys = "n".join([f"{key}" for key, value in output_template.items()]) prompt = PromptTemplate(template=template, input_variables=["details", "keys", "doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
output = llm_chain.run({"doc_text": full_text, "details": details, "keys": keys}) print(output) { "doctor_name": "Mateo Jackson, Phd", "provider_id": "XA/7B/00338763", "patient_name": "John Doe", … }

كما ترون ، فإن {keys} جزء من الموجه هو المفاتيح من القالب الخاص بنا، و {details} هي المفاتيح مع وصفها. في هذه الحالة، لا نطالب النموذج بشكل صريح بتنسيق الإخراج بخلاف التحديد في التعليمات لإنشاء الإخراج بتنسيق JSON. هذا يعمل في الغالب. ومع ذلك، نظرًا لأن الإخراج من LLMs هو إنشاء نص غير حتمي، فإننا نريد تحديد التنسيق بشكل صريح كجزء من التعليمات في الموجه. لحل هذه المشكلة، يمكننا استخدام LangChain محلل الإخراج منظم الوحدة للاستفادة من هندسة المطالبة التلقائية التي تساعد في تحويل القالب الخاص بنا إلى موجه تعليمات التنسيق. نستخدم القالب المحدد مسبقًا لإنشاء موجه تعليمات التنسيق كما يلي:

from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser response_schems = list() for key, value in output_template.items(): schema = ResponseSchema(name=key, description=value['description'], type=value['type']) response_schems.append(schema)
output_parser = StructuredOutputParser.from_response_schemas(response_schems)
format_instructions= output_parser.get_format_instructions()
print(format_instructions)

• format_instructions يحمل المتغير الآن موجه تعليمات التنسيق:

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```": ```json
{ "doctor_name": string // The doctor or provider's full name "provider_id": string // The doctor or provider's ID "patient_name": string // The patient's full name …
}
```

نستخدم بعد ذلك هذا المتغير ضمن موجهنا الأصلي كتعليمات إلى LLM بحيث يقوم باستخراج وتنسيق الإخراج في المخطط المطلوب عن طريق إجراء تعديل بسيط على موجهنا:

template = """ You are a helpful assistant. Please extract the following details from the document and strictly follow the instructions described in the format instructions to format the output. Skip any preamble text and generate the final answer. Do not generate incomplete answer. <details>
{details}
</details> <format_instructions>
{format_instructions}
</format_instructions> <document>
{doc_text}
<document> <final_answer>"""

حتى الآن، قمنا فقط باستخراج البيانات من المستند في المخطط المطلوب. ومع ذلك، لا نزال بحاجة إلى إجراء بعض التوحيد القياسي. على سبيل المثال، نريد استخراج تاريخ قبول المريض وتاريخ خروجه بتنسيق DD/MM/YYYY. في هذه الحالة، نقوم بزيادة description للمفتاح مع تعليمات التنسيق:

new_output_template= { … "admitted_date":{ "type": "string", "description": "Date the patient was admitted to the hospital, this should be formatted in DD/MM/YYYY format." }, "discharge_date":{ "type": "string", "description": "Date the patient was discharged from the hospital, this should be formatted in DD/MM/YYYY format." …
}

ارجع إلى دفتر بايثون في GitHub جيثب: للحصول على إرشادات وشرح كامل خطوة بخطوة.

التدقيق الإملائي والتصحيحات

لقد أظهرت LLMs قدرات ملحوظة في فهم وإنشاء نص يشبه الإنسان. أحد التطبيقات الأقل مناقشة ولكنها مفيدة للغاية لـ LLMs هو إمكاناتها في عمليات التدقيق النحوي وتصحيح الجمل في المستندات. على عكس المدققين النحويين التقليديين الذين يعتمدون على مجموعة من القواعد المحددة مسبقًا، يستخدم طلاب LLM الأنماط التي حددوها من خلال كميات هائلة من البيانات النصية لتحديد ما يشكل لغة صحيحة أو بطلاقة. وهذا يعني أنه يمكنهم اكتشاف الفروق الدقيقة والسياق والتفاصيل الدقيقة التي قد تفوتها الأنظمة القائمة على القواعد.

تخيل النص المستخرج من ملخص خروج المريض والذي ينص على أن "المريض جون دو، الذي تم إدخاله إلى المستشفى مصابًا بالتهاب رئوي حاد، أظهر تحسنًا ملحوظًا ويمكن خروجه من المستشفى بأمان. ومن المقرر إجراء عمليات المتابعة في الأسبوع المقبل." قد يتعرف المدقق الإملائي التقليدي على "admittd" و"pneumonia" و"improvement" و"nex" كأخطاء. ومع ذلك، قد يؤدي سياق هذه الأخطاء إلى مزيد من الأخطاء أو اقتراحات عامة. قد تقترح شهادة LLM، المجهزة بتدريبها المكثف، ما يلي: "لقد أظهر المريض جون دو، الذي تم قبوله مصابًا بالتهاب رئوي حاد، تحسنًا كبيرًا ويمكن خروجه من المستشفى بأمان. ومن المقرر إجراء عمليات المتابعة في الأسبوع المقبل."

فيما يلي نموذج مستند مكتوب بخط اليد بشكل سيئ ويحتوي على نفس النص كما هو موضح سابقًا.

نقوم باستخراج المستند باستخدام أداة تحميل المستندات Amazon Textract ثم نوجه LLM، من خلال الهندسة السريعة، لتصحيح النص المستخرج لتصحيح أي أخطاء إملائية و/أو نحوية:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/hand_written_note.pdf")
document = loader.load() template = """ Given a detailed 'Document', perform spelling and grammatical corrections. Ensure the output is coherent, polished, and free from errors. Skip any preamble text and give the answer. <document>{doc_text}</<document>
<answer> """ prompt = PromptTemplate(template=template, input_variables=["doc_text"])
llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
llm_chain = LLMChain(prompt=prompt, llm=llm) try: txt = document[0].page_content std_op = llm_chain.run({"doc_text": txt}) print("Extracted text") print("==============") print(txt) print("nCorrected text") print("==============") print(std_op.strip()) print("n")
except Exception as e: print(str(e))

يُظهر إخراج الكود السابق النص الأصلي المستخرج بواسطة أداة تحميل المستندات متبوعًا بالنص المصحح الذي تم إنشاؤه بواسطة LLM:

Extracted text
==============
Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Corrected text
==============
Patient John Doe, who was admitted with severe pneumonia, has shown significant improvement and can be safely discharged. Follow-up appointments are scheduled for next week.

ضع في اعتبارك أنه على الرغم من قوة حاملي الماجستير في القانون، فمن الضروري النظر إلى اقتراحاتهم على أنها مجرد اقتراحات. وعلى الرغم من أنهم يستوعبون تعقيدات اللغة جيدًا بشكل مثير للإعجاب، إلا أنهم ليسوا معصومين من الخطأ. قد تؤدي بعض الاقتراحات إلى تغيير المعنى المقصود أو لهجة النص الأصلي. لذلك، من المهم بالنسبة للمراجعين البشريين استخدام التصحيحات التي تم إنشاؤها بواسطة LLM كدليل، وليس مطلقًا. إن التعاون بين الحدس البشري وقدرات LLM يعد بمستقبل حيث لا تكون اتصالاتنا المكتوبة خالية من الأخطاء فحسب، ولكنها أيضًا أكثر ثراءً وأكثر دقة.

وفي الختام

يعمل الذكاء الاصطناعي التوليدي على تغيير كيفية معالجة المستندات باستخدام IDP لاستخلاص الأفكار. في هذا المنصب تعزيز المعالجة الذكية للمستندات في AWS باستخدام الذكاء الاصطناعي التوليدي، ناقشنا المراحل المختلفة للمسار وكيفية قيام عميل AWS Ricoh بتعزيز مسار IDP الخاص به مع LLMs. في هذا المنشور، ناقشنا آليات مختلفة لتعزيز سير عمل IDP مع LLMs عبر Amazon Bedrock وAmazon Textract وإطار عمل LangChain الشهير. يمكنك البدء باستخدام أداة تحميل المستندات Amazon Textract الجديدة مع LangChain اليوم باستخدام نماذج دفاتر الملاحظات المتوفرة لدينا مستودع جيثب. لمزيد من المعلومات حول العمل مع الذكاء الاصطناعي التوليدي على AWS، راجع الإعلان عن أدوات جديدة للبناء باستخدام الذكاء الاصطناعي التوليدي على AWS.

حول المؤلف

معالجة ذكية للمستندات باستخدام Amazon Textract وAmazon Bedrock وLangChain | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. سونالي ساهو تقود معالجة المستندات الذكية مع فريق خدمات AI / ML في AWS. هي مؤلفة وقائدة فكرية وتقنية شغوفة. مجال تركيزها الأساسي هو الذكاء الاصطناعي والتعلم الآلي ، وهي تتحدث كثيرًا في مؤتمرات واجتماعات الذكاء الاصطناعي والتعلم الآلي حول العالم. تتمتع بخبرة واسعة وعميقة في مجال التكنولوجيا وصناعة التكنولوجيا ، مع خبرة صناعية في الرعاية الصحية والقطاع المالي والتأمين.

معالجة ذكية للمستندات باستخدام Amazon Textract وAmazon Bedrock وLangChain | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. أنجان بيسواس هو كبير مهندسي حلول خدمات الذكاء الاصطناعي مع التركيز على الذكاء الاصطناعي / التعلم الآلي وتحليلات البيانات. أنجان هو جزء من فريق خدمات الذكاء الاصطناعي على مستوى العالم ويعمل مع العملاء لمساعدتهم على فهم وتطوير حلول لمشاكل العمل باستخدام الذكاء الاصطناعي والتعلم الآلي. يتمتع Anjan بأكثر من 14 عامًا من الخبرة في العمل مع سلسلة التوريد العالمية ، والتصنيع ، ومؤسسات البيع بالتجزئة ، وهو يساعد العملاء بنشاط على البدء وتوسيع نطاق خدمات AWS AI.

معالجة ذكية للمستندات باستخدام Amazon Textract وAmazon Bedrock وLangChain | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. تشينماي راني هو مهندس حلول متخصص في الذكاء الاصطناعي/تعلم الآلة في Amazon Web Services. إنها شغوفة بالرياضيات التطبيقية والتعلم الآلي. إنها تركز على تصميم معالجة المستندات الذكية وحلول الذكاء الاصطناعي التوليدية لعملاء AWS. خارج العمل، تستمتع برقص السالسا والباشاتا.