Интеллектуальная обработка документов с помощью Amazon Textract, Amazon Bedrock и LangChain

Переиздано Платоном

Читают: 0

В сегодняшнюю информационную эпоху огромные объемы данных, хранящиеся в бесчисленных документах, представляют собой одновременно проблему и возможность для бизнеса. Традиционные методы обработки документов часто не обеспечивают эффективности и точности, оставляя место для инноваций, экономической эффективности и оптимизации. Обработка документов стала свидетелем значительных успехов с появлением интеллектуальной обработки документов (IDP). С помощью IDP компании могут преобразовывать неструктурированные данные из различных типов документов в структурированную, полезную информацию, что значительно повышает эффективность и сокращает объем ручного труда. Однако на этом потенциал не заканчивается. Интегрируя в этот процесс генеративный искусственный интеллект (ИИ), мы можем еще больше расширить возможности IDP. Генеративный ИИ не только расширяет возможности обработки документов, но и обеспечивает динамическую адаптируемость к изменяющимся шаблонам данных. В этом посте вы познакомитесь с синергией IDP и генеративного искусственного интеллекта, показав, как они представляют собой новый рубеж в обработке документов.

Мы подробно обсуждаем IDP в нашей серии статей «Интеллектуальная обработка документов с помощью сервисов AWS AI» (Часть 1 и Часть 2). В этом посте мы обсудим, как расширить новую или существующую архитектуру IDP с помощью больших языковых моделей (LLM). Более конкретно, мы обсуждаем, как мы можем интегрировать Амазонка Текст Лангчейн в качестве загрузчика документов и Коренная порода Амазонки извлекать данные из документов и использовать генеративные возможности искусственного интеллекта на различных этапах IDP.

Amazon Textract — это сервис машинного обучения (ML), который автоматически извлекает текст, рукописный текст и данные из отсканированных документов. Amazon Bedrock — это полностью управляемый сервис, предлагающий выбор высокопроизводительных базовых моделей (FM) через простые в использовании API.

На следующей диаграмме представлена эталонная архитектура высокого уровня, которая объясняет, как можно дополнительно улучшить рабочий процесс IDP с помощью базовых моделей. Вы можете использовать LLM на одном или на всех этапах IDP в зависимости от варианта использования и желаемого результата.

В следующих разделах мы подробно рассмотрим, как Amazon Textract интегрируется в рабочие процессы генеративного ИИ с использованием LangChain для обработки документов для каждой из этих конкретных задач. Представленные здесь блоки кода были сокращены для краткости. Обратитесь к нашему Репозиторий GitHub для получения подробных блокнотов Python и пошагового руководства.

Извлечение текста из документов является важным аспектом при обработке документов с помощью LLM. Amazon Textract можно использовать для извлечения неструктурированного необработанного текста из документов и сохранения исходных полуструктурированных или структурированных объектов, таких как пары «ключ-значение» и таблицы, присутствующие в документе. Пакеты документов, такие как медицинские и страховые претензии или ипотечные кредиты, состоят из сложных форм, которые содержат много информации в структурированных, полуструктурированных и неструктурированных форматах. Извлечение документов является здесь важным шагом, поскольку LLM извлекают выгоду из богатого контента, позволяя генерировать более точные и релевантные ответы, которые в противном случае могли бы повлиять на качество результатов LLM.

LangChain — это мощная платформа с открытым исходным кодом для интеграции с LLM. LLM в целом универсальны, но могут сталкиваться с задачами, специфичными для предметной области, где необходим более глубокий контекст и детальные ответы. В таких сценариях LangChain дает разработчикам возможность создавать агенты, которые могут разбивать сложные задачи на более мелкие подзадачи. Затем подзадачи могут добавлять контекст и память в LLM, соединяя и объединяя подсказки LLM.

Лангчейн предлагает загрузчики документов который может загружать и преобразовывать данные из документов. Вы можете использовать их для структурирования документов в предпочтительные форматы, которые могут обрабатываться LLM. AmazonTextPDFLoader — это тип загрузчика документов, который обеспечивает быстрый способ автоматизации обработки документов с помощью Amazon Textract в сочетании с LangChain. Для получения более подробной информации о AmazonTextractPDFLoaderобратитесь к Лангчейн документация. Чтобы использовать загрузчик документов Amazon Textract, вы начинаете с его импорта из библиотеки LangChain:

from langchain.document_loaders import AmazonTextractPDFLoader

https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()

Вы также можете хранить документы в Amazon S3 и ссылаться на них, используя шаблон URL-адреса s3://, как описано в разделе Доступ к корзине с помощью S3://и передайте этот путь S3 загрузчику PDF-файлов Amazon Textract:

import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()

Многостраничный документ будет содержать несколько страниц текста, доступ к которым затем можно получить через объект документов, который представляет собой список страниц. Следующий код перебирает страницы объекта документов и печатает текст документа, доступный через page_content атрибут:

print(len(documents)) for document in documents: print(document.page_content)

Amazon Comprehend и LLM можно эффективно использовать для классификации документов. Amazon Comprehend — это сервис обработки естественного языка (NLP), который использует машинное обучение для извлечения информации из текста. Amazon Comprehend также поддерживает обучение пользовательской модели классификации с учетом макета таких документов, как PDF-файлы, Word и форматы изображений. Дополнительную информацию об использовании классификатора документов Amazon Comprehend см. В классификатор документов Amazon Comprehend добавлена поддержка макета для повышения точности.

В сочетании с LLM классификация документов становится мощным подходом для управления большими объемами документов. LLM полезны при классификации документов, поскольку они могут анализировать текст, шаблоны и контекстуальные элементы в документе, используя понимание естественного языка. Вы также можете настроить их для определенных классов документов. Когда новый тип документа, введенный в конвейер IDP, требует классификации, LLM может обработать текст и классифицировать документ с учетом набора классов. Ниже приведен пример кода, который использует загрузчик документов LangChain на базе Amazon Textract для извлечения текста из документа и использования его для классификации документа. Мы используем Антропный Клод v2 модель через Amazon Bedrock для выполнения классификации.

В следующем примере мы сначала извлекаем текст из отчета о выписке пациента и используем LLM для его классификации, учитывая список из трех различных типов документов:DISCHARGE_SUMMARY, RECEIPTи PRESCRIPTION. На следующем снимке экрана показан наш отчет.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")

Резюмирование предполагает сжатие данного текста или документа в более короткую версию с сохранением его ключевой информации. Этот метод полезен для эффективного поиска информации, что позволяет пользователям быстро понять ключевые моменты документа, не читая все содержимое. Хотя Amazon Textract не выполняет обобщение текста напрямую, он предоставляет базовые возможности извлечения всего текста из документов. Этот извлеченный текст служит входными данными для нашей модели LLM для выполнения задач по обобщению текста.

Используя тот же образец отчета о выписке, мы используем AmazonTextractPDFLoader для извлечения текста из этого документа. Как и раньше, мы используем модель Claude v2 через Amazon Bedrock и инициализируем ее с помощью подсказки, содержащей инструкции о том, что делать с текстом (в данном случае — обобщение). Наконец, мы запускаем цепочку LLM, передавая извлеченный текст из загрузчика документов. При этом выполняется действие вывода в LLM с приглашением, состоящим из инструкций по подведению итогов, и текста документа, отмеченного значком Document, Смотрите следующий код:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() template = """ Given a full document, give me a concise summary. Skip any preamble text and just give the summary. <document>{doc_text}</document>
<summary>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") num_tokens = bedrock_llm.get_num_tokens(document[0].page_content)
print (f"Our prompt has {num_tokens} tokens nn=========================n") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
summary = llm_chain.run(document[0].page_content) print(summary.replace("</summary>","").strip())

Код генерирует сводный отчет о выписке пациента:

Our prompt has 797 tokens =========================
35 yo M admitted for epigastric abdominal pain, nausea, fatigue. Found to likely have ulcer. Discharged with activity restrictions, antibiotics, diet changes, and follow up.

В предыдущем примере для суммирования использовался одностраничный документ. Однако вы, скорее всего, будете иметь дело с документами, содержащими несколько страниц, требующих обобщения. Распространенный способ суммирования на нескольких страницах — сначала создать сводки для небольших фрагментов текста, а затем объединить более мелкие сводки, чтобы получить окончательное резюме документа. Обратите внимание, что этот метод требует нескольких вызовов LLM. Логику для этого можно легко создать; однако LangChain предоставляет встроенную цепочку суммирования, которая может суммировать большие тексты (из многостраничных документов). Обобщение может происходить либо через map_reduce или с stuff параметры, которые доступны в качестве опций для управления несколькими вызовами LLM. В следующем примере мы используем map_reduce для обобщения многостраничного документа. Следующий рисунок иллюстрирует наш рабочий процесс.

Давайте сначала начнем с извлечения документа и посмотрим общее количество токенов на странице и общее количество страниц:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") loader = AmazonTextractPDFLoader(f"s3://{data_bucket}/bedrock-sample/health_plan.pdf")
document = loader.load()
num_docs = len(document)
print (f"There are {num_docs} pages in the document")
for index, doc in enumerate(document): num_tokens_first_doc = bedrock_llm.get_num_tokens(doc.page_content) print (f"Page {index+1} has approx. {num_tokens_first_doc} tokens") There are 5 pages in the document
Page 1 has approx. 533 tokens
Page 2 has approx. 1323 tokens
Page 3 has approx. 997 tokens
Page 4 has approx. 1643 tokens
Page 5 has approx. 867 tokens

Далее мы используем встроенный LangChain load_summarize_chain подведем итог всему документу:

from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())

Стандартизация и вопросы и ответы

В этом разделе мы обсуждаем задачи по стандартизации и вопросам и ответам.

Стандартизация

Стандартизация вывода — это задача генерации текста, в которой LLM используются для обеспечения согласованного форматирования выходного текста. Эта задача особенно полезна для автоматизации извлечения ключевых объектов, требующего согласования выходных данных с желаемыми форматами. Например, мы можем следовать передовым инженерным практикам для точной настройки LLM для форматирования дат в формате ММ/ДД/ГГГГ, который может быть совместим со столбцом базы данных DATE. В следующем блоке кода показан пример того, как это делается с помощью LLM и оперативного проектирования. Мы не только стандартизируем формат вывода значений дат, но и предлагаем модели генерировать конечный результат в формате JSON, чтобы его можно было легко использовать в наших последующих приложениях. Мы используем Язык выражений LangChain (LCEL) для объединения двух действий. Первое действие побуждает LLM сгенерировать выходные данные в формате JSON, содержащие только даты из документа. Второе действие принимает выходные данные JSON и стандартизирует формат даты. Обратите внимание, что это двухэтапное действие также может быть выполнено за один шаг при правильном проектировании подсказок, как мы увидим в нормализации и создании шаблонов.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") template1 = """ Given a full document, answer the question and format the output in the format specified. Skip any preamble text and just generate the JSON. <format>
{{ "key_name":"key_value"
}}
</format>
<document>{doc_text}</document>
<question>{question}</question>""" template2 = """ Given a JSON document, format the dates in the value fields precisely in the provided format. Skip any preamble text and just generate the JSON. <format>DD/MM/YYYY</format>
<json_document>{json_doc}</json_document> """ prompt1 = PromptTemplate(template=template1, input_variables=["doc_text", "question"])
llm_chain = LLMChain(prompt=prompt1, llm=bedrock_llm, verbose=True) prompt2 = PromptTemplate(template=template2, input_variables=["json_doc"])
llm_chain2 = LLMChain(prompt=prompt2, llm=bedrock_llm, verbose=True) chain = ( llm_chain | {'json_doc': lambda x: x['text'] } | llm_chain2
) std_op = chain.invoke({ "doc_text": document[0].page_content, "question": "Can you give me the patient admitted and discharge dates?"}) print(std_op['text']) { "admit_date":"07/09/2020", "discharge_date":"08/09/2020"
}

Выходные данные предыдущего примера кода представляют собой структуру JSON с датами 07 и 09, которые имеют формат ДД/ММ/ГГГГ и являются датами поступления и выписки пациента из больницы соответственно, согласно к сводному отчету о выписке.

Вопросы и ответы с поисковой дополненной генерацией

LLM, как известно, сохраняют фактическую информацию, которую часто называют мировоззрением или мировоззрением. При точной настройке они могут дать самые современные результаты. Однако существуют ограничения на то, насколько эффективно LLM может получить доступ к этим знаниям и манипулировать ими. В результате в задачах, которые в значительной степени зависят от конкретных знаний, их производительность может быть неоптимальной для определенных случаев использования. Например, в сценариях вопросов и ответов важно, чтобы модель строго придерживалась контекста, представленного в документе, не полагаясь исключительно на свои знания мира. Отклонение от этого может привести к искажению фактов, неточностям или даже неверным ответам. Наиболее часто используемый метод решения этой проблемы известен как Извлечение дополненной генерации (ТРЯПКА). Этот подход объединяет сильные стороны как поисковых, так и языковых моделей, повышая точность и качество генерируемых ответов.

LLM также могут налагать ограничения на токены из-за ограничений памяти и ограничений оборудования, на котором они работают. Чтобы решить эту проблему, используются такие методы, как фрагментирование, для разделения больших документов на более мелкие части, которые укладываются в пределы токенов LLM. С другой стороны, встраивания используются в НЛП прежде всего для того, чтобы уловить семантическое значение слов и их отношения с другими словами в многомерном пространстве. Эти внедрения преобразуют слова в векторы, позволяя моделям эффективно обрабатывать и понимать текстовые данные. Понимая семантические нюансы между словами и фразами, встраивания позволяют LLM генерировать последовательные и контекстуально релевантные результаты. Обратите внимание на следующие ключевые термины:

лязг – Этот процесс разбивает большие объемы текста из документов на более мелкие, значимые фрагменты текста.
вложения – Это векторные преобразования фиксированной размерности каждого фрагмента, которые сохраняют семантическую информацию из фрагментов. Эти вложения впоследствии загружаются в базу данных векторов.
База данных векторов – Это база данных вложений слов или векторов, которые представляют контекст слов. Он действует как источник знаний, помогающий решать задачи НЛП в конвейерах обработки документов. Преимущество базы данных векторов здесь заключается в том, что она позволяет предоставлять LLM только необходимый контекст во время генерации текста, как мы объясним в следующем разделе.

RAG использует возможности встраивания для понимания и извлечения соответствующих сегментов документа на этапе поиска. Таким образом, RAG может работать в рамках ограничений токенов LLM, гарантируя, что для генерации будет выбрана наиболее подходящая информация, что приведет к более точным и контекстуально релевантным результатам.

Следующая диаграмма иллюстрирует интеграцию этих методов для создания входных данных для LLM, улучшения их контекстуального понимания и обеспечения более релевантных контекстных ответов. Один из подходов включает поиск по сходству с использованием как векторной базы данных, так и фрагментации. В базе данных векторов хранятся внедрения, представляющие семантическую информацию, а фрагментирование делит текст на управляемые разделы. Используя этот контекст поиска по сходству, LLM могут выполнять такие задачи, как ответы на вопросы и специфичные для предметной области операции, такие как классификация и обогащение.

В этом посте мы используем подход на основе RAG для выполнения контекстных вопросов и ответов с документами. В следующем примере кода мы извлекаем текст из документа, а затем разбиваем документ на более мелкие фрагменты текста. Разделение на части необходимо, поскольку у нас могут быть большие многостраничные документы, а наши LLM могут иметь ограничения на токены. Эти фрагменты затем загружаются в базу данных векторов для выполнения поиска по сходству на последующих этапах. В следующем примере мы используем модель Amazon Titan Embed Text v1, которая выполняет векторное встраивание фрагментов документа:

from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import BedrockEmbeddings
from langchain.vectorstores import FAISS
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.chains import RetrievalQA loader = AmazonTextractPDFLoader("amazon_10k.pdf")
document = loader.load() text_splitter = RecursiveCharacterTextSplitter(chunk_size=400, separators=["nn", "n", ".", "!", "?", ",", " ", ""], chunk_overlap=0)
texts = text_splitter.split_documents(document)
embeddings = BedrockEmbeddings(client=bedrock, model_id="amazon.titan-embed-text-v1")
db = FAISS.from_documents(documents=texts, embedding=embeddings) retriever = db.as_retriever(search_type='mmr', search_kwargs={"k": 3}) template = """ Answer the question as truthfully as possible strictly using only the provided text, and if the answer is not contained within the text, say "I don't know". Skip any preamble text and reasoning and give just the answer. <text>{context}</text>
<question>{question}</question>
<answer>""" # define the prompt template
qa_prompt = PromptTemplate(template=template, input_variables=["context","question"]) chain_type_kwargs = { "prompt": qa_prompt, "verbose": False } # change verbose to True if you need to see what's happening bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
qa = RetrievalQA.from_chain_type( llm=bedrock_llm, chain_type="stuff", retriever=retriever, chain_type_kwargs=chain_type_kwargs, verbose=False # change verbose to True if you need to see what's happening
) question="Who is the administrator for this plan?"
result = qa.run(question)
print(result.strip())

Код создает соответствующий контекст для LLM, используя фрагменты текста, возвращаемые действием поиска по сходству из базы данных векторов. В этом примере мы используем открытый исходный код. Векторный магазин FAISS в качестве образца векторной базы данных для хранения векторных вложений каждого фрагмента текста. Затем мы определяем базу данных векторов как LangChain ретривер, который передается в RetrievalQA цепь. При этом внутри системы выполняется запрос на поиск сходства в базе данных векторов, который возвращает первые n (где в нашем примере n=3) фрагментов текста, имеющих отношение к вопросу. Наконец, цепочка LLM запускается с соответствующим контекстом (группой соответствующих фрагментов текста) и вопросом, на который LLM должен ответить. Пошаговое описание кода вопросов и ответов с помощью RAG см. в блокноте Python на странице GitHub.

В качестве альтернативы FAISS вы также можете использовать Возможности векторной базы данных Amazon OpenSearch Service, Сервис реляционных баз данных Amazon (Amazon RDS) для PostgreSQL с pgvector расширение в виде векторных баз данных или базы данных Chroma с открытым исходным кодом.

Вопросы и ответы с табличными данными

Табличные данные в документах могут быть сложными для обработки LLM из-за их структурной сложности. Amazon Textract можно дополнить LLM, поскольку он позволяет извлекать таблицы из документов во вложенном формате таких элементов, как страница, таблица и ячейки. Выполнение вопросов и ответов с табличными данными представляет собой многоэтапный процесс и может быть достигнуто с помощью самозапрос. Ниже приводится обзор шагов:

Извлекайте таблицы из документов с помощью Amazon Textract. С помощью Amazon Textract из документа можно извлечь табличную структуру (строки, столбцы, заголовки).
Сохраните табличные данные в векторной базе данных вместе с информацией метаданных, такой как имена заголовков и описание каждого заголовка.
Используйте подсказку для создания структурированного запроса с использованием LLM для получения данных из таблицы.
Используйте запрос для извлечения соответствующих табличных данных из базы данных векторов.

Например, в выписке по счету с подсказкой «Каковы транзакции с депозитами на сумму более 1000 долларов США» LLM выполнит следующие шаги:

Создайте запрос, например “Query: transactions” , “filter: greater than (Deposit$)”.
Преобразуйте запрос в структурированный запрос.
Примените структурированный запрос к векторной базе данных, где хранятся данные нашей таблицы.

Пошаговый пример кода вопросов и ответов с табличной формой см. в блокноте Python в разделе GitHub.

Шаблонизация и нормализация

В этом разделе мы рассмотрим, как использовать методы быстрого проектирования и встроенный механизм LangChain для генерации выходных данных с извлечениями из документа в указанной схеме. Мы также проводим некоторую стандартизацию извлеченных данных, используя методы, обсуждавшиеся ранее. Мы начинаем с определения шаблона для желаемого результата. Это будет служить схемой и инкапсулировать сведения о каждой сущности, которую мы хотим извлечь из текста документа.

output_template= { "doctor_name":{ "type": "string", "description": "The doctor or provider's full name" }, "provider_id":{ "type": "string", "description": "The doctor or provider's ID" }, "patient_name":{ "type": "string", "description": "The patient's full name" }, …
}

Обратите внимание, что для каждого объекта мы используем описание, чтобы объяснить, что это за объект, чтобы помочь LLM извлечь значение из текста документа. В следующем примере кода мы используем этот шаблон для создания приглашения для LLM вместе с текстом, извлеченным из документа с помощью AmazonTextractPDFLoader и впоследствии выполнить вывод с моделью:

from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain template = """ You are a helpful assistant. Please extract the following details from the document and format the output as JSON using the keys. Skip any preamble text and generate the final answer. <details>
{details}
</details> <keys>
{keys}
</keys> <document>
{doc_text}
<document> <final_answer>""" details = "n".join([f"{key}: {value['description']}" for key, value in output_template.items()])
keys = "n".join([f"{key}" for key, value in output_template.items()]) prompt = PromptTemplate(template=template, input_variables=["details", "keys", "doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
output = llm_chain.run({"doc_text": full_text, "details": details, "keys": keys}) print(output) { "doctor_name": "Mateo Jackson, Phd", "provider_id": "XA/7B/00338763", "patient_name": "John Doe", … }

Как вы можете видеть, {keys} часть приглашения — это ключи из нашего шаблона, а {details} это ключи вместе с их описанием. В этом случае мы не запрашиваем модель явно с указанием формата вывода, кроме указания в инструкции создания вывода в формате JSON. По большей части это работает; однако, поскольку выходные данные LLM представляют собой недетерминированную генерацию текста, мы хотим явно указать формат как часть инструкции в приглашении. Чтобы решить эту проблему, мы можем использовать LangChain парсер структурированного вывода модуль, чтобы воспользоваться преимуществами автоматизированной разработки подсказок, которые помогают преобразовать наш шаблон в подсказку с инструкциями по форматированию. Мы используем шаблон, определенный ранее, для создания приглашения инструкции формата следующим образом:

from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser response_schems = list() for key, value in output_template.items(): schema = ResponseSchema(name=key, description=value['description'], type=value['type']) response_schems.append(schema)
output_parser = StructuredOutputParser.from_response_schemas(response_schems)
format_instructions= output_parser.get_format_instructions()
print(format_instructions)

Ассоциация format_instructions переменная теперь содержит подсказку инструкции формата:

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```": ```json
{ "doctor_name": string // The doctor or provider's full name "provider_id": string // The doctor or provider's ID "patient_name": string // The patient's full name …
}
```

Затем мы используем эту переменную в нашем исходном приглашении в качестве инструкции для LLM, чтобы он извлекал и форматировал выходные данные в желаемой схеме, внеся небольшую модификацию нашего приглашения:

template = """ You are a helpful assistant. Please extract the following details from the document and strictly follow the instructions described in the format instructions to format the output. Skip any preamble text and generate the final answer. Do not generate incomplete answer. <details>
{details}
</details> <format_instructions>
{format_instructions}
</format_instructions> <document>
{doc_text}
<document> <final_answer>"""

До сих пор мы только извлекли данные из документа в желаемой схеме. Однако нам все еще необходимо провести некоторую стандартизацию. Например, мы хотим, чтобы дата поступления пациента и дата выписки были извлечены в формате ДД/ММ/ГГГГ. В этом случае мы дополняем description ключа с инструкцией по форматированию:

new_output_template= { … "admitted_date":{ "type": "string", "description": "Date the patient was admitted to the hospital, this should be formatted in DD/MM/YYYY format." }, "discharge_date":{ "type": "string", "description": "Date the patient was discharged from the hospital, this should be formatted in DD/MM/YYYY format." …
}

Обратитесь к блокноту Python в GitHub для полного пошагового руководства и объяснений.

Проверка орфографии и исправления

Магистр права продемонстрировал замечательные способности к пониманию и созданию текста, похожего на человеческий. Одним из менее обсуждаемых, но чрезвычайно полезных применений LLM является их потенциал для проверки грамматики и исправления предложений в документах. В отличие от традиционных программ проверки грамматики, которые полагаются на набор предопределенных правил, LLM используют шаблоны, которые они определили из огромных объемов текстовых данных, чтобы определить, что считать правильным или беглым языком. Это означает, что они могут обнаруживать нюансы, контекст и тонкости, которые системы, основанные на правилах, могут упустить.

Представьте себе текст, извлеченный из справки о выписке пациента, который гласит: «Пациент Джон Доу, госпитализированный с тяжелой пневмонией, продемонстрировал значительное улучшение и может быть благополучно выписан. Последующие наблюдения запланированы на следующую неделю». Традиционная программа проверки орфографии может распознать «admittd», «pneumonia», «improvement» и «nex» как ошибки. Однако контекст этих ошибок может привести к дальнейшим ошибкам или общим предложениям. Магистр права, прошедший обширную подготовку, может подсказать: «Пациент Джон Доу, госпитализированный с тяжелой пневмонией, продемонстрировал значительное улучшение и может быть благополучно выписан. Последующие наблюдения запланированы на следующую неделю».

Ниже приведен образец документа, плохо написанного от руки, с тем же текстом, что объяснялся ранее.

Мы извлекаем документ с помощью загрузчика документов Amazon Textract, а затем поручаем LLM с помощью оперативного проектирования исправить извлеченный текст, чтобы исправить любые орфографические и/или грамматические ошибки:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/hand_written_note.pdf")
document = loader.load() template = """ Given a detailed 'Document', perform spelling and grammatical corrections. Ensure the output is coherent, polished, and free from errors. Skip any preamble text and give the answer. <document>{doc_text}</<document>
<answer> """ prompt = PromptTemplate(template=template, input_variables=["doc_text"])
llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
llm_chain = LLMChain(prompt=prompt, llm=llm) try: txt = document[0].page_content std_op = llm_chain.run({"doc_text": txt}) print("Extracted text") print("==============") print(txt) print("nCorrected text") print("==============") print(std_op.strip()) print("n")
except Exception as e: print(str(e))

Вывод предыдущего кода показывает исходный текст, извлеченный загрузчиком документов, за которым следует исправленный текст, сгенерированный LLM:

Extracted text
==============
Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Corrected text
==============
Patient John Doe, who was admitted with severe pneumonia, has shown significant improvement and can be safely discharged. Follow-up appointments are scheduled for next week.

Имейте в виду, что какими бы мощными ни были программы LLM, важно рассматривать их предложения просто как предложения. Хотя они впечатляюще хорошо отражают тонкости языка, они не являются непогрешимыми. Некоторые предложения могут изменить предполагаемое значение или тон исходного текста. Поэтому для рецензентов крайне важно использовать исправления, сгенерированные LLM, в качестве руководства, а не абсолюта. Сотрудничество человеческой интуиции с возможностями LLM обещает будущее, в котором наше письменное общение будет не только безошибочным, но также более богатым и детальным.

Заключение

Генеративный искусственный интеллект меняет способы обработки документов с помощью IDP для получения ценной информации. В посте Улучшение интеллектуальной обработки документов AWS с помощью генеративного искусственного интеллекта, мы обсудили различные этапы конвейера и то, как клиент AWS Ricoh расширяет свой конвейер IDP с помощью LLM. В этом посте мы обсудили различные механизмы расширения рабочего процесса IDP с помощью LLM через Amazon Bedrock, Amazon Textract и популярную структуру LangChain. Вы можете начать работу с новым загрузчиком документов Amazon Textract с LangChain уже сегодня, используя образцы блокнотов, доступные в нашем Репозиторий GitHub. Дополнительную информацию о работе с генеративным искусственным интеллектом на AWS см. Анонс новых инструментов для разработки с помощью генеративного ИИ на AWS.

Об авторах

Интеллектуальная обработка документов с помощью Amazon Textract, Amazon Bedrock и LangChain | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Сонали Саху руководит интеллектуальной обработкой документов вместе с группой сервисов AI/ML в AWS. Она писатель, идейный лидер и страстный технолог. Ее основная сфера деятельности — искусственный интеллект и машинное обучение, и она часто выступает на конференциях и встречах по искусственному интеллекту и машинному обучению по всему миру. Она обладает как обширным, так и глубоким опытом работы в области технологий и технологической отрасли, а также с отраслевым опытом в области здравоохранения, финансового сектора и страхования.

Интеллектуальная обработка документов с помощью Amazon Textract, Amazon Bedrock и LangChain | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Анжан Бисвас является старшим архитектором решений AI Services, специализирующимся на AI/ML и аналитике данных. Анджан является частью всемирной группы по обслуживанию ИИ и работает с клиентами, помогая им понять и разработать решения бизнес-проблем с помощью ИИ и машинного обучения. Анджан имеет более чем 14-летний опыт работы с глобальными цепочками поставок, производственными и розничными организациями и активно помогает клиентам начать работу с сервисами AWS AI и масштабировать их.

Интеллектуальная обработка документов с помощью Amazon Textract, Amazon Bedrock и LangChain | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Чинмайи Ране — специалист по архитектуре решений искусственного интеллекта и машинного обучения в Amazon Web Services. Она увлечена прикладной математикой и машинным обучением. Она занимается разработкой интеллектуальной обработки документов и генеративных решений искусственного интеллекта для клиентов AWS. Вне работы она увлекается танцами сальсы и бачаты.