Inteligentne przetwarzanie dokumentów za pomocą Amazon Texttract, Amazon Bedrock i LangChain

Opublikowane ponownie przez Plato

Obserwuje: 0

W dzisiejszej epoce informacyjnej ogromne ilości danych przechowywanych w niezliczonych dokumentach stanowią zarówno wyzwanie, jak i szansę dla przedsiębiorstw. Tradycyjne metody przetwarzania dokumentów często nie zapewniają wydajności i dokładności, pozostawiając miejsce na innowacje, efektywność kosztową i optymalizacje. Przetwarzanie dokumentów uległo znacznemu postępowi wraz z pojawieniem się inteligentnego przetwarzania dokumentów (IDP). Dzięki IDP firmy mogą przekształcać nieustrukturyzowane dane z różnych typów dokumentów w ustrukturyzowane, przydatne informacje, znacznie zwiększając wydajność i ograniczając wysiłek ręczny. Na tym jednak nie kończy się potencjał. Integrując generatywną sztuczną inteligencję (AI) z procesem, możemy jeszcze bardziej zwiększyć możliwości IDP. Generatywna sztuczna inteligencja nie tylko wprowadza ulepszone możliwości przetwarzania dokumentów, ale także wprowadza dynamiczną zdolność dostosowywania się do zmieniających się wzorców danych. Ten post poprowadzi Cię przez synergię IDP i generatywnej sztucznej inteligencji, pokazując, w jaki sposób stanowią one kolejną granicę w przetwarzaniu dokumentów.

Szczegółowo omawiamy IDP w naszej serii Inteligentne przetwarzanie dokumentów za pomocą usług AWS AI (Część 1 i Część 2). W tym poście omawiamy, jak rozszerzyć nową lub istniejącą architekturę IDP o duże modele językowe (LLM). Mówiąc dokładniej, omawiamy, w jaki sposób możemy się zintegrować Ekstrakt z amazonki w LangChain jako moduł ładujący dokumenty i Amazońska skała macierzysta wyodrębniać dane z dokumentów i wykorzystywać możliwości generatywnej sztucznej inteligencji na różnych etapach IDP.

Amazon Texttract to usługa uczenia maszynowego (ML), która automatycznie wyodrębnia tekst, charakter pisma odręcznego i dane ze zeskanowanych dokumentów. Amazon Bedrock to w pełni zarządzana usługa oferująca wybór wydajnych modeli podstawowych (FM) za pośrednictwem łatwych w użyciu interfejsów API.

Poniższy diagram przedstawia architekturę referencyjną wysokiego poziomu, która wyjaśnia, w jaki sposób można dodatkowo ulepszyć przepływ pracy IDP za pomocą podstawowych modeli. Możesz użyć LLM w jednej lub wszystkich fazach IDP, w zależności od przypadku użycia i pożądanego rezultatu.

W kolejnych sekcjach szczegółowo omawiamy, w jaki sposób Amazon Textract jest integrowany z generatywnymi przepływami pracy AI przy użyciu LangChain do przetwarzania dokumentów dla każdego z tych konkretnych zadań. Dostarczone tutaj bloki kodu zostały skrócone dla zwięzłości. Zapoznaj się z naszymi Repozytorium GitHub szczegółowe notatniki dotyczące języka Python i przewodnik krok po kroku.

Wyodrębnianie tekstu z dokumentów jest kluczowym aspektem podczas przetwarzania dokumentów za pomocą LLM. Możesz użyć Amazon Textract, aby wyodrębnić nieustrukturyzowany, surowy tekst z dokumentów i zachować oryginalne obiekty częściowo ustrukturyzowane lub ustrukturyzowane, takie jak pary klucz-wartość i tabele obecne w dokumencie. Pakiety dokumentów, takie jak roszczenia zdrowotne i ubezpieczeniowe czy kredyty hipoteczne, składają się ze złożonych formularzy zawierających wiele informacji w formatach ustrukturyzowanych, częściowo ustrukturyzowanych i nieustrukturyzowanych. Ekstrakcja dokumentów jest tutaj ważnym krokiem, ponieważ LLM korzystają z bogatej treści w celu generowania dokładniejszych i trafniejszych odpowiedzi, które w przeciwnym razie mogłyby mieć wpływ na jakość wyników LLM.

LangChain to potężna platforma typu open source do integracji z LLM. Ogólnie rzecz biorąc, studia LLM są wszechstronne, ale mogą mieć problemy z zadaniami specyficznymi dla domeny, w których potrzebny jest głębszy kontekst i dopracowane odpowiedzi. LangChain umożliwia programistom w takich scenariuszach tworzenie agentów, którzy mogą dzielić złożone zadania na mniejsze podzadania. Podzadania mogą następnie wprowadzić kontekst i pamięć do LLM, łącząc i łącząc w łańcuchy podpowiedzi LLM.

oferty LangChain ładowarki dokumentów które mogą ładować i przekształcać dane z dokumentów. Można ich używać do organizowania dokumentów w preferowane formaty, które mogą być przetwarzane przez LLM. The Program AmazonTextractPDFLoader to rodzaj modułu ładującego dokumenty, który zapewnia szybki sposób automatyzacji przetwarzania dokumentów za pomocą Amazon Textract w połączeniu z LangChain. Więcej szczegółów dot AmazonTextractPDFLoader, patrz LangChain dokumentacja. Aby skorzystać z modułu ładującego dokumenty Amazon Textract, zacznij od zaimportowania go z biblioteki LangChain:

from langchain.document_loaders import AmazonTextractPDFLoader

https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()

Możesz także przechowywać dokumenty w Amazon S3 i odwoływać się do nich za pomocą wzorca adresu URL s3://, jak wyjaśniono w Dostęp do segmentu za pomocą S3://i przekaż tę ścieżkę S3 do modułu ładującego Amazon Textract PDF:

import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()

Dokument wielostronicowy będzie zawierał wiele stron tekstu, do których można uzyskać dostęp poprzez obiekt dokumentów, czyli listę stron. Poniższy kod przegląda strony w obiekcie dokumentów i drukuje tekst dokumentu, który jest dostępny za pośrednictwem metody page_content atrybut:

print(len(documents)) for document in documents: print(document.page_content)

Amazon Comrehend i LLM można skutecznie wykorzystać do klasyfikacji dokumentów. Amazon Comprehend to usługa przetwarzania języka naturalnego (NLP), która wykorzystuje technologię ML do wydobywania wniosków z tekstu. Amazon Comprehend obsługuje także szkolenie w zakresie niestandardowych modeli klasyfikacji ze świadomością układu dokumentów takich jak pliki PDF, Word i formaty graficzne. Aby uzyskać więcej informacji na temat korzystania z klasyfikatora dokumentów Amazon Comprehend, zobacz Klasyfikator dokumentów Amazon Comprehend dodaje obsługę układu dla większej dokładności.

W połączeniu z LLM klasyfikacja dokumentów staje się skutecznym podejściem do zarządzania dużymi wolumenami dokumentów. LLM są pomocne w klasyfikacji dokumentów, ponieważ mogą analizować tekst, wzorce i elementy kontekstu w dokumencie przy użyciu zrozumienia języka naturalnego. Można je także dostosować do konkretnych klas dokumentów. Gdy nowy typ dokumentu wprowadzony do potoku IDP wymaga klasyfikacji, LLM może przetworzyć tekst i sklasyfikować dokument na podstawie zestawu klas. Poniżej znajduje się przykładowy kod, który wykorzystuje moduł ładujący dokumenty LangChain obsługiwany przez Amazon Texttract w celu wyodrębnienia tekstu z dokumentu i wykorzystania go do klasyfikacji dokumentu. Używamy Antropiczny Claude v2 modelu za pośrednictwem Amazon Bedrock w celu przeprowadzenia klasyfikacji.

W poniższym przykładzie najpierw wyodrębniamy tekst z raportu wypisu pacjenta i używamy LLM do jego klasyfikacji na podstawie listy trzech różnych typów dokumentów:DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION. Poniższy zrzut ekranu przedstawia nasz raport.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")

Podsumowanie polega na skondensowaniu danego tekstu lub dokumentu w krótszą wersję z zachowaniem jego kluczowych informacji. Technika ta jest korzystna dla wydajnego wyszukiwania informacji, co pozwala użytkownikom szybko uchwycić kluczowe punkty dokumentu bez konieczności czytania całej zawartości. Chociaż Amazon Textract nie wykonuje bezpośrednio podsumowania tekstu, zapewnia podstawowe możliwości wyodrębniania całego tekstu z dokumentów. Wyodrębniony tekst służy jako dane wejściowe do naszego modelu LLM na potrzeby wykonywania zadań podsumowywania tekstu.

Korzystając z tego samego raportu o rozładowaniu próbki, używamy AmazonTextractPDFLoader aby wyodrębnić tekst z tego dokumentu. Tak jak poprzednio, używamy modelu Claude v2 poprzez Amazon Bedrock i inicjujemy go zachętą zawierającą instrukcje, co zrobić z tekstem (w tym przypadku podsumowaniem). Na koniec uruchamiamy łańcuch LLM, przekazując wyodrębniony tekst z modułu ładującego dokumenty. Spowoduje to uruchomienie akcji wnioskowania w LLM z monitem składającym się z instrukcji podsumowania oraz tekstu dokumentu oznaczonego przez Document. Zobacz następujący kod:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() template = """ Given a full document, give me a concise summary. Skip any preamble text and just give the summary. <document>{doc_text}</document>
<summary>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") num_tokens = bedrock_llm.get_num_tokens(document[0].page_content)
print (f"Our prompt has {num_tokens} tokens nn=========================n") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
summary = llm_chain.run(document[0].page_content) print(summary.replace("</summary>","").strip())

Kod generuje podsumowanie raportu podsumowującego wypis pacjenta:

Our prompt has 797 tokens =========================
35 yo M admitted for epigastric abdominal pain, nausea, fatigue. Found to likely have ulcer. Discharged with activity restrictions, antibiotics, diet changes, and follow up.

W poprzednim przykładzie do przeprowadzenia podsumowania użyto jednostronicowego dokumentu. Jednak prawdopodobnie będziesz mieć do czynienia z dokumentami zawierającymi wiele stron, które wymagają podsumowania. Typowym sposobem przeprowadzania podsumowań na wielu stronach jest najpierw wygenerowanie podsumowań na mniejszych fragmentach tekstu, a następnie połączenie mniejszych podsumowań w celu uzyskania ostatecznego podsumowania dokumentu. Należy pamiętać, że ta metoda wymaga wielu wywołań LLM. Logikę tego można łatwo stworzyć; jednakże LangChain zapewnia wbudowany łańcuch podsumowań, który może podsumowywać duże teksty (z dokumentów wielostronicowych). Podsumowanie może nastąpić albo poprzez map_reduce lub stuff opcje, które są dostępne jako opcje zarządzania wieloma połączeniami do LLM. W poniższym przykładzie używamy map_reduce podsumować wielostronicowy dokument. Poniższy rysunek ilustruje nasz przepływ pracy.

Inteligentne przetwarzanie dokumentów za pomocą Amazon Textract, Amazon Bedrock i LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Zacznijmy od wyodrębnienia dokumentu i sprawdzenia całkowitej liczby tokenów na stronę oraz całkowitej liczby stron:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") loader = AmazonTextractPDFLoader(f"s3://{data_bucket}/bedrock-sample/health_plan.pdf")
document = loader.load()
num_docs = len(document)
print (f"There are {num_docs} pages in the document")
for index, doc in enumerate(document): num_tokens_first_doc = bedrock_llm.get_num_tokens(doc.page_content) print (f"Page {index+1} has approx. {num_tokens_first_doc} tokens") There are 5 pages in the document
Page 1 has approx. 533 tokens
Page 2 has approx. 1323 tokens
Page 3 has approx. 997 tokens
Page 4 has approx. 1643 tokens
Page 5 has approx. 867 tokens

Następnie używamy wbudowanego LangChaina load_summarize_chain podsumowując cały dokument:

from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())

Standaryzacja i pytania i odpowiedzi

W tej sekcji omawiamy zadania standaryzacyjne i pytania i odpowiedzi.

Normalizacja

Standaryzacja wyników to zadanie generowania tekstu, w którym LLM służą do zapewnienia spójnego formatowania tekstu wyjściowego. To zadanie jest szczególnie przydatne w przypadku automatyzacji wyodrębniania kluczowych elementów, które wymaga dopasowania danych wyjściowych do żądanych formatów. Na przykład możemy postępować zgodnie z najlepszymi praktykami inżynieryjnymi, aby dostroić LLM w celu sformatowania dat w formacie MM/DD/RRRR, który może być zgodny z kolumną DATE w bazie danych. Poniższy blok kodu pokazuje przykład, jak to się robi przy użyciu LLM i szybkiej inżynierii. Nie tylko standaryzujemy format wyjściowy wartości dat, ale także monitujemy model o wygenerowanie końcowego wyniku w formacie JSON, aby można go było łatwo wykorzystać w naszych dalszych aplikacjach. Używamy Język wyrażeń LangChain (LCEL), aby połączyć dwa działania. Pierwsza akcja powoduje, że LLM wygeneruje wynik w formacie JSON zawierający tylko daty z dokumentu. Druga akcja pobiera dane wyjściowe JSON i standaryzuje format daty. Należy zauważyć, że tę dwuetapową akcję można również wykonać w jednym kroku przy odpowiedniej szybkiej inżynierii, jak zobaczymy w normalizacji i szablonowaniu.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") template1 = """ Given a full document, answer the question and format the output in the format specified. Skip any preamble text and just generate the JSON. <format>
{{ "key_name":"key_value"
}}
</format>
<document>{doc_text}</document>
<question>{question}</question>""" template2 = """ Given a JSON document, format the dates in the value fields precisely in the provided format. Skip any preamble text and just generate the JSON. <format>DD/MM/YYYY</format>
<json_document>{json_doc}</json_document> """ prompt1 = PromptTemplate(template=template1, input_variables=["doc_text", "question"])
llm_chain = LLMChain(prompt=prompt1, llm=bedrock_llm, verbose=True) prompt2 = PromptTemplate(template=template2, input_variables=["json_doc"])
llm_chain2 = LLMChain(prompt=prompt2, llm=bedrock_llm, verbose=True) chain = ( llm_chain | {'json_doc': lambda x: x['text'] } | llm_chain2
) std_op = chain.invoke({ "doc_text": document[0].page_content, "question": "Can you give me the patient admitted and discharge dates?"}) print(std_op['text']) { "admit_date":"07/09/2020", "discharge_date":"08/09/2020"
}

Dane wyjściowe powyższego przykładowego kodu to struktura JSON z datami 07 i 09, które mają format DD/MM/RRRR i stanowią odpowiednio datę przyjęcia i wypisu pacjenta ze szpitala, zgodnie do raportu podsumowującego absolutorium.

Pytania i odpowiedzi z wyszukiwaniem rozszerzonym

Wiadomo, że LLM przechowują informacje oparte na faktach, często określane jako ich wiedza o świecie lub światopogląd. Dopracowane mogą dać najnowocześniejsze rezultaty. Istnieją jednak ograniczenia dotyczące tego, jak skutecznie LLM może uzyskać dostęp do tej wiedzy i nią manipulować. W rezultacie w przypadku zadań, które w dużym stopniu opierają się na konkretnej wiedzy, ich wydajność może nie być optymalna w niektórych przypadkach użycia. Na przykład w scenariuszach pytań i odpowiedzi istotne jest, aby model ściśle trzymał się kontekstu podanego w dokumencie, bez polegania wyłącznie na swojej wiedzy o świecie. Odstępstwa od tego mogą prowadzić do błędnych interpretacji, niedokładności lub nawet błędnych odpowiedzi. Najczęściej stosowaną metodą rozwiązania tego problemu jest tzw Odzyskanie Augmented Generation (SZMATA). Podejście to łączy w sobie mocne strony modeli wyszukiwania i modeli językowych, zwiększając precyzję i jakość generowanych odpowiedzi.

LLM mogą również nakładać ograniczenia tokenów ze względu na ograniczenia pamięci i ograniczenia sprzętu, na którym działają. Aby rozwiązać ten problem, stosuje się techniki takie jak dzielenie na porcje w celu podzielenia dużych dokumentów na mniejsze części, które mieszczą się w granicach tokenów LLM. Z drugiej strony osadzanie jest stosowane w NLP przede wszystkim w celu uchwycenia semantycznego znaczenia słów i ich relacji z innymi słowami w przestrzeni wielowymiarowej. Te osadzania przekształcają słowa w wektory, umożliwiając modelom wydajne przetwarzanie i zrozumienie danych tekstowych. Dzięki zrozumieniu niuansów semantycznych między słowami i wyrażeniami osadzanie umożliwia LLM generowanie spójnych i odpowiednich kontekstowo wyników. Zwróć uwagę na następujące kluczowe terminy:

Wydzielanie – W procesie tym duże ilości tekstu z dokumentów są dzielone na mniejsze, znaczące fragmenty tekstu.
zanurzeń – Są to stałowymiarowe transformacje wektorowe każdej porcji, które zachowują informacje semantyczne z porcji. Te osadzania są następnie ładowane do wektorowej bazy danych.
Baza danych wektorowych – Jest to baza danych osadzonych słów lub wektorów reprezentujących kontekst słów. Działa jako źródło wiedzy, które wspomaga zadania NLP w potokach przetwarzania dokumentów. Zaletą bazy danych wektorowych jest to, że umożliwia dostarczenie LLM tylko niezbędnego kontekstu podczas generowania tekstu, jak wyjaśnimy w poniższej sekcji.

RAG wykorzystuje moc osadzania, aby zrozumieć i pobrać odpowiednie segmenty dokumentu na etapie wyszukiwania. W ten sposób RAG może działać w ramach symbolicznych ograniczeń LLM, zapewniając wybranie do generowania najbardziej istotnych informacji, co skutkuje dokładniejszymi i kontekstowo istotnymi wynikami.

Poniższy diagram ilustruje integrację tych technik w celu opracowania danych wejściowych do LLM, poprawy ich zrozumienia kontekstowego i umożliwienia bardziej odpowiednich odpowiedzi w kontekście. Jedno podejście polega na wyszukiwaniu podobieństw, wykorzystując zarówno wektorową bazę danych, jak i fragmentację. Wektorowa baza danych przechowuje elementy osadzone reprezentujące informacje semantyczne, a fragmentacja dzieli tekst na łatwe do zarządzania sekcje. Wykorzystując kontekst z wyszukiwania podobieństw, LLM mogą wykonywać zadania, takie jak odpowiadanie na pytania i operacje specyficzne dla domeny, takie jak klasyfikacja i wzbogacanie.

Inteligentne przetwarzanie dokumentów za pomocą Amazon Textract, Amazon Bedrock i LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

W tym poście stosujemy podejście oparte na RAG, aby przeprowadzać pytania i odpowiedzi w kontekście z dokumentami. W poniższym przykładzie kodu wyodrębniamy tekst z dokumentu, a następnie dzielimy dokument na mniejsze fragmenty tekstu. Dzielenie na kawałki jest wymagane, ponieważ możemy mieć duże, wielostronicowe dokumenty, a nasze LLM mogą mieć limity tokenów. Fragmenty te są następnie ładowane do bazy danych wektorów w celu przeprowadzenia wyszukiwania podobieństwa w kolejnych krokach. W poniższym przykładzie używamy modelu Amazon Titan Embed Text v1, który wykonuje osadzanie wektorowe fragmentów dokumentu:

from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import BedrockEmbeddings
from langchain.vectorstores import FAISS
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.chains import RetrievalQA loader = AmazonTextractPDFLoader("amazon_10k.pdf")
document = loader.load() text_splitter = RecursiveCharacterTextSplitter(chunk_size=400, separators=["nn", "n", ".", "!", "?", ",", " ", ""], chunk_overlap=0)
texts = text_splitter.split_documents(document)
embeddings = BedrockEmbeddings(client=bedrock, model_id="amazon.titan-embed-text-v1")
db = FAISS.from_documents(documents=texts, embedding=embeddings) retriever = db.as_retriever(search_type='mmr', search_kwargs={"k": 3}) template = """ Answer the question as truthfully as possible strictly using only the provided text, and if the answer is not contained within the text, say "I don't know". Skip any preamble text and reasoning and give just the answer. <text>{context}</text>
<question>{question}</question>
<answer>""" # define the prompt template
qa_prompt = PromptTemplate(template=template, input_variables=["context","question"]) chain_type_kwargs = { "prompt": qa_prompt, "verbose": False } # change verbose to True if you need to see what's happening bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
qa = RetrievalQA.from_chain_type( llm=bedrock_llm, chain_type="stuff", retriever=retriever, chain_type_kwargs=chain_type_kwargs, verbose=False # change verbose to True if you need to see what's happening
) question="Who is the administrator for this plan?"
result = qa.run(question)
print(result.strip())

Kod tworzy odpowiedni kontekst dla LLM przy użyciu fragmentów tekstu zwracanych przez akcję wyszukiwania podobieństwa z bazy danych wektorów. W tym przykładzie używamy oprogramowania typu open source Sklep wektorowy FAISS jako przykładowa baza danych wektorów do przechowywania osadzonych wektorów każdego fragmentu tekstu. Następnie definiujemy wektorową bazę danych jako a Retriever LangChain, który jest przekazywany do RetrievalQA łańcuch. To wewnętrznie uruchamia zapytanie o podobieństwo w bazie danych wektorów, które zwraca n górnych (gdzie w naszym przykładzie n=3) fragmentów tekstu, które są istotne dla pytania. Na koniec uruchamiany jest łańcuch LLM z odpowiednim kontekstem (grupą odpowiednich fragmentów tekstu) i pytaniem, na które LLM ma odpowiedzieć. Aby zapoznać się ze szczegółowym omówieniem kodu dotyczącym pytań i odpowiedzi za pomocą RAG, zobacz notatnik Python w sprawie GitHub.

Jako alternatywę dla FAISS możesz również użyć Możliwości bazy danych wektorowych usługi Amazon OpenSearch Service, Usługa relacyjnej bazy danych Amazon (Amazon RDS) dla PostgreSQL z pgwektor rozszerzenie w postaci wektorowych baz danych lub bazy danych Chroma Database o otwartym kodzie źródłowym.

Pytania i odpowiedzi z danymi tabelarycznymi

Dane tabelaryczne w dokumentach mogą być trudne do przetworzenia dla LLM ze względu na ich złożoność strukturalną. Amazon Texttract można rozszerzyć o LLM, ponieważ umożliwia wyodrębnianie tabel z dokumentów w zagnieżdżonym formacie elementów, takich jak strona, tabela i komórki. Wykonywanie pytań i odpowiedzi na podstawie danych tabelarycznych jest procesem wieloetapowym i można je przeprowadzić za pomocą: zadawanie sobie pytań. Poniżej znajduje się przegląd kroków:

Wyodrębnij tabele z dokumentów za pomocą Amazon Texttract. Dzięki Amazon Texttract strukturę tabelaryczną (wiersze, kolumny, nagłówki) można wyodrębnić z dokumentu.
Przechowuj dane tabelaryczne w wektorowej bazie danych wraz z informacjami o metadanych, takimi jak nazwy nagłówków i opis każdego nagłówka.
Użyj podpowiedzi, aby skonstruować ustrukturyzowane zapytanie przy użyciu LLM w celu uzyskania danych z tabeli.
Użyj zapytania, aby wyodrębnić odpowiednie dane tabeli z bazy danych wektorów.

Na przykład na wyciągu bankowym, biorąc pod uwagę pytanie „Jakie są transakcje z depozytami o wartości przekraczającej 1000 USD”, LLM wykonałby następujące kroki:

Utwórz zapytanie, np “Query: transactions” , “filter: greater than (Deposit$)”.
Przekonwertuj zapytanie na zapytanie strukturalne.
Zastosuj zapytanie strukturalne do bazy danych wektorowych, w której przechowywane są dane naszej tabeli.

Aby zapoznać się z przykładowym przewodnikiem po kodzie pytań i odpowiedzi w formie tabelarycznej, zobacz notatnik Pythona w GitHub.

Szablonowanie i normalizacje

W tej sekcji przyjrzymy się, jak wykorzystać szybkie techniki inżynieryjne i wbudowany mechanizm LangChain do wygenerowania danych wyjściowych z ekstraktami z dokumentu według określonego schematu. Dokonujemy również standaryzacji wyodrębnionych danych, korzystając z technik omówionych wcześniej. Zaczynamy od zdefiniowania szablonu pożądanego wyniku. Będzie to służyć jako schemat i zawierać szczegóły dotyczące każdej jednostki, którą chcemy wyodrębnić z tekstu dokumentu.

output_template= { "doctor_name":{ "type": "string", "description": "The doctor or provider's full name" }, "provider_id":{ "type": "string", "description": "The doctor or provider's ID" }, "patient_name":{ "type": "string", "description": "The patient's full name" }, …
}

Należy pamiętać, że dla każdej encji używamy opisu, aby wyjaśnić, czym jest ta encja, aby pomóc LLM w wyodrębnieniu wartości z tekstu dokumentu. W poniższym przykładowym kodzie używamy tego szablonu do tworzenia monitu o LLM wraz z tekstem wyodrębnionym z dokumentu za pomocą AmazonTextractPDFLoader a następnie wykonaj wnioskowanie z modelu:

from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain template = """ You are a helpful assistant. Please extract the following details from the document and format the output as JSON using the keys. Skip any preamble text and generate the final answer. <details>
{details}
</details> <keys>
{keys}
</keys> <document>
{doc_text}
<document> <final_answer>""" details = "n".join([f"{key}: {value['description']}" for key, value in output_template.items()])
keys = "n".join([f"{key}" for key, value in output_template.items()]) prompt = PromptTemplate(template=template, input_variables=["details", "keys", "doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
output = llm_chain.run({"doc_text": full_text, "details": details, "keys": keys}) print(output) { "doctor_name": "Mateo Jackson, Phd", "provider_id": "XA/7B/00338763", "patient_name": "John Doe", … }

Jak widać, {keys} częścią zachęty są klucze z naszego szablonu, a plik {details} są klucze wraz z ich opisem. W tym przypadku nie podpowiadamy modelowi jawnie formatu wyjścia innego niż określony w instrukcji wygenerowania wyjścia w formacie JSON. W większości przypadków to działa; jednakże, ponieważ wyjście z LLM jest niedeterministycznym generowaniem tekstu, chcemy jawnie określić format jako część instrukcji w znaku zachęty. Aby rozwiązać ten problem, możemy użyć LangChaina analizator składni wyjściowych moduł, aby skorzystać z zautomatyzowanej inżynierii podpowiedzi, która pomaga przekonwertować nasz szablon na zachętę formatu instrukcji. Do wygenerowania instrukcji formatowania używamy wcześniej zdefiniowanego szablonu w następujący sposób:

from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser response_schems = list() for key, value in output_template.items(): schema = ResponseSchema(name=key, description=value['description'], type=value['type']) response_schems.append(schema)
output_parser = StructuredOutputParser.from_response_schemas(response_schems)
format_instructions= output_parser.get_format_instructions()
print(format_instructions)

Połączenia format_instructions zmienna zawiera teraz polecenie formatowania:

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```": ```json
{ "doctor_name": string // The doctor or provider's full name "provider_id": string // The doctor or provider's ID "patient_name": string // The patient's full name …
}
```

Następnie używamy tej zmiennej w naszym oryginalnym znaku zachęty jako instrukcji dla LLM, aby wyodrębnił i sformatował dane wyjściowe w żądanym schemacie, dokonując niewielkiej modyfikacji w naszym znaku zachęty:

template = """ You are a helpful assistant. Please extract the following details from the document and strictly follow the instructions described in the format instructions to format the output. Skip any preamble text and generate the final answer. Do not generate incomplete answer. <details>
{details}
</details> <format_instructions>
{format_instructions}
</format_instructions> <document>
{doc_text}
<document> <final_answer>"""

Jak dotąd wyodrębniliśmy dane z dokumentu jedynie w pożądanym schemacie. Musimy jednak jeszcze przeprowadzić pewną standaryzację. Na przykład chcemy, aby data przyjęcia i wypisu pacjenta była wyodrębniona w formacie DD/MM/RRRR. W tym przypadku wzmacniamy description klucza z instrukcją formatowania:

new_output_template= { … "admitted_date":{ "type": "string", "description": "Date the patient was admitted to the hospital, this should be formatted in DD/MM/YYYY format." }, "discharge_date":{ "type": "string", "description": "Date the patient was discharged from the hospital, this should be formatted in DD/MM/YYYY format." …
}

Zapoznaj się z notatnikiem Pythona w GitHub aby uzyskać pełny opis krok po kroku i wyjaśnienie.

Sprawdzanie pisowni i poprawki

LLM wykazały niezwykłe zdolności w rozumieniu i generowaniu tekstu podobnego do ludzkiego. Jednym z rzadziej omawianych, ale niezwykle przydatnych zastosowań LLM jest ich potencjał w sprawdzaniu gramatyki i poprawianiu zdań w dokumentach. W przeciwieństwie do tradycyjnych programów do sprawdzania gramatyki, które opierają się na zestawie predefiniowanych reguł, LLM korzystają ze wzorców, które zidentyfikowali na podstawie ogromnych ilości danych tekstowych, aby określić, co stanowi prawidłowy lub płynny język. Oznacza to, że potrafią wykryć niuanse, kontekst i subtelności, które mogą przeoczyć systemy oparte na regułach.

Wyobraź sobie tekst wyciągnięty z podsumowania wypisu pacjenta, który brzmi: „Pacjent Jon Doe, który został przyjęty z powodu ciężkiego zapalenia płuc, wykazał znaczną poprawę i może zostać bezpiecznie wypisany. Kolejne wizyty zaplanowano na przyszły tydzień.” Tradycyjny moduł sprawdzania pisowni może rozpoznać „przyznanie”, „zapalenie płuc”, „poprawę” i „nex” jako błędy. Jednakże kontekst tych błędów może prowadzić do dalszych błędów lub ogólnych sugestii. LLM wyposażony w obszerne przeszkolenie mógłby zasugerować: „Pacjent John Doe, który został przyjęty z powodu ciężkiego zapalenia płuc, wykazał znaczną poprawę i może być bezpiecznie wypisany do domu. Kontrole zaplanowano na przyszły tydzień.”

Poniżej znajduje się przykładowy dokument słabo napisany odręcznie, zawierający ten sam tekst, co wyjaśniono wcześniej.

Inteligentne przetwarzanie dokumentów za pomocą Amazon Textract, Amazon Bedrock i LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Wyodrębniamy dokument za pomocą modułu ładującego dokumenty Amazon Textract, a następnie instruujemy LLM, za pomocą szybkiej inżynierii, aby poprawił wyodrębniony tekst w celu poprawienia wszelkich błędów ortograficznych i gramatycznych:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/hand_written_note.pdf")
document = loader.load() template = """ Given a detailed 'Document', perform spelling and grammatical corrections. Ensure the output is coherent, polished, and free from errors. Skip any preamble text and give the answer. <document>{doc_text}</<document>
<answer> """ prompt = PromptTemplate(template=template, input_variables=["doc_text"])
llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
llm_chain = LLMChain(prompt=prompt, llm=llm) try: txt = document[0].page_content std_op = llm_chain.run({"doc_text": txt}) print("Extracted text") print("==============") print(txt) print("nCorrected text") print("==============") print(std_op.strip()) print("n")
except Exception as e: print(str(e))

Dane wyjściowe poprzedniego kodu pokazują oryginalny tekst wyodrębniony przez moduł ładujący dokumenty, po którym następuje poprawiony tekst wygenerowany przez LLM:

Extracted text
==============
Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Corrected text
==============
Patient John Doe, who was admitted with severe pneumonia, has shown significant improvement and can be safely discharged. Follow-up appointments are scheduled for next week.

Pamiętaj, że niezależnie od tego, jak potężne są LLM, konieczne jest postrzeganie ich sugestii właśnie jako sugestii. Chociaż imponująco dobrze oddają zawiłości języka, nie są nieomylne. Niektóre sugestie mogą zmienić zamierzone znaczenie lub ton oryginalnego tekstu. Dlatego ważne jest, aby weryfikatorzy używali poprawek wygenerowanych przez LLM jako wskazówek, a nie absolutnych. Współpraca ludzkiej intuicji z możliwościami LLM obiecuje przyszłość, w której nasza pisemna komunikacja będzie nie tylko wolna od błędów, ale także bogatsza i bardziej dopracowana.

Wnioski

Generatywna sztuczna inteligencja zmienia sposób przetwarzania dokumentów za pomocą IDP w celu uzyskiwania wglądu. W poście Ulepszanie inteligentnego przetwarzania dokumentów AWS za pomocą generatywnej sztucznej inteligencji, omówiliśmy różne etapy rurociągu i sposób, w jaki klient AWS, Ricoh, ulepsza swój rurociąg IDP za pomocą LLM. W tym poście omówiliśmy różne mechanizmy usprawniania przepływu pracy IDP za pomocą LLM za pośrednictwem Amazon Bedrock, Amazon Textract i popularnego frameworka LangChain. Już dziś możesz rozpocząć korzystanie z nowego modułu ładującego dokumenty Amazon Textract z LangChain, korzystając z przykładowych notatników dostępnych w naszym Repozytorium GitHub. Aby uzyskać więcej informacji na temat pracy z generatywną sztuczną inteligencją w AWS, zobacz Ogłaszamy nowe narzędzia do budowania z generatywną sztuczną inteligencją w AWS.

O autorach

Inteligentne przetwarzanie dokumentów za pomocą Amazon Textract, Amazon Bedrock i LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Sonali Sahu kieruje inteligentnym przetwarzaniem dokumentów w zespole usług AI/ML w AWS. Jest autorką, liderem myśli i pasjonatką technologii. Jej głównym obszarem zainteresowania jest AI i ML, często przemawia na konferencjach i spotkaniach AI i ML na całym świecie. Ma zarówno szerokie, jak i głębokie doświadczenie w technologii i branży technologicznej, z doświadczeniem branżowym w opiece zdrowotnej, sektorze finansowym i ubezpieczeniach.

Inteligentne przetwarzanie dokumentów za pomocą Amazon Textract, Amazon Bedrock i LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Anjana Biswasa jest starszym architektem rozwiązań usług AI ze szczególnym uwzględnieniem AI/ML i analizy danych. Anjan jest częścią ogólnoświatowego zespołu usług AI i współpracuje z klientami, pomagając im zrozumieć i opracować rozwiązania problemów biznesowych związanych ze sztuczną inteligencją i uczeniem się. Anjan ma ponad 14-letnie doświadczenie w pracy z globalnymi organizacjami zajmującymi się łańcuchem dostaw, produkcją i sprzedażą detaliczną oraz aktywnie pomaga klientom rozpocząć i skalować usługi AWS AI.

Inteligentne przetwarzanie dokumentów za pomocą Amazon Textract, Amazon Bedrock i LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Chinmayee Rane jest architektem rozwiązań specjalistycznych AI/ML w Amazon Web Services. Pasjonuje się matematyką stosowaną i uczeniem maszynowym. Koncentruje się na projektowaniu inteligentnych rozwiązań do przetwarzania dokumentów i generatywnych rozwiązań AI dla klientów AWS. Poza pracą lubi tańczyć salsę i bachatę.