Amazon Textract, Amazon Bedrock ve LangChain ile Akıllı Belge İşleme

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Günümüzün bilgi çağında, sayısız belgede barındırılan büyük miktarda veri, işletmeler için hem bir zorluk hem de bir fırsat sunmaktadır. Geleneksel belge işleme yöntemleri çoğu zaman verimlilik ve doğruluk açısından yetersiz kalıyor ve yenilik, maliyet verimliliği ve optimizasyonlara yer bırakıyor. Akıllı Belge İşleme'nin (IDP) ortaya çıkışıyla birlikte belge işlemede önemli gelişmeler yaşandı. IDP ile işletmeler, çeşitli belge türlerindeki yapılandırılmamış verileri yapılandırılmış, eyleme geçirilebilir içgörülere dönüştürerek verimliliği önemli ölçüde artırabilir ve manuel çabaları azaltabilir. Ancak potansiyel bununla sınırlı değil. Üretken yapay zekayı (AI) sürece entegre ederek IDP yeteneklerini daha da geliştirebiliriz. Üretken yapay zeka yalnızca belge işlemede gelişmiş yetenekler sunmakla kalmıyor, aynı zamanda değişen veri modellerine dinamik bir uyum sağlama yeteneği de sunuyor. Bu yazı sizi IDP ile üretken yapay zekanın sinerjisine götürecek ve belge işlemede bir sonraki sınırı nasıl temsil ettiklerini ortaya çıkaracak.

IDP'yi AWS AI hizmetleriyle Akıllı belge işleme serimizde ayrıntılı olarak ele alıyoruz (Bölüm 1 ve Bölüm 2). Bu yazıda yeni veya mevcut bir IDP mimarisinin büyük dil modelleriyle (LLM'ler) nasıl genişletileceğini tartışıyoruz. Daha spesifik olarak, nasıl entegre olabileceğimizi tartışıyoruz Amazon Metin Yazısı ile Dil Zinciri belge yükleyici olarak ve Amazon Ana Kayası belgelerden veri çıkarmak ve çeşitli IDP aşamalarında üretken yapay zeka yeteneklerini kullanmak.

Amazon Textract, taranan belgelerden metni, el yazısını ve verileri otomatik olarak çıkaran bir makine öğrenimi (ML) hizmetidir. Amazon Bedrock, kullanımı kolay API'ler aracılığıyla yüksek performanslı temel model (FM) seçenekleri sunan, tam olarak yönetilen bir hizmettir.

Aşağıdaki şema, temel modellerle bir IDP iş akışını nasıl daha da geliştirebileceğinizi açıklayan üst düzey bir referans mimarisidir. Kullanım senaryosuna ve istenen sonuca bağlı olarak Yüksek Lisans'ları IDP'nin bir aşamasında veya tüm aşamalarında kullanabilirsiniz.

Aşağıdaki bölümlerde, Amazon Textract'in bu belirli görevlerin her biri için belgeleri işlemek üzere LangChain kullanılarak üretken yapay zeka iş akışlarına nasıl entegre edildiğini ayrıntılı olarak ele alacağız. Burada sağlanan kod blokları, kısalık sağlamak amacıyla kısaltılmıştır. Bizimle iletişime geçin GitHub deposu ayrıntılı Python not defterleri ve adım adım izlenecek yol için.

LLM'lerle belgelerin işlenmesi söz konusu olduğunda belgelerden metin çıkarmak çok önemli bir husustur. Amazon Textract'ı belgelerden yapılandırılmamış ham metinleri çıkarmak ve belgede bulunan anahtar/değer çiftleri ve tablolar gibi orijinal yarı yapılandırılmış veya yapılandırılmış nesneleri korumak için kullanabilirsiniz. Sağlık ve sigorta talepleri veya ipotekler gibi belge paketleri, yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış formatlarda birçok bilgi içeren karmaşık formlardan oluşur. Belge çıkarma burada önemli bir adımdır çünkü Yüksek Lisans'lar daha doğru ve alakalı yanıtlar oluşturmak için zengin içerikten yararlanır; aksi takdirde bu, Yüksek Lisans'ın çıktısının kalitesini etkileyebilir.

LangChain, LLM'lerle entegrasyon için güçlü bir açık kaynaklı çerçevedir. Yüksek Lisans'lar genel olarak çok yönlüdür ancak daha derin bağlam ve incelikli yanıtların gerekli olduğu alana özgü görevlerde zorluk yaşayabilirler. LangChain, bu tür senaryolarda geliştiricilere, karmaşık görevleri daha küçük alt görevlere bölebilecek aracılar oluşturma yetkisi verir. Alt görevler daha sonra LLM istemlerini bağlayıp zincirleyerek LLM'lere bağlam ve bellek katabilir.

LangChain teklifleri belge yükleyiciler belgelerden veri yükleyebilir ve dönüştürebilir. Belgeleri LLM'ler tarafından işlenebilecek tercih edilen formatlara göre yapılandırmak için bunları kullanabilirsiniz. AmazonTextractPDFLoader Amazon Textract'ı LangChain ile birlikte kullanarak belge işlemeyi otomatikleştirmenin hızlı yolunu sağlayan bir hizmet yükleyici türü belge yükleyicidir. Daha fazla ayrıntı için AmazonTextractPDFLoader, bakın Dil Zinciri belgeler. Amazon Textract belge yükleyiciyi kullanmak için onu LangChain kitaplığından içe aktararak başlayın:

from langchain.document_loaders import AmazonTextractPDFLoader

https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()

Ayrıca belgeleri Amazon S3'te saklayabilir ve şurada açıklandığı gibi s3:// URL modelini kullanarak bunlara başvurabilirsiniz. S3:// kullanarak bir pakete erişmeve bu S3 yolunu Amazon Textract PDF yükleyicisine iletin:

import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()

Çok sayfalı bir belge, birden çok sayfalık metin içerecektir ve bunlara daha sonra sayfaların bir listesi olan belgeler nesnesi aracılığıyla erişilebilir. Aşağıdaki kod, belge nesnesindeki sayfalar arasında döngü yapar ve aracılığıyla erişilebilen belge metnini yazdırır. page_content özellik:

print(len(documents)) for document in documents: print(document.page_content)

Amazon Comprehend ve LLM'ler belge sınıflandırması için etkili bir şekilde kullanılabilir. Amazon Comprehend, metinden içgörüler elde etmek için makine öğrenimini kullanan bir doğal dil işleme (NLP) hizmetidir. Amazon Comprehend ayrıca PDF'ler, Word ve görüntü formatları gibi belgelerde düzen farkındalığıyla özel sınıflandırma modeli eğitimini de destekler. Amazon Comprehend belge sınıflandırıcısını kullanma hakkında daha fazla bilgi için bkz. Amazon Comprehend belge sınıflandırıcı, daha yüksek doğruluk için düzen desteği ekler.

Yüksek Lisans'larla eşleştirildiğinde belge sınıflandırma, büyük hacimli belgeleri yönetmek için güçlü bir yaklaşım haline gelir. Yüksek Lisans'lar belge sınıflandırmasında faydalıdır çünkü doğal dil anlayışını kullanarak belgedeki metni, kalıpları ve bağlamsal öğeleri analiz edebilirler. Ayrıca belirli belge sınıfları için bunlara ince ayar yapabilirsiniz. IDP kanalına eklenen yeni bir belge türünün sınıflandırmaya ihtiyacı olduğunda LLM, metni işleyebilir ve belgeyi bir dizi sınıfa göre kategorilere ayırabilir. Aşağıda, belgedeki metni ayıklamak ve belgeyi sınıflandırmak için kullanmak üzere Amazon Textract tarafından desteklenen LangChain belge yükleyiciyi kullanan örnek kod yer almaktadır. biz kullanıyoruz Antropik Claude v2 sınıflandırmayı gerçekleştirmek için Amazon Bedrock aracılığıyla model.

Aşağıdaki örnekte, ilk önce bir hasta taburcu raporundan metin çıkarıyoruz ve onu üç farklı belge türünden oluşan bir listeye göre sınıflandırmak için bir Yüksek Lisans kullanıyoruz:DISCHARGE_SUMMARY, RECEIPT, ve PRESCRIPTION. Aşağıdaki ekran görüntüsü raporumuzu göstermektedir.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")

Özetleme, belirli bir metni veya belgeyi, önemli bilgileri koruyarak daha kısa bir versiyona yoğunlaştırmayı içerir. Bu teknik, kullanıcıların tüm içeriği okumadan bir belgenin önemli noktalarını hızlı bir şekilde kavramasını sağlayan verimli bilgi erişimi için faydalıdır. Amazon Textract doğrudan metin özetleme yapmasa da belgelerden metnin tamamının çıkarılmasına yönelik temel yetenekleri sağlar. Çıkarılan bu metin, metin özetleme görevlerini gerçekleştirmek için LLM modelimize bir girdi görevi görür.

Aynı numune deşarj raporunu kullanarak, AmazonTextractPDFLoader Bu belgeden metin çıkarmak için Daha önce olduğu gibi Amazon Bedrock aracılığıyla Claude v2 modelini kullanıyoruz ve metinle ne yapılacağına (bu durumda özetleme) ilişkin talimatları içeren bir istemle başlatıyoruz. Son olarak, belge yükleyiciden çıkarılan metni aktararak LLM zincirini çalıştırıyoruz. Bu, özetlenecek talimatlardan ve belgenin ile işaretlenmiş metninden oluşan komut istemiyle LLM'de bir çıkarım eylemi çalıştırır. Document. Aşağıdaki koda bakın:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() template = """ Given a full document, give me a concise summary. Skip any preamble text and just give the summary. <document>{doc_text}</document>
<summary>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") num_tokens = bedrock_llm.get_num_tokens(document[0].page_content)
print (f"Our prompt has {num_tokens} tokens nn=========================n") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
summary = llm_chain.run(document[0].page_content) print(summary.replace("</summary>","").strip())

Kod, hasta taburcu özet raporunun özetini oluşturur:

Our prompt has 797 tokens =========================
35 yo M admitted for epigastric abdominal pain, nausea, fatigue. Found to likely have ulcer. Discharged with activity restrictions, antibiotics, diet changes, and follow up.

Önceki örnekte özetlemeyi gerçekleştirmek için tek sayfalı bir belge kullanıldı. Ancak, özetlemeye ihtiyaç duyan birden fazla sayfa içeren belgelerle uğraşmanız muhtemeldir. Birden fazla sayfada özetleme yapmanın yaygın bir yolu, önce daha küçük metin parçaları üzerinde özetler oluşturmak ve ardından belgenin son özetini elde etmek için daha küçük özetleri birleştirmektir. Bu yöntemin LLM'ye birden fazla çağrı gerektirdiğini unutmayın. Bunun mantığı kolaylıkla oluşturulabilir; ancak LangChain, büyük metinleri (çok sayfalı belgelerden) özetleyebilen yerleşik bir özetleme zinciri sağlar. Özetleme şu şekilde yapılabilir: map_reduce veya stuff LLM'ye yapılan birden fazla çağrıyı yönetmek için seçenekler olarak mevcut olan seçenekler. Aşağıdaki örnekte kullanıyoruz map_reduce Çok sayfalı bir belgeyi özetlemek için. Aşağıdaki şekil iş akışımızı göstermektedir.

Amazon Textract, Amazon Bedrock ve LangChain ile akıllı belge işleme | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

İlk önce belgeyi çıkararak başlayalım ve sayfa başına toplam jeton sayısını ve toplam sayfa sayısını görelim:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") loader = AmazonTextractPDFLoader(f"s3://{data_bucket}/bedrock-sample/health_plan.pdf")
document = loader.load()
num_docs = len(document)
print (f"There are {num_docs} pages in the document")
for index, doc in enumerate(document): num_tokens_first_doc = bedrock_llm.get_num_tokens(doc.page_content) print (f"Page {index+1} has approx. {num_tokens_first_doc} tokens") There are 5 pages in the document
Page 1 has approx. 533 tokens
Page 2 has approx. 1323 tokens
Page 3 has approx. 997 tokens
Page 4 has approx. 1643 tokens
Page 5 has approx. 867 tokens

Daha sonra LangChain'in yerleşik özelliğini kullanıyoruz load_summarize_chain belgenin tamamını özetlemek gerekirse:

from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())

Standardizasyon ve Soru-Cevap

Bu bölümde standardizasyon ve Soru-Cevap görevlerini tartışıyoruz.

Standardizasyon

Çıktı standardizasyonu, çıktı metninin tutarlı bir biçimlendirmesini sağlamak için LLM'lerin kullanıldığı bir metin oluşturma görevidir. Bu görev özellikle çıktının istenen formatlarla hizalanmasını gerektiren anahtar varlık çıkarma işleminin otomasyonu için kullanışlıdır. Örneğin, tarihleri AA/GG/YYYY biçiminde biçimlendirmek amacıyla bir LLM'ye ince ayar yapmak için hızlı mühendislik en iyi uygulamalarını takip edebiliriz; bu, bir veritabanı DATE sütunuyla uyumlu olabilir. Aşağıdaki kod bloğu, bunun bir Yüksek Lisans ve hızlı mühendislik kullanılarak nasıl yapıldığına dair bir örnek göstermektedir. Yalnızca tarih değerleri için çıktı formatını standartlaştırmakla kalmıyoruz, aynı zamanda modelin nihai çıktıyı JSON formatında oluşturmasını da sağlıyoruz, böylece bu çıktı, aşağı yöndeki uygulamalarımızda kolayca kullanılabilir. Kullanırız LangChain İfade Dili (LCEL) iki eylemi birbirine zincirlemek için. İlk eylem, LLM'den yalnızca belgedeki tarihlerin JSON formatında bir çıktısını oluşturmasını ister. İkinci eylem JSON çıktısını alır ve tarih biçimini standartlaştırır. Normalleştirme ve şablon oluşturmada göreceğimiz gibi, bu iki adımlı eylemin uygun istem mühendisliğiyle tek bir adımda da gerçekleştirilebileceğini unutmayın.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") template1 = """ Given a full document, answer the question and format the output in the format specified. Skip any preamble text and just generate the JSON. <format>
{{ "key_name":"key_value"
}}
</format>
<document>{doc_text}</document>
<question>{question}</question>""" template2 = """ Given a JSON document, format the dates in the value fields precisely in the provided format. Skip any preamble text and just generate the JSON. <format>DD/MM/YYYY</format>
<json_document>{json_doc}</json_document> """ prompt1 = PromptTemplate(template=template1, input_variables=["doc_text", "question"])
llm_chain = LLMChain(prompt=prompt1, llm=bedrock_llm, verbose=True) prompt2 = PromptTemplate(template=template2, input_variables=["json_doc"])
llm_chain2 = LLMChain(prompt=prompt2, llm=bedrock_llm, verbose=True) chain = ( llm_chain | {'json_doc': lambda x: x['text'] } | llm_chain2
) std_op = chain.invoke({ "doc_text": document[0].page_content, "question": "Can you give me the patient admitted and discharge dates?"}) print(std_op['text']) { "admit_date":"07/09/2020", "discharge_date":"08/09/2020"
}

Önceki kod örneğinin çıktısı, GG/AA/YYYY biçiminde olan ve sırasıyla hastanın hastaneye kabul ve taburcu tarihleri olan 07/09/2020 ve 08/09/2020 tarihli bir JSON yapısıdır. taburcu özet raporuna.

Erişim Artırılmış Nesil ile Soru-Cevap

Yüksek Lisans'ların, genellikle dünya bilgisi veya dünya görüşü olarak adlandırılan gerçek bilgileri koruduğu bilinmektedir. İnce ayar yapıldığında en gelişmiş sonuçları üretebilirler. Bununla birlikte, bir Yüksek Lisans'ın bu bilgiye ne kadar etkili bir şekilde erişebileceği ve bu bilgiyi işleyebileceği konusunda kısıtlamalar vardır. Sonuç olarak, yoğun olarak belirli bilgilere dayanan görevlerde performansları belirli kullanım durumları için ideal olmayabilir. Örneğin, Soru-Cevap senaryolarında, modelin yalnızca dünya bilgisine dayanmadan, belgede sağlanan bağlama sıkı sıkıya bağlı kalması önemlidir. Bundan sapmak yanlış beyanlara, yanlışlıklara ve hatta yanlış yanıtlara yol açabilir. Bu sorunu çözmek için en sık kullanılan yöntem olarak bilinir. Alma Artırılmış Nesil (RAG). Bu yaklaşım, hem erişim modellerinin hem de dil modellerinin güçlü yönlerini bir araya getirerek oluşturulan yanıtların kesinliğini ve kalitesini artırır.

LLM'ler ayrıca bellek kısıtlamaları ve üzerinde çalıştıkları donanımın sınırlamaları nedeniyle belirteç sınırlamaları da getirebilir. Bu sorunu çözmek için, büyük belgeleri LLM'lerin belirteç limitlerine uyacak şekilde daha küçük parçalara bölmek için parçalama gibi teknikler kullanılır. Öte yandan, NLP'de yerleştirmeler öncelikle kelimelerin anlamsal anlamlarını ve bunların yüksek boyutlu bir alanda diğer kelimelerle olan ilişkilerini yakalamak için kullanılır. Bu yerleştirmeler kelimeleri vektörlere dönüştürerek modellerin metin verilerini verimli bir şekilde işlemesine ve anlamasına olanak tanır. Yerleştirmeler, kelimeler ve ifadeler arasındaki anlamsal nüansları anlayarak LLM'lerin tutarlı ve bağlamsal olarak alakalı çıktılar üretmesini sağlar. Aşağıdaki anahtar terimlere dikkat edin:

Kümeleme – Bu işlem, belgelerdeki büyük miktardaki metni daha küçük, anlamlı metin parçalarına ayırır.
kalıplamaların – Bunlar, parçalardan anlamsal bilgiyi koruyan, her parçanın sabit boyutlu vektör dönüşümleridir. Bu yerleştirmeler daha sonra bir vektör veritabanına yüklenir.
Vektör veritabanı – Bu, kelimelerin bağlamını temsil eden kelime yerleştirmeleri veya vektörlerden oluşan bir veritabanıdır. Belge işleme hatlarında NLP görevlerine yardımcı olan bir bilgi kaynağı görevi görür. Vektör veritabanının buradaki faydası, aşağıdaki bölümde açıklayacağımız gibi, metin oluşturma sırasında LLM'lere yalnızca gerekli bağlamın sağlanmasına izin vermesidir.

RAG, alma aşamasında ilgili belge bölümlerini anlamak ve getirmek için yerleştirmelerin gücünü kullanır. Bunu yaparak RAG, LLM'lerin token sınırlamaları dahilinde çalışarak, üretim için en uygun bilgilerin seçilmesini sağlayarak daha doğru ve bağlamsal olarak alakalı çıktılar elde edilmesini sağlayabilir.

Aşağıdaki diyagram, girdiyi LLM'lere hazırlamak, bağlamsal anlayışlarını geliştirmek ve bağlam içi daha alakalı yanıtları mümkün kılmak için bu tekniklerin entegrasyonunu göstermektedir. Yaklaşımlardan biri, hem vektör veritabanını hem de parçalamayı kullanan benzerlik aramasını içerir. Vektör veritabanı, anlamsal bilgiyi temsil eden eklemeleri saklar ve parçalama, metni yönetilebilir bölümlere ayırır. Benzerlik aramasından elde edilen bu bağlamı kullanarak, LLM'ler soru yanıtlama gibi görevleri ve sınıflandırma ve zenginleştirme gibi alana özgü işlemleri yürütebilir.

Amazon Textract, Amazon Bedrock ve LangChain ile akıllı belge işleme | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Bu yazı için, belgelerle bağlam içi Soru-Cevap gerçekleştirmek için RAG tabanlı bir yaklaşım kullanıyoruz. Aşağıdaki kod örneğinde, bir belgeden metin çıkarıyoruz ve ardından belgeyi daha küçük metin parçalarına bölüyoruz. Çok sayfalı büyük belgelerimiz olabileceği ve LLM'lerimizin jeton limitleri olabileceği için parçalama gereklidir. Bu parçalar daha sonra sonraki adımlarda benzerlik araması yapmak için vektör veritabanına yüklenir. Aşağıdaki örnekte, belge parçalarının vektör yerleştirmelerini gerçekleştiren Amazon Titan Embed Text v1 modelini kullanıyoruz:

from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import BedrockEmbeddings
from langchain.vectorstores import FAISS
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.chains import RetrievalQA loader = AmazonTextractPDFLoader("amazon_10k.pdf")
document = loader.load() text_splitter = RecursiveCharacterTextSplitter(chunk_size=400, separators=["nn", "n", ".", "!", "?", ",", " ", ""], chunk_overlap=0)
texts = text_splitter.split_documents(document)
embeddings = BedrockEmbeddings(client=bedrock, model_id="amazon.titan-embed-text-v1")
db = FAISS.from_documents(documents=texts, embedding=embeddings) retriever = db.as_retriever(search_type='mmr', search_kwargs={"k": 3}) template = """ Answer the question as truthfully as possible strictly using only the provided text, and if the answer is not contained within the text, say "I don't know". Skip any preamble text and reasoning and give just the answer. <text>{context}</text>
<question>{question}</question>
<answer>""" # define the prompt template
qa_prompt = PromptTemplate(template=template, input_variables=["context","question"]) chain_type_kwargs = { "prompt": qa_prompt, "verbose": False } # change verbose to True if you need to see what's happening bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
qa = RetrievalQA.from_chain_type( llm=bedrock_llm, chain_type="stuff", retriever=retriever, chain_type_kwargs=chain_type_kwargs, verbose=False # change verbose to True if you need to see what's happening
) question="Who is the administrator for this plan?"
result = qa.run(question)
print(result.strip())

Kod, vektör veritabanından benzerlik arama eylemi tarafından döndürülen metin parçalarını kullanarak LLM için ilgili bir bağlam oluşturur. Bu örnek için açık kaynak kullanıyoruz FAISS vektör deposu Her metin öbeğinin vektör yerleştirmelerini depolamak için örnek bir vektör veritabanı olarak. Daha sonra vektör veritabanını şu şekilde tanımlarız: LangChain av köpeği, içine aktarılan RetrievalQA zincir. Bu, vektör veritabanı üzerinde dahili olarak, soruyla alakalı en üstteki n (burada örneğimizde n=3) metin parçalarını döndüren bir benzerlik arama sorgusu çalıştırır. Son olarak, LLM zinciri ilgili bağlamla (bir grup ilgili metin parçası) ve LLM'nin cevaplayacağı soruyla çalıştırılır. RAG ile Soru-Cevap'ın adım adım kod açıklaması için şu adresteki Python not defterine bakın: GitHub.

FAISS'a alternatif olarak şunları da kullanabilirsiniz: Amazon OpenSearch Service vektör veritabanı özellikleri, PostgreSQL için Amazon İlişkisel Veritabanı Hizmeti (Amazon RDS) ile pgvektör uzantısını vektör veritabanları veya açık kaynaklı Chroma Veritabanı olarak kullanabilirsiniz.

Tablo verileriyle soru-cevap

Belgelerdeki tablo halindeki verilerin yapısal karmaşıklığı nedeniyle LLM'lerin işlenmesi zor olabilir. Amazon Textract, sayfa, tablo ve hücreler gibi öğelerin iç içe geçmiş biçimindeki belgelerden tabloların çıkarılmasına olanak tanıdığı için LLM'lerle zenginleştirilebilir. Tablo verileriyle Soru-Cevap gerçekleştirmek çok adımlı bir süreçtir ve şu şekilde gerçekleştirilebilir: kendi kendine sorgulama. Aşağıda adımlara genel bir bakış yer almaktadır:

Amazon Texttract'ı kullanarak belgelerden tabloları çıkarın. Amazon Textract ile tablo yapısı (satırlar, sütunlar, başlıklar) bir belgeden çıkarılabilir.
Tablo verilerini, başlık adları ve her başlığın açıklaması gibi meta veri bilgileriyle birlikte bir vektör veritabanında saklayın.
Verileri tablodan türetmek amacıyla LLM kullanarak yapılandırılmış bir sorgu oluşturmak için istemi kullanın.
İlgili tablo verilerini vektör veritabanından çıkarmak için sorguyu kullanın.

Örneğin, bir banka ekstresinde "1000$'ın üzerinde mevduat içeren işlemler nelerdir?" sorusu verildiğinde LLM aşağıdaki adımları tamamlayacaktır:

Şunun gibi bir sorgu oluşturun: “Query: transactions” , “filter: greater than (Deposit$)”.
Sorguyu yapılandırılmış bir sorguya dönüştürün.
Yapılandırılmış sorguyu tablo verilerimizin depolandığı vektör veritabanına uygulayın.

Soru-Cevap'ın tablolu adım adım örnek kod açıklaması için Python not defterine bakın. GitHub.

Şablon oluşturma ve normalleştirmeler

Bu bölümde, belirli bir şemadaki bir belgeden alıntılar içeren bir çıktı oluşturmak için hızlı mühendislik tekniklerinin ve LangChain'in yerleşik mekanizmasının nasıl kullanılacağına bakıyoruz. Ayrıca, daha önce tartışılan teknikleri kullanarak, çıkarılan veriler üzerinde bazı standardizasyonlar da gerçekleştiriyoruz. İstediğiniz çıktı için bir şablon tanımlayarak başlıyoruz. Bu bir şema görevi görecek ve belgenin metninden çıkarmak istediğimiz her varlık hakkındaki ayrıntıları kapsayacaktır.

output_template= { "doctor_name":{ "type": "string", "description": "The doctor or provider's full name" }, "provider_id":{ "type": "string", "description": "The doctor or provider's ID" }, "patient_name":{ "type": "string", "description": "The patient's full name" }, …
}

Varlıkların her biri için, LLM'nin belge metninden değer çıkarmasına yardımcı olmak amacıyla o varlığın ne olduğunu açıklamak için açıklamayı kullandığımızı unutmayın. Aşağıdaki örnek kodda, LLM için istemimizi belgeden çıkarılan metinle birlikte oluşturmak için bu şablonu kullanıyoruz. AmazonTextractPDFLoader ve ardından modelle çıkarım yapın:

from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain template = """ You are a helpful assistant. Please extract the following details from the document and format the output as JSON using the keys. Skip any preamble text and generate the final answer. <details>
{details}
</details> <keys>
{keys}
</keys> <document>
{doc_text}
<document> <final_answer>""" details = "n".join([f"{key}: {value['description']}" for key, value in output_template.items()])
keys = "n".join([f"{key}" for key, value in output_template.items()]) prompt = PromptTemplate(template=template, input_variables=["details", "keys", "doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
output = llm_chain.run({"doc_text": full_text, "details": details, "keys": keys}) print(output) { "doctor_name": "Mateo Jackson, Phd", "provider_id": "XA/7B/00338763", "patient_name": "John Doe", … }

Gördüğünüz gibi, {keys} İstemin bir kısmı şablonumuzun anahtarlarıdır ve {details} açıklamalarıyla birlikte anahtarlardır. Bu durumda, çıktının JSON formatında üretilmesi talimatını belirtmek dışında, modeli açık bir şekilde çıktının formatıyla istemiyoruz. Bu çoğunlukla işe yarar; ancak LLM'lerden gelen çıktı deterministik olmayan metin üretimi olduğundan, istemdeki talimatın bir parçası olarak formatı açıkça belirtmek istiyoruz. Bunu çözmek için LangChain'i kullanabiliriz. yapılandırılmış çıktı ayrıştırıcısı şablonumuzu bir format talimat istemine dönüştürmeye yardımcı olan otomatik bilgi istemi mühendisliğinden yararlanmak için modül. Format talimat istemini aşağıdaki gibi oluşturmak için daha önce tanımlanan şablonu kullanırız:

from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser response_schems = list() for key, value in output_template.items(): schema = ResponseSchema(name=key, description=value['description'], type=value['type']) response_schems.append(schema)
output_parser = StructuredOutputParser.from_response_schemas(response_schems)
format_instructions= output_parser.get_format_instructions()
print(format_instructions)

The format_instructions değişken artık format talimat istemini tutuyor:

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```": ```json
{ "doctor_name": string // The doctor or provider's full name "provider_id": string // The doctor or provider's ID "patient_name": string // The patient's full name …
}
```

Daha sonra bu değişkeni orijinal istemimizde LLM'ye bir talimat olarak kullanırız, böylece istemimizde küçük bir değişiklik yaparak çıktıyı istenen şemada çıkarır ve biçimlendirir:

template = """ You are a helpful assistant. Please extract the following details from the document and strictly follow the instructions described in the format instructions to format the output. Skip any preamble text and generate the final answer. Do not generate incomplete answer. <details>
{details}
</details> <format_instructions>
{format_instructions}
</format_instructions> <document>
{doc_text}
<document> <final_answer>"""

Şu ana kadar sadece istenilen şemadaki verileri belgeden çıkardık. Ancak yine de bazı standardizasyon yapmamız gerekiyor. Örneğin hastanın kabul tarihi ve taburculuk tarihinin GG/AA/YYYY formatında çıkmasını istiyoruz. Bu durumda, artırıyoruz. description biçimlendirme talimatını içeren anahtarın:

new_output_template= { … "admitted_date":{ "type": "string", "description": "Date the patient was admitted to the hospital, this should be formatted in DD/MM/YYYY format." }, "discharge_date":{ "type": "string", "description": "Date the patient was discharged from the hospital, this should be formatted in DD/MM/YYYY format." …
}

Python not defterine bakın GitHub Tam adım adım izlenecek yol ve açıklama için.

Yazım denetimleri ve düzeltmeler

Yüksek Lisans'lar insan benzeri metinleri anlama ve oluşturma konusunda olağanüstü yetenekler göstermiştir. Yüksek Lisans'ın daha az tartışılan ancak son derece yararlı uygulamalarından biri, gramer kontrolleri ve belgelerdeki cümle düzeltmelerindeki potansiyelleridir. Önceden tanımlanmış bir dizi kurala dayanan geleneksel dilbilgisi denetleyicilerinin aksine, LLM'ler neyin doğru veya akıcı dil olduğunu belirlemek için çok miktarda metin verisinden belirledikleri kalıpları kullanır. Bu, kural tabanlı sistemlerin gözden kaçırabileceği nüansları, bağlamı ve incelikleri tespit edebilecekleri anlamına gelir.

Bir hasta taburcu özetinden alınan şu metni hayal edin: "Şiddetli pnömoni nedeniyle başvuran hasta Jon Doe önemli bir iyileşme gösterdi ve güvenli bir şekilde taburcu edilebilir. Takiplerin önümüzdeki hafta yapılması planlanıyor." Geleneksel bir yazım denetleyicisi "kabul", "zatürre", "iyileşme" ve "sonraki" hatalarını hata olarak tanıyabilir. Ancak bu hataların bağlamı başka hatalara veya genel önerilere yol açabilir. Kapsamlı bir eğitimle donatılmış bir yüksek lisans şunları önerebilir: "Şiddetli zatürre nedeniyle kabul edilen hasta John Doe önemli bir iyileşme gösterdi ve güvenli bir şekilde taburcu edilebilir. Takiplerin önümüzdeki hafta yapılması planlanıyor."

Aşağıda, daha önce açıklandığı gibi aynı metni içeren, kötü el yazısıyla yazılmış örnek bir belge bulunmaktadır.

Amazon Textract, Amazon Bedrock ve LangChain ile akıllı belge işleme | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Belgeyi bir Amazon Textract belge yükleyiciyle çıkarıyoruz ve ardından LLM'ye, hızlı mühendislik yoluyla, çıkarılan metni herhangi bir yazım ve/veya dilbilgisi hatasını düzeltmek için düzeltmesi talimatını veriyoruz:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/hand_written_note.pdf")
document = loader.load() template = """ Given a detailed 'Document', perform spelling and grammatical corrections. Ensure the output is coherent, polished, and free from errors. Skip any preamble text and give the answer. <document>{doc_text}</<document>
<answer> """ prompt = PromptTemplate(template=template, input_variables=["doc_text"])
llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
llm_chain = LLMChain(prompt=prompt, llm=llm) try: txt = document[0].page_content std_op = llm_chain.run({"doc_text": txt}) print("Extracted text") print("==============") print(txt) print("nCorrected text") print("==============") print(std_op.strip()) print("n")
except Exception as e: print(str(e))

Önceki kodun çıktısı, belge yükleyici tarafından çıkarılan orijinal metni ve ardından Yüksek Lisans tarafından oluşturulan düzeltilmiş metni gösterir:

Extracted text
==============
Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Corrected text
==============
Patient John Doe, who was admitted with severe pneumonia, has shown significant improvement and can be safely discharged. Follow-up appointments are scheduled for next week.

LLM'ler ne kadar güçlü olursa olsun, onların önerilerini sadece öneriler olarak görmenin önemli olduğunu unutmayın. Her ne kadar dilin inceliklerini etkileyici derecede iyi yakalamış olsalar da, yanılmaz değiller. Bazı öneriler orijinal metnin amaçlanan anlamını veya tonunu değiştirebilir. Bu nedenle, gerçek kişi olan incelemecilerin LLM tarafından oluşturulan düzeltmeleri mutlak olarak değil, kılavuz olarak kullanması çok önemlidir. İnsan sezgisinin LLM yetenekleriyle işbirliği, yazılı iletişimimizin sadece hatasız değil, aynı zamanda daha zengin ve daha incelikli olduğu bir gelecek vaat ediyor.

Sonuç

Üretken yapay zeka, içgörü elde etmek için IDP ile belgeleri işleme şeklinizi değiştiriyor. Gönderide Üretken yapay zeka ile AWS akıllı belge işlemeyi geliştirmebölümünde, üretim hattının çeşitli aşamalarını ve AWS müşterisi Ricoh'nun IDP satış hattını LLM'lerle nasıl geliştirdiğini tartıştık. Bu yazıda, Amazon Bedrock, Amazon Textract ve popüler LangChain çerçevesi aracılığıyla LLM'lerle IDP iş akışını artırmanın çeşitli mekanizmalarını tartıştık. Sitemizde bulunan örnek not defterlerini kullanarak LangChain'li yeni Amazon Textract belge yükleyicisini kullanmaya bugün başlayabilirsiniz. GitHub deposu. AWS'de üretken yapay zekayla çalışmaya ilişkin daha fazla bilgi için bkz. AWS'de Üretken Yapay Zeka ile Derlemeye Yönelik Yeni Araçlar Duyurusu.

Yazarlar Hakkında

Amazon Textract, Amazon Bedrock ve LangChain ile akıllı belge işleme | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai. Sonali Sahu AWS'de AI/ML hizmetleri ekibiyle akıllı belge işlemede lider konumdadır. O bir yazar, düşünce lideri ve tutkulu bir teknoloji uzmanıdır. Temel odak alanı AI ve ML'dir ve sık sık dünya çapında AI ve ML konferanslarında ve buluşmalarında konuşur. Sağlık, finans sektörü ve sigorta sektörlerinde sektör uzmanlığı ile teknoloji ve teknoloji endüstrisinde hem geniş hem de derin deneyime sahiptir.

Amazon Textract, Amazon Bedrock ve LangChain ile akıllı belge işleme | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai. Anjan Biswas AI/ML ve Veri Analitiğine odaklanan bir Kıdemli AI Hizmetleri Çözümleri Mimarıdır. Anjan, dünya çapındaki AI hizmetleri ekibinin bir parçasıdır ve AI ve ML ile iş sorunlarını anlamalarına ve bunlara çözümler geliştirmelerine yardımcı olmak için müşterilerle birlikte çalışır. Anjan, küresel tedarik zinciri, üretim ve perakende kuruluşlarıyla çalışma konusunda 14 yılı aşkın deneyime sahiptir ve müşterilerin AWS AI hizmetlerini kullanmaya başlamasına ve bunları ölçeklendirmesine aktif olarak yardımcı olmaktadır.

Amazon Textract, Amazon Bedrock ve LangChain ile akıllı belge işleme | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai. Chinmaye Rane Amazon Web Services'te AI/ML Uzman Çözüm Mimarıdır. Uygulamalı matematik ve makine öğrenimi konusunda tutkulu. AWS müşterileri için akıllı belge işleme ve üretken yapay zeka çözümleri tasarlamaya odaklanıyor. İş dışında salsa ve bachata dansından hoşlanıyor.