Inteligentna obdelava dokumentov z Amazon Texttract, Amazon Bedrock in LangChain

Ponovno objavil Platon

Spremljevalci: 0

V današnji informacijski dobi ogromne količine podatkov, shranjenih v neštetih dokumentih, predstavljajo hkrati izziv in priložnost za podjetja. Tradicionalne metode obdelave dokumentov pogosto niso učinkovite in točne, kar pušča prostor za inovacije, stroškovno učinkovitost in optimizacije. Obdelava dokumentov je s prihodom inteligentne obdelave dokumentov (IDP) doživela pomemben napredek. Z IDP lahko podjetja pretvorijo nestrukturirane podatke iz različnih vrst dokumentov v strukturirane, uporabne vpoglede, kar dramatično poveča učinkovitost in zmanjša ročno delo. Vendar pa se potencial ne konča tam. Z integracijo generativne umetne inteligence (AI) v proces lahko dodatno izboljšamo zmogljivosti IDP. Generativni AI ne uvaja samo izboljšanih zmogljivosti pri obdelavi dokumentov, temveč tudi dinamično prilagodljivost spreminjajočim se vzorcem podatkov. Ta objava vas popelje skozi sinergijo IDP in generativne umetne inteligence ter razkrije, kako predstavljata naslednjo mejo pri obdelavi dokumentov.

IDP podrobno obravnavamo v naši seriji Inteligentna obdelava dokumentov s storitvami umetne inteligence AWS (Del 1 in Del 2). V tej objavi razpravljamo o tem, kako razširiti novo ali obstoječo arhitekturo IDP z velikimi jezikovnimi modeli (LLM). Natančneje, razpravljamo o tem, kako se lahko integriramo Amazonovo besedilo z LangChain kot nalagalnik dokumentov in Amazon Bedrock za pridobivanje podatkov iz dokumentov in uporabo generativnih zmogljivosti AI v različnih fazah IDP.

Amazon Texttract je storitev strojnega učenja (ML), ki samodejno izvleče besedilo, rokopis in podatke iz skeniranih dokumentov. Amazon Bedrock je popolnoma upravljana storitev, ki ponuja izbiro visoko zmogljivih temeljnih modelov (FM) prek API-jev, ki so enostavni za uporabo.

Naslednji diagram je referenčna arhitektura na visoki ravni, ki pojasnjuje, kako lahko dodatno izboljšate potek dela IDP z osnovnimi modeli. LLM lahko uporabljate v eni ali vseh fazah IDP, odvisno od primera uporabe in želenega rezultata.

V naslednjih razdelkih se poglobimo v to, kako je Amazon Texttract integriran v generativne poteke dela AI z uporabo LangChaina za obdelavo dokumentov za vsako od teh posebnih nalog. Tukaj navedeni bloki kode so bili zaradi jedrnatosti okrnjeni. Oglejte si naše GitHub repozitorij za podrobne zvezke Python in navodila po korakih.

Izvleček besedila iz dokumentov je ključen vidik pri obdelavi dokumentov z LLM. Amazon Texttract lahko uporabite za ekstrahiranje nestrukturiranega neobdelanega besedila iz dokumentov in ohranitev izvirnih polstrukturiranih ali strukturiranih predmetov, kot so pari ključ-vrednost in tabele, prisotne v dokumentu. Paketi dokumentov, kot so zdravstvene in zavarovalniške terjatve ali hipoteke, so sestavljeni iz zapletenih obrazcev, ki vsebujejo veliko informacij v strukturiranih, polstrukturiranih in nestrukturiranih formatih. Ekstrakcija dokumentov je tukaj pomemben korak, saj LLM koristi bogata vsebina za ustvarjanje natančnejših in ustreznih odgovorov, kar bi sicer lahko vplivalo na kakovost rezultatov LLM.

LangChain je zmogljivo odprtokodno ogrodje za integracijo z LLM. LLM so na splošno vsestranski, vendar se lahko spopadejo z nalogami, specifičnimi za področje, kjer so potrebni globlji kontekst in niansirani odgovori. LangChain omogoča razvijalcem v takšnih scenarijih, da zgradijo agente, ki lahko kompleksne naloge razdelijo na manjše podnaloge. Podnaloge lahko nato uvedejo kontekst in pomnilnik v LLM s povezovanjem in veriženjem pozivov LLM.

LangChain ponuja nakladalniki dokumentov ki lahko nalaga in preoblikuje podatke iz dokumentov. Uporabite jih lahko za strukturiranje dokumentov v želene formate, ki jih lahko obdelujejo LLM-ji. The AmazonTextractPFLoader je vrsta nalagalnika storitev za nalaganje dokumentov, ki omogoča hiter način avtomatizacije obdelave dokumentov z uporabo Amazon Texttract v kombinaciji z LangChain. Za več podrobnosti o AmazonTextractPDFLoader, glejte LangChain dokumentacijo. Če želite uporabiti nalagalnik dokumentov Amazon Texttract, ga začnete uvoziti iz knjižnice LangChain:

from langchain.document_loaders import AmazonTextractPDFLoader

https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()

Prav tako lahko shranite dokumente v Amazon S3 in se nanje sklicujete z uporabo vzorca URL s3://, kot je razloženo v Dostop do vedra z uporabo S3://, in posredujte to pot S3 nalagalniku PDF Amazon Texttract:

import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()

Večstranski dokument bo vseboval več strani besedila, do katerih je nato mogoče dostopati prek objekta dokumentov, ki je seznam strani. Naslednja koda se premika po straneh v objektu dokumentov in natisne besedilo dokumenta, ki je na voljo prek page_content atribut:

print(len(documents)) for document in documents: print(document.page_content)

Amazon Comprehend in LLM je mogoče učinkovito uporabiti za klasifikacijo dokumentov. Amazon Comprehend je storitev za obdelavo naravnega jezika (NLP), ki uporablja ML za pridobivanje vpogledov iz besedila. Amazon Comprehend podpira tudi usposabljanje za model klasifikacije po meri z zavedanjem o postavitvi dokumentov, kot so PDF-ji, Word in slikovni formati. Za več informacij o uporabi klasifikatorja dokumentov Amazon Comprehend glejte Klasifikator dokumentov Amazon Comprehend doda podporo za postavitev za večjo natančnost.

V povezavi z LLM postane klasifikacija dokumentov močan pristop za upravljanje velikih količin dokumentov. LLM so v pomoč pri klasifikaciji dokumentov, ker lahko analizirajo besedilo, vzorce in kontekstualne elemente v dokumentu z razumevanjem naravnega jezika. Lahko jih tudi natančno prilagodite za določene razrede dokumentov. Ko nova vrsta dokumenta, uvedena v cevovod IDP, potrebuje klasifikacijo, lahko LLM obdela besedilo in kategorizira dokument glede na nabor razredov. Sledi vzorčna koda, ki uporablja nalagalnik dokumentov LangChain, ki ga poganja Amazon Texttract, da izvleče besedilo iz dokumenta in ga uporabi za razvrščanje dokumenta. Uporabljamo Antropični Claude v2 model prek Amazon Bedrock za izvedbo klasifikacije.

V naslednjem primeru najprej izvlečemo besedilo iz poročila o odpustu bolnika in uporabimo LLM, da ga razvrstimo glede na seznam treh različnih vrst dokumentov –DISCHARGE_SUMMARY, RECEIPTin PRESCRIPTION. Naslednji posnetek zaslona prikazuje naše poročilo.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")

Povzemanje vključuje strnitev danega besedila ali dokumenta v krajšo različico, pri čemer se ohranijo ključne informacije. Ta tehnika je koristna za učinkovito iskanje informacij, ki uporabnikom omogoča hitro razumevanje ključnih točk dokumenta, ne da bi prebrali celotno vsebino. Čeprav Amazon Texttract neposredno ne izvaja povzemanja besedila, zagotavlja temeljne zmožnosti pridobivanja celotnega besedila iz dokumentov. To ekstrahirano besedilo služi kot vhod v naš model LLM za izvajanje nalog povzemanja besedila.

Z istim vzorcem poročila o razrešnici, ki ga uporabljamo AmazonTextractPDFLoader za ekstrahiranje besedila iz tega dokumenta. Kot prej uporabljamo model Claude v2 preko Amazon Bedrock in ga inicializiramo s pozivom, ki vsebuje navodila, kaj narediti z besedilom (v tem primeru povzemanje). Na koncu zaženemo verigo LLM tako, da posredujemo ekstrahirano besedilo iz nalagalnika dokumentov. To zažene dejanje sklepanja na LLM s pozivom, ki je sestavljen iz navodil za povzetek, in besedila dokumenta, označenega z Document. Glej naslednjo kodo:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() template = """ Given a full document, give me a concise summary. Skip any preamble text and just give the summary. <document>{doc_text}</document>
<summary>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") num_tokens = bedrock_llm.get_num_tokens(document[0].page_content)
print (f"Our prompt has {num_tokens} tokens nn=========================n") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
summary = llm_chain.run(document[0].page_content) print(summary.replace("</summary>","").strip())

Koda ustvari povzetek poročila o povzetku odpusta bolnika:

Our prompt has 797 tokens =========================
35 yo M admitted for epigastric abdominal pain, nausea, fatigue. Found to likely have ulcer. Discharged with activity restrictions, antibiotics, diet changes, and follow up.

Prejšnji primer je za izvedbo povzemanja uporabil enostranski dokument. Vendar pa boste verjetno imeli opravka z dokumenti, ki vsebujejo več strani, ki jih je treba povzeti. Pogost način izvajanja povzemanja na več straneh je, da najprej ustvarite povzetke na manjših delih besedila in nato združite manjše povzetke, da dobite končni povzetek dokumenta. Upoštevajte, da ta metoda zahteva več klicev LLM. Logiko za to je mogoče zlahka oblikovati; vendar LangChain ponuja vgrajeno verigo povzemanja, ki lahko povzema velika besedila (iz dokumentov z več stranmi). Povzemanje se lahko zgodi prek map_reduce ali stuff možnosti, ki so na voljo kot možnosti za upravljanje več klicev LLM. V naslednjem primeru uporabljamo map_reduce za povzetek večstranskega dokumenta. Naslednja slika ponazarja naš potek dela.

Inteligentna obdelava dokumentov z Amazon Texttract, Amazon Bedrock in LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Najprej začnimo z ekstrahiranjem dokumenta in si oglejmo skupno število žetonov na stran in skupno število strani:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") loader = AmazonTextractPDFLoader(f"s3://{data_bucket}/bedrock-sample/health_plan.pdf")
document = loader.load()
num_docs = len(document)
print (f"There are {num_docs} pages in the document")
for index, doc in enumerate(document): num_tokens_first_doc = bedrock_llm.get_num_tokens(doc.page_content) print (f"Page {index+1} has approx. {num_tokens_first_doc} tokens") There are 5 pages in the document
Page 1 has approx. 533 tokens
Page 2 has approx. 1323 tokens
Page 3 has approx. 997 tokens
Page 4 has approx. 1643 tokens
Page 5 has approx. 867 tokens

Nato uporabimo vgrajeni LangChain load_summarize_chain če povzamem celoten dokument:

from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())

Standardizacija in vprašanja in odgovori

V tem razdelku obravnavamo naloge standardizacije in vprašanj in odgovorov.

Standardizacija

Standardizacija izhoda je naloga generiranja besedila, kjer se LLM uporabljajo za zagotavljanje doslednega oblikovanja izhodnega besedila. Ta naloga je še posebej uporabna za avtomatizacijo ekstrakcije ključnih entitet, ki zahteva, da je izhod usklajen z želenimi formati. Na primer, lahko sledimo takojšnjim najboljšim inženirskim praksam za natančno nastavitev LLM za formatiranje datumov v obliki zapisa MM/DD/LLLL, ki je morda združljiva s stolpcem DATUMA baze podatkov. Naslednji blok kode prikazuje primer, kako se to izvede z uporabo LLM in hitrega inženiringa. Ne samo, da standardiziramo izhodni format za datumske vrednosti, model tudi pozovemo, da ustvari končni izhod v formatu JSON, tako da ga je enostavno uporabiti v naših nadaljnjih aplikacijah. Uporabljamo Izrazni jezik LangChain (LCEL) za povezovanje dveh dejanj. Prvo dejanje pozove LLM, da ustvari izhod v formatu JSON samo z datumi iz dokumenta. Drugo dejanje sprejme izhod JSON in standardizira obliko datuma. Upoštevajte, da je to dejanje v dveh korakih mogoče izvesti tudi v enem samem koraku z ustreznim hitrim inženiringom, kot bomo videli pri normalizaciji in oblikovanju predlog.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") template1 = """ Given a full document, answer the question and format the output in the format specified. Skip any preamble text and just generate the JSON. <format>
{{ "key_name":"key_value"
}}
</format>
<document>{doc_text}</document>
<question>{question}</question>""" template2 = """ Given a JSON document, format the dates in the value fields precisely in the provided format. Skip any preamble text and just generate the JSON. <format>DD/MM/YYYY</format>
<json_document>{json_doc}</json_document> """ prompt1 = PromptTemplate(template=template1, input_variables=["doc_text", "question"])
llm_chain = LLMChain(prompt=prompt1, llm=bedrock_llm, verbose=True) prompt2 = PromptTemplate(template=template2, input_variables=["json_doc"])
llm_chain2 = LLMChain(prompt=prompt2, llm=bedrock_llm, verbose=True) chain = ( llm_chain | {'json_doc': lambda x: x['text'] } | llm_chain2
) std_op = chain.invoke({ "doc_text": document[0].page_content, "question": "Can you give me the patient admitted and discharge dates?"}) print(std_op['text']) { "admit_date":"07/09/2020", "discharge_date":"08/09/2020"
}

Rezultat prejšnjega vzorca kode je struktura JSON z datumoma 07/09/2020 in 08/09/2020, ki sta v obliki zapisa DD/MM/LLLL in sta datuma sprejema bolnika oziroma datuma odpusta iz bolnišnice v skladu z na zbirno poročilo o razrešnici.

Vprašanja in odgovori z generiranjem razširjenega pridobivanja

LLM-ji so znani po tem, da obdržijo dejanske informacije, ki se pogosto imenujejo njihovo poznavanje sveta ali pogled na svet. Ko so natančno nastavljeni, lahko ustvarijo najsodobnejše rezultate. Vendar pa obstajajo omejitve glede tega, kako učinkovito lahko LLM dostopa do tega znanja in ga manipulira. Posledično pri nalogah, ki so močno odvisne od specifičnega znanja, njihova zmogljivost morda ne bo optimalna za določene primere uporabe. Na primer, v scenarijih vprašanj in odgovorov je bistveno, da se model strogo drži konteksta, podanega v dokumentu, ne da bi se zanašal samo na svoje poznavanje sveta. Odstopanje od tega lahko vodi do napačnih navedb, netočnosti ali celo napačnih odgovorov. Najpogosteje uporabljena metoda za reševanje te težave je znana kot Povečana generacija pridobivanja (RAG). Ta pristop sinergizira prednosti tako modelov iskanja kot jezikovnih modelov, kar povečuje natančnost in kakovost ustvarjenih odgovorov.

LLM-ji lahko naložijo tudi omejitve žetonov zaradi svojih pomnilniških omejitev in omejitev strojne opreme, na kateri delujejo. Za reševanje te težave se uporabljajo tehnike, kot je razrezovanje, za razdelitev velikih dokumentov na manjše dele, ki ustrezajo omejitvam žetonov LLM. Po drugi strani pa se vdelave v NLP uporabljajo predvsem za zajemanje semantičnega pomena besed in njihovih odnosov z drugimi besedami v visokodimenzionalnem prostoru. Te vdelave pretvorijo besede v vektorje, kar omogoča modelom učinkovito obdelavo in razumevanje besedilnih podatkov. Z razumevanjem pomenskih nians med besedami in besednimi zvezami vdelave omogočajo LLM-jem ustvarjanje koherentnih in kontekstualno ustreznih rezultatov. Upoštevajte naslednje ključne izraze:

Čunkanje – Ta postopek razdeli velike količine besedila iz dokumentov na manjše, smiselne dele besedila.
Vdelave – To so vektorske transformacije s fiksno dimenzijo vsakega kosa, ki ohranjajo semantične informacije iz kosov. Te vdelave se nato naložijo v vektorsko bazo podatkov.
Vektorska baza podatkov – To je zbirka podatkov o vdelanih besedah ali vektorjih, ki predstavljajo kontekst besed. Deluje kot vir znanja, ki pomaga NLP nalogam pri obdelavi dokumentov. Prednost vektorske podatkovne baze tukaj je, da omogoča le potreben kontekst, ki se zagotovi študentom LLM med ustvarjanjem besedila, kot pojasnjujemo v naslednjem razdelku.

RAG uporablja moč vdelav za razumevanje in pridobivanje ustreznih segmentov dokumenta med fazo iskanja. S tem lahko RAG deluje v okviru omejitev žetonov LLM-jev, kar zagotavlja, da so za generiranje izbrane najustreznejše informacije, kar ima za posledico natančnejše in kontekstualno ustrezne rezultate.

Naslednji diagram ponazarja integracijo teh tehnik za oblikovanje vhodnih podatkov za LLM, izboljšanje njihovega kontekstualnega razumevanja in omogočanje ustreznejših odzivov v kontekstu. En pristop vključuje iskanje podobnosti z uporabo vektorske podatkovne baze in razčlenjevanja. Vektorska baza podatkov shranjuje vdelave, ki predstavljajo semantične informacije, razčlenjevanje pa razdeli besedilo na obvladljive odseke. Z uporabo tega konteksta iz iskanja podobnosti lahko LLM izvajajo naloge, kot je odgovarjanje na vprašanja in domensko specifične operacije, kot sta klasifikacija in obogatitev.

Inteligentna obdelava dokumentov z Amazon Texttract, Amazon Bedrock in LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Za to objavo uporabljamo pristop, ki temelji na RAG, za izvajanje vprašanj in odgovorov v kontekstu z dokumenti. V naslednjem vzorcu kode izvlečemo besedilo iz dokumenta in nato dokument razdelimo na manjše dele besedila. Razdelitev je potrebna, ker imamo morda velike večstranske dokumente in imajo naši LLM morda omejitve žetonov. Ti kosi se nato naložijo v vektorsko bazo podatkov za izvajanje iskanja podobnosti v naslednjih korakih. V naslednjem primeru uporabljamo model Amazon Titan Embed Text v1, ki izvaja vektorske vdelave delov dokumenta:

from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import BedrockEmbeddings
from langchain.vectorstores import FAISS
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.chains import RetrievalQA loader = AmazonTextractPDFLoader("amazon_10k.pdf")
document = loader.load() text_splitter = RecursiveCharacterTextSplitter(chunk_size=400, separators=["nn", "n", ".", "!", "?", ",", " ", ""], chunk_overlap=0)
texts = text_splitter.split_documents(document)
embeddings = BedrockEmbeddings(client=bedrock, model_id="amazon.titan-embed-text-v1")
db = FAISS.from_documents(documents=texts, embedding=embeddings) retriever = db.as_retriever(search_type='mmr', search_kwargs={"k": 3}) template = """ Answer the question as truthfully as possible strictly using only the provided text, and if the answer is not contained within the text, say "I don't know". Skip any preamble text and reasoning and give just the answer. <text>{context}</text>
<question>{question}</question>
<answer>""" # define the prompt template
qa_prompt = PromptTemplate(template=template, input_variables=["context","question"]) chain_type_kwargs = { "prompt": qa_prompt, "verbose": False } # change verbose to True if you need to see what's happening bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
qa = RetrievalQA.from_chain_type( llm=bedrock_llm, chain_type="stuff", retriever=retriever, chain_type_kwargs=chain_type_kwargs, verbose=False # change verbose to True if you need to see what's happening
) question="Who is the administrator for this plan?"
result = qa.run(question)
print(result.strip())

Koda ustvari ustrezen kontekst za LLM z uporabo kosov besedila, ki jih vrne dejanje iskanja podobnosti iz vektorske baze podatkov. Za ta primer uporabljamo odprtokodno Vektorska trgovina FAISS kot vzorčno vektorsko bazo podatkov za shranjevanje vektorskih vdelav vsakega dela besedila. Vektorsko bazo podatkov nato definiramo kot a LangChain prinašalec, ki se prenese v RetrievalQA veriga. To interno zažene iskalno poizvedbo o podobnosti v vektorski bazi podatkov, ki vrne zgornjih n (kjer je n=3 v našem primeru) kosov besedila, ki so pomembni za vprašanje. Nazadnje se veriga LLM izvaja z ustreznim kontekstom (skupino ustreznih delov besedila) in vprašanjem, na katerega mora LLM odgovoriti. Za postopno predstavitev kode vprašanj in odgovorov z RAG si oglejte prenosni računalnik Python na GitHub.

Kot alternativo FAISS lahko uporabite tudi Zmogljivosti vektorske baze podatkov Amazon OpenSearch Service, Amazon Relational Database Service (Amazon RDS) za PostgreSQL s pgvector razširitev kot vektorske baze podatkov ali odprtokodna baza podatkov Chroma.

Vprašanja in odgovori s tabelarnimi podatki

Tabelarni podatki v dokumentih so lahko za LLM-je zahtevni za obdelavo zaradi njihove strukturne kompleksnosti. Amazon Texttract je mogoče nadgraditi z LLM-ji, ker omogoča ekstrahiranje tabel iz dokumentov v ugnezdeni obliki elementov, kot so stran, tabela in celice. Izvajanje vprašanj in odgovorov s tabelarnimi podatki je postopek v več korakih in ga je mogoče doseči prek samospraševanje. Sledi pregled korakov:

Ekstrahirajte tabele iz dokumentov z uporabo Amazon Texttract. Z Amazon Texttract lahko tabelarično strukturo (vrstice, stolpce, glave) izvlečete iz dokumenta.
Shranite tabelarične podatke v vektorsko zbirko podatkov skupaj z informacijami o metapodatkih, kot so imena glav in opis vsake glave.
Uporabite poziv za sestavo strukturirane poizvedbe z uporabo LLM, da pridobite podatke iz tabele.
Uporabite poizvedbo za ekstrahiranje ustreznih podatkov tabele iz vektorske baze podatkov.

Na primer, v bančnem izpisku, glede na poziv »Kakšne so transakcije z več kot 1000 $ depozitov,« bi LLM dokončal naslednje korake:

Ustvarite poizvedbo, kot npr “Query: transactions” , “filter: greater than (Deposit$)”.
Pretvorite poizvedbo v strukturirano poizvedbo.
Uporabite strukturirano poizvedbo v vektorski bazi podatkov, kjer so shranjeni podatki naše tabele.

Za korak za korakom pregled vzorčne kode vprašanj in odgovorov s tabelarno si oglejte prenosni računalnik Python v GitHub.

Predloge in normalizacije

V tem razdelku si ogledamo, kako uporabiti tehnike hitrega inženiringa in vgrajeni mehanizem LangChain za ustvarjanje izhoda z izvlečki iz dokumenta v določeni shemi. Izvedemo tudi nekaj standardizacije ekstrahiranih podatkov z uporabo tehnik, ki smo jih obravnavali prej. Začnemo z definiranjem predloge za želeni rezultat. To bo služilo kot shema in zajemalo podrobnosti o vsaki entiteti, ki jo želimo izvleči iz besedila dokumenta.

output_template= { "doctor_name":{ "type": "string", "description": "The doctor or provider's full name" }, "provider_id":{ "type": "string", "description": "The doctor or provider's ID" }, "patient_name":{ "type": "string", "description": "The patient's full name" }, …
}

Upoštevajte, da za vsako od entitet uporabljamo opis, da pojasnimo, kaj ta entiteta je, da pomagamo LLM pri pridobivanju vrednosti iz besedila dokumenta. V naslednji vzorčni kodi uporabljamo to predlogo za izdelavo našega poziva za LLM skupaj z besedilom, ekstrahiranim iz dokumenta z uporabo AmazonTextractPDFLoader in nato izvede sklepanje z modelom:

from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain template = """ You are a helpful assistant. Please extract the following details from the document and format the output as JSON using the keys. Skip any preamble text and generate the final answer. <details>
{details}
</details> <keys>
{keys}
</keys> <document>
{doc_text}
<document> <final_answer>""" details = "n".join([f"{key}: {value['description']}" for key, value in output_template.items()])
keys = "n".join([f"{key}" for key, value in output_template.items()]) prompt = PromptTemplate(template=template, input_variables=["details", "keys", "doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
output = llm_chain.run({"doc_text": full_text, "details": details, "keys": keys}) print(output) { "doctor_name": "Mateo Jackson, Phd", "provider_id": "XA/7B/00338763", "patient_name": "John Doe", … }

Kot lahko vidite, je {keys} del poziva so ključi iz naše predloge in {details} so ključi skupaj z njihovim opisom. V tem primeru modelu izrecno ne ponudimo oblike izhoda, razen če v navodilih navedemo, da se izhod ustvari v obliki zapisa JSON. To večinoma deluje; ker pa je izhod iz LLM-jev nedeterministično generiranje besedila, želimo obliko izrecno podati kot del navodil v pozivu. Za rešitev tega lahko uporabimo LangChain razčlenjevalnik strukturiranih izhodov modul za izkoriščanje prednosti avtomatiziranega inženiringa pozivov, ki pomaga pretvoriti našo predlogo v poziv z navodili za obliko. Uporabimo predlogo, definirano prej, da ustvarimo poziv za navodila za oblikovanje, kot sledi:

from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser response_schems = list() for key, value in output_template.items(): schema = ResponseSchema(name=key, description=value['description'], type=value['type']) response_schems.append(schema)
output_parser = StructuredOutputParser.from_response_schemas(response_schems)
format_instructions= output_parser.get_format_instructions()
print(format_instructions)

O format_instructions spremenljivka zdaj vsebuje poziv za navodila za oblikovanje:

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```": ```json
{ "doctor_name": string // The doctor or provider's full name "provider_id": string // The doctor or provider's ID "patient_name": string // The patient's full name …
}
```

Nato uporabimo to spremenljivko znotraj prvotnega poziva kot navodilo za LLM, tako da izvleče in oblikuje izhod v želeni shemi tako, da naredi majhno spremembo našega poziva:

template = """ You are a helpful assistant. Please extract the following details from the document and strictly follow the instructions described in the format instructions to format the output. Skip any preamble text and generate the final answer. Do not generate incomplete answer. <details>
{details}
</details> <format_instructions>
{format_instructions}
</format_instructions> <document>
{doc_text}
<document> <final_answer>"""

Doslej smo iz dokumenta samo ekstrahirali podatke v želeni shemi. Vendar pa moramo še vedno izvesti nekaj standardizacije. Na primer, želimo, da se pacientov datum sprejema in datum odpusta izvlečeta v obliki DD/MM/LLLL. V tem primeru povečamo description ključa z navodili za oblikovanje:

new_output_template= { … "admitted_date":{ "type": "string", "description": "Date the patient was admitted to the hospital, this should be formatted in DD/MM/YYYY format." }, "discharge_date":{ "type": "string", "description": "Date the patient was discharged from the hospital, this should be formatted in DD/MM/YYYY format." …
}

Oglejte si zvezek Python v GitHub za popolno predstavitev in razlago po korakih.

Preverjanje črkovanja in popravki

LLM-ji so pokazali izjemne sposobnosti razumevanja in ustvarjanja besedila, podobnega človeku. Ena od manj razpravljanih, a izjemno uporabnih aplikacij LLM je njihov potencial pri slovničnih preverjanjih in popravljanju stavkov v dokumentih. Za razliko od tradicionalnih pregledovalnikov slovnice, ki se zanašajo na nabor vnaprej določenih pravil, LLM uporabljajo vzorce, ki so jih identificirali iz ogromnih količin besedilnih podatkov, da določijo, kaj pomeni pravilen ali tekoč jezik. To pomeni, da lahko zaznajo nianse, kontekst in podrobnosti, ki bi jih sistemi na podlagi pravil morda spregledali.

Predstavljajte si besedilo, izvlečeno iz povzetka o odpustu bolnika, ki se glasi: »Pacient Jon Doe, ki je bil sprejet zaradi hude pljučnice, je pokazal znatno izboljšanje in ga je mogoče varno odpustiti. Nadaljevanje je predvideno za naslednji teden.” Tradicionalni črkovalnik lahko prepozna »admittd«, »pneumonia«, »improvement« in »nex« kot napake. Vendar lahko kontekst teh napak vodi do nadaljnjih napak ali splošnih predlogov. LLM, opremljen s svojim obsežnim usposabljanjem, bi lahko predlagal: »Bolnik John Doe, ki je bil sprejet s hudo pljučnico, je pokazal znatno izboljšanje in ga je mogoče varno odpustiti. Nadaljnji pregledi so predvideni za naslednji teden.”

Sledi slabo ročno napisan vzorec dokumenta z enakim besedilom, kot je bilo razloženo prej.

Inteligentna obdelava dokumentov z Amazon Texttract, Amazon Bedrock in LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Dokument ekstrahiramo z nalagalnikom dokumentov Amazon Texttract in nato prek hitrega inženiringa naročimo LLM, naj popravi ekstrahirano besedilo, da popravi morebitne črkovalne in/ali slovnične napake:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/hand_written_note.pdf")
document = loader.load() template = """ Given a detailed 'Document', perform spelling and grammatical corrections. Ensure the output is coherent, polished, and free from errors. Skip any preamble text and give the answer. <document>{doc_text}</<document>
<answer> """ prompt = PromptTemplate(template=template, input_variables=["doc_text"])
llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
llm_chain = LLMChain(prompt=prompt, llm=llm) try: txt = document[0].page_content std_op = llm_chain.run({"doc_text": txt}) print("Extracted text") print("==============") print(txt) print("nCorrected text") print("==============") print(std_op.strip()) print("n")
except Exception as e: print(str(e))

Izhod prejšnje kode prikazuje izvirno besedilo, ki ga izvleče nalagalnik dokumentov, ki mu sledi popravljeno besedilo, ki ga ustvari LLM:

Extracted text
==============
Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Corrected text
==============
Patient John Doe, who was admitted with severe pneumonia, has shown significant improvement and can be safely discharged. Follow-up appointments are scheduled for next week.

Upoštevajte, da je ne glede na to, kako močni so LLM-ji, bistveno, da na njihove predloge gledate samo kot na predloge. Čeprav osupljivo dobro ujamejo zapletenost jezika, niso nezmotljivi. Nekateri predlogi lahko spremenijo predvideni pomen ali ton izvirnega besedila. Zato je ključnega pomena, da človeški pregledovalci uporabljajo popravke, ustvarjene z LLM, kot vodilo, ne absolutno. Sodelovanje človeške intuicije z zmožnostmi LLM obljublja prihodnost, v kateri naša pisna komunikacija ni samo brez napak, ampak tudi bogatejša in bolj niansirana.

zaključek

Generativna umetna inteligenca spreminja način obdelave dokumentov z IDP za pridobivanje vpogledov. V postu Izboljšanje inteligentne obdelave dokumentov AWS z generativnim AI, smo razpravljali o različnih stopnjah cevovoda in o tem, kako stranka AWS Ricoh izboljšuje svoj cevovod IDP z LLM-ji. V tej objavi smo razpravljali o različnih mehanizmih povečanja poteka dela IDP z LLM prek Amazon Bedrock, Amazon Texttract in priljubljenega ogrodja LangChain. Z novim nalagalnikom dokumentov Amazon Texttract z LangChain lahko začnete že danes z uporabo vzorčnih zvezkov, ki so na voljo v GitHub repozitorij. Za več informacij o delu z generativnim AI na AWS glejte Napovedujemo nova orodja za gradnjo z Generative AI na AWS.

O avtorjih

Inteligentna obdelava dokumentov z Amazon Texttract, Amazon Bedrock in LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Sonali Sahu vodi inteligentno obdelavo dokumentov z ekipo storitev AI/ML v AWS. Je avtorica, vodja misli in strastna tehnologinja. Njeno osrednje področje osredotočanja je AI in ML in pogosto govori na konferencah in srečanjih AI in ML po vsem svetu. Ima širino in globino izkušenj s tehnologijo in tehnološko industrijo, s strokovnim znanjem v zdravstveni oskrbi, finančnem sektorju in zavarovalništvu.

Inteligentna obdelava dokumentov z Amazon Texttract, Amazon Bedrock in LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Anjan Biswas je višji arhitekt rešitev za storitve AI s poudarkom na AI/ML in podatkovni analitiki. Anjan je del svetovne ekipe za storitve AI in sodeluje s strankami, da bi jim pomagal razumeti in razviti rešitve za poslovne težave z AI in ML. Anjan ima več kot 14 let izkušenj pri delu z globalno dobavno verigo, proizvodnjo in maloprodajnimi organizacijami ter strankam dejavno pomaga pri začetku in širitvi storitev umetne inteligence AWS.

Inteligentna obdelava dokumentov z Amazon Texttract, Amazon Bedrock in LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Chinmayee Rane je specialist za rešitve AI/ML pri Amazon Web Services. Navdušena je nad uporabno matematiko in strojnim učenjem. Osredotoča se na oblikovanje inteligentne obdelave dokumentov in generativnih rešitev AI za stranke AWS. Zunaj službe uživa v plesu salse in bachate.

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
vir: https://aws.amazon.com/blogs/machine-learning/intelligent-document-processing-with-amazon-textract-amazon-bedrock-and-langchain/

Časovni žig: Oktober 24, 2023

Časovni žig: Maj 2, 2024

Inteligentna obdelava dokumentov z Amazon Texttract, Amazon Bedrock in LangChain | Spletne storitve Amazon

Ponovno objavil Platon

Standardizacija in vprašanja in odgovori

Standardizacija

Vprašanja in odgovori z generiranjem razširjenega pridobivanja

Vprašanja in odgovori s tabelarnimi podatki

Predloge in normalizacije

Preverjanje črkovanja in popravki

zaključek

O avtorjih

Več od Strojno učenje AWS

Porazdeljeno usposabljanje z Amazon EKS in Torch Distributed Elastic

Napovedujemo predogled Amazon SageMaker Profiler: Sledite in vizualizirajte podrobne podatke o zmogljivosti strojne opreme za delovne obremenitve vašega modela | Spletne storitve Amazon

Raziskovanje možnosti povzemanja za zdravstveno varstvo z Amazon SageMaker | Spletne storitve Amazon

Prepoznavanje in izogibanje pogostim težavam s podatki med gradnjo modelov ML brez kode z Amazon SageMaker Canvas

Modeli in algoritmi Amazon SageMaker JumpStart so zdaj na voljo prek API-ja

Kako je OCX Cognition skrajšal čas razvoja modela ML s tednov na dneve in čas posodobitve modela z dni na realni čas z uporabo AWS Step Functions in Amazon SageMaker | Spletne storitve Amazon

Začnite uporabljati Amazon Titan Text Embeddings V2: nov najsodobnejši model vdelav na Amazon Bedrock | Spletne storitve Amazon

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun