Intelligent dokumentbehandling med Amazon Textract, Amazon Bedrock och LangChain

Återutgiven av Platon

anhängare: 0

I dagens informationsålder utgör de enorma mängderna data som finns i otaliga dokument både en utmaning och en möjlighet för företag. Traditionella dokumentbehandlingsmetoder saknar ofta effektivitet och noggrannhet, vilket ger utrymme för innovation, kostnadseffektivitet och optimeringar. Dokumentbehandlingen har sett betydande framsteg med tillkomsten av Intelligent Document Processing (IDP). Med IDP kan företag omvandla ostrukturerad data från olika dokumenttyper till strukturerade, handlingsbara insikter, vilket dramatiskt förbättrar effektiviteten och minskar manuella ansträngningar. Potentialen slutar dock inte där. Genom att integrera generativ artificiell intelligens (AI) i processen kan vi förbättra IDP-kapaciteten ytterligare. Generativ AI introducerar inte bara förbättrade möjligheter inom dokumentbehandling, den introducerar också en dynamisk anpassningsförmåga till förändrade datamönster. Det här inlägget tar dig igenom synergin mellan IDP och generativ AI, och visar hur de representerar nästa gräns inom dokumentbehandling.

Vi diskuterar IDP i detalj i vår serie Intelligent dokumentbehandling med AWS AI-tjänster (del 1 och del 2). I det här inlägget diskuterar vi hur man utökar en ny eller befintlig IDP-arkitektur med stora språkmodeller (LLM). Mer specifikt diskuterar vi hur vi kan integrera amazontext med Langkedja som dokumentladdare och Amazonas berggrund att extrahera data från dokument och använda generativa AI-funktioner inom de olika IDP-faserna.

Amazon Textract är en maskininlärningstjänst (ML) som automatiskt extraherar text, handstil och data från skannade dokument. Amazon Bedrock är en helt hanterad tjänst som erbjuder ett urval av högpresterande grundmodeller (FM) genom lättanvända API:er.

Följande diagram är en referensarkitektur på hög nivå som förklarar hur du ytterligare kan förbättra ett IDP-arbetsflöde med grundmodeller. Du kan använda LLM i en eller alla faser av IDP beroende på användningsfall och önskat resultat.

I de följande avsnitten fördjupar vi oss i hur Amazon Textract integreras i generativa AI-arbetsflöden med hjälp av LangChain för att bearbeta dokument för var och en av dessa specifika uppgifter. Kodblocken som tillhandahålls här har trimmats ned för korthetens skull. Se vår GitHub repository för detaljerade Python-anteckningsböcker och en steg-för-steg-genomgång.

Textextraktion från dokument är en avgörande aspekt när det gäller att behandla dokument med LLM:er. Du kan använda Amazon Textract för att extrahera ostrukturerad råtext från dokument och bevara de ursprungliga semistrukturerade eller strukturerade objekten som nyckel-värdepar och tabeller som finns i dokumentet. Dokumentpaket som sjukvård och försäkringsfordringar eller bolån består av komplexa formulär som innehåller mycket information i strukturerade, semistrukturerade och ostrukturerade format. Dokumentextrahering är ett viktigt steg här eftersom LLM:er drar nytta av det rika innehållet för att generera mer exakta och relevanta svar, vilket annars skulle kunna påverka kvaliteten på LLM:s resultat.

LangChain är ett kraftfullt ramverk med öppen källkod för integrering med LLM. LLM:er i allmänhet är mångsidiga men kan kämpa med domänspecifika uppgifter där djupare sammanhang och nyanserade svar behövs. LangChain ger utvecklare möjlighet att i sådana scenarier bygga agenter som kan bryta ner komplexa uppgifter i mindre deluppgifter. Underuppgifterna kan sedan introducera kontext och minne i LLM:er genom att koppla ihop och kedja LLM-uppmaningar.

LangChain erbjuder dokumentladdare som kan ladda och omvandla data från dokument. Du kan använda dem för att strukturera dokument i föredragna format som kan bearbetas av LLM:er. De AmazonTextractPDFLoader är en dokumentladdare av typen tjänsteladdare som ger ett snabbt sätt att automatisera dokumentbehandling genom att använda Amazon Textract i kombination med LangChain. För mer information om AmazonTextractPDFLoader, referera till Langkedja dokumentation. För att använda Amazon Textract-dokumentladdaren börjar du med att importera den från LangChain-biblioteket:

from langchain.document_loaders import AmazonTextractPDFLoader

https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()

Du kan också lagra dokument i Amazon S3 och hänvisa till dem med s3:// URL-mönstret, som förklaras i Få åtkomst till en hink med S3://, och skicka denna S3-sökväg till Amazon Textract PDF-laddaren:

import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()

Ett flersidigt dokument kommer att innehålla flera sidor med text, som sedan kan nås via dokumentobjektet, som är en lista med sidor. Följande kod går igenom sidorna i dokumentobjektet och skriver ut dokumenttexten, som är tillgänglig via page_content attribut:

print(len(documents)) for document in documents: print(document.page_content)

Amazon Comprehend och LLM kan effektivt användas för dokumentklassificering. Amazon Comprehend är en NLP-tjänst (natural language processing) som använder ML för att extrahera insikter från text. Amazon Comprehend stöder också utbildning för anpassade klassificeringsmodeller med layoutmedvetenhet på dokument som PDF-filer, Word och bildformat. För mer information om hur du använder Amazon Comprehend-dokumentklassificeraren, se Amazon Comprehend dokumentklassificerare lägger till layoutstöd för högre noggrannhet.

När det paras ihop med LLM:er blir dokumentklassificering ett kraftfullt tillvägagångssätt för att hantera stora volymer dokument. LLM:er är användbara vid dokumentklassificering eftersom de kan analysera text, mönster och kontextuella element i dokumentet med hjälp av naturlig språkförståelse. Du kan också finjustera dem för specifika dokumentklasser. När en ny dokumenttyp som introduceras i IDP-pipelinen behöver klassificeras, kan LLM bearbeta text och kategorisera dokumentet givet en uppsättning klasser. Följande är en exempelkod som använder LangChain-dokumentladdaren som drivs av Amazon Textract för att extrahera texten från dokumentet och använda den för att klassificera dokumentet. Vi använder Antropisk Claude v2 modell via Amazon Bedrock för att utföra klassificeringen.

I följande exempel extraherar vi först text från en patientutskrivningsrapport och använder en LLM för att klassificera den med en lista med tre olika dokumenttyper—DISCHARGE_SUMMARY, RECEIPToch PRESCRIPTION. Följande skärmdump visar vår rapport.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")

Sammanfattning innebär att en given text eller ett visst dokument kondenseras till en kortare version med bibehållen nyckelinformation. Denna teknik är fördelaktig för effektiv informationshämtning, vilket gör det möjligt för användare att snabbt förstå nyckelpunkterna i ett dokument utan att läsa hela innehållet. Även om Amazon Textract inte direkt utför textsammanfattningar, tillhandahåller det de grundläggande funktionerna för att extrahera hela texten från dokument. Denna extraherade text fungerar som en input till vår LLM-modell för att utföra textsammanfattningsuppgifter.

Genom att använda samma exempelutskrivningsrapport som vi använder AmazonTextractPDFLoader för att extrahera text från detta dokument. Som tidigare använder vi Claude v2-modellen via Amazon Bedrock och initierar den med en prompt som innehåller instruktioner om vad man ska göra med texten (i det här fallet sammanfattning). Slutligen kör vi LLM-kedjan genom att skicka in den extraherade texten från dokumentladdaren. Detta kör en slutledningsåtgärd på LLM med prompten som består av instruktionerna för att sammanfatta, och dokumentets text markerad med Document. Se följande kod:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() template = """ Given a full document, give me a concise summary. Skip any preamble text and just give the summary. <document>{doc_text}</document>
<summary>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") num_tokens = bedrock_llm.get_num_tokens(document[0].page_content)
print (f"Our prompt has {num_tokens} tokens nn=========================n") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
summary = llm_chain.run(document[0].page_content) print(summary.replace("</summary>","").strip())

Koden genererar sammanfattningen av en sammanfattningsrapport om patientutskrivning:

Our prompt has 797 tokens =========================
35 yo M admitted for epigastric abdominal pain, nausea, fatigue. Found to likely have ulcer. Discharged with activity restrictions, antibiotics, diet changes, and follow up.

I det föregående exemplet användes ett ensidigt dokument för att sammanfatta. Men du kommer sannolikt att hantera dokument som innehåller flera sidor som behöver sammanfattas. Ett vanligt sätt att utföra sammanfattningar på flera sidor är att först generera sammanfattningar på mindre textbitar och sedan kombinera de mindre sammanfattningarna för att få en slutlig sammanfattning av dokumentet. Observera att denna metod kräver flera anrop till LLM. Logiken för detta kan skapas enkelt; LangChain tillhandahåller dock en inbyggd sammanfattningskedja som kan sammanfatta stora texter (från flersidiga dokument). Sammanfattningen kan ske antingen via map_reduce eller med stuff alternativ, som är tillgängliga som alternativ för att hantera flera samtal till LLM. I följande exempel använder vi map_reduce för att sammanfatta ett flersidigt dokument. Följande bild illustrerar vårt arbetsflöde.

Intelligent dokumentbehandling med Amazon Textract, Amazon Bedrock och LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Låt oss först börja med att extrahera dokumentet och se det totala antalet token per sida och det totala antalet sidor:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") loader = AmazonTextractPDFLoader(f"s3://{data_bucket}/bedrock-sample/health_plan.pdf")
document = loader.load()
num_docs = len(document)
print (f"There are {num_docs} pages in the document")
for index, doc in enumerate(document): num_tokens_first_doc = bedrock_llm.get_num_tokens(doc.page_content) print (f"Page {index+1} has approx. {num_tokens_first_doc} tokens") There are 5 pages in the document
Page 1 has approx. 533 tokens
Page 2 has approx. 1323 tokens
Page 3 has approx. 997 tokens
Page 4 has approx. 1643 tokens
Page 5 has approx. 867 tokens

Därefter använder vi LangChains inbyggda load_summarize_chain för att sammanfatta hela dokumentet:

from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())

Standardisering och Q&A

I det här avsnittet diskuterar vi standardisering och frågor och svar.

Standardisering

Utdatastandardisering är en textgenereringsuppgift där LLM:er används för att tillhandahålla en konsekvent formatering av utdatatexten. Den här uppgiften är särskilt användbar för automatisering av extrahering av nyckelenheter som kräver att utdata anpassas till önskade format. Till exempel kan vi följa snabba tekniska bästa praxis för att finjustera en LLM för att formatera datum till MM/DD/ÅÅÅÅ-format, vilket kan vara kompatibelt med en databas DATUM-kolumn. Följande kodblock visar ett exempel på hur detta görs med hjälp av en LLM och prompt ingenjörskonst. Vi standardiserar inte bara utdataformatet för datumvärdena, vi uppmanar också modellen att generera den slutliga utdatan i ett JSON-format så att den lätt kan konsumeras i våra nedströmsapplikationer. Vi använder LangChain Expression Language (LCEL) för att koppla samman två åtgärder. Den första åtgärden uppmanar LLM att generera en utdata i JSON-format med bara datumen från dokumentet. Den andra åtgärden tar JSON-utgången och standardiserar datumformatet. Observera att denna tvåstegsåtgärd också kan utföras i ett enda steg med korrekt prompt ingenjörskonst, som vi kommer att se i normalisering och mallning.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") template1 = """ Given a full document, answer the question and format the output in the format specified. Skip any preamble text and just generate the JSON. <format>
{{ "key_name":"key_value"
}}
</format>
<document>{doc_text}</document>
<question>{question}</question>""" template2 = """ Given a JSON document, format the dates in the value fields precisely in the provided format. Skip any preamble text and just generate the JSON. <format>DD/MM/YYYY</format>
<json_document>{json_doc}</json_document> """ prompt1 = PromptTemplate(template=template1, input_variables=["doc_text", "question"])
llm_chain = LLMChain(prompt=prompt1, llm=bedrock_llm, verbose=True) prompt2 = PromptTemplate(template=template2, input_variables=["json_doc"])
llm_chain2 = LLMChain(prompt=prompt2, llm=bedrock_llm, verbose=True) chain = ( llm_chain | {'json_doc': lambda x: x['text'] } | llm_chain2
) std_op = chain.invoke({ "doc_text": document[0].page_content, "question": "Can you give me the patient admitted and discharge dates?"}) print(std_op['text']) { "admit_date":"07/09/2020", "discharge_date":"08/09/2020"
}

Utdata från föregående kodexempel är en JSON-struktur med datum 07/09/2020 och 08/09/2020, som är i formatet DD/MM/ÅÅÅÅ och är patientens intagnings- respektive utskrivningsdatum från sjukhuset, enligt till den sammanfattande rapporten om ansvarsfrihet.

Frågor och svar med Retrieval Augmented Generation

LLM:er är kända för att behålla faktainformation, ofta kallad deras världskunskap eller världsbild. När de är finjusterade kan de producera toppmoderna resultat. Det finns dock begränsningar för hur effektivt en LLM kan komma åt och manipulera denna kunskap. Som ett resultat, i uppgifter som i hög grad är beroende av specifik kunskap, kanske deras prestanda inte är optimal för vissa användningsfall. Till exempel i fråge- och svarsscenarier är det viktigt att modellen strikt följer det sammanhang som anges i dokumentet utan att enbart förlita sig på sin världskunskap. Att avvika från detta kan leda till felaktiga framställningar, felaktigheter eller till och med felaktiga svar. Den vanligaste metoden för att lösa detta problem är känd som Retrieval Augmented Generation (TRASA). Detta tillvägagångssätt synergerar styrkorna hos både hämtningsmodeller och språkmodeller, vilket förbättrar precisionen och kvaliteten på de svar som genereras.

LLM:er kan också införa token-begränsningar på grund av deras minnesbegränsningar och begränsningarna för hårdvaran de körs på. För att hantera detta problem används tekniker som chunking för att dela upp stora dokument i mindre delar som passar inom token-gränserna för LLM. Å andra sidan används inbäddningar i NLP främst för att fånga den semantiska betydelsen av ord och deras relationer med andra ord i ett högdimensionellt utrymme. Dessa inbäddningar omvandlar ord till vektorer, vilket gör det möjligt för modeller att effektivt bearbeta och förstå textdata. Genom att förstå de semantiska nyanserna mellan ord och fraser gör inbäddningar det möjligt för LLM:er att generera sammanhängande och kontextuellt relevanta utdata. Observera följande nyckeltermer:

Chunking – Denna process bryter ner stora mängder text från dokument till mindre, meningsfulla bitar av text.
inbäddningar – Dessa är vektortransformationer med fast dimension av varje bit som behåller den semantiska informationen från bitarna. Dessa inbäddningar laddas sedan in i en vektordatabas.
Vektor databas – Det här är en databas med ordinbäddningar eller vektorer som representerar ords sammanhang. Det fungerar som en kunskapskälla som hjälper NLP-uppgifter i pipelines för dokumentbearbetning. Fördelen med vektordatabasen här är att den endast tillåter det nödvändiga sammanhanget att tillhandahållas till LLM under textgenerering, som vi förklarar i följande avsnitt.

RAG använder kraften hos inbäddningar för att förstå och hämta relevanta dokumentsegment under hämtningsfasen. Genom att göra det kan RAG arbeta inom LLMs symboliska begränsningar, vilket säkerställer att den mest relevanta informationen väljs ut för generering, vilket resulterar i mer exakta och kontextuellt relevanta utdata.

Följande diagram illustrerar integreringen av dessa tekniker för att skapa input till LLM, förbättra deras kontextuella förståelse och möjliggöra mer relevanta i sammanhanget svar. Ett tillvägagångssätt involverar likhetssökning, med användning av både en vektordatabas och chunking. Vektordatabasen lagrar inbäddningar som representerar semantisk information, och chunking delar in text i hanterbara sektioner. Med hjälp av detta sammanhang från likhetssökning kan LLM:er köra uppgifter som svar på frågor och domänspecifika operationer som klassificering och anrikning.

Intelligent dokumentbehandling med Amazon Textract, Amazon Bedrock och LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

För det här inlägget använder vi en RAG-baserad metod för att utföra frågor och svar i sammanhanget med dokument. I följande kodexempel extraherar vi text från ett dokument och delar sedan upp dokumentet i mindre bitar av text. Chunking krävs eftersom vi kan ha stora flersidiga dokument och våra LLMs kan ha token-gränser. Dessa bitar laddas sedan in i vektordatabasen för att utföra likhetssökning i de efterföljande stegen. I följande exempel använder vi Amazon Titan Embed Text v1-modellen, som utför vektorinbäddningar av dokumentbitarna:

from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import BedrockEmbeddings
from langchain.vectorstores import FAISS
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.chains import RetrievalQA loader = AmazonTextractPDFLoader("amazon_10k.pdf")
document = loader.load() text_splitter = RecursiveCharacterTextSplitter(chunk_size=400, separators=["nn", "n", ".", "!", "?", ",", " ", ""], chunk_overlap=0)
texts = text_splitter.split_documents(document)
embeddings = BedrockEmbeddings(client=bedrock, model_id="amazon.titan-embed-text-v1")
db = FAISS.from_documents(documents=texts, embedding=embeddings) retriever = db.as_retriever(search_type='mmr', search_kwargs={"k": 3}) template = """ Answer the question as truthfully as possible strictly using only the provided text, and if the answer is not contained within the text, say "I don't know". Skip any preamble text and reasoning and give just the answer. <text>{context}</text>
<question>{question}</question>
<answer>""" # define the prompt template
qa_prompt = PromptTemplate(template=template, input_variables=["context","question"]) chain_type_kwargs = { "prompt": qa_prompt, "verbose": False } # change verbose to True if you need to see what's happening bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
qa = RetrievalQA.from_chain_type( llm=bedrock_llm, chain_type="stuff", retriever=retriever, chain_type_kwargs=chain_type_kwargs, verbose=False # change verbose to True if you need to see what's happening
) question="Who is the administrator for this plan?"
result = qa.run(question)
print(result.strip())

Koden skapar ett relevant sammanhang för LLM med hjälp av de textbitar som returneras av likhetssökningsåtgärden från vektordatabasen. För det här exemplet använder vi en öppen källkod FAISS vektor butik som en exempelvektordatabas för att lagra vektorinbäddningar av varje textbit. Vi definierar sedan vektordatabasen som en LangChain retriever, som förs in i RetrievalQA kedja. Detta kör internt en likhetssökfråga på vektordatabasen som returnerar de n översta (där n=3 i vårt exempel) textbitar som är relevanta för frågan. Slutligen körs LLM-kedjan med det relevanta sammanhanget (en grupp relevanta textbitar) och frågan som LLM ska svara på. För en steg-för-steg-kodgenomgång av Q&A med RAG, se Python-anteckningsboken på GitHub.

Som ett alternativ till FAISS kan du också använda Amazon OpenSearch Service vektordatabasfunktioner, Amazon Relational Database Service (Amazon RDS) för PostgreSQL med pgvektor förlängning som vektordatabaser eller Chroma Database med öppen källkod.

Frågor och svar med tabelldata

Tabelldata i dokument kan vara utmanande för LLM:er att bearbeta på grund av dess strukturella komplexitet. Amazon Textract kan utökas med LLM eftersom det gör det möjligt att extrahera tabeller från dokument i ett kapslat format av element som sida, tabell och celler. Att utföra frågor och svar med tabelldata är en process i flera steg och kan uppnås via självfrågande. Följande är en översikt över stegen:

Extrahera tabeller från dokument med Amazon Textract. Med Amazon Textract kan tabellstrukturen (rader, kolumner, rubriker) extraheras från ett dokument.
Lagra tabelldata i en vektordatabas tillsammans med metadatainformation, såsom rubriknamnen och beskrivningen av varje rubrik.
Använd prompten för att konstruera en strukturerad fråga, med hjälp av en LLM, för att härleda data från tabellen.
Använd frågan för att extrahera relevant tabelldata från vektordatabasen.

Till exempel, på ett kontoutdrag, givet uppmaningen "Vilka är transaktionerna med mer än 1000 XNUMX USD i insättningar", skulle LLM slutföra följande steg:

Skapa en fråga, t.ex “Query: transactions” , “filter: greater than (Deposit$)”.
Konvertera frågan till en strukturerad fråga.
Tillämpa den strukturerade frågan på vektordatabasen där vår tabelldata lagras.

För en steg-för-steg exempelkodgenomgång av Q&A med tabell, se Python-anteckningsboken i GitHub.

Mallar och normaliseringar

I det här avsnittet tittar vi på hur man använder prompt ingenjörsteknik och LangChains inbyggda mekanism för att generera en utdata med extraktioner från ett dokument i ett specificerat schema. Vi utför också viss standardisering av de extraherade uppgifterna, med hjälp av de tekniker som diskuterats tidigare. Vi börjar med att definiera en mall för vårt önskade resultat. Detta kommer att fungera som ett schema och kapslar in detaljerna om varje entitet vi vill extrahera från dokumentets text.

output_template= { "doctor_name":{ "type": "string", "description": "The doctor or provider's full name" }, "provider_id":{ "type": "string", "description": "The doctor or provider's ID" }, "patient_name":{ "type": "string", "description": "The patient's full name" }, …
}

Observera att för var och en av enheterna använder vi beskrivningen för att förklara vad den entiteten är för att hjälpa LLM att extrahera värdet från dokumentets text. I följande exempelkod använder vi den här mallen för att skapa vår uppmaning till LLM tillsammans med texten som extraherats från dokumentet med AmazonTextractPDFLoader och utför sedan slutledning med modellen:

from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain template = """ You are a helpful assistant. Please extract the following details from the document and format the output as JSON using the keys. Skip any preamble text and generate the final answer. <details>
{details}
</details> <keys>
{keys}
</keys> <document>
{doc_text}
<document> <final_answer>""" details = "n".join([f"{key}: {value['description']}" for key, value in output_template.items()])
keys = "n".join([f"{key}" for key, value in output_template.items()]) prompt = PromptTemplate(template=template, input_variables=["details", "keys", "doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
output = llm_chain.run({"doc_text": full_text, "details": details, "keys": keys}) print(output) { "doctor_name": "Mateo Jackson, Phd", "provider_id": "XA/7B/00338763", "patient_name": "John Doe", … }

Som du kan se, är {keys} en del av prompten är nycklarna från vår mall, och {details} är nycklarna tillsammans med deras beskrivning. I det här fallet frågar vi inte modellen explicit med formatet på utdatan annat än att specificera i instruktionen för att generera utdata i JSON-format. Detta fungerar för det mesta; Men eftersom utdata från LLM är icke-deterministisk textgenerering, vill vi ange formatet uttryckligen som en del av instruktionen i prompten. För att lösa detta kan vi använda LangChain's strukturerad utdataparser modul för att dra nytta av den automatiserade prompttekniken som hjälper till att konvertera vår mall till en formatinstruktionsprompt. Vi använder mallen som definierats tidigare för att generera formatinstruktionen enligt följande:

from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser response_schems = list() for key, value in output_template.items(): schema = ResponseSchema(name=key, description=value['description'], type=value['type']) response_schems.append(schema)
output_parser = StructuredOutputParser.from_response_schemas(response_schems)
format_instructions= output_parser.get_format_instructions()
print(format_instructions)

Smakämnen format_instructions variabeln innehåller nu formatinstruktionsprompten:

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```": ```json
{ "doctor_name": string // The doctor or provider's full name "provider_id": string // The doctor or provider's ID "patient_name": string // The patient's full name …
}
```

Vi använder sedan denna variabel i vår ursprungliga prompt som en instruktion till LLM så att den extraherar och formaterar utdata i det önskade schemat genom att göra en liten modifiering av vår prompt:

template = """ You are a helpful assistant. Please extract the following details from the document and strictly follow the instructions described in the format instructions to format the output. Skip any preamble text and generate the final answer. Do not generate incomplete answer. <details>
{details}
</details> <format_instructions>
{format_instructions}
</format_instructions> <document>
{doc_text}
<document> <final_answer>"""

Hittills har vi bara extraherat data ur dokumentet i ett önskat schema. Men vi behöver fortfarande utföra en del standardisering. Vi vill till exempel att patientens inläggningsdatum och utskrivningsdatum extraheras i formatet DD/MM/ÅÅÅÅ. I det här fallet utökar vi description av nyckeln med formateringsinstruktionen:

new_output_template= { … "admitted_date":{ "type": "string", "description": "Date the patient was admitted to the hospital, this should be formatted in DD/MM/YYYY format." }, "discharge_date":{ "type": "string", "description": "Date the patient was discharged from the hospital, this should be formatted in DD/MM/YYYY format." …
}

Se Python-anteckningsboken i GitHub för en fullständig steg-för-steg-genomgång och förklaring.

Stavningskontroller och korrigeringar

LLMs har visat anmärkningsvärda förmågor när det gäller att förstå och generera människoliknande text. En av de mindre diskuterade men oerhört användbara tillämpningarna av LLM är deras potential i grammatiska kontroller och meningskorrigering i dokument. Till skillnad från traditionella grammatikkontroller som förlitar sig på en uppsättning fördefinierade regler, använder LLM mönster som de har identifierat från stora mängder textdata för att avgöra vad som är korrekt eller flytande språk. Det betyder att de kan upptäcka nyanser, sammanhang och subtiliteter som regelbaserade system kan missa.

Föreställ dig texten extraherad från en sammanfattning av patientutskrivningen som lyder "Patienten Jon Doe, som lades in med svår lunginflammation, har visat betydande förbättringar och kan skrivas ut på ett säkert sätt. Uppföljningar är planerade till nästa vecka." En traditionell stavningskontroll kan känna igen "admittd", "pneumonia", "förbättring" och "nex" som fel. Sammanhanget för dessa fel kan dock leda till ytterligare misstag eller generiska förslag. En LLM, utrustad med dess omfattande utbildning, kan föreslå: "Patienten John Doe, som lades in med svår lunginflammation, har visat betydande förbättring och kan skrivas ut på ett säkert sätt. Uppföljning är planerad till nästa vecka."

Följande är ett dåligt handskrivet exempeldokument med samma text som förklarats tidigare.

Intelligent dokumentbehandling med Amazon Textract, Amazon Bedrock och LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Vi extraherar dokumentet med en Amazon Textract-dokumentladdare och instruerar sedan LLM, via snabbteknik, att korrigera den extraherade texten för att korrigera eventuella stavnings- och/eller grammatiska fel:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/hand_written_note.pdf")
document = loader.load() template = """ Given a detailed 'Document', perform spelling and grammatical corrections. Ensure the output is coherent, polished, and free from errors. Skip any preamble text and give the answer. <document>{doc_text}</<document>
<answer> """ prompt = PromptTemplate(template=template, input_variables=["doc_text"])
llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
llm_chain = LLMChain(prompt=prompt, llm=llm) try: txt = document[0].page_content std_op = llm_chain.run({"doc_text": txt}) print("Extracted text") print("==============") print(txt) print("nCorrected text") print("==============") print(std_op.strip()) print("n")
except Exception as e: print(str(e))

Utdata från föregående kod visar originaltexten extraherad av dokumentladdaren följt av den korrigerade texten som genereras av LLM:

Extracted text
==============
Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Corrected text
==============
Patient John Doe, who was admitted with severe pneumonia, has shown significant improvement and can be safely discharged. Follow-up appointments are scheduled for next week.

Tänk på att lika kraftfulla som LLM:er är, är det viktigt att se deras förslag som just det – förslag. Även om de fångar språkets krångligheter imponerande väl, är de inte ofelbara. Vissa förslag kan ändra den avsedda innebörden eller tonen i originaltexten. Därför är det avgörande för mänskliga granskare att använda LLM-genererade korrigeringar som en guide, inte en absolut. Samarbetet av mänsklig intuition med LLM-kapacitet lovar en framtid där vår skriftliga kommunikation inte bara är felfri, utan också rikare och mer nyanserad.

Slutsats

Generativ AI förändrar hur du kan bearbeta dokument med IDP för att få insikter. I posten Förbättrar AWS intelligent dokumentbehandling med generativ AI, diskuterade vi de olika stadierna av pipelinen och hur AWS-kunden Ricoh förbättrar sin IDP-pipeline med LLM. I det här inlägget diskuterade vi olika mekanismer för att utöka IDP-arbetsflödet med LLMs via Amazon Bedrock, Amazon Textract och det populära LangChain-ramverket. Du kan komma igång med den nya Amazon Textract-dokumentladdaren med LangChain idag med hjälp av exempel på anteckningsböcker som finns i vår GitHub repository. För mer information om att arbeta med generativ AI på AWS, se Tillkännager nya verktyg för att bygga med generativ AI på AWS.

Om författarna

Sonali Sahu leder intelligent dokumentbehandling med AI/ML-serviceteamet i AWS. Hon är en författare, tankeledare och passionerad teknolog. Hennes kärnfokus är AI och ML, och hon talar ofta på AI- och ML-konferenser och möten runt om i världen. Hon har både bredd och djup erfarenhet inom teknik och teknikbranschen, med branschexpertis inom sjukvård, finanssektor och försäkring.

Intelligent dokumentbehandling med Amazon Textract, Amazon Bedrock och LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Anjan Biswas är Senior AI Services Solutions Architect med fokus på AI/ML och Data Analytics. Anjan är en del av det världsomspännande AI-serviceteamet och arbetar med kunder för att hjälpa dem att förstå och utveckla lösningar på affärsproblem med AI och ML. Anjan har över 14 års erfarenhet av att arbeta med globala supply chain-, tillverknings- och detaljhandelsorganisationer och hjälper aktivt kunder att komma igång och skala på AWS AI-tjänster.

Chinmayee Rane är en AI/ML Specialist Solutions Architect på Amazon Web Services. Hon brinner för tillämpad matematik och maskininlärning. Hon fokuserar på att designa intelligent dokumentbehandling och generativa AI-lösningar för AWS-kunder. Utanför jobbet tycker hon om att dansa salsa och bachata.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://aws.amazon.com/blogs/machine-learning/intelligent-document-processing-with-amazon-textract-amazon-bedrock-and-langchain/

Tidsstämpel: Oktober 24, 2023

Tidsstämpel: Maj 2, 2024

Intelligent dokumentbehandling med Amazon Textract, Amazon Bedrock och LangChain | Amazon webbtjänster

Återutgiven av Platon

Standardisering och Q&A

Standardisering

Frågor och svar med Retrieval Augmented Generation

Frågor och svar med tabelldata

Mallar och normaliseringar

Stavningskontroller och korrigeringar

Slutsats

Om författarna

Mer från AWS maskininlärning

Distribuerad träning med Amazon EKS och Torch Distributed Elastic

Tillkännager förhandsvisningen av Amazon SageMaker Profiler: Spåra och visualisera detaljerad hårdvaruprestandadata för din modellträningsarbetsbelastning | Amazon webbtjänster

Utforska sammanfattningsalternativ för hälsovård med Amazon SageMaker | Amazon webbtjänster

Identifiera och undvika vanliga dataproblem utan att bygga några ML-kodmodeller med Amazon SageMaker Canvas

Amazon SageMaker JumpStart-modeller och algoritmer är nu tillgängliga via API

Hur OCX Cognition minskade ML-modellutvecklingstiden från veckor till dagar och modelluppdateringstiden från dagar till realtid med hjälp av AWS Step Functions och Amazon SageMaker | Amazon webbtjänster

Kom igång med Amazon Titan Text Embeddings V2: En ny toppmodern inbäddningsmodell på Amazon Bedrock | Amazon webbtjänster

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto