Intelligent dokumentbehandling med Amazon Textract, Amazon Bedrock og LangChain

Genudgivet af Platon

Abonnenter: 0

I nutidens informationsalder udgør de enorme mængder af data, der er indeholdt i utallige dokumenter, både en udfordring og en mulighed for virksomheder. Traditionelle dokumentbehandlingsmetoder mangler ofte i effektivitet og nøjagtighed, hvilket giver plads til innovation, omkostningseffektivitet og optimeringer. Dokumentbehandling har været vidne til betydelige fremskridt med fremkomsten af Intelligent Document Processing (IDP). Med IDP kan virksomheder transformere ustrukturerede data fra forskellige dokumenttyper til strukturerede, handlingsrettede indsigter, hvilket dramatisk forbedrer effektiviteten og reducerer den manuelle indsats. Potentialet stopper dog ikke der. Ved at integrere generativ kunstig intelligens (AI) i processen kan vi forbedre IDP-kapaciteten yderligere. Generativ AI introducerer ikke kun forbedrede muligheder inden for dokumentbehandling, den introducerer også en dynamisk tilpasningsevne til skiftende datamønstre. Dette indlæg fører dig gennem synergien mellem IDP og generativ kunstig intelligens og afslører, hvordan de repræsenterer den næste grænse inden for dokumentbehandling.

Vi diskuterer IDP i detaljer i vores serie Intelligent dokumentbehandling med AWS AI-tjenester (del 1 , del 2). I dette indlæg diskuterer vi, hvordan man kan udvide en ny eller eksisterende IDP-arkitektur med store sprogmodeller (LLM'er). Mere specifikt diskuterer vi, hvordan vi kan integrere amazontekst med Langkæde som dokumentindlæser og Amazonas grundfjeld at udtrække data fra dokumenter og bruge generative AI-kapaciteter inden for de forskellige IDP-faser.

Amazon Textract er en maskinlæringstjeneste (ML), der automatisk udtrækker tekst, håndskrift og data fra scannede dokumenter. Amazon Bedrock er en fuldt administreret tjeneste, der tilbyder et udvalg af højtydende fundamentmodeller (FM'er) gennem brugervenlige API'er.

Følgende diagram er en referencearkitektur på højt niveau, der forklarer, hvordan du yderligere kan forbedre en IDP-arbejdsgang med fundamentmodeller. Du kan bruge LLM'er i en eller alle faser af IDP afhængigt af use casen og det ønskede resultat.

I de følgende afsnit dykker vi dybt ned i, hvordan Amazon Textract er integreret i generative AI-arbejdsgange ved hjælp af LangChain til at behandle dokumenter til hver af disse specifikke opgaver. Kodeblokkene, der er angivet her, er blevet skåret ned for kortheds skyld. Se vores GitHub repository for detaljerede Python-notebooks og en trin-for-trin gennemgang.

Tekstudtræk fra dokumenter er et afgørende aspekt, når det kommer til behandling af dokumenter med LLM'er. Du kan bruge Amazon Textract til at udtrække ustruktureret rå tekst fra dokumenter og bevare de originale semi-strukturerede eller strukturerede objekter som nøgleværdi-par og tabeller, der findes i dokumentet. Dokumentpakker som sundheds- og forsikringskrav eller realkreditlån består af komplekse formularer, der indeholder en masse information på tværs af strukturerede, semistrukturerede og ustrukturerede formater. Dokumentudtrækning er et vigtigt skridt her, fordi LLM'er drager fordel af det rige indhold til at generere mere nøjagtige og relevante svar, som ellers kunne påvirke kvaliteten af LLM'ernes output.

LangChain er en kraftfuld open source-ramme til integration med LLM'er. LLM'er er generelt alsidige, men kan kæmpe med domænespecifikke opgaver, hvor der er behov for dybere kontekst og nuancerede svar. LangChain giver udviklere i sådanne scenarier mulighed for at bygge agenter, der kan opdele komplekse opgaver i mindre underopgaver. Underopgaverne kan derefter introducere kontekst og hukommelse i LLM'er ved at forbinde og kæde LLM-prompter.

LangChain tilbyder dokumentindlæsere der kan indlæse og transformere data fra dokumenter. Du kan bruge dem til at strukturere dokumenter i foretrukne formater, der kan behandles af LLM'er. Det AmazonTextractPDFLoader er en serviceindlæser type dokumentindlæser, der giver hurtig måde at automatisere dokumentbehandling ved at bruge Amazon Textract i kombination med LangChain. For flere detaljer vedr AmazonTextractPDFLoader, henvises til Langkæde dokumentation. For at bruge Amazon Textract-dokumentindlæseren starter du med at importere den fra LangChain-biblioteket:

from langchain.document_loaders import AmazonTextractPDFLoader

https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()

Du kan også gemme dokumenter i Amazon S3 og henvise til dem ved hjælp af s3:// URL-mønsteret, som forklaret i Adgang til en spand ved hjælp af S3://, og send denne S3-sti til Amazon Textract PDF-indlæseren:

import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()

Et flersidet dokument vil indeholde flere sider med tekst, som derefter kan tilgås via dokumentobjektet, som er en liste over sider. Følgende kode går gennem siderne i dokumentobjektet og udskriver dokumentteksten, som er tilgængelig via page_content attribut:

print(len(documents)) for document in documents: print(document.page_content)

Amazon Comprehend og LLM'er kan effektivt bruges til dokumentklassificering. Amazon Comprehend er en NLP-tjeneste (natural language processing), der bruger ML til at udtrække indsigt fra tekst. Amazon Comprehend understøtter også tilpasset klassificeringsmodeltræning med layoutbevidsthed på dokumenter som PDF'er, Word og billedformater. For mere information om brug af Amazon Comprehend-dokumentklassificeringen, se Amazon Comprehend dokumentklassificering tilføjer layoutunderstøttelse for højere nøjagtighed.

Når det parres med LLM'er, bliver dokumentklassificering en kraftfuld tilgang til håndtering af store mængder dokumenter. LLM'er er nyttige i dokumentklassificering, fordi de kan analysere teksten, mønstrene og kontekstuelle elementer i dokumentet ved hjælp af naturlig sprogforståelse. Du kan også finjustere dem til specifikke dokumentklasser. Når en ny dokumenttype introduceret i IDP-pipelinen skal klassificeres, kan LLM behandle tekst og kategorisere dokumentet givet et sæt klasser. Følgende er en eksempelkode, der bruger LangChain-dokumentindlæseren drevet af Amazon Textract til at udtrække teksten fra dokumentet og bruge den til at klassificere dokumentet. Vi bruger Antropiske Claude v2 model via Amazon Bedrock for at udføre klassificeringen.

I det følgende eksempel udtrækker vi først tekst fra en patientudskrivningsrapport og bruger en LLM til at klassificere den givet en liste over tre forskellige dokumenttyper—DISCHARGE_SUMMARY, RECEIPTog PRESCRIPTION. Følgende skærmbillede viser vores rapport.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")

Opsummering indebærer at kondensere en given tekst eller et dokument til en kortere version, mens dens nøgleoplysninger bevares. Denne teknik er gavnlig for effektiv informationssøgning, som gør det muligt for brugere hurtigt at forstå nøglepunkterne i et dokument uden at læse hele indholdet. Selvom Amazon Textract ikke direkte udfører tekstresumé, giver det de grundlæggende muligheder for at udtrække hele teksten fra dokumenter. Denne udtrukne tekst tjener som input til vores LLM-model til udførelse af tekstresuméopgaver.

Ved at bruge den samme prøveudskrivningsrapport, bruger vi AmazonTextractPDFLoader for at udtrække tekst fra dette dokument. Som før bruger vi Claude v2-modellen via Amazon Bedrock og initialiserer den med en prompt, der indeholder instruktionerne om, hvad man skal gøre med teksten (i dette tilfælde opsummering). Til sidst kører vi LLM-kæden ved at sende den udtrukne tekst fra dokumentindlæseren. Dette kører en slutningshandling på LLM med prompten, der består af instruktionerne til at opsummere, og dokumentets tekst markeret med Document. Se følgende kode:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() template = """ Given a full document, give me a concise summary. Skip any preamble text and just give the summary. <document>{doc_text}</document>
<summary>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") num_tokens = bedrock_llm.get_num_tokens(document[0].page_content)
print (f"Our prompt has {num_tokens} tokens nn=========================n") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
summary = llm_chain.run(document[0].page_content) print(summary.replace("</summary>","").strip())

Koden genererer resuméet af en patientudskrivningsrapport:

Our prompt has 797 tokens =========================
35 yo M admitted for epigastric abdominal pain, nausea, fatigue. Found to likely have ulcer. Discharged with activity restrictions, antibiotics, diet changes, and follow up.

Det foregående eksempel brugte et enkeltsidet dokument til at udføre opsummering. Du vil dog sandsynligvis beskæftige dig med dokumenter, der indeholder flere sider, der skal opsummeres. En almindelig måde at udføre opsummeringer på flere sider er først at generere resuméer på mindre bidder af tekst og derefter kombinere de mindre resuméer for at få et endeligt resumé af dokumentet. Bemærk, at denne metode kræver flere opkald til LLM. Logikken for dette kan nemt udformes; LangChain har dog en indbygget opsummeringskæde, der kan opsummere store tekster (fra flersidede dokumenter). Opsummeringen kan ske enten via map_reduce eller med stuff muligheder, som er tilgængelige som muligheder for at administrere de flere opkald til LLM. I det følgende eksempel bruger vi map_reduce at opsummere et flersidet dokument. Følgende figur illustrerer vores arbejdsgang.

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Lad os først starte med at udtrække dokumentet og se det samlede antal tokens pr. side og det samlede antal sider:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") loader = AmazonTextractPDFLoader(f"s3://{data_bucket}/bedrock-sample/health_plan.pdf")
document = loader.load()
num_docs = len(document)
print (f"There are {num_docs} pages in the document")
for index, doc in enumerate(document): num_tokens_first_doc = bedrock_llm.get_num_tokens(doc.page_content) print (f"Page {index+1} has approx. {num_tokens_first_doc} tokens") There are 5 pages in the document
Page 1 has approx. 533 tokens
Page 2 has approx. 1323 tokens
Page 3 has approx. 997 tokens
Page 4 has approx. 1643 tokens
Page 5 has approx. 867 tokens

Dernæst bruger vi LangChains indbyggede load_summarize_chain for at opsummere hele dokumentet:

from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())

Standardisering og Q&A

I dette afsnit diskuterer vi standardisering og Q&A-opgaver.

Standardisering

Outputstandardisering er en tekstgenereringsopgave, hvor LLM'er bruges til at give en ensartet formatering af outputteksten. Denne opgave er især nyttig til automatisering af udtræk af nøgleenheder, der kræver, at outputtet er tilpasset de ønskede formater. For eksempel kan vi følge hurtige tekniske bedste praksisser for at finjustere en LLM til at formatere datoer til MM/DD/ÅÅÅÅ-format, som kan være kompatibelt med en database DATO-kolonne. Den følgende kodeblok viser et eksempel på, hvordan dette gøres ved hjælp af en LLM og prompt engineering. Vi standardiserer ikke kun outputformatet for datoværdierne, vi beder også modellen om at generere det endelige output i et JSON-format, så det nemt kan forbruges i vores downstream-applikationer. Vi bruger LangChain Expression Language (LCEL) for at kæde to handlinger sammen. Den første handling beder LLM om at generere et output i JSON-format med kun datoerne fra dokumentet. Den anden handling tager JSON-outputtet og standardiserer datoformatet. Bemærk, at denne to-trins handling også kan udføres i et enkelt trin med korrekt prompt engineering, som vi vil se i normalisering og skabelon.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") template1 = """ Given a full document, answer the question and format the output in the format specified. Skip any preamble text and just generate the JSON. <format>
{{ "key_name":"key_value"
}}
</format>
<document>{doc_text}</document>
<question>{question}</question>""" template2 = """ Given a JSON document, format the dates in the value fields precisely in the provided format. Skip any preamble text and just generate the JSON. <format>DD/MM/YYYY</format>
<json_document>{json_doc}</json_document> """ prompt1 = PromptTemplate(template=template1, input_variables=["doc_text", "question"])
llm_chain = LLMChain(prompt=prompt1, llm=bedrock_llm, verbose=True) prompt2 = PromptTemplate(template=template2, input_variables=["json_doc"])
llm_chain2 = LLMChain(prompt=prompt2, llm=bedrock_llm, verbose=True) chain = ( llm_chain | {'json_doc': lambda x: x['text'] } | llm_chain2
) std_op = chain.invoke({ "doc_text": document[0].page_content, "question": "Can you give me the patient admitted and discharge dates?"}) print(std_op['text']) { "admit_date":"07/09/2020", "discharge_date":"08/09/2020"
}

Outputtet af den foregående kodeeksempel er en JSON-struktur med datoer 07/09/2020 og 08/09/2020, som er i formatet DD/MM/ÅÅÅÅ og er henholdsvis patientens indlæggelses- og udskrivelsesdato fra hospitalet, iht. til den sammenfattende rapport om decharge.

Q&A med Retrieval Augmented Generation

LLM'er er kendt for at beholde faktuelle oplysninger, ofte omtalt som deres verdensviden eller verdenssyn. Når de er finjusteret, kan de producere state-of-the-art resultater. Der er dog begrænsninger for, hvor effektivt en LLM kan få adgang til og manipulere denne viden. Som et resultat, i opgaver, der i høj grad er afhængige af specifik viden, er deres ydeevne muligvis ikke optimal til visse anvendelsestilfælde. For eksempel i spørgsmål og svar-scenarier er det vigtigt, at modellen nøje overholder den kontekst, der er angivet i dokumentet uden udelukkende at stole på sin verdensviden. Afvigelse fra dette kan føre til forkerte fremstillinger, unøjagtigheder eller endda forkerte svar. Den mest almindeligt anvendte metode til at løse dette problem er kendt som Retrieval Augmented Generation (KLUD). Denne tilgang synergerer styrkerne ved både genfindingsmodeller og sprogmodeller, hvilket forbedrer præcisionen og kvaliteten af de genererede svar.

LLM'er kan også pålægge token-begrænsninger på grund af deres hukommelsesbegrænsninger og begrænsningerne af den hardware, de kører på. For at håndtere dette problem bruges teknikker som chunking til at opdele store dokumenter i mindre portioner, der passer inden for token-grænserne for LLM'er. På den anden side anvendes indlejringer i NLP primært til at fange den semantiske betydning af ord og deres relationer til andre ord i et højdimensionelt rum. Disse indlejringer omdanner ord til vektorer, hvilket giver modeller mulighed for effektivt at behandle og forstå tekstdata. Ved at forstå de semantiske nuancer mellem ord og sætninger gør indlejringer det muligt for LLM'er at generere sammenhængende og kontekstuelt relevante output. Bemærk følgende nøgleord:

chunking – Denne proces nedbryder store mængder tekst fra dokumenter til mindre, meningsfulde bidder af tekst.
indlejringerne - Disse er fastdimensionelle vektortransformationer af hver chunk, der bevarer den semantiske information fra chunks. Disse indlejringer indlæses efterfølgende i en vektordatabase.
Vektor database – Dette er en database med ordindlejringer eller vektorer, der repræsenterer ords kontekst. Det fungerer som en videnskilde, der hjælper med NLP-opgaver i dokumentbehandlingspipelines. Fordelen ved vektordatabasen her er, at den kun tillader den nødvendige kontekst at blive leveret til LLM'erne under tekstgenerering, som vi forklarer i det følgende afsnit.

RAG bruger indlejringskraften til at forstå og hente relevante dokumentsegmenter under genfindingsfasen. Ved at gøre det kan RAG arbejde inden for token-begrænsningerne for LLM'er og sikre, at den mest relevante information udvælges til generering, hvilket resulterer i mere nøjagtige og kontekstuelt relevante output.

Følgende diagram illustrerer integrationen af disse teknikker til at skabe input til LLM'er, hvilket forbedrer deres kontekstuelle forståelse og muliggør mere relevante in-tekstsvar. En tilgang involverer lighedssøgning ved at bruge både en vektordatabase og chunking. Vektordatabasen gemmer indlejringer, der repræsenterer semantisk information, og chunking opdeler tekst i håndterbare sektioner. Ved at bruge denne kontekst fra lighedssøgning kan LLM'er køre opgaver såsom spørgsmålsbesvarelse og domænespecifikke operationer som klassificering og berigelse.

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Til dette indlæg bruger vi en RAG-baseret tilgang til at udføre Q&A i kontekst med dokumenter. I det følgende kodeeksempel udtrækker vi tekst fra et dokument og deler derefter dokumentet op i mindre bidder af tekst. Chunking er påkrævet, fordi vi kan have store flersidede dokumenter, og vores LLM'er kan have token-grænser. Disse bidder indlæses derefter i vektordatabasen for at udføre lighedssøgning i de efterfølgende trin. I det følgende eksempel bruger vi Amazon Titan Embed Text v1-modellen, som udfører vektorindlejring af dokumentstykkerne:

from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import BedrockEmbeddings
from langchain.vectorstores import FAISS
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.chains import RetrievalQA loader = AmazonTextractPDFLoader("amazon_10k.pdf")
document = loader.load() text_splitter = RecursiveCharacterTextSplitter(chunk_size=400, separators=["nn", "n", ".", "!", "?", ",", " ", ""], chunk_overlap=0)
texts = text_splitter.split_documents(document)
embeddings = BedrockEmbeddings(client=bedrock, model_id="amazon.titan-embed-text-v1")
db = FAISS.from_documents(documents=texts, embedding=embeddings) retriever = db.as_retriever(search_type='mmr', search_kwargs={"k": 3}) template = """ Answer the question as truthfully as possible strictly using only the provided text, and if the answer is not contained within the text, say "I don't know". Skip any preamble text and reasoning and give just the answer. <text>{context}</text>
<question>{question}</question>
<answer>""" # define the prompt template
qa_prompt = PromptTemplate(template=template, input_variables=["context","question"]) chain_type_kwargs = { "prompt": qa_prompt, "verbose": False } # change verbose to True if you need to see what's happening bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
qa = RetrievalQA.from_chain_type( llm=bedrock_llm, chain_type="stuff", retriever=retriever, chain_type_kwargs=chain_type_kwargs, verbose=False # change verbose to True if you need to see what's happening
) question="Who is the administrator for this plan?"
result = qa.run(question)
print(result.strip())

Koden skaber en relevant kontekst for LLM'et ved hjælp af de bidder af tekst, der returneres af lighedssøgningshandlingen fra vektordatabasen. Til dette eksempel bruger vi en open source FAISS vektor butik som en eksempelvektordatabase til at gemme vektorindlejringer af hver tekstklump. Vi definerer derefter vektordatabasen som en LangChain retriever, som overføres til RetrievalQA kæde. Dette kører internt en lighedssøgeforespørgsel på vektordatabasen, der returnerer de øverste n (hvor n=3 i vores eksempel) tekststykker, der er relevante for spørgsmålet. Til sidst køres LLM-kæden med den relevante kontekst (en gruppe af relevante bidder af tekst) og spørgsmålet, som LLM skal besvare. For en trin-for-trin kodegennemgang af Q&A med RAG, se Python-notesbogen på GitHub.

Som et alternativ til FAISS kan du også bruge Amazon OpenSearch Service vektordatabasefunktioner, Amazon Relational Database Service (Amazon RDS) til PostgreSQL med pgvektor udvidelse som vektordatabaser eller open source Chroma-database.

Spørgsmål og svar med tabeldata

Tabeldata i dokumenter kan være udfordrende for LLM'er at behandle på grund af deres strukturelle kompleksitet. Amazon Textract kan udvides med LLM'er, fordi det gør det muligt at udtrække tabeller fra dokumenter i et indlejret format af elementer såsom side, tabel og celler. Udførelse af Q&A med tabeldata er en proces i flere trin og kan opnås via selvforespørgende. Følgende er en oversigt over trinene:

Uddrag tabeller fra dokumenter ved hjælp af Amazon Textract. Med Amazon Textract kan tabelstrukturen (rækker, kolonner, overskrifter) udtrækkes fra et dokument.
Gem tabeldataene i en vektordatabase sammen med metadataoplysninger, såsom headernavne og beskrivelsen af hver header.
Brug prompten til at konstruere en struktureret forespørgsel ved hjælp af en LLM til at udlede dataene fra tabellen.
Brug forespørgslen til at udtrække de relevante tabeldata fra vektordatabasen.

For eksempel, i et kontoudtog, givet prompten "Hvad er transaktionerne med mere end $1000 i indskud", vil LLM fuldføre følgende trin:

Lav en forespørgsel, som f.eks “Query: transactions” , “filter: greater than (Deposit$)”.
Konverter forespørgslen til en struktureret forespørgsel.
Anvend den strukturerede forespørgsel på vektordatabasen, hvor vores tabeldata er gemt.

For en trin-for-trin eksempelkodegennemgang af Q&A med tabel, se Python-notesbogen i GitHub.

Skabeloner og normaliseringer

I dette afsnit ser vi på, hvordan man bruger prompt ingeniørteknikker og LangChains indbyggede mekanisme til at generere et output med udtræk fra et dokument i et specificeret skema. Vi udfører også en vis standardisering af de udtrukne data ved hjælp af de teknikker, der er diskuteret tidligere. Vi starter med at definere en skabelon for vores ønskede output. Dette vil tjene som et skema og indkapsle detaljerne om hver enhed, vi ønsker at udtrække fra dokumentets tekst.

output_template= { "doctor_name":{ "type": "string", "description": "The doctor or provider's full name" }, "provider_id":{ "type": "string", "description": "The doctor or provider's ID" }, "patient_name":{ "type": "string", "description": "The patient's full name" }, …
}

Bemærk, at for hver af enhederne bruger vi beskrivelsen til at forklare, hvad denne enhed er, for at hjælpe LLM med at udtrække værdien fra dokumentets tekst. I den følgende eksempelkode bruger vi denne skabelon til at lave vores prompt til LLM sammen med teksten udtrukket fra dokumentet ved hjælp af AmazonTextractPDFLoader og derefter udføre inferens med modellen:

from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain template = """ You are a helpful assistant. Please extract the following details from the document and format the output as JSON using the keys. Skip any preamble text and generate the final answer. <details>
{details}
</details> <keys>
{keys}
</keys> <document>
{doc_text}
<document> <final_answer>""" details = "n".join([f"{key}: {value['description']}" for key, value in output_template.items()])
keys = "n".join([f"{key}" for key, value in output_template.items()]) prompt = PromptTemplate(template=template, input_variables=["details", "keys", "doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
output = llm_chain.run({"doc_text": full_text, "details": details, "keys": keys}) print(output) { "doctor_name": "Mateo Jackson, Phd", "provider_id": "XA/7B/00338763", "patient_name": "John Doe", … }

Som du kan se, det {keys} en del af prompten er nøglerne fra vores skabelon og {details} er nøglerne sammen med deres beskrivelse. I dette tilfælde beder vi ikke modellen eksplicit om outputformatet udover at angive i instruktionen om at generere output i JSON-format. Dette virker for det meste; men fordi outputtet fra LLM'er er ikke-deterministisk tekstgenerering, ønsker vi at specificere formatet eksplicit som en del af instruktionen i prompten. For at løse dette kan vi bruge LangChain's struktureret outputparser modul for at drage fordel af den automatiserede promptteknik, der hjælper med at konvertere vores skabelon til en formatinstruktionsprompt. Vi bruger skabelonen defineret tidligere til at generere formatinstruktionsprompten som følger:

from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser response_schems = list() for key, value in output_template.items(): schema = ResponseSchema(name=key, description=value['description'], type=value['type']) response_schems.append(schema)
output_parser = StructuredOutputParser.from_response_schemas(response_schems)
format_instructions= output_parser.get_format_instructions()
print(format_instructions)

format_instructions variabel indeholder nu formatinstruktionsprompten:

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```": ```json
{ "doctor_name": string // The doctor or provider's full name "provider_id": string // The doctor or provider's ID "patient_name": string // The patient's full name …
}
```

Vi bruger derefter denne variabel i vores oprindelige prompt som en instruktion til LLM, så den udtrækker og formaterer outputtet i det ønskede skema ved at lave en lille ændring af vores prompt:

template = """ You are a helpful assistant. Please extract the following details from the document and strictly follow the instructions described in the format instructions to format the output. Skip any preamble text and generate the final answer. Do not generate incomplete answer. <details>
{details}
</details> <format_instructions>
{format_instructions}
</format_instructions> <document>
{doc_text}
<document> <final_answer>"""

Indtil videre har vi kun trukket dataene ud af dokumentet i et ønsket skema. Vi mangler dog stadig at udføre en vis standardisering. Eksempelvis ønsker vi, at patientens indlæggelsesdato og udskrivelsesdato udtrækkes i DD/MM/ÅÅÅÅ format. I dette tilfælde forstærker vi description af nøglen med formateringsinstruktionen:

new_output_template= { … "admitted_date":{ "type": "string", "description": "Date the patient was admitted to the hospital, this should be formatted in DD/MM/YYYY format." }, "discharge_date":{ "type": "string", "description": "Date the patient was discharged from the hospital, this should be formatted in DD/MM/YYYY format." …
}

Se Python-notesbogen i GitHub for en komplet trin-for-trin gennemgang og forklaring.

Stavekontrol og rettelser

LLM'er har vist bemærkelsesværdige evner til at forstå og generere menneskelignende tekst. En af de mindre diskuterede, men uhyre nyttige anvendelser af LLM'er, er deres potentiale i grammatiske kontroller og sætningskorrektion i dokumenter. I modsætning til traditionelle grammatikkontrollere, der er afhængige af et sæt foruddefinerede regler, bruger LLM'er mønstre, som de har identificeret fra enorme mængder tekstdata til at bestemme, hvad der udgør et korrekt eller flydende sprog. Det betyder, at de kan opdage nuancer, kontekst og finesser, som regelbaserede systemer måske går glip af.

Forestil dig teksten uddraget fra et resumé af patientudskrivning, der lyder "Patienten Jon Doe, der blev indlagt med svær lungebetændelse, har vist betydelig forbedring og kan udskrives sikkert. Opfølgning er planlagt til næste uge." En traditionel stavekontrol kan genkende "admittd", "lungebetændelse", "forbedring" og "nex" som fejl. Konteksten af disse fejl kan dog føre til yderligere fejl eller generiske forslag. En LLM, udstyret med dens omfattende uddannelse, kunne foreslå: "Patienten John Doe, som blev indlagt med svær lungebetændelse, har vist betydelig forbedring og kan udskrives sikkert. Der er planlagt opfølgning i næste uge."

Det følgende er et dårligt håndskrevet eksempeldokument med samme tekst som forklaret tidligere.

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Vi udtrækker dokumentet med en Amazon Textract-dokumentindlæser og instruerer derefter LLM, via prompt engineering, om at rette den udpakkede tekst for at rette eventuelle stave- og/eller grammatiske fejl:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/hand_written_note.pdf")
document = loader.load() template = """ Given a detailed 'Document', perform spelling and grammatical corrections. Ensure the output is coherent, polished, and free from errors. Skip any preamble text and give the answer. <document>{doc_text}</<document>
<answer> """ prompt = PromptTemplate(template=template, input_variables=["doc_text"])
llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
llm_chain = LLMChain(prompt=prompt, llm=llm) try: txt = document[0].page_content std_op = llm_chain.run({"doc_text": txt}) print("Extracted text") print("==============") print(txt) print("nCorrected text") print("==============") print(std_op.strip()) print("n")
except Exception as e: print(str(e))

Outputtet af den foregående kode viser den originale tekst udtrukket af dokumentindlæseren efterfulgt af den korrigerede tekst, der er genereret af LLM:

Extracted text
==============
Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Corrected text
==============
Patient John Doe, who was admitted with severe pneumonia, has shown significant improvement and can be safely discharged. Follow-up appointments are scheduled for next week.

Husk, at lige så kraftfulde som LLM'er er, er det vigtigt at se deres forslag som netop det – forslag. Selvom de fanger sprogets forviklinger imponerende godt, er de ikke ufejlbarlige. Nogle forslag kan ændre den tilsigtede betydning eller tone i den originale tekst. Derfor er det afgørende for menneskelige anmeldere at bruge LLM-genererede rettelser som en guide, ikke en absolut. Samarbejdet mellem menneskelig intuition og LLM-kapaciteter lover en fremtid, hvor vores skriftlige kommunikation ikke bare er fejlfri, men også rigere og mere nuanceret.

Konklusion

Generativ AI ændrer, hvordan du kan behandle dokumenter med IDP for at opnå indsigt. I indlægget Forbedring af AWS intelligent dokumentbehandling med generativ AI, vi diskuterede de forskellige stadier af pipelinen, og hvordan AWS-kunden Ricoh forbedrer deres IDP-pipeline med LLM'er. I dette indlæg diskuterede vi forskellige mekanismer til at øge IDP-arbejdsgangen med LLM'er via Amazon Bedrock, Amazon Textract og den populære LangChain-ramme. Du kan komme i gang med den nye Amazon Textract-dokumentindlæser med LangChain i dag ved at bruge de eksempler på notesbøger, der er tilgængelige i vores GitHub repository. For mere information om at arbejde med generativ AI på AWS, se Annoncering af nye værktøjer til bygning med generativ AI på AWS.

Om forfatterne

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Sonali Sahu leder intelligent dokumentbehandling med AI/ML-serviceteamet i AWS. Hun er forfatter, tankeleder og passioneret teknolog. Hendes kernefokusområde er AI og ML, og hun taler ofte ved AI- og ML-konferencer og -møder rundt om i verden. Hun har både bred og dybdegående erfaring inden for teknologi og teknologiindustrien, med brancheekspertise inden for sundhedspleje, finanssektoren og forsikring.

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Anjan Biswas er Senior AI Services Solutions Architect med fokus på AI/ML og Data Analytics. Anjan er en del af det verdensomspændende AI-serviceteam og arbejder med kunder for at hjælpe dem med at forstå og udvikle løsninger på forretningsproblemer med AI og ML. Anjan har over 14 års erfaring med at arbejde med globale forsyningskæder, fremstillings- og detailorganisationer og hjælper aktivt kunder med at komme i gang og skalere på AWS AI-tjenester.

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Chinmayee Rane er AI/ML Specialist Solutions Architect hos Amazon Web Services. Hun brænder for anvendt matematik og maskinlæring. Hun fokuserer på at designe intelligent dokumentbehandling og generative AI-løsninger til AWS-kunder. Uden for arbejdet nyder hun salsa og bachata dans.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://aws.amazon.com/blogs/machine-learning/intelligent-document-processing-with-amazon-textract-amazon-bedrock-and-langchain/

Tidsstempel: Oktober 24, 2023

Tidsstempel: Maj 2, 2024

Intelligent dokumentbehandling med Amazon Textract, Amazon Bedrock og LangChain | Amazon Web Services

Genudgivet af Platon

Standardisering og Q&A

Standardisering

Q&A med Retrieval Augmented Generation

Spørgsmål og svar med tabeldata

Skabeloner og normaliseringer

Stavekontrol og rettelser

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

Distribueret træning med Amazon EKS og Torch Distributed Elastic

Annoncering af forhåndsvisningen af Amazon SageMaker Profiler: Spor og visualiser detaljerede hardwareydelsesdata for din modeltræningsarbejdsbelastning | Amazon Web Services

Udforsker opsummeringsmuligheder for sundhedspleje med Amazon SageMaker | Amazon Web Services

Identifikation og undgåelse af almindelige dataproblemer, mens der ikke bygges kode ML-modeller med Amazon SageMaker Canvas

Amazon SageMaker JumpStart-modeller og algoritmer er nu tilgængelige via API

Hvordan OCX Cognition reducerede ML-modeludviklingstiden fra uger til dage og modelopdateringstiden fra dage til realtid ved hjælp af AWS Step Functions og Amazon SageMaker | Amazon Web Services

Kom godt i gang med Amazon Titan Text Embeddings V2: En ny state-of-the-art indlejringsmodel på Amazon Bedrock | Amazon Web Services

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto