Intelligent dokumentbehandling med Amazon Textract, Amazon Bedrock og LangChain

Publisert av Platon

Følgere: 0

I dagens informasjonsalder utgjør de enorme datavolumene som ligger i utallige dokumenter både en utfordring og en mulighet for bedrifter. Tradisjonelle dokumentbehandlingsmetoder kommer ofte til kort når det gjelder effektivitet og nøyaktighet, og gir rom for innovasjon, kostnadseffektivitet og optimaliseringer. Dokumentbehandling har vært vitne til betydelige fremskritt med bruken av Intelligent Document Processing (IDP). Med IDP kan bedrifter transformere ustrukturerte data fra ulike dokumenttyper til strukturert, handlingskraftig innsikt, noe som dramatisk forbedrer effektiviteten og reduserer manuell innsats. Potensialet slutter imidlertid ikke der. Ved å integrere generativ kunstig intelligens (AI) i prosessen, kan vi forbedre IDP-evnene ytterligere. Generativ AI introduserer ikke bare forbedrede muligheter i dokumentbehandling, den introduserer også en dynamisk tilpasningsevne til endrede datamønstre. Dette innlegget tar deg gjennom synergien mellom IDP og generativ AI, og avslører hvordan de representerer den neste frontlinjen innen dokumentbehandling.

Vi diskuterer IDP i detalj i vår serie Intelligent dokumentbehandling med AWS AI-tjenester (Del 1 og Del 2). I dette innlegget diskuterer vi hvordan man kan utvide en ny eller eksisterende IDP-arkitektur med store språkmodeller (LLM). Mer spesifikt diskuterer vi hvordan vi kan integrere amazontekst med Langkjede som dokumentlaster og Amazonas grunnfjell å trekke ut data fra dokumenter og bruke generative AI-funksjoner innenfor de ulike IDP-fasene.

Amazon Textract er en maskinlæringstjeneste (ML) som automatisk trekker ut tekst, håndskrift og data fra skannede dokumenter. Amazon Bedrock er en fullt administrert tjeneste som tilbyr et utvalg av høyytende fundamentmodeller (FM-er) gjennom brukervennlige API-er.

Følgende diagram er en referansearkitektur på høyt nivå som forklarer hvordan du kan forbedre en IDP-arbeidsflyt ytterligere med grunnmodeller. Du kan bruke LLM-er i én eller alle faser av IDP avhengig av brukstilfellet og ønsket resultat.

I de følgende delene dykker vi dypt inn i hvordan Amazon Textract er integrert i generative AI-arbeidsflyter ved å bruke LangChain for å behandle dokumenter for hver av disse spesifikke oppgavene. Kodeblokkene som er gitt her har blitt trimmet ned for korthets skyld. Se vår GitHub repository for detaljerte Python-notatbøker og en trinn-for-trinn-gjennomgang.

Tekstutvinning fra dokumenter er et avgjørende aspekt når det gjelder å behandle dokumenter med LLM-er. Du kan bruke Amazon Textract til å trekke ut ustrukturert råtekst fra dokumenter og bevare de originale semistrukturerte eller strukturerte objektene som nøkkelverdi-par og tabeller som finnes i dokumentet. Dokumentpakker som helsetjenester og forsikringskrav eller boliglån består av komplekse skjemaer som inneholder mye informasjon på tvers av strukturerte, semistrukturerte og ustrukturerte formater. Dokumentutvinning er et viktig skritt her fordi LLM-er drar nytte av det rike innholdet for å generere mer nøyaktige og relevante svar, som ellers kan påvirke kvaliteten på LLM-enes produksjon.

LangChain er et kraftig åpen kildekode-rammeverk for integrering med LLM-er. LLM-er generelt er allsidige, men kan slite med domenespesifikke oppgaver der dypere kontekst og nyanserte svar er nødvendig. LangChain gir utviklere i slike scenarier mulighet til å bygge agenter som kan bryte ned komplekse oppgaver i mindre underoppgaver. Underoppgavene kan deretter introdusere kontekst og minne i LLM-er ved å koble sammen og lenke LLM-meldinger.

LangChain tilbyr dokumentlastere som kan laste inn og transformere data fra dokumenter. Du kan bruke dem til å strukturere dokumenter i foretrukne formater som kan behandles av LLM-er. De AmazonTextractPDFLoader er en tjenestelaster type dokumentlaster som gir rask måte å automatisere dokumentbehandling ved å bruke Amazon Textract i kombinasjon med LangChain. For mer informasjon om AmazonTextractPDFLoader, referere til Langkjede dokumentasjon. For å bruke Amazon Textract-dokumentlasteren, starter du med å importere den fra LangChain-biblioteket:

from langchain.document_loaders import AmazonTextractPDFLoader

https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()

Du kan også lagre dokumenter i Amazon S3 og referere til dem ved å bruke s3:// URL-mønsteret, som forklart i Få tilgang til en bøtte med S3://, og send denne S3-banen til Amazon Textract PDF-lasteren:

import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()

Et flersidet dokument vil inneholde flere sider med tekst, som deretter kan nås via dokumentobjektet, som er en liste over sider. Følgende kode går gjennom sidene i dokumentobjektet og skriver ut dokumentteksten, som er tilgjengelig via page_content Egenskap:

print(len(documents)) for document in documents: print(document.page_content)

Amazon Comprehend og LLM-er kan effektivt brukes til dokumentklassifisering. Amazon Comprehend er en naturlig språkbehandlingstjeneste (NLP) som bruker ML for å trekke ut innsikt fra tekst. Amazon Comprehend støtter også tilpasset klassifiseringsmodellopplæring med layoutbevissthet på dokumenter som PDF-er, Word- og bildeformater. For mer informasjon om bruk av Amazon Comprehend-dokumentklassifisereren, se Amazon Comprehend dokumentklassifiserer legger til layoutstøtte for høyere nøyaktighet.

Når sammenkoblet med LLM-er, blir dokumentklassifisering en kraftig tilnærming for å administrere store mengder dokumenter. LLM-er er nyttige i dokumentklassifisering fordi de kan analysere teksten, mønstrene og kontekstuelle elementene i dokumentet ved hjelp av naturlig språkforståelse. Du kan også finjustere dem for spesifikke dokumentklasser. Når en ny dokumenttype introdusert i IDP-rørledningen trenger klassifisering, kan LLM behandle tekst og kategorisere dokumentet gitt et sett med klasser. Følgende er en eksempelkode som bruker LangChain-dokumentlasteren drevet av Amazon Textract for å trekke ut teksten fra dokumentet og bruke den til å klassifisere dokumentet. Vi bruker Antropiske Claude v2 modell via Amazon Bedrock for å utføre klassifiseringen.

I det følgende eksemplet trekker vi først ut tekst fra en pasientutskrivningsrapport og bruker en LLM for å klassifisere den gitt en liste over tre forskjellige dokumenttyper—DISCHARGE_SUMMARY, RECEIPTog PRESCRIPTION. Følgende skjermbilde viser rapporten vår.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")

Oppsummering innebærer å kondensere en gitt tekst eller et dokument til en kortere versjon samtidig som den beholder nøkkelinformasjonen. Denne teknikken er gunstig for effektiv informasjonshenting, som gjør det mulig for brukere å raskt forstå hovedpunktene i et dokument uten å lese hele innholdet. Selv om Amazon Textract ikke direkte utfører tekstoppsummering, gir det de grunnleggende mulighetene for å trekke ut hele teksten fra dokumenter. Denne utpakkede teksten fungerer som input til vår LLM-modell for å utføre tekstoppsummeringsoppgaver.

Ved å bruke den samme prøveutskrivningsrapporten bruker vi AmazonTextractPDFLoader for å trekke ut tekst fra dette dokumentet. Som før bruker vi Claude v2-modellen via Amazon Bedrock og initialiserer den med en ledetekst som inneholder instruksjonene om hva du skal gjøre med teksten (i dette tilfellet oppsummering). Til slutt kjører vi LLM-kjeden ved å sende inn den utpakkede teksten fra dokumentlasteren. Dette kjører en slutningshandling på LLM med ledeteksten som består av instruksjonene for å oppsummere, og dokumentets tekst markert med Document. Se følgende kode:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() template = """ Given a full document, give me a concise summary. Skip any preamble text and just give the summary. <document>{doc_text}</document>
<summary>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") num_tokens = bedrock_llm.get_num_tokens(document[0].page_content)
print (f"Our prompt has {num_tokens} tokens nn=========================n") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
summary = llm_chain.run(document[0].page_content) print(summary.replace("</summary>","").strip())

Koden genererer sammendraget av en sammendragsrapport for pasientutskrivning:

Our prompt has 797 tokens =========================
35 yo M admitted for epigastric abdominal pain, nausea, fatigue. Found to likely have ulcer. Discharged with activity restrictions, antibiotics, diet changes, and follow up.

Det foregående eksemplet brukte et enkeltsides dokument for å utføre oppsummering. Imidlertid vil du sannsynligvis håndtere dokumenter som inneholder flere sider som trenger oppsummering. En vanlig måte å utføre oppsummering på flere sider er å først generere sammendrag på mindre tekstbiter og deretter kombinere de mindre sammendragene for å få et endelig sammendrag av dokumentet. Merk at denne metoden krever flere anrop til LLM. Logikken for dette kan lages enkelt; LangChain har imidlertid en innebygd oppsummeringskjede som kan oppsummere store tekster (fra flersidige dokumenter). Oppsummeringen kan skje enten via map_reduce eller med stuff alternativer, som er tilgjengelige som alternativer for å administrere flere anrop til LLM. I følgende eksempel bruker vi map_reduce for å oppsummere et flersidig dokument. Følgende figur illustrerer arbeidsflyten vår.

Intelligent dokumentbehandling med Amazon Textract, Amazon Bedrock og LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

La oss først starte med å trekke ut dokumentet og se det totale antall tokener per side og det totale antallet sider:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") loader = AmazonTextractPDFLoader(f"s3://{data_bucket}/bedrock-sample/health_plan.pdf")
document = loader.load()
num_docs = len(document)
print (f"There are {num_docs} pages in the document")
for index, doc in enumerate(document): num_tokens_first_doc = bedrock_llm.get_num_tokens(doc.page_content) print (f"Page {index+1} has approx. {num_tokens_first_doc} tokens") There are 5 pages in the document
Page 1 has approx. 533 tokens
Page 2 has approx. 1323 tokens
Page 3 has approx. 997 tokens
Page 4 has approx. 1643 tokens
Page 5 has approx. 867 tokens

Deretter bruker vi LangChains innebygde load_summarize_chain for å oppsummere hele dokumentet:

from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())

Standardisering og spørsmål og svar

I denne delen diskuterer vi standardisering og spørsmål og svar-oppgaver.

Standardisering

Utdatastandardisering er en tekstgenereringsoppgave der LLM-er brukes for å gi en konsistent formatering av utdatateksten. Denne oppgaven er spesielt nyttig for automatisering av utvinning av nøkkelenheter som krever at utdataene er justert med ønskede formater. For eksempel kan vi følge umiddelbare beste praksiser for ingeniørarbeid for å finjustere en LLM for å formatere datoer til MM/DD/ÅÅÅÅ-format, som kan være kompatibelt med en database DATO-kolonne. Følgende kodeblokk viser et eksempel på hvordan dette gjøres ved hjelp av en LLM og prompt engineering. Ikke bare standardiserer vi utdataformatet for datoverdiene, vi ber også modellen om å generere den endelige utgangen i et JSON-format slik at den lett kan brukes i nedstrømsapplikasjonene våre. Vi bruker LangChain Expression Language (LCEL) for å lenke sammen to handlinger. Den første handlingen ber LLM om å generere en utdata i JSON-format med bare datoene fra dokumentet. Den andre handlingen tar JSON-utdata og standardiserer datoformatet. Merk at denne to-trinns handlingen også kan utføres i ett enkelt trinn med riktig prompt engineering, som vi vil se i normalisering og maling.

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") template1 = """ Given a full document, answer the question and format the output in the format specified. Skip any preamble text and just generate the JSON. <format>
{{ "key_name":"key_value"
}}
</format>
<document>{doc_text}</document>
<question>{question}</question>""" template2 = """ Given a JSON document, format the dates in the value fields precisely in the provided format. Skip any preamble text and just generate the JSON. <format>DD/MM/YYYY</format>
<json_document>{json_doc}</json_document> """ prompt1 = PromptTemplate(template=template1, input_variables=["doc_text", "question"])
llm_chain = LLMChain(prompt=prompt1, llm=bedrock_llm, verbose=True) prompt2 = PromptTemplate(template=template2, input_variables=["json_doc"])
llm_chain2 = LLMChain(prompt=prompt2, llm=bedrock_llm, verbose=True) chain = ( llm_chain | {'json_doc': lambda x: x['text'] } | llm_chain2
) std_op = chain.invoke({ "doc_text": document[0].page_content, "question": "Can you give me the patient admitted and discharge dates?"}) print(std_op['text']) { "admit_date":"07/09/2020", "discharge_date":"08/09/2020"
}

Utdata fra det foregående kodeeksemplet er en JSON-struktur med datoer 07/09/2020 og 08/09/2020, som er i formatet DD/MM/ÅÅÅÅ og er henholdsvis pasientens innleggelses- og utskrivningsdato fra sykehuset, iht. til utslippsrapporten.

Spørsmål og svar med Retrieval Augmented Generation

LLM-er er kjent for å beholde faktainformasjon, ofte referert til som deres verdenskunnskap eller verdenssyn. Når de er finjustert, kan de produsere toppmoderne resultater. Det er imidlertid begrensninger for hvor effektivt en LLM kan få tilgang til og manipulere denne kunnskapen. Som et resultat, i oppgaver som i stor grad er avhengige av spesifikk kunnskap, kan det hende at ytelsen deres ikke er optimal for visse brukstilfeller. For eksempel, i spørsmål og svar-scenarier, er det viktig at modellen holder seg strengt til konteksten gitt i dokumentet uten å stole utelukkende på sin verdenskunnskap. Å avvike fra dette kan føre til feilaktige fremstillinger, unøyaktigheter eller til og med feil svar. Den mest brukte metoden for å løse dette problemet er kjent som Retrieval Augmented Generation (FILLE). Denne tilnærmingen synergerer styrken til både gjenfinningsmodeller og språkmodeller, og forbedrer presisjonen og kvaliteten på responsene som genereres.

LLM-er kan også pålegge token-begrensninger på grunn av deres minnebegrensninger og begrensningene til maskinvaren de kjører på. For å håndtere dette problemet, brukes teknikker som chunking for å dele store dokumenter i mindre deler som passer innenfor token-grensene til LLM. På den annen side brukes innebygginger i NLP først og fremst for å fange den semantiske betydningen av ord og deres forhold til andre ord i et høydimensjonalt rom. Disse innebyggingene transformerer ord til vektorer, slik at modeller kan behandle og forstå tekstdata effektivt. Ved å forstå de semantiske nyansene mellom ord og setninger, gjør innebygginger det mulig for LLM-er å generere sammenhengende og kontekstuelt relevante utdata. Legg merke til følgende nøkkelord:

chunking – Denne prosessen bryter ned store mengder tekst fra dokumenter til mindre, meningsfulle tekstbiter.
Innebygging – Dette er fastdimensjonale vektortransformasjoner av hver del som beholder den semantiske informasjonen fra delene. Disse innebyggingene blir deretter lastet inn i en vektordatabase.
Vektordatabase – Dette er en database med ordinnbygginger eller vektorer som representerer konteksten til ord. Den fungerer som en kunnskapskilde som hjelper NLP-oppgaver i dokumentbehandlingsrørledninger. Fordelen med vektordatabasen her er at den bare lar den nødvendige konteksten gis til LLM-ene under tekstgenerering, som vi forklarer i den følgende delen.

RAG bruker kraften til innebygginger til å forstå og hente relevante dokumentsegmenter under gjenfinningsfasen. Ved å gjøre det kan RAG arbeide innenfor token-begrensningene til LLM-er, og sikre at den mest relevante informasjonen velges for generering, noe som resulterer i mer nøyaktige og kontekstuelt relevante utdata.

Følgende diagram illustrerer integreringen av disse teknikkene for å lage input til LLM-er, forbedre deres kontekstuelle forståelse og muliggjøre mer relevante i kontekst-svar. En tilnærming involverer likhetssøk, ved å bruke både en vektordatabase og chunking. Vektordatabasen lagrer innebygginger som representerer semantisk informasjon, og chunking deler tekst inn i håndterbare seksjoner. Ved å bruke denne konteksten fra likhetssøk, kan LLM-er kjøre oppgaver som spørsmålssvar og domenespesifikke operasjoner som klassifisering og berikelse.

Intelligent dokumentbehandling med Amazon Textract, Amazon Bedrock og LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

For dette innlegget bruker vi en RAG-basert tilnærming for å utføre spørsmål og svar i kontekst med dokumenter. I følgende kodeeksempel trekker vi ut tekst fra et dokument og deler deretter opp dokumentet i mindre tekstbiter. Chunking er nødvendig fordi vi kan ha store flersidige dokumenter og våre LLM-er kan ha token-grenser. Disse bitene blir deretter lastet inn i vektordatabasen for å utføre likhetssøk i de påfølgende trinnene. I det følgende eksempelet bruker vi Amazon Titan Embed Text v1-modellen, som utfører vektorinnbyggingen av dokumentbitene:

from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import BedrockEmbeddings
from langchain.vectorstores import FAISS
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.chains import RetrievalQA loader = AmazonTextractPDFLoader("amazon_10k.pdf")
document = loader.load() text_splitter = RecursiveCharacterTextSplitter(chunk_size=400, separators=["nn", "n", ".", "!", "?", ",", " ", ""], chunk_overlap=0)
texts = text_splitter.split_documents(document)
embeddings = BedrockEmbeddings(client=bedrock, model_id="amazon.titan-embed-text-v1")
db = FAISS.from_documents(documents=texts, embedding=embeddings) retriever = db.as_retriever(search_type='mmr', search_kwargs={"k": 3}) template = """ Answer the question as truthfully as possible strictly using only the provided text, and if the answer is not contained within the text, say "I don't know". Skip any preamble text and reasoning and give just the answer. <text>{context}</text>
<question>{question}</question>
<answer>""" # define the prompt template
qa_prompt = PromptTemplate(template=template, input_variables=["context","question"]) chain_type_kwargs = { "prompt": qa_prompt, "verbose": False } # change verbose to True if you need to see what's happening bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
qa = RetrievalQA.from_chain_type( llm=bedrock_llm, chain_type="stuff", retriever=retriever, chain_type_kwargs=chain_type_kwargs, verbose=False # change verbose to True if you need to see what's happening
) question="Who is the administrator for this plan?"
result = qa.run(question)
print(result.strip())

Koden skaper en relevant kontekst for LLM ved å bruke tekstbitene som returneres av likhetssøkehandlingen fra vektordatabasen. For dette eksempelet bruker vi en åpen kildekode FAISS vektorbutikk som en eksempelvektordatabase for å lagre vektorinnbygginger av hver tekstbit. Vi definerer deretter vektordatabasen som en LangChain retriever, som føres inn i RetrievalQA kjede. Dette kjører internt et likhetssøk på vektordatabasen som returnerer de øverste n (hvor n=3 i vårt eksempel) tekstbiter som er relevante for spørsmålet. Til slutt kjøres LLM-kjeden med den relevante konteksten (en gruppe relevante tekstbiter) og spørsmålet som LLM skal svare på. For en trinnvis kodegjennomgang av Q&A med RAG, se Python-notatboken på GitHub.

Som et alternativ til FAISS kan du også bruke Amazon OpenSearch Service vektordatabasefunksjoner, Amazon Relational Database Service (Amazon RDS) for PostgreSQL med pgvektor utvidelse som vektordatabaser, eller åpen kildekode Chroma Database.

Spørsmål og svar med tabelldata

Tabelldata i dokumenter kan være utfordrende for LLM-er å behandle på grunn av dens strukturelle kompleksitet. Amazon Textract kan utvides med LLM-er fordi det gjør det mulig å trekke ut tabeller fra dokumenter i et nestet format av elementer som side, tabell og celler. Å utføre spørsmål og svar med tabelldata er en flertrinnsprosess, og kan oppnås via selvsøkende. Følgende er en oversikt over trinnene:

Trekk ut tabeller fra dokumenter ved hjelp av Amazon Textract. Med Amazon Textract kan tabellstrukturen (rader, kolonner, overskrifter) trekkes ut fra et dokument.
Lagre tabelldataene i en vektordatabase sammen med metadatainformasjon, for eksempel overskriftsnavnene og beskrivelsen av hver overskrift.
Bruk ledeteksten til å konstruere en strukturert spørring, ved å bruke en LLM, for å utlede dataene fra tabellen.
Bruk spørringen til å trekke ut de relevante tabelldataene fra vektordatabasen.

For eksempel, i en kontoutskrift, gitt spørsmålet "Hva er transaksjonene med mer enn $1000 i innskudd", vil LLM fullføre følgende trinn:

Lag et søk, for eksempel “Query: transactions” , “filter: greater than (Deposit$)”.
Konverter spørringen til en strukturert spørring.
Bruk den strukturerte spørringen på vektordatabasen der tabelldataene våre er lagret.

For en trinnvis kodegjennomgang av spørsmål og svar med tabeller, se Python-notatboken i GitHub.

Maling og normaliseringer

I denne delen ser vi på hvordan du bruker prompte ingeniørteknikker og LangChains innebygde mekanisme for å generere en utgang med uttrekk fra et dokument i et spesifisert skjema. Vi utfører også en viss standardisering av de utvunnede dataene ved å bruke teknikkene som er diskutert tidligere. Vi starter med å definere en mal for ønsket utgang. Dette vil tjene som et skjema og innkapsle detaljene om hver enhet vi ønsker å trekke ut fra dokumentets tekst.

output_template= { "doctor_name":{ "type": "string", "description": "The doctor or provider's full name" }, "provider_id":{ "type": "string", "description": "The doctor or provider's ID" }, "patient_name":{ "type": "string", "description": "The patient's full name" }, …
}

Merk at for hver av enhetene bruker vi beskrivelsen til å forklare hva den enheten er for å hjelpe LLM med å trekke ut verdien fra dokumentets tekst. I den følgende eksempelkoden bruker vi denne malen til å lage forespørselen vår om LLM sammen med teksten som er hentet fra dokumentet ved å bruke AmazonTextractPDFLoader og deretter utføre inferens med modellen:

from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain template = """ You are a helpful assistant. Please extract the following details from the document and format the output as JSON using the keys. Skip any preamble text and generate the final answer. <details>
{details}
</details> <keys>
{keys}
</keys> <document>
{doc_text}
<document> <final_answer>""" details = "n".join([f"{key}: {value['description']}" for key, value in output_template.items()])
keys = "n".join([f"{key}" for key, value in output_template.items()]) prompt = PromptTemplate(template=template, input_variables=["details", "keys", "doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
output = llm_chain.run({"doc_text": full_text, "details": details, "keys": keys}) print(output) { "doctor_name": "Mateo Jackson, Phd", "provider_id": "XA/7B/00338763", "patient_name": "John Doe", … }

Som du kan se, er {keys} en del av ledeteksten er nøklene fra malen vår, og {details} er nøklene sammen med beskrivelsen. I dette tilfellet ber vi ikke modellen eksplisitt om formatet til utdataene annet enn å spesifisere i instruksjonen for å generere utdata i JSON-format. Dette fungerer for det meste; Men fordi utdataene fra LLM-er er ikke-deterministisk tekstgenerering, ønsker vi å spesifisere formatet eksplisitt som en del av instruksjonen i ledeteksten. For å løse dette kan vi bruke LangChain sine strukturert utdataparser modul for å dra nytte av den automatiserte ledeteksten som hjelper til med å konvertere malen vår til en formatinstruksjonsprompt. Vi bruker malen definert tidligere for å generere formatinstruksjonen som følger:

from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser response_schems = list() for key, value in output_template.items(): schema = ResponseSchema(name=key, description=value['description'], type=value['type']) response_schems.append(schema)
output_parser = StructuredOutputParser.from_response_schemas(response_schems)
format_instructions= output_parser.get_format_instructions()
print(format_instructions)

De format_instructions variabelen har nå formatinstruksjonen:

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```": ```json
{ "doctor_name": string // The doctor or provider's full name "provider_id": string // The doctor or provider's ID "patient_name": string // The patient's full name …
}
```

Vi bruker deretter denne variabelen i vår opprinnelige ledetekst som en instruksjon til LLM, slik at den trekker ut og formaterer utdataene i ønsket skjema ved å gjøre en liten modifikasjon av ledeteksten vår:

template = """ You are a helpful assistant. Please extract the following details from the document and strictly follow the instructions described in the format instructions to format the output. Skip any preamble text and generate the final answer. Do not generate incomplete answer. <details>
{details}
</details> <format_instructions>
{format_instructions}
</format_instructions> <document>
{doc_text}
<document> <final_answer>"""

Så langt har vi kun hentet dataene ut av dokumentet i et ønsket skjema. Men vi må fortsatt utføre en viss standardisering. For eksempel ønsker vi at pasientens innleggelsesdato og utskrivningsdato trekkes ut i DD/MM/ÅÅÅÅ format. I dette tilfellet forsterker vi description av nøkkelen med formateringsinstruksjonen:

new_output_template= { … "admitted_date":{ "type": "string", "description": "Date the patient was admitted to the hospital, this should be formatted in DD/MM/YYYY format." }, "discharge_date":{ "type": "string", "description": "Date the patient was discharged from the hospital, this should be formatted in DD/MM/YYYY format." …
}

Se Python-notisboken i GitHub for en full trinn-for-trinn gjennomgang og forklaring.

Stavekontroller og rettelser

LLM-er har vist bemerkelsesverdige evner til å forstå og generere menneskelignende tekst. En av de mindre diskuterte, men uhyre nyttige applikasjonene til LLM-er, er deres potensiale i grammatiske kontroller og setningskorreksjon i dokumenter. I motsetning til tradisjonelle grammatikkkontrollere som er avhengige av et sett med forhåndsdefinerte regler, bruker LLM-er mønstre som de har identifisert fra enorme mengder tekstdata for å finne ut hva som utgjør et korrekt eller flytende språk. Dette betyr at de kan oppdage nyanser, kontekst og finesser som regelbaserte systemer kan gå glipp av.

Se for deg teksten som er hentet fra et sammendrag av pasientutskrivning som lyder «Pasienten Jon Doe, som ble innlagt med alvorlig lungebetennelse, har vist betydelig bedring og kan trygt skrives ut. Oppfølging er planlagt til neste uke." En tradisjonell stavekontroll kan gjenkjenne "innrømmet", "lungebetennelse", "forbedring" og "nex" som feil. Konteksten til disse feilene kan imidlertid føre til ytterligere feil eller generiske forslag. En LLM, utstyrt med omfattende opplæring, kan foreslå: «Pasienten John Doe, som ble innlagt med alvorlig lungebetennelse, har vist betydelig bedring og kan trygt utskrives. Oppfølging er planlagt til neste uke."

Følgende er et dårlig håndskrevet eksempeldokument med samme tekst som forklart tidligere.

Intelligent dokumentbehandling med Amazon Textract, Amazon Bedrock og LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Vi trekker ut dokumentet med en Amazon Textract-dokumentlaster og instruerer deretter LLM, via prompt engineering, om å korrigere den utpakkede teksten for å rette eventuelle stave- og/eller grammatiske feil:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/hand_written_note.pdf")
document = loader.load() template = """ Given a detailed 'Document', perform spelling and grammatical corrections. Ensure the output is coherent, polished, and free from errors. Skip any preamble text and give the answer. <document>{doc_text}</<document>
<answer> """ prompt = PromptTemplate(template=template, input_variables=["doc_text"])
llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
llm_chain = LLMChain(prompt=prompt, llm=llm) try: txt = document[0].page_content std_op = llm_chain.run({"doc_text": txt}) print("Extracted text") print("==============") print(txt) print("nCorrected text") print("==============") print(std_op.strip()) print("n")
except Exception as e: print(str(e))

Utdataene fra den foregående koden viser den originale teksten som er trukket ut av dokumentlasteren etterfulgt av den korrigerte teksten generert av LLM:

Extracted text
==============
Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Corrected text
==============
Patient John Doe, who was admitted with severe pneumonia, has shown significant improvement and can be safely discharged. Follow-up appointments are scheduled for next week.

Husk at så kraftige som LLM-er er, er det viktig å se forslagene deres som nettopp det – forslag. Selv om de fanger språkets forviklinger imponerende godt, er de ikke ufeilbarlige. Noen forslag kan endre den tiltenkte betydningen eller tonen i originalteksten. Derfor er det avgjørende for menneskelige anmeldere å bruke LLM-genererte rettelser som en guide, ikke en absolutt. Samarbeidet mellom menneskelig intuisjon og LLM-evner lover en fremtid der vår skriftlige kommunikasjon ikke bare er feilfri, men også rikere og mer nyansert.

konklusjonen

Generativ AI endrer hvordan du kan behandle dokumenter med IDP for å få innsikt. I posten Forbedrer AWS intelligent dokumentbehandling med generativ AI, diskuterte vi de ulike stadiene i pipelinen og hvordan AWS-kunden Ricoh forbedrer sin IDP-pipeline med LLM-er. I dette innlegget diskuterte vi ulike mekanismer for å utvide IDP-arbeidsflyten med LLM-er via Amazon Bedrock, Amazon Textract og det populære LangChain-rammeverket. Du kan komme i gang med den nye Amazon Textract-dokumentlasteren med LangChain i dag ved å bruke eksempelnotatbøkene som er tilgjengelige i vår GitHub repository. For mer informasjon om arbeid med generativ AI på AWS, se Annonserer nye verktøy for bygging med generativ AI på AWS.

Om forfatterne

Sonali Sahu leder intelligent dokumentbehandling med AI/ML-tjenesteteamet i AWS. Hun er en forfatter, tankeleder og lidenskapelig teknolog. Hennes kjernefokusområde er AI og ML, og hun snakker ofte på AI- og ML-konferanser og møter rundt om i verden. Hun har både bred og dyp erfaring innen teknologi og teknologibransjen, med bransjekompetanse innen helsevesen, finanssektoren og forsikring.

Intelligent dokumentbehandling med Amazon Textract, Amazon Bedrock og LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Anjan Biswas er en senior AI Services Solutions Architect med fokus på AI/ML og Data Analytics. Anjan er en del av det verdensomspennende AI-tjenesteteamet og jobber med kunder for å hjelpe dem med å forstå og utvikle løsninger på forretningsproblemer med AI og ML. Anjan har over 14 års erfaring med å jobbe med globale forsyningskjeder, produksjons- og detaljhandelsorganisasjoner, og hjelper aktivt kunder med å komme i gang og skalere på AWS AI-tjenester.

Chinmayee Rane er en AI/ML-spesialistløsningsarkitekt hos Amazon Web Services. Hun brenner for anvendt matematikk og maskinlæring. Hun fokuserer på å designe intelligent dokumentbehandling og generative AI-løsninger for AWS-kunder. Utenom jobben liker hun salsa og bachata dans.