Intelligent Document Processing With Amazon Textract, Amazon Bedrock, And LangChain

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

आज के सूचना युग में, अनगिनत दस्तावेजों में रखे गए डेटा की विशाल मात्रा व्यवसायों के लिए एक चुनौती और एक अवसर दोनों प्रस्तुत करती है। पारंपरिक दस्तावेज़ प्रसंस्करण विधियाँ अक्सर दक्षता और सटीकता में कम होती हैं, जिससे नवाचार, लागत-दक्षता और अनुकूलन के लिए जगह बच जाती है। इंटेलिजेंट डॉक्यूमेंट प्रोसेसिंग (आईडीपी) के आगमन के साथ दस्तावेज़ प्रसंस्करण में महत्वपूर्ण प्रगति देखी गई है। आईडीपी के साथ, व्यवसाय विभिन्न दस्तावेज़ प्रकारों से असंरचित डेटा को संरचित, कार्रवाई योग्य अंतर्दृष्टि में बदल सकते हैं, नाटकीय रूप से दक्षता बढ़ा सकते हैं और मैन्युअल प्रयासों को कम कर सकते हैं। हालाँकि, संभावना यहीं समाप्त नहीं होती है। प्रक्रिया में जनरेटिव आर्टिफिशियल इंटेलिजेंस (एआई) को एकीकृत करके, हम आईडीपी क्षमताओं को और बढ़ा सकते हैं। जेनरेटिव एआई न केवल दस्तावेज़ प्रसंस्करण में उन्नत क्षमताओं का परिचय देता है, बल्कि यह बदलते डेटा पैटर्न के लिए एक गतिशील अनुकूलनशीलता भी पेश करता है। यह पोस्ट आपको आईडीपी और जेनरेटिव एआई के तालमेल के बारे में बताती है, जिससे पता चलता है कि वे दस्तावेज़ प्रसंस्करण में अगली सीमा का प्रतिनिधित्व कैसे करते हैं।

हम अपनी श्रृंखला AWS AI सेवाओं के साथ इंटेलिजेंट दस्तावेज़ प्रसंस्करण में IDP पर विस्तार से चर्चा करते हैं (भाग 1 और भाग 2). इस पोस्ट में, हम चर्चा करते हैं कि बड़े भाषा मॉडल (एलएलएम) के साथ एक नए या मौजूदा आईडीपी आर्किटेक्चर का विस्तार कैसे किया जाए। अधिक विशेष रूप से, हम चर्चा करते हैं कि हम कैसे एकीकृत हो सकते हैं अमेज़न टेक्सट्रेक साथ में लैंगचैन दस्तावेज़ लोडर के रूप में और अमेज़ॅन बेडरॉक दस्तावेज़ों से डेटा निकालने और विभिन्न आईडीपी चरणों के भीतर जेनरेटिव एआई क्षमताओं का उपयोग करने के लिए।

अमेज़ॅन टेक्स्टट्रैक्ट एक मशीन लर्निंग (एमएल) सेवा है जो स्कैन किए गए दस्तावेज़ों से स्वचालित रूप से टेक्स्ट, लिखावट और डेटा निकालती है। अमेज़ॅन बेडरॉक एक पूरी तरह से प्रबंधित सेवा है जो उपयोग में आसान एपीआई के माध्यम से उच्च प्रदर्शन वाले फाउंडेशन मॉडल (एफएम) का विकल्प प्रदान करती है।

निम्नलिखित आरेख एक उच्च-स्तरीय संदर्भ आर्किटेक्चर है जो बताता है कि आप फाउंडेशन मॉडल के साथ आईडीपी वर्कफ़्लो को और कैसे बढ़ा सकते हैं। आप उपयोग के मामले और वांछित परिणाम के आधार पर आईडीपी के एक या सभी चरणों में एलएलएम का उपयोग कर सकते हैं।

निम्नलिखित अनुभागों में, हम इस बात पर गहराई से विचार करते हैं कि इनमें से प्रत्येक विशिष्ट कार्य के लिए दस्तावेजों को संसाधित करने के लिए लैंगचेन का उपयोग करके अमेज़ॅन टेक्स्टट्रैक्ट को जेनरेटिव एआई वर्कफ़्लो में कैसे एकीकृत किया जाता है। यहां दिए गए कोड ब्लॉक को संक्षिप्तता के लिए छोटा कर दिया गया है। हमारा संदर्भ लें गिटहब भंडार विस्तृत पायथन नोटबुक और चरण-दर-चरण पूर्वाभ्यास के लिए।

जब एलएलएम के साथ दस्तावेजों को संसाधित करने की बात आती है तो दस्तावेजों से पाठ निकालना एक महत्वपूर्ण पहलू है। आप दस्तावेज़ों से असंरचित कच्चे पाठ को निकालने और दस्तावेज़ में मौजूद मूल अर्ध-संरचित या संरचित वस्तुओं जैसे कुंजी-मूल्य जोड़े और तालिकाओं को संरक्षित करने के लिए अमेज़ॅन टेक्स्टट्रैक्ट का उपयोग कर सकते हैं। स्वास्थ्य देखभाल और बीमा दावों या बंधक जैसे दस्तावेज़ पैकेजों में जटिल रूप होते हैं जिनमें संरचित, अर्ध-संरचित और असंरचित प्रारूपों में बहुत सारी जानकारी होती है। दस्तावेज़ निष्कर्षण यहां एक महत्वपूर्ण कदम है क्योंकि एलएलएम अधिक सटीक और प्रासंगिक प्रतिक्रियाएं उत्पन्न करने के लिए समृद्ध सामग्री से लाभान्वित होते हैं, जो अन्यथा एलएलएम के आउटपुट की गुणवत्ता को प्रभावित कर सकते हैं।

लैंगचेन एलएलएम के साथ एकीकरण के लिए एक शक्तिशाली ओपन-सोर्स ढांचा है। सामान्य तौर पर एलएलएम बहुमुखी हैं, लेकिन उन डोमेन-विशिष्ट कार्यों में संघर्ष करना पड़ सकता है जहां गहन संदर्भ और सूक्ष्म प्रतिक्रियाओं की आवश्यकता होती है। लैंगचेन ऐसे परिदृश्यों में डेवलपर्स को ऐसे एजेंट बनाने का अधिकार देता है जो जटिल कार्यों को छोटे उप-कार्यों में तोड़ सकते हैं। फिर उप-कार्य एलएलएम संकेतों को कनेक्ट और चेन करके एलएलएम में संदर्भ और मेमोरी पेश कर सकते हैं।

लैंगचेन ऑफर करता है दस्तावेज़ लोडर जो दस्तावेज़ों से डेटा लोड और परिवर्तित कर सकता है। आप दस्तावेज़ों को पसंदीदा प्रारूपों में संरचित करने के लिए उनका उपयोग कर सकते हैं जिन्हें एलएलएम द्वारा संसाधित किया जा सकता है। AmazonTextractPDFLoader एक सर्विस लोडर प्रकार का दस्तावेज़ लोडर है जो लैंगचेन के साथ संयोजन में अमेज़ॅन टेक्स्टट्रैक्ट का उपयोग करके दस्तावेज़ प्रसंस्करण को स्वचालित करने का त्वरित तरीका प्रदान करता है। अधिक जानकारी के लिए AmazonTextractPDFLoader, को देखें लैंगचैन दस्तावेज़ीकरण. अमेज़ॅन टेक्स्टट्रैक्ट दस्तावेज़ लोडर का उपयोग करने के लिए, आप इसे लैंगचेन लाइब्रेरी से आयात करके शुरू करें:

from langchain.document_loaders import AmazonTextractPDFLoader

https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()

आप Amazon S3 में भी दस्तावेज़ संग्रहीत कर सकते हैं और उन्हें s3:// URL पैटर्न का उपयोग करके संदर्भित कर सकते हैं, जैसा कि इसमें बताया गया है S3:// का उपयोग करके बकेट तक पहुँचना, और इस S3 पथ को Amazon Texttract PDF लोडर पर पास करें:

import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()

एक बहु-पृष्ठ दस्तावेज़ में पाठ के कई पृष्ठ होंगे, जिन्हें दस्तावेज़ ऑब्जेक्ट के माध्यम से पहुँचा जा सकता है, जो पृष्ठों की एक सूची है। निम्नलिखित कोड दस्तावेज़ ऑब्जेक्ट में पृष्ठों के माध्यम से लूप करता है और दस्तावेज़ टेक्स्ट को प्रिंट करता है, जो इसके माध्यम से उपलब्ध है page_content विशेषता:

print(len(documents)) for document in documents: print(document.page_content)

दस्तावेज़ वर्गीकरण के लिए अमेज़न कॉम्प्रिहेंशन और एलएलएम का प्रभावी ढंग से उपयोग किया जा सकता है। अमेज़ॅन कॉम्प्रिहेंड एक प्राकृतिक भाषा प्रसंस्करण (एनएलपी) सेवा है जो पाठ से अंतर्दृष्टि निकालने के लिए एमएल का उपयोग करती है। अमेज़ॅन कॉम्प्रिहेंड पीडीएफ, वर्ड और छवि प्रारूपों जैसे दस्तावेज़ों पर लेआउट जागरूकता के साथ कस्टम वर्गीकरण मॉडल प्रशिक्षण का भी समर्थन करता है। Amazon Comprehend दस्तावेज़ क्लासिफायर का उपयोग करने के बारे में अधिक जानकारी के लिए, देखें अमेज़ॅन कॉम्प्रिहेंड दस्तावेज़ क्लासिफायरियर उच्च सटीकता के लिए लेआउट समर्थन जोड़ता है.

जब एलएलएम के साथ जोड़ा जाता है, तो दस्तावेज़ वर्गीकरण बड़ी मात्रा में दस्तावेज़ों के प्रबंधन के लिए एक शक्तिशाली दृष्टिकोण बन जाता है। एलएलएम दस्तावेज़ वर्गीकरण में सहायक होते हैं क्योंकि वे प्राकृतिक भाषा समझ का उपयोग करके दस्तावेज़ में पाठ, पैटर्न और प्रासंगिक तत्वों का विश्लेषण कर सकते हैं। आप उन्हें विशिष्ट दस्तावेज़ वर्गों के लिए भी ठीक कर सकते हैं। जब आईडीपी पाइपलाइन में पेश किए गए एक नए दस्तावेज़ प्रकार को वर्गीकरण की आवश्यकता होती है, तो एलएलएम पाठ को संसाधित कर सकता है और कक्षाओं के एक सेट को देखते हुए दस्तावेज़ को वर्गीकृत कर सकता है। निम्नलिखित एक नमूना कोड है जो दस्तावेज़ से पाठ निकालने और दस्तावेज़ को वर्गीकृत करने के लिए अमेज़ॅन टेक्स्टट्रैक्ट द्वारा संचालित लैंगचेन दस्तावेज़ लोडर का उपयोग करता है। हम उपयोग करते हैं एंथ्रोपिक क्लाउड v2 वर्गीकरण करने के लिए अमेज़ॅन बेडरॉक के माध्यम से मॉडल।

निम्नलिखित उदाहरण में, हम पहले एक रोगी डिस्चार्ज रिपोर्ट से पाठ निकालते हैं और तीन अलग-अलग दस्तावेज़ प्रकारों की सूची देकर इसे वर्गीकृत करने के लिए एलएलएम का उपयोग करते हैं-DISCHARGE_SUMMARY, RECEIPT, तथा PRESCRIPTION. निम्नलिखित स्क्रीनशॉट हमारी रिपोर्ट दिखाता है।

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")

सारांशीकरण में किसी दिए गए पाठ या दस्तावेज़ को उसकी मुख्य जानकारी को बनाए रखते हुए एक छोटे संस्करण में संक्षिप्त करना शामिल है। यह तकनीक कुशल सूचना पुनर्प्राप्ति के लिए फायदेमंद है, जो उपयोगकर्ताओं को पूरी सामग्री को पढ़े बिना किसी दस्तावेज़ के मुख्य बिंदुओं को जल्दी से समझने में सक्षम बनाती है। हालाँकि अमेज़ॅन टेक्स्टट्रैक्ट सीधे पाठ सारांश नहीं करता है, लेकिन यह दस्तावेज़ों से संपूर्ण पाठ निकालने की मूलभूत क्षमताएं प्रदान करता है। यह निकाला गया पाठ पाठ सारांशीकरण कार्यों को करने के लिए हमारे एलएलएम मॉडल में एक इनपुट के रूप में कार्य करता है।

हम उसी सैंपल डिस्चार्ज रिपोर्ट का उपयोग करते हैं AmazonTextractPDFLoader इस दस्तावेज़ से पाठ निकालने के लिए. पहले की तरह, हम अमेज़ॅन बेडरॉक के माध्यम से क्लाउड वी2 मॉडल का उपयोग करते हैं और इसे एक प्रॉम्प्ट के साथ प्रारंभ करते हैं जिसमें पाठ के साथ क्या करना है (इस मामले में, सारांश) पर निर्देश शामिल हैं। अंत में, हम दस्तावेज़ लोडर से निकाले गए टेक्स्ट को पास करके एलएलएम श्रृंखला चलाते हैं। यह एलएलएम पर संकेत के साथ एक अनुमान क्रिया चलाता है जिसमें सारांशित करने के निर्देश होते हैं, और दस्तावेज़ के पाठ को चिह्नित किया जाता है Document। निम्नलिखित कोड देखें:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() template = """ Given a full document, give me a concise summary. Skip any preamble text and just give the summary. <document>{doc_text}</document>
<summary>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") num_tokens = bedrock_llm.get_num_tokens(document[0].page_content)
print (f"Our prompt has {num_tokens} tokens nn=========================n") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
summary = llm_chain.run(document[0].page_content) print(summary.replace("</summary>","").strip())

कोड रोगी डिस्चार्ज सारांश रिपोर्ट का सारांश उत्पन्न करता है:

Our prompt has 797 tokens =========================
35 yo M admitted for epigastric abdominal pain, nausea, fatigue. Found to likely have ulcer. Discharged with activity restrictions, antibiotics, diet changes, and follow up.

पिछले उदाहरण में सारांशीकरण करने के लिए एकल-पृष्ठ दस्तावेज़ का उपयोग किया गया था। हालाँकि, आपको संभवतः कई पृष्ठों वाले दस्तावेज़ों से निपटना होगा जिनके सारांश की आवश्यकता है। एकाधिक पृष्ठों पर सारांशीकरण करने का एक सामान्य तरीका यह है कि पहले पाठ के छोटे टुकड़ों पर सारांश तैयार किया जाए और फिर दस्तावेज़ का अंतिम सारांश प्राप्त करने के लिए छोटे सारांशों को संयोजित किया जाए। ध्यान दें कि इस विधि के लिए एलएलएम में एकाधिक कॉल की आवश्यकता होती है। इसके लिए तर्क आसानी से तैयार किया जा सकता है; हालाँकि, लैंगचेन एक अंतर्निहित सारांश श्रृंखला प्रदान करता है जो बड़े पाठों (बहु-पृष्ठ दस्तावेज़ों से) को सारांशित कर सकता है। संक्षेपण किसी भी माध्यम से हो सकता है map_reduce या के साथ stuff विकल्प, जो एलएलएम में एकाधिक कॉलों को प्रबंधित करने के विकल्प के रूप में उपलब्ध हैं। निम्नलिखित उदाहरण में, हम उपयोग करते हैं map_reduce एक बहु-पृष्ठ दस्तावेज़ को सारांशित करने के लिए। निम्नलिखित चित्र हमारे वर्कफ़्लो को दर्शाता है।

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

आइए सबसे पहले दस्तावेज़ को निकालकर शुरुआत करें और प्रति पृष्ठ कुल टोकन संख्या और पृष्ठों की कुल संख्या देखें:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") loader = AmazonTextractPDFLoader(f"s3://{data_bucket}/bedrock-sample/health_plan.pdf")
document = loader.load()
num_docs = len(document)
print (f"There are {num_docs} pages in the document")
for index, doc in enumerate(document): num_tokens_first_doc = bedrock_llm.get_num_tokens(doc.page_content) print (f"Page {index+1} has approx. {num_tokens_first_doc} tokens") There are 5 pages in the document
Page 1 has approx. 533 tokens
Page 2 has approx. 1323 tokens
Page 3 has approx. 997 tokens
Page 4 has approx. 1643 tokens
Page 5 has approx. 867 tokens

इसके बाद, हम लैंगचेन के बिल्ट-इन का उपयोग करते हैं load_summarize_chain संपूर्ण दस्तावेज़ को संक्षेप में प्रस्तुत करने के लिए:

from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())

मानकीकरण और प्रश्नोत्तर

इस अनुभाग में, हम मानकीकरण और प्रश्नोत्तर कार्यों पर चर्चा करते हैं।

मानकीकरण

आउटपुट मानकीकरण एक टेक्स्ट जनरेशन कार्य है जहां एलएलएम का उपयोग आउटपुट टेक्स्ट का सुसंगत स्वरूपण प्रदान करने के लिए किया जाता है। यह कार्य मुख्य इकाई निष्कर्षण के स्वचालन के लिए विशेष रूप से उपयोगी है जिसके लिए आउटपुट को वांछित प्रारूपों के साथ संरेखित करने की आवश्यकता होती है। उदाहरण के लिए, हम एलएलएम को एमएम/डीडी/वाईवाईवाईवाई प्रारूप में प्रारूपित करने के लिए एलएलएम को ठीक करने के लिए त्वरित इंजीनियरिंग सर्वोत्तम प्रथाओं का पालन कर सकते हैं, जो डेटाबेस DATE कॉलम के साथ संगत हो सकता है। निम्नलिखित कोड ब्लॉक एक उदाहरण दिखाता है कि एलएलएम और प्रॉम्प्ट इंजीनियरिंग का उपयोग करके यह कैसे किया जाता है। न केवल हम दिनांक मानों के लिए आउटपुट प्रारूप को मानकीकृत करते हैं, हम मॉडल को JSON प्रारूप में अंतिम आउटपुट उत्पन्न करने के लिए भी प्रेरित करते हैं ताकि यह हमारे डाउनस्ट्रीम अनुप्रयोगों में आसानी से उपभोग योग्य हो। हम उपयोग करते हैं लैंगचेन अभिव्यक्ति भाषा (एलसीईएल) दो क्रियाओं को एक साथ जोड़ने के लिए। पहली कार्रवाई एलएलएम को दस्तावेज़ से केवल तारीखों का JSON प्रारूप आउटपुट उत्पन्न करने के लिए प्रेरित करती है। दूसरी कार्रवाई JSON आउटपुट लेती है और दिनांक प्रारूप को मानकीकृत करती है। ध्यान दें कि यह दो-चरणीय कार्रवाई उचित त्वरित इंजीनियरिंग के साथ एक ही चरण में भी की जा सकती है, जैसा कि हम सामान्यीकरण और टेम्पलेटिंग में देखेंगे।

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/discharge-summary.png")
document = loader.load() bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") template1 = """ Given a full document, answer the question and format the output in the format specified. Skip any preamble text and just generate the JSON. <format>
{{ "key_name":"key_value"
}}
</format>
<document>{doc_text}</document>
<question>{question}</question>""" template2 = """ Given a JSON document, format the dates in the value fields precisely in the provided format. Skip any preamble text and just generate the JSON. <format>DD/MM/YYYY</format>
<json_document>{json_doc}</json_document> """ prompt1 = PromptTemplate(template=template1, input_variables=["doc_text", "question"])
llm_chain = LLMChain(prompt=prompt1, llm=bedrock_llm, verbose=True) prompt2 = PromptTemplate(template=template2, input_variables=["json_doc"])
llm_chain2 = LLMChain(prompt=prompt2, llm=bedrock_llm, verbose=True) chain = ( llm_chain | {'json_doc': lambda x: x['text'] } | llm_chain2
) std_op = chain.invoke({ "doc_text": document[0].page_content, "question": "Can you give me the patient admitted and discharge dates?"}) print(std_op['text']) { "admit_date":"07/09/2020", "discharge_date":"08/09/2020"
}

पूर्ववर्ती कोड नमूने का आउटपुट दिनांक 07/09/2020 और 08/09/2020 के साथ एक JSON संरचना है, जो DD/MM/YYYY प्रारूप में हैं और क्रमशः अस्पताल से मरीज के प्रवेश और छुट्टी की तारीख हैं। डिस्चार्ज सारांश रिपोर्ट के लिए.

पुनर्प्राप्ति संवर्धित पीढ़ी के साथ प्रश्नोत्तर

एलएलएम को तथ्यात्मक जानकारी बनाए रखने के लिए जाना जाता है, जिसे अक्सर उनके विश्व ज्ञान या विश्व दृष्टिकोण के रूप में जाना जाता है। जब इन्हें ठीक किया जाता है, तो वे अत्याधुनिक परिणाम दे सकते हैं। हालाँकि, इस बात पर बाधाएँ हैं कि एलएलएम इस ज्ञान तक कितनी प्रभावी ढंग से पहुँच बना सकता है और उसमें हेरफेर कर सकता है। परिणामस्वरूप, ऐसे कार्यों में जो विशिष्ट ज्ञान पर बहुत अधिक निर्भर होते हैं, उनका प्रदर्शन कुछ उपयोग के मामलों के लिए इष्टतम नहीं हो सकता है। उदाहरण के लिए, प्रश्नोत्तर परिदृश्यों में, मॉडल के लिए केवल अपने विश्व ज्ञान पर भरोसा किए बिना दस्तावेज़ में दिए गए संदर्भ का सख्ती से पालन करना आवश्यक है। इससे विचलित होने पर गलत बयानी, अशुद्धियाँ या यहाँ तक कि गलत प्रतिक्रियाएँ भी हो सकती हैं। इस समस्या के समाधान के लिए सबसे अधिक उपयोग की जाने वाली विधि को कहा जाता है पुनर्प्राप्ति संवर्धित पीढ़ी (आरएजी)। यह दृष्टिकोण पुनर्प्राप्ति मॉडल और भाषा मॉडल दोनों की शक्तियों का समन्वय करता है, जिससे उत्पन्न प्रतिक्रियाओं की सटीकता और गुणवत्ता में वृद्धि होती है।

एलएलएम अपनी मेमोरी बाधाओं और उनके द्वारा चलाए जाने वाले हार्डवेयर की सीमाओं के कारण टोकन सीमाएं भी लगा सकते हैं। इस समस्या से निपटने के लिए, बड़े दस्तावेज़ों को छोटे भागों में विभाजित करने के लिए चंकिंग जैसी तकनीकों का उपयोग किया जाता है जो एलएलएम की टोकन सीमा के भीतर फिट होते हैं। दूसरी ओर, एनएलपी में एम्बेडिंग का उपयोग मुख्य रूप से उच्च-आयामी स्थान में शब्दों के अर्थपूर्ण अर्थ और अन्य शब्दों के साथ उनके संबंधों को पकड़ने के लिए किया जाता है। ये एम्बेडिंग शब्दों को वैक्टर में बदल देते हैं, जिससे मॉडल को पाठ्य डेटा को कुशलतापूर्वक संसाधित करने और समझने की अनुमति मिलती है। शब्दों और वाक्यांशों के बीच अर्थ संबंधी बारीकियों को समझकर, एम्बेडिंग एलएलएम को सुसंगत और प्रासंगिक रूप से प्रासंगिक आउटपुट उत्पन्न करने में सक्षम बनाती है। निम्नलिखित प्रमुख शब्दों पर ध्यान दें:

बेडौल - यह प्रक्रिया दस्तावेजों से बड़ी मात्रा में पाठ को छोटे, सार्थक पाठों में तोड़ देती है।
embeddings - ये प्रत्येक खंड के निश्चित-आयामी वेक्टर परिवर्तन हैं जो खंड से अर्थ संबंधी जानकारी बनाए रखते हैं। इन एम्बेडिंग को बाद में एक वेक्टर डेटाबेस में लोड किया जाता है।
वेक्टर डेटाबेस - यह शब्द एम्बेडिंग या वैक्टर का एक डेटाबेस है जो शब्दों के संदर्भ का प्रतिनिधित्व करता है। यह एक ज्ञान स्रोत के रूप में कार्य करता है जो दस्तावेज़ प्रसंस्करण पाइपलाइनों में एनएलपी कार्यों में सहायता करता है। यहां वेक्टर डेटाबेस का लाभ यह है कि पाठ निर्माण के दौरान एलएलएम को केवल आवश्यक संदर्भ प्रदान करने की अनुमति मिलती है, जैसा कि हम निम्नलिखित अनुभाग में बताते हैं।

आरएजी पुनर्प्राप्ति चरण के दौरान प्रासंगिक दस्तावेज़ खंडों को समझने और लाने के लिए एम्बेडिंग की शक्ति का उपयोग करता है। ऐसा करने से, आरएजी एलएलएम की टोकन सीमाओं के भीतर काम कर सकता है, यह सुनिश्चित करते हुए कि पीढ़ी के लिए सबसे प्रासंगिक जानकारी का चयन किया जाता है, जिसके परिणामस्वरूप अधिक सटीक और प्रासंगिक रूप से प्रासंगिक आउटपुट प्राप्त होते हैं।

निम्नलिखित आरेख एलएलएम में इनपुट तैयार करने, उनकी प्रासंगिक समझ को बढ़ाने और अधिक प्रासंगिक संदर्भ प्रतिक्रियाओं को सक्षम करने के लिए इन तकनीकों के एकीकरण को दर्शाता है। एक दृष्टिकोण में वेक्टर डेटाबेस और चंकिंग दोनों का उपयोग करते हुए समानता खोज शामिल है। वेक्टर डेटाबेस सिमेंटिक जानकारी का प्रतिनिधित्व करने वाले एम्बेडिंग को संग्रहीत करता है, और चंकिंग पाठ को प्रबंधनीय अनुभागों में विभाजित करता है। समानता खोज से इस संदर्भ का उपयोग करते हुए, एलएलएम प्रश्न उत्तर और वर्गीकरण और संवर्धन जैसे डोमेन-विशिष्ट संचालन जैसे कार्य चला सकते हैं।

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

इस पोस्ट के लिए, हम दस्तावेजों के साथ संदर्भ में प्रश्नोत्तर करने के लिए आरएजी-आधारित दृष्टिकोण का उपयोग करते हैं। निम्नलिखित कोड नमूने में, हम एक दस्तावेज़ से टेक्स्ट निकालते हैं और फिर दस्तावेज़ को टेक्स्ट के छोटे टुकड़ों में विभाजित करते हैं। चंकिंग आवश्यक है क्योंकि हमारे पास बड़े बहु-पृष्ठ दस्तावेज़ हो सकते हैं और हमारे एलएलएम में टोकन सीमाएँ हो सकती हैं। इन टुकड़ों को बाद के चरणों में समानता खोज करने के लिए वेक्टर डेटाबेस में लोड किया जाता है। निम्नलिखित उदाहरण में, हम अमेज़ॅन टाइटन एंबेड टेक्स्ट v1 मॉडल का उपयोग करते हैं, जो दस्तावेज़ खंडों की वेक्टर एम्बेडिंग करता है:

from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import BedrockEmbeddings
from langchain.vectorstores import FAISS
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.chains import RetrievalQA loader = AmazonTextractPDFLoader("amazon_10k.pdf")
document = loader.load() text_splitter = RecursiveCharacterTextSplitter(chunk_size=400, separators=["nn", "n", ".", "!", "?", ",", " ", ""], chunk_overlap=0)
texts = text_splitter.split_documents(document)
embeddings = BedrockEmbeddings(client=bedrock, model_id="amazon.titan-embed-text-v1")
db = FAISS.from_documents(documents=texts, embedding=embeddings) retriever = db.as_retriever(search_type='mmr', search_kwargs={"k": 3}) template = """ Answer the question as truthfully as possible strictly using only the provided text, and if the answer is not contained within the text, say "I don't know". Skip any preamble text and reasoning and give just the answer. <text>{context}</text>
<question>{question}</question>
<answer>""" # define the prompt template
qa_prompt = PromptTemplate(template=template, input_variables=["context","question"]) chain_type_kwargs = { "prompt": qa_prompt, "verbose": False } # change verbose to True if you need to see what's happening bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
qa = RetrievalQA.from_chain_type( llm=bedrock_llm, chain_type="stuff", retriever=retriever, chain_type_kwargs=chain_type_kwargs, verbose=False # change verbose to True if you need to see what's happening
) question="Who is the administrator for this plan?"
result = qa.run(question)
print(result.strip())

कोड पाठ के उन हिस्सों का उपयोग करके एलएलएम के लिए एक प्रासंगिक संदर्भ बनाता है जो वेक्टर डेटाबेस से समानता खोज कार्रवाई द्वारा लौटाए जाते हैं। इस उदाहरण के लिए, हम एक ओपन-सोर्स का उपयोग करते हैं FAISS वेक्टर स्टोर पाठ के प्रत्येक भाग के वेक्टर एम्बेडिंग को संग्रहीत करने के लिए एक नमूना वेक्टर डेटाबेस के रूप में। फिर हम वेक्टर डेटाबेस को इस प्रकार परिभाषित करते हैं लैंगचैन रिट्रीवर, जिसे में पारित किया गया है RetrievalQA जंजीर। यह आंतरिक रूप से वेक्टर डेटाबेस पर एक समानता खोज क्वेरी चलाता है जो प्रश्न के लिए प्रासंगिक पाठ के शीर्ष n (जहां हमारे उदाहरण में n = 3) भाग लौटाता है। अंत में, एलएलएम श्रृंखला को प्रासंगिक संदर्भ (पाठ के प्रासंगिक खंडों का एक समूह) और एलएलएम के उत्तर देने के लिए प्रश्न के साथ चलाया जाता है। RAG के साथ Q&A के चरण-दर-चरण कोड वॉकथ्रू के लिए, Python नोटबुक देखें GitHub.

FAISS के विकल्प के रूप में आप इसका भी उपयोग कर सकते हैं अमेज़ॅन ओपनसर्च सेवा वेक्टर डेटाबेस क्षमताएं, PostgreSQL के लिए Amazon रिलेशनल डेटाबेस सर्विस (Amazon RDS) साथ पीजीवेक्टर वेक्टर डेटाबेस, या ओपन-सोर्स क्रोमा डेटाबेस के रूप में विस्तार।

सारणीबद्ध डेटा के साथ प्रश्नोत्तर

दस्तावेज़ों के भीतर सारणीबद्ध डेटा को इसकी संरचनात्मक जटिलता के कारण संसाधित करना एलएलएम के लिए चुनौतीपूर्ण हो सकता है। अमेज़ॅन टेक्स्टट्रैक्ट को एलएलएम के साथ संवर्धित किया जा सकता है क्योंकि यह पेज, टेबल और सेल जैसे तत्वों के नेस्टेड प्रारूप में दस्तावेज़ों से तालिकाएँ निकालने में सक्षम बनाता है। सारणीबद्ध डेटा के साथ प्रश्नोत्तर करना एक बहु-चरणीय प्रक्रिया है, और इसे इसके माध्यम से प्राप्त किया जा सकता है स्वयं पूछताछ. निम्नलिखित चरणों का अवलोकन है:

Amazon Texttract का उपयोग करके दस्तावेज़ों से तालिकाएँ निकालें। अमेज़ॅन टेक्स्टट्रैक्ट के साथ, किसी दस्तावेज़ से सारणीबद्ध संरचना (पंक्तियाँ, कॉलम, हेडर) निकाली जा सकती है।
सारणीबद्ध डेटा को मेटाडेटा जानकारी, जैसे हेडर नाम और प्रत्येक हेडर के विवरण के साथ एक वेक्टर डेटाबेस में संग्रहीत करें।
तालिका से डेटा प्राप्त करने के लिए एलएलएम का उपयोग करके एक संरचित क्वेरी बनाने के लिए प्रॉम्प्ट का उपयोग करें।
वेक्टर डेटाबेस से प्रासंगिक तालिका डेटा निकालने के लिए क्वेरी का उपयोग करें।

उदाहरण के लिए, एक बैंक स्टेटमेंट में, "1000 डॉलर से अधिक जमा राशि वाले लेनदेन क्या हैं" दिए जाने पर एलएलएम निम्नलिखित चरणों को पूरा करेगा:

एक प्रश्न तैयार करें, जैसे कि “Query: transactions” , “filter: greater than (Deposit$)”.
क्वेरी को संरचित क्वेरी में बदलें.
संरचित क्वेरी को वेक्टर डेटाबेस पर लागू करें जहां हमारा तालिका डेटा संग्रहीत है।

सारणीबद्ध प्रश्नोत्तरी के चरण-दर-चरण नमूना कोड वॉकथ्रू के लिए, पायथन नोटबुक देखें GitHub.

टेम्पलेटिंग और सामान्यीकरण

इस अनुभाग में, हम देखते हैं कि एक निर्दिष्ट स्कीमा में दस्तावेज़ से निष्कर्षण के साथ आउटपुट उत्पन्न करने के लिए शीघ्र इंजीनियरिंग तकनीकों और लैंगचेन के अंतर्निहित तंत्र का उपयोग कैसे करें। हम पहले चर्चा की गई तकनीकों का उपयोग करके निकाले गए डेटा पर कुछ मानकीकरण भी करते हैं। हम अपने वांछित आउटपुट के लिए एक टेम्पलेट परिभाषित करके शुरुआत करते हैं। यह एक स्कीमा के रूप में काम करेगा और प्रत्येक इकाई के बारे में विवरण को समाहित करेगा जिसे हम दस्तावेज़ के पाठ से निकालना चाहते हैं।

output_template= { "doctor_name":{ "type": "string", "description": "The doctor or provider's full name" }, "provider_id":{ "type": "string", "description": "The doctor or provider's ID" }, "patient_name":{ "type": "string", "description": "The patient's full name" }, …
}

ध्यान दें कि प्रत्येक इकाई के लिए, हम दस्तावेज़ के पाठ से मूल्य निकालने में एलएलएम की सहायता के लिए यह समझाने के लिए विवरण का उपयोग करते हैं कि वह इकाई क्या है। निम्नलिखित नमूना कोड में, हम इस टेम्पलेट का उपयोग दस्तावेज़ से निकाले गए पाठ के साथ एलएलएम के लिए अपना संकेत तैयार करने के लिए करते हैं AmazonTextractPDFLoader और बाद में मॉडल के साथ अनुमान लगाएं:

from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain template = """ You are a helpful assistant. Please extract the following details from the document and format the output as JSON using the keys. Skip any preamble text and generate the final answer. <details>
{details}
</details> <keys>
{keys}
</keys> <document>
{doc_text}
<document> <final_answer>""" details = "n".join([f"{key}: {value['description']}" for key, value in output_template.items()])
keys = "n".join([f"{key}" for key, value in output_template.items()]) prompt = PromptTemplate(template=template, input_variables=["details", "keys", "doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
output = llm_chain.run({"doc_text": full_text, "details": details, "keys": keys}) print(output) { "doctor_name": "Mateo Jackson, Phd", "provider_id": "XA/7B/00338763", "patient_name": "John Doe", … }

आप देख सकते हैं, {keys} प्रॉम्प्ट का हिस्सा हमारे टेम्पलेट की कुंजियाँ हैं, और {details} उनके विवरण सहित कुंजियाँ दी गई हैं। इस मामले में, हम JSON प्रारूप में आउटपुट उत्पन्न करने के निर्देश में निर्दिष्ट करने के अलावा आउटपुट के प्रारूप के साथ मॉडल को स्पष्ट रूप से संकेत नहीं देते हैं। यह अधिकांश भाग के लिए काम करता है; हालाँकि, क्योंकि एलएलएम से आउटपुट गैर-नियतात्मक पाठ पीढ़ी है, हम प्रॉम्प्ट में निर्देश के भाग के रूप में प्रारूप को स्पष्ट रूप से निर्दिष्ट करना चाहते हैं। इसे हल करने के लिए, हम लैंगचेन का उपयोग कर सकते हैं संरचित आउटपुट पार्सर स्वचालित प्रॉम्प्ट इंजीनियरिंग का लाभ उठाने के लिए मॉड्यूल जो हमारे टेम्पलेट को एक प्रारूप अनुदेश प्रॉम्प्ट में परिवर्तित करने में मदद करता है। हम प्रारूप निर्देश प्रॉम्प्ट उत्पन्न करने के लिए पहले परिभाषित टेम्पलेट का उपयोग निम्नानुसार करते हैं:

from langchain.output_parsers import ResponseSchema
from langchain.output_parsers import StructuredOutputParser response_schems = list() for key, value in output_template.items(): schema = ResponseSchema(name=key, description=value['description'], type=value['type']) response_schems.append(schema)
output_parser = StructuredOutputParser.from_response_schemas(response_schems)
format_instructions= output_parser.get_format_instructions()
print(format_instructions)

RSI format_instructions वेरिएबल अब प्रारूप अनुदेश प्रॉम्प्ट रखता है:

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```": ```json
{ "doctor_name": string // The doctor or provider's full name "provider_id": string // The doctor or provider's ID "patient_name": string // The patient's full name …
}
```

फिर हम एलएलएम के लिए एक निर्देश के रूप में अपने मूल प्रॉम्प्ट के भीतर इस वेरिएबल का उपयोग करते हैं ताकि यह हमारे प्रॉम्प्ट में एक छोटा सा संशोधन करके वांछित स्कीमा में आउटपुट को निकाल और प्रारूपित कर सके:

template = """ You are a helpful assistant. Please extract the following details from the document and strictly follow the instructions described in the format instructions to format the output. Skip any preamble text and generate the final answer. Do not generate incomplete answer. <details>
{details}
</details> <format_instructions>
{format_instructions}
</format_instructions> <document>
{doc_text}
<document> <final_answer>"""

अभी तक, हमने दस्तावेज़ से केवल वांछित स्कीमा में डेटा निकाला है। हालाँकि, हमें अभी भी कुछ मानकीकरण करने की आवश्यकता है। उदाहरण के लिए, हम चाहते हैं कि मरीज की भर्ती तिथि और डिस्चार्ज तिथि DD/MM/YYYY प्रारूप में निकाली जाए। इस मामले में, हम इसे बढ़ाते हैं description फ़ॉर्मेटिंग निर्देश के साथ कुंजी का:

new_output_template= { … "admitted_date":{ "type": "string", "description": "Date the patient was admitted to the hospital, this should be formatted in DD/MM/YYYY format." }, "discharge_date":{ "type": "string", "description": "Date the patient was discharged from the hospital, this should be formatted in DD/MM/YYYY format." …
}

पायथन नोटबुक का संदर्भ लें GitHub संपूर्ण चरण-दर-चरण पूर्वाभ्यास और स्पष्टीकरण के लिए।

वर्तनी जांच और सुधार

एलएलएम ने मानव-सदृश पाठ को समझने और तैयार करने में उल्लेखनीय क्षमताओं का प्रदर्शन किया है। एलएलएम के कम चर्चा वाले लेकिन बेहद उपयोगी अनुप्रयोगों में से एक दस्तावेजों में व्याकरणिक जांच और वाक्य सुधार में उनकी क्षमता है। पारंपरिक व्याकरण जांचकर्ताओं के विपरीत, जो पूर्वनिर्धारित नियमों के एक सेट पर भरोसा करते हैं, एलएलएम उन पैटर्न का उपयोग करते हैं जिन्हें उन्होंने बड़ी मात्रा में टेक्स्ट डेटा से पहचाना है ताकि यह निर्धारित किया जा सके कि सही या धाराप्रवाह भाषा क्या है। इसका मतलब है कि वे उन बारीकियों, संदर्भों और सूक्ष्मताओं का पता लगा सकते हैं जो नियम-आधारित सिस्टम से छूट सकती हैं।

एक रोगी डिस्चार्ज सारांश से निकाले गए पाठ की कल्पना करें जिसमें लिखा है, “रोगी जॉन डो, जिसे गंभीर निमोनिया के साथ भर्ती कराया गया था, ने महत्वपूर्ण सुधार दिखाया है और उसे सुरक्षित रूप से छुट्टी दे दी जा सकती है। फॉलोअप अगले सप्ताह के लिए निर्धारित हैं। एक पारंपरिक वर्तनी-जांचकर्ता "एडमिट," "निमोनिया," "सुधार," और "नेक्स" को त्रुटियों के रूप में पहचान सकता है। हालाँकि, इन त्रुटियों के संदर्भ में आगे गलतियाँ या सामान्य सुझाव हो सकते हैं। एक एलएलएम, जो अपने व्यापक प्रशिक्षण से सुसज्जित है, सुझाव दे सकता है: “रोगी जॉन डो, जिसे गंभीर निमोनिया के साथ भर्ती कराया गया था, ने महत्वपूर्ण सुधार दिखाया है और उसे सुरक्षित रूप से छुट्टी दे दी जा सकती है। अनुवर्ती कार्रवाई अगले सप्ताह के लिए निर्धारित है।

निम्नलिखित एक खराब हस्तलिखित नमूना दस्तावेज़ है जिसमें वही पाठ है जैसा कि पहले बताया गया है।

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

हम अमेज़ॅन टेक्सट्रैक्ट दस्तावेज़ लोडर के साथ दस्तावेज़ निकालते हैं और फिर किसी भी वर्तनी और व्याकरण संबंधी गलतियों को ठीक करने के लिए निकाले गए पाठ को सुधारने के लिए एलएलएम को त्वरित इंजीनियरिंग के माध्यम से निर्देश देते हैं:

from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/hand_written_note.pdf")
document = loader.load() template = """ Given a detailed 'Document', perform spelling and grammatical corrections. Ensure the output is coherent, polished, and free from errors. Skip any preamble text and give the answer. <document>{doc_text}</<document>
<answer> """ prompt = PromptTemplate(template=template, input_variables=["doc_text"])
llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2")
llm_chain = LLMChain(prompt=prompt, llm=llm) try: txt = document[0].page_content std_op = llm_chain.run({"doc_text": txt}) print("Extracted text") print("==============") print(txt) print("nCorrected text") print("==============") print(std_op.strip()) print("n")
except Exception as e: print(str(e))

पूर्ववर्ती कोड का आउटपुट दस्तावेज़ लोडर द्वारा निकाले गए मूल पाठ को दिखाता है और उसके बाद एलएलएम द्वारा उत्पन्न सही पाठ को दिखाता है:

Extracted text
==============
Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Patient John Doe, who was ad mitta with sever pnequonia, has shown Signif i art improumet & can be safely discharged. Follow w/s are scheduled for nen week. Corrected text
==============
Patient John Doe, who was admitted with severe pneumonia, has shown significant improvement and can be safely discharged. Follow-up appointments are scheduled for next week.

ध्यान रखें कि एलएलएम जितने शक्तिशाली हैं, उनके सुझावों को केवल सुझावों के रूप में देखना आवश्यक है। हालाँकि वे भाषा की पेचीदगियों को प्रभावशाली ढंग से पकड़ते हैं, फिर भी वे अचूक नहीं हैं। कुछ सुझाव मूल पाठ के इच्छित अर्थ या स्वर को बदल सकते हैं। इसलिए, मानव समीक्षकों के लिए यह महत्वपूर्ण है कि वे एलएलएम-जनरेटेड सुधारों को एक मार्गदर्शक के रूप में उपयोग करें, न कि पूर्ण रूप से। एलएलएम क्षमताओं के साथ मानव अंतर्ज्ञान का सहयोग एक ऐसे भविष्य का वादा करता है जहां हमारा लिखित संचार न केवल त्रुटि-मुक्त होगा, बल्कि समृद्ध और अधिक सूक्ष्म भी होगा।

निष्कर्ष

जेनरेटिव एआई बदल रहा है कि आप अंतर्दृष्टि प्राप्त करने के लिए आईडीपी के साथ दस्तावेज़ों को कैसे संसाधित कर सकते हैं। पोस्ट में जेनेरिक एआई के साथ एडब्ल्यूएस बुद्धिमान दस्तावेज़ प्रसंस्करण को बढ़ाना, हमने पाइपलाइन के विभिन्न चरणों पर चर्चा की और कैसे एडब्ल्यूएस ग्राहक रिको एलएलएम के साथ अपनी आईडीपी पाइपलाइन को बढ़ा रहा है। इस पोस्ट में, हमने अमेज़ॅन बेडरॉक, अमेज़ॅन टेक्सट्रैक्ट और लोकप्रिय लैंगचेन फ्रेमवर्क के माध्यम से एलएलएम के साथ आईडीपी वर्कफ़्लो को बढ़ाने के विभिन्न तंत्रों पर चर्चा की। आप हमारे यहां उपलब्ध नमूना नोटबुक का उपयोग करके आज ही लैंगचेन के साथ नए अमेज़ॅन टेक्स्टट्रैक्ट दस्तावेज़ लोडर के साथ शुरुआत कर सकते हैं गिटहब भंडार. AWS पर जेनरेटिव AI के साथ काम करने के बारे में अधिक जानकारी के लिए देखें एडब्ल्यूएस पर जनरेटिव एआई के साथ बिल्डिंग के लिए नए टूल्स की घोषणा.

लेखक के बारे में

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. सोनाली साहू AWS में AI/ML सेवा टीम के साथ बुद्धिमान दस्तावेज़ प्रसंस्करण का नेतृत्व कर रहा है। वह एक लेखिका, विचारक नेता और भावुक प्रौद्योगिकीविद् हैं। उनका मुख्य फोकस क्षेत्र एआई और एमएल है, और वह अक्सर दुनिया भर में एआई और एमएल सम्मेलनों और मीटअप में बोलती हैं। स्वास्थ्य सेवा, वित्तीय क्षेत्र और बीमा में उद्योग विशेषज्ञता के साथ, उनके पास प्रौद्योगिकी और प्रौद्योगिकी उद्योग में अनुभव की व्यापकता और गहराई दोनों है।

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. अंजन बिस्वास एआई / एमएल और डेटा एनालिटिक्स पर ध्यान देने के साथ एक वरिष्ठ एआई सेवा समाधान वास्तुकार है। अंजन विश्वव्यापी एआई सेवा टीम का हिस्सा है और एआई और एमएल के साथ व्यावसायिक समस्याओं के समाधान को समझने और विकसित करने में ग्राहकों की मदद करने के लिए उनके साथ काम करता है। अंजन के पास वैश्विक आपूर्ति श्रृंखला, विनिर्माण और खुदरा संगठनों के साथ काम करने का 14 से अधिक वर्षों का अनुभव है, और सक्रिय रूप से ग्राहकों को AWS AI सेवाओं को शुरू करने और बढ़ाने में मदद कर रहा है।

Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. चिन्मयी राणे अमेज़ॅन वेब सर्विसेज में एआई/एमएल स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। उन्हें व्यावहारिक गणित और मशीन लर्निंग का शौक है। वह AWS ग्राहकों के लिए इंटेलिजेंट दस्तावेज़ प्रसंस्करण और जेनरेटिव AI समाधान डिजाइन करने पर ध्यान केंद्रित करती है। काम के अलावा, वह साल्सा और बचाता नृत्य का आनंद लेती है।