आज के सूचना युग में, अनगिनत दस्तावेजों में रखे गए डेटा की विशाल मात्रा व्यवसायों के लिए एक चुनौती और एक अवसर दोनों प्रस्तुत करती है। पारंपरिक दस्तावेज़ प्रसंस्करण विधियाँ अक्सर दक्षता और सटीकता में कम होती हैं, जिससे नवाचार, लागत-दक्षता और अनुकूलन के लिए जगह बच जाती है। इंटेलिजेंट डॉक्यूमेंट प्रोसेसिंग (आईडीपी) के आगमन के साथ दस्तावेज़ प्रसंस्करण में महत्वपूर्ण प्रगति देखी गई है। आईडीपी के साथ, व्यवसाय विभिन्न दस्तावेज़ प्रकारों से असंरचित डेटा को संरचित, कार्रवाई योग्य अंतर्दृष्टि में बदल सकते हैं, नाटकीय रूप से दक्षता बढ़ा सकते हैं और मैन्युअल प्रयासों को कम कर सकते हैं। हालाँकि, संभावना यहीं समाप्त नहीं होती है। प्रक्रिया में जनरेटिव आर्टिफिशियल इंटेलिजेंस (एआई) को एकीकृत करके, हम आईडीपी क्षमताओं को और बढ़ा सकते हैं। जेनरेटिव एआई न केवल दस्तावेज़ प्रसंस्करण में उन्नत क्षमताओं का परिचय देता है, बल्कि यह बदलते डेटा पैटर्न के लिए एक गतिशील अनुकूलनशीलता भी पेश करता है। यह पोस्ट आपको आईडीपी और जेनरेटिव एआई के तालमेल के बारे में बताती है, जिससे पता चलता है कि वे दस्तावेज़ प्रसंस्करण में अगली सीमा का प्रतिनिधित्व कैसे करते हैं।
हम अपनी श्रृंखला AWS AI सेवाओं के साथ इंटेलिजेंट दस्तावेज़ प्रसंस्करण में IDP पर विस्तार से चर्चा करते हैं (भाग 1 और भाग 2). इस पोस्ट में, हम चर्चा करते हैं कि बड़े भाषा मॉडल (एलएलएम) के साथ एक नए या मौजूदा आईडीपी आर्किटेक्चर का विस्तार कैसे किया जाए। अधिक विशेष रूप से, हम चर्चा करते हैं कि हम कैसे एकीकृत हो सकते हैं अमेज़न टेक्सट्रेक साथ में लैंगचैन दस्तावेज़ लोडर के रूप में और अमेज़ॅन बेडरॉक दस्तावेज़ों से डेटा निकालने और विभिन्न आईडीपी चरणों के भीतर जेनरेटिव एआई क्षमताओं का उपयोग करने के लिए।
अमेज़ॅन टेक्स्टट्रैक्ट एक मशीन लर्निंग (एमएल) सेवा है जो स्कैन किए गए दस्तावेज़ों से स्वचालित रूप से टेक्स्ट, लिखावट और डेटा निकालती है। अमेज़ॅन बेडरॉक एक पूरी तरह से प्रबंधित सेवा है जो उपयोग में आसान एपीआई के माध्यम से उच्च प्रदर्शन वाले फाउंडेशन मॉडल (एफएम) का विकल्प प्रदान करती है।
निम्नलिखित आरेख एक उच्च-स्तरीय संदर्भ आर्किटेक्चर है जो बताता है कि आप फाउंडेशन मॉडल के साथ आईडीपी वर्कफ़्लो को और कैसे बढ़ा सकते हैं। आप उपयोग के मामले और वांछित परिणाम के आधार पर आईडीपी के एक या सभी चरणों में एलएलएम का उपयोग कर सकते हैं।
निम्नलिखित अनुभागों में, हम इस बात पर गहराई से विचार करते हैं कि इनमें से प्रत्येक विशिष्ट कार्य के लिए दस्तावेजों को संसाधित करने के लिए लैंगचेन का उपयोग करके अमेज़ॅन टेक्स्टट्रैक्ट को जेनरेटिव एआई वर्कफ़्लो में कैसे एकीकृत किया जाता है। यहां दिए गए कोड ब्लॉक को संक्षिप्तता के लिए छोटा कर दिया गया है। हमारा संदर्भ लें गिटहब भंडार विस्तृत पायथन नोटबुक और चरण-दर-चरण पूर्वाभ्यास के लिए।
जब एलएलएम के साथ दस्तावेजों को संसाधित करने की बात आती है तो दस्तावेजों से पाठ निकालना एक महत्वपूर्ण पहलू है। आप दस्तावेज़ों से असंरचित कच्चे पाठ को निकालने और दस्तावेज़ में मौजूद मूल अर्ध-संरचित या संरचित वस्तुओं जैसे कुंजी-मूल्य जोड़े और तालिकाओं को संरक्षित करने के लिए अमेज़ॅन टेक्स्टट्रैक्ट का उपयोग कर सकते हैं। स्वास्थ्य देखभाल और बीमा दावों या बंधक जैसे दस्तावेज़ पैकेजों में जटिल रूप होते हैं जिनमें संरचित, अर्ध-संरचित और असंरचित प्रारूपों में बहुत सारी जानकारी होती है। दस्तावेज़ निष्कर्षण यहां एक महत्वपूर्ण कदम है क्योंकि एलएलएम अधिक सटीक और प्रासंगिक प्रतिक्रियाएं उत्पन्न करने के लिए समृद्ध सामग्री से लाभान्वित होते हैं, जो अन्यथा एलएलएम के आउटपुट की गुणवत्ता को प्रभावित कर सकते हैं।
लैंगचेन एलएलएम के साथ एकीकरण के लिए एक शक्तिशाली ओपन-सोर्स ढांचा है। सामान्य तौर पर एलएलएम बहुमुखी हैं, लेकिन उन डोमेन-विशिष्ट कार्यों में संघर्ष करना पड़ सकता है जहां गहन संदर्भ और सूक्ष्म प्रतिक्रियाओं की आवश्यकता होती है। लैंगचेन ऐसे परिदृश्यों में डेवलपर्स को ऐसे एजेंट बनाने का अधिकार देता है जो जटिल कार्यों को छोटे उप-कार्यों में तोड़ सकते हैं। फिर उप-कार्य एलएलएम संकेतों को कनेक्ट और चेन करके एलएलएम में संदर्भ और मेमोरी पेश कर सकते हैं।
लैंगचेन ऑफर करता है दस्तावेज़ लोडर जो दस्तावेज़ों से डेटा लोड और परिवर्तित कर सकता है। आप दस्तावेज़ों को पसंदीदा प्रारूपों में संरचित करने के लिए उनका उपयोग कर सकते हैं जिन्हें एलएलएम द्वारा संसाधित किया जा सकता है। AmazonTextractPDFLoader एक सर्विस लोडर प्रकार का दस्तावेज़ लोडर है जो लैंगचेन के साथ संयोजन में अमेज़ॅन टेक्स्टट्रैक्ट का उपयोग करके दस्तावेज़ प्रसंस्करण को स्वचालित करने का त्वरित तरीका प्रदान करता है। अधिक जानकारी के लिए AmazonTextractPDFLoader
, को देखें लैंगचैन दस्तावेज़ीकरण. अमेज़ॅन टेक्स्टट्रैक्ट दस्तावेज़ लोडर का उपयोग करने के लिए, आप इसे लैंगचेन लाइब्रेरी से आयात करके शुरू करें:
from langchain.document_loaders import AmazonTextractPDFLoader
https_loader = AmazonTextractPDFLoader("https://sample-website.com/sample-doc.pdf")
https_document = https_loader.load() s3_loader = AmazonTextractPDFLoader("s3://sample-bucket/sample-doc.pdf")
s3_document = s3_loader.load()
आप Amazon S3 में भी दस्तावेज़ संग्रहीत कर सकते हैं और उन्हें s3:// URL पैटर्न का उपयोग करके संदर्भित कर सकते हैं, जैसा कि इसमें बताया गया है S3:// का उपयोग करके बकेट तक पहुँचना, और इस S3 पथ को Amazon Texttract PDF लोडर पर पास करें:
import boto3
textract_client = boto3.client('textract', region_name='us-east-2') file_path = "s3://amazon-textract-public-content/langchain/layout-parser-paper.pdf"
loader = AmazonTextractPDFLoader(file_path, client=textract_client)
documents = loader.load()
एक बहु-पृष्ठ दस्तावेज़ में पाठ के कई पृष्ठ होंगे, जिन्हें दस्तावेज़ ऑब्जेक्ट के माध्यम से पहुँचा जा सकता है, जो पृष्ठों की एक सूची है। निम्नलिखित कोड दस्तावेज़ ऑब्जेक्ट में पृष्ठों के माध्यम से लूप करता है और दस्तावेज़ टेक्स्ट को प्रिंट करता है, जो इसके माध्यम से उपलब्ध है page_content
विशेषता:
print(len(documents)) for document in documents: print(document.page_content)
दस्तावेज़ वर्गीकरण के लिए अमेज़न कॉम्प्रिहेंशन और एलएलएम का प्रभावी ढंग से उपयोग किया जा सकता है। अमेज़ॅन कॉम्प्रिहेंड एक प्राकृतिक भाषा प्रसंस्करण (एनएलपी) सेवा है जो पाठ से अंतर्दृष्टि निकालने के लिए एमएल का उपयोग करती है। अमेज़ॅन कॉम्प्रिहेंड पीडीएफ, वर्ड और छवि प्रारूपों जैसे दस्तावेज़ों पर लेआउट जागरूकता के साथ कस्टम वर्गीकरण मॉडल प्रशिक्षण का भी समर्थन करता है। Amazon Comprehend दस्तावेज़ क्लासिफायर का उपयोग करने के बारे में अधिक जानकारी के लिए, देखें अमेज़ॅन कॉम्प्रिहेंड दस्तावेज़ क्लासिफायरियर उच्च सटीकता के लिए लेआउट समर्थन जोड़ता है.
जब एलएलएम के साथ जोड़ा जाता है, तो दस्तावेज़ वर्गीकरण बड़ी मात्रा में दस्तावेज़ों के प्रबंधन के लिए एक शक्तिशाली दृष्टिकोण बन जाता है। एलएलएम दस्तावेज़ वर्गीकरण में सहायक होते हैं क्योंकि वे प्राकृतिक भाषा समझ का उपयोग करके दस्तावेज़ में पाठ, पैटर्न और प्रासंगिक तत्वों का विश्लेषण कर सकते हैं। आप उन्हें विशिष्ट दस्तावेज़ वर्गों के लिए भी ठीक कर सकते हैं। जब आईडीपी पाइपलाइन में पेश किए गए एक नए दस्तावेज़ प्रकार को वर्गीकरण की आवश्यकता होती है, तो एलएलएम पाठ को संसाधित कर सकता है और कक्षाओं के एक सेट को देखते हुए दस्तावेज़ को वर्गीकृत कर सकता है। निम्नलिखित एक नमूना कोड है जो दस्तावेज़ से पाठ निकालने और दस्तावेज़ को वर्गीकृत करने के लिए अमेज़ॅन टेक्स्टट्रैक्ट द्वारा संचालित लैंगचेन दस्तावेज़ लोडर का उपयोग करता है। हम उपयोग करते हैं एंथ्रोपिक क्लाउड v2 वर्गीकरण करने के लिए अमेज़ॅन बेडरॉक के माध्यम से मॉडल।
निम्नलिखित उदाहरण में, हम पहले एक रोगी डिस्चार्ज रिपोर्ट से पाठ निकालते हैं और तीन अलग-अलग दस्तावेज़ प्रकारों की सूची देकर इसे वर्गीकृत करने के लिए एलएलएम का उपयोग करते हैं-DISCHARGE_SUMMARY
, RECEIPT
, तथा PRESCRIPTION
. निम्नलिखित स्क्रीनशॉट हमारी रिपोर्ट दिखाता है।
from langchain.document_loaders import AmazonTextractPDFLoader
from langchain.llms import Bedrock
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain loader = AmazonTextractPDFLoader("./samples/document.png")
document = loader.load() template = """ Given a list of classes, classify the document into one of these classes. Skip any preamble text and just give the class name. <classes>DISCHARGE_SUMMARY, RECEIPT, PRESCRIPTION</classes>
<document>{doc_text}<document>
<classification>""" prompt = PromptTemplate(template=template, input_variables=["doc_text"])
bedrock_llm = Bedrock(client=bedrock, model_id="anthropic.claude-v2") llm_chain = LLMChain(prompt=prompt, llm=bedrock_llm)
class_name = llm_chain.run(document[0].page_content) print(f"The provided document is = {class_name}")
सारांशीकरण में किसी दिए गए पाठ या दस्तावेज़ को उसकी मुख्य जानकारी को बनाए रखते हुए एक छोटे संस्करण में संक्षिप्त करना शामिल है। यह तकनीक कुशल सूचना पुनर्प्राप्ति के लिए फायदेमंद है, जो उपयोगकर्ताओं को पूरी सामग्री को पढ़े बिना किसी दस्तावेज़ के मुख्य बिंदुओं को जल्दी से समझने में सक्षम बनाती है। हालाँकि अमेज़ॅन टेक्स्टट्रैक्ट सीधे पाठ सारांश नहीं करता है, लेकिन यह दस्तावेज़ों से संपूर्ण पाठ निकालने की मूलभूत क्षमताएं प्रदान करता है। यह निकाला गया पाठ पाठ सारांशीकरण कार्यों को करने के लिए हमारे एलएलएम मॉडल में एक इनपुट के रूप में कार्य करता है।
हम उसी सैंपल डिस्चार्ज रिपोर्ट का उपयोग करते हैं AmazonTextractPDFLoader
इस दस्तावेज़ से पाठ निकालने के लिए. पहले की तरह, हम अमेज़ॅन बेडरॉक के माध्यम से क्लाउड वी2 मॉडल का उपयोग करते हैं और इसे एक प्रॉम्प्ट के साथ प्रारंभ करते हैं जिसमें पाठ के साथ क्या करना है (इस मामले में, सारांश) पर निर्देश शामिल हैं। अंत में, हम दस्तावेज़ लोडर से निकाले गए टेक्स्ट को पास करके एलएलएम श्रृंखला चलाते हैं। यह एलएलएम पर संकेत के साथ एक अनुमान क्रिया चलाता है जिसमें सारांशित करने के निर्देश होते हैं, और दस्तावेज़ के पाठ को चिह्नित किया जाता है Document
। निम्नलिखित कोड देखें:
कोड रोगी डिस्चार्ज सारांश रिपोर्ट का सारांश उत्पन्न करता है:
पिछले उदाहरण में सारांशीकरण करने के लिए एकल-पृष्ठ दस्तावेज़ का उपयोग किया गया था। हालाँकि, आपको संभवतः कई पृष्ठों वाले दस्तावेज़ों से निपटना होगा जिनके सारांश की आवश्यकता है। एकाधिक पृष्ठों पर सारांशीकरण करने का एक सामान्य तरीका यह है कि पहले पाठ के छोटे टुकड़ों पर सारांश तैयार किया जाए और फिर दस्तावेज़ का अंतिम सारांश प्राप्त करने के लिए छोटे सारांशों को संयोजित किया जाए। ध्यान दें कि इस विधि के लिए एलएलएम में एकाधिक कॉल की आवश्यकता होती है। इसके लिए तर्क आसानी से तैयार किया जा सकता है; हालाँकि, लैंगचेन एक अंतर्निहित सारांश श्रृंखला प्रदान करता है जो बड़े पाठों (बहु-पृष्ठ दस्तावेज़ों से) को सारांशित कर सकता है। संक्षेपण किसी भी माध्यम से हो सकता है map_reduce
या के साथ stuff
विकल्प, जो एलएलएम में एकाधिक कॉलों को प्रबंधित करने के विकल्प के रूप में उपलब्ध हैं। निम्नलिखित उदाहरण में, हम उपयोग करते हैं map_reduce
एक बहु-पृष्ठ दस्तावेज़ को सारांशित करने के लिए। निम्नलिखित चित्र हमारे वर्कफ़्लो को दर्शाता है।
आइए सबसे पहले दस्तावेज़ को निकालकर शुरुआत करें और प्रति पृष्ठ कुल टोकन संख्या और पृष्ठों की कुल संख्या देखें:
इसके बाद, हम लैंगचेन के बिल्ट-इन का उपयोग करते हैं load_summarize_chain
संपूर्ण दस्तावेज़ को संक्षेप में प्रस्तुत करने के लिए:
from langchain.chains.summarize import load_summarize_chain summary_chain = load_summarize_chain(llm=bedrock_llm, chain_type='map_reduce')
output = summary_chain.run(document)
print(output.strip())
मानकीकरण और प्रश्नोत्तर
इस अनुभाग में, हम मानकीकरण और प्रश्नोत्तर कार्यों पर चर्चा करते हैं।
मानकीकरण
आउटपुट मानकीकरण एक टेक्स्ट जनरेशन कार्य है जहां एलएलएम का उपयोग आउटपुट टेक्स्ट का सुसंगत स्वरूपण प्रदान करने के लिए किया जाता है। यह कार्य मुख्य इकाई निष्कर्षण के स्वचालन के लिए विशेष रूप से उपयोगी है जिसके लिए आउटपुट को वांछित प्रारूपों के साथ संरेखित करने की आवश्यकता होती है। उदाहरण के लिए, हम एलएलएम को एमएम/डीडी/वाईवाईवाईवाई प्रारूप में प्रारूपित करने के लिए एलएलएम को ठीक करने के लिए त्वरित इंजीनियरिंग सर्वोत्तम प्रथाओं का पालन कर सकते हैं, जो डेटाबेस DATE कॉलम के साथ संगत हो सकता है। निम्नलिखित कोड ब्लॉक एक उदाहरण दिखाता है कि एलएलएम और प्रॉम्प्ट इंजीनियरिंग का उपयोग करके यह कैसे किया जाता है। न केवल हम दिनांक मानों के लिए आउटपुट प्रारूप को मानकीकृत करते हैं, हम मॉडल को JSON प्रारूप में अंतिम आउटपुट उत्पन्न करने के लिए भी प्रेरित करते हैं ताकि यह हमारे डाउनस्ट्रीम अनुप्रयोगों में आसानी से उपभोग योग्य हो। हम उपयोग करते हैं लैंगचेन अभिव्यक्ति भाषा (एलसीईएल) दो क्रियाओं को एक साथ जोड़ने के लिए। पहली कार्रवाई एलएलएम को दस्तावेज़ से केवल तारीखों का JSON प्रारूप आउटपुट उत्पन्न करने के लिए प्रेरित करती है। दूसरी कार्रवाई JSON आउटपुट लेती है और दिनांक प्रारूप को मानकीकृत करती है। ध्यान दें कि यह दो-चरणीय कार्रवाई उचित त्वरित इंजीनियरिंग के साथ एक ही चरण में भी की जा सकती है, जैसा कि हम सामान्यीकरण और टेम्पलेटिंग में देखेंगे।
पूर्ववर्ती कोड नमूने का आउटपुट दिनांक 07/09/2020 और 08/09/2020 के साथ एक JSON संरचना है, जो DD/MM/YYYY प्रारूप में हैं और क्रमशः अस्पताल से मरीज के प्रवेश और छुट्टी की तारीख हैं। डिस्चार्ज सारांश रिपोर्ट के लिए.
पुनर्प्राप्ति संवर्धित पीढ़ी के साथ प्रश्नोत्तर
एलएलएम को तथ्यात्मक जानकारी बनाए रखने के लिए जाना जाता है, जिसे अक्सर उनके विश्व ज्ञान या विश्व दृष्टिकोण के रूप में जाना जाता है। जब इन्हें ठीक किया जाता है, तो वे अत्याधुनिक परिणाम दे सकते हैं। हालाँकि, इस बात पर बाधाएँ हैं कि एलएलएम इस ज्ञान तक कितनी प्रभावी ढंग से पहुँच बना सकता है और उसमें हेरफेर कर सकता है। परिणामस्वरूप, ऐसे कार्यों में जो विशिष्ट ज्ञान पर बहुत अधिक निर्भर होते हैं, उनका प्रदर्शन कुछ उपयोग के मामलों के लिए इष्टतम नहीं हो सकता है। उदाहरण के लिए, प्रश्नोत्तर परिदृश्यों में, मॉडल के लिए केवल अपने विश्व ज्ञान पर भरोसा किए बिना दस्तावेज़ में दिए गए संदर्भ का सख्ती से पालन करना आवश्यक है। इससे विचलित होने पर गलत बयानी, अशुद्धियाँ या यहाँ तक कि गलत प्रतिक्रियाएँ भी हो सकती हैं। इस समस्या के समाधान के लिए सबसे अधिक उपयोग की जाने वाली विधि को कहा जाता है पुनर्प्राप्ति संवर्धित पीढ़ी (आरएजी)। यह दृष्टिकोण पुनर्प्राप्ति मॉडल और भाषा मॉडल दोनों की शक्तियों का समन्वय करता है, जिससे उत्पन्न प्रतिक्रियाओं की सटीकता और गुणवत्ता में वृद्धि होती है।
एलएलएम अपनी मेमोरी बाधाओं और उनके द्वारा चलाए जाने वाले हार्डवेयर की सीमाओं के कारण टोकन सीमाएं भी लगा सकते हैं। इस समस्या से निपटने के लिए, बड़े दस्तावेज़ों को छोटे भागों में विभाजित करने के लिए चंकिंग जैसी तकनीकों का उपयोग किया जाता है जो एलएलएम की टोकन सीमा के भीतर फिट होते हैं। दूसरी ओर, एनएलपी में एम्बेडिंग का उपयोग मुख्य रूप से उच्च-आयामी स्थान में शब्दों के अर्थपूर्ण अर्थ और अन्य शब्दों के साथ उनके संबंधों को पकड़ने के लिए किया जाता है। ये एम्बेडिंग शब्दों को वैक्टर में बदल देते हैं, जिससे मॉडल को पाठ्य डेटा को कुशलतापूर्वक संसाधित करने और समझने की अनुमति मिलती है। शब्दों और वाक्यांशों के बीच अर्थ संबंधी बारीकियों को समझकर, एम्बेडिंग एलएलएम को सुसंगत और प्रासंगिक रूप से प्रासंगिक आउटपुट उत्पन्न करने में सक्षम बनाती है। निम्नलिखित प्रमुख शब्दों पर ध्यान दें:
- बेडौल - यह प्रक्रिया दस्तावेजों से बड़ी मात्रा में पाठ को छोटे, सार्थक पाठों में तोड़ देती है।
- embeddings - ये प्रत्येक खंड के निश्चित-आयामी वेक्टर परिवर्तन हैं जो खंड से अर्थ संबंधी जानकारी बनाए रखते हैं। इन एम्बेडिंग को बाद में एक वेक्टर डेटाबेस में लोड किया जाता है।
- वेक्टर डेटाबेस - यह शब्द एम्बेडिंग या वैक्टर का एक डेटाबेस है जो शब्दों के संदर्भ का प्रतिनिधित्व करता है। यह एक ज्ञान स्रोत के रूप में कार्य करता है जो दस्तावेज़ प्रसंस्करण पाइपलाइनों में एनएलपी कार्यों में सहायता करता है। यहां वेक्टर डेटाबेस का लाभ यह है कि पाठ निर्माण के दौरान एलएलएम को केवल आवश्यक संदर्भ प्रदान करने की अनुमति मिलती है, जैसा कि हम निम्नलिखित अनुभाग में बताते हैं।
आरएजी पुनर्प्राप्ति चरण के दौरान प्रासंगिक दस्तावेज़ खंडों को समझने और लाने के लिए एम्बेडिंग की शक्ति का उपयोग करता है। ऐसा करने से, आरएजी एलएलएम की टोकन सीमाओं के भीतर काम कर सकता है, यह सुनिश्चित करते हुए कि पीढ़ी के लिए सबसे प्रासंगिक जानकारी का चयन किया जाता है, जिसके परिणामस्वरूप अधिक सटीक और प्रासंगिक रूप से प्रासंगिक आउटपुट प्राप्त होते हैं।
निम्नलिखित आरेख एलएलएम में इनपुट तैयार करने, उनकी प्रासंगिक समझ को बढ़ाने और अधिक प्रासंगिक संदर्भ प्रतिक्रियाओं को सक्षम करने के लिए इन तकनीकों के एकीकरण को दर्शाता है। एक दृष्टिकोण में वेक्टर डेटाबेस और चंकिंग दोनों का उपयोग करते हुए समानता खोज शामिल है। वेक्टर डेटाबेस सिमेंटिक जानकारी का प्रतिनिधित्व करने वाले एम्बेडिंग को संग्रहीत करता है, और चंकिंग पाठ को प्रबंधनीय अनुभागों में विभाजित करता है। समानता खोज से इस संदर्भ का उपयोग करते हुए, एलएलएम प्रश्न उत्तर और वर्गीकरण और संवर्धन जैसे डोमेन-विशिष्ट संचालन जैसे कार्य चला सकते हैं।
इस पोस्ट के लिए, हम दस्तावेजों के साथ संदर्भ में प्रश्नोत्तर करने के लिए आरएजी-आधारित दृष्टिकोण का उपयोग करते हैं। निम्नलिखित कोड नमूने में, हम एक दस्तावेज़ से टेक्स्ट निकालते हैं और फिर दस्तावेज़ को टेक्स्ट के छोटे टुकड़ों में विभाजित करते हैं। चंकिंग आवश्यक है क्योंकि हमारे पास बड़े बहु-पृष्ठ दस्तावेज़ हो सकते हैं और हमारे एलएलएम में टोकन सीमाएँ हो सकती हैं। इन टुकड़ों को बाद के चरणों में समानता खोज करने के लिए वेक्टर डेटाबेस में लोड किया जाता है। निम्नलिखित उदाहरण में, हम अमेज़ॅन टाइटन एंबेड टेक्स्ट v1 मॉडल का उपयोग करते हैं, जो दस्तावेज़ खंडों की वेक्टर एम्बेडिंग करता है:
कोड पाठ के उन हिस्सों का उपयोग करके एलएलएम के लिए एक प्रासंगिक संदर्भ बनाता है जो वेक्टर डेटाबेस से समानता खोज कार्रवाई द्वारा लौटाए जाते हैं। इस उदाहरण के लिए, हम एक ओपन-सोर्स का उपयोग करते हैं FAISS वेक्टर स्टोर पाठ के प्रत्येक भाग के वेक्टर एम्बेडिंग को संग्रहीत करने के लिए एक नमूना वेक्टर डेटाबेस के रूप में। फिर हम वेक्टर डेटाबेस को इस प्रकार परिभाषित करते हैं लैंगचैन रिट्रीवर, जिसे में पारित किया गया है RetrievalQA
जंजीर। यह आंतरिक रूप से वेक्टर डेटाबेस पर एक समानता खोज क्वेरी चलाता है जो प्रश्न के लिए प्रासंगिक पाठ के शीर्ष n (जहां हमारे उदाहरण में n = 3) भाग लौटाता है। अंत में, एलएलएम श्रृंखला को प्रासंगिक संदर्भ (पाठ के प्रासंगिक खंडों का एक समूह) और एलएलएम के उत्तर देने के लिए प्रश्न के साथ चलाया जाता है। RAG के साथ Q&A के चरण-दर-चरण कोड वॉकथ्रू के लिए, Python नोटबुक देखें GitHub.
FAISS के विकल्प के रूप में आप इसका भी उपयोग कर सकते हैं अमेज़ॅन ओपनसर्च सेवा वेक्टर डेटाबेस क्षमताएं, PostgreSQL के लिए Amazon रिलेशनल डेटाबेस सर्विस (Amazon RDS) साथ पीजीवेक्टर वेक्टर डेटाबेस, या ओपन-सोर्स क्रोमा डेटाबेस के रूप में विस्तार।
सारणीबद्ध डेटा के साथ प्रश्नोत्तर
दस्तावेज़ों के भीतर सारणीबद्ध डेटा को इसकी संरचनात्मक जटिलता के कारण संसाधित करना एलएलएम के लिए चुनौतीपूर्ण हो सकता है। अमेज़ॅन टेक्स्टट्रैक्ट को एलएलएम के साथ संवर्धित किया जा सकता है क्योंकि यह पेज, टेबल और सेल जैसे तत्वों के नेस्टेड प्रारूप में दस्तावेज़ों से तालिकाएँ निकालने में सक्षम बनाता है। सारणीबद्ध डेटा के साथ प्रश्नोत्तर करना एक बहु-चरणीय प्रक्रिया है, और इसे इसके माध्यम से प्राप्त किया जा सकता है स्वयं पूछताछ. निम्नलिखित चरणों का अवलोकन है:
- Amazon Texttract का उपयोग करके दस्तावेज़ों से तालिकाएँ निकालें। अमेज़ॅन टेक्स्टट्रैक्ट के साथ, किसी दस्तावेज़ से सारणीबद्ध संरचना (पंक्तियाँ, कॉलम, हेडर) निकाली जा सकती है।
- सारणीबद्ध डेटा को मेटाडेटा जानकारी, जैसे हेडर नाम और प्रत्येक हेडर के विवरण के साथ एक वेक्टर डेटाबेस में संग्रहीत करें।
- तालिका से डेटा प्राप्त करने के लिए एलएलएम का उपयोग करके एक संरचित क्वेरी बनाने के लिए प्रॉम्प्ट का उपयोग करें।
- वेक्टर डेटाबेस से प्रासंगिक तालिका डेटा निकालने के लिए क्वेरी का उपयोग करें।
उदाहरण के लिए, एक बैंक स्टेटमेंट में, "1000 डॉलर से अधिक जमा राशि वाले लेनदेन क्या हैं" दिए जाने पर एलएलएम निम्नलिखित चरणों को पूरा करेगा:
- एक प्रश्न तैयार करें, जैसे कि
“Query: transactions” , “filter: greater than (Deposit$)”
. - क्वेरी को संरचित क्वेरी में बदलें.
- संरचित क्वेरी को वेक्टर डेटाबेस पर लागू करें जहां हमारा तालिका डेटा संग्रहीत है।
सारणीबद्ध प्रश्नोत्तरी के चरण-दर-चरण नमूना कोड वॉकथ्रू के लिए, पायथन नोटबुक देखें GitHub.
टेम्पलेटिंग और सामान्यीकरण
इस अनुभाग में, हम देखते हैं कि एक निर्दिष्ट स्कीमा में दस्तावेज़ से निष्कर्षण के साथ आउटपुट उत्पन्न करने के लिए शीघ्र इंजीनियरिंग तकनीकों और लैंगचेन के अंतर्निहित तंत्र का उपयोग कैसे करें। हम पहले चर्चा की गई तकनीकों का उपयोग करके निकाले गए डेटा पर कुछ मानकीकरण भी करते हैं। हम अपने वांछित आउटपुट के लिए एक टेम्पलेट परिभाषित करके शुरुआत करते हैं। यह एक स्कीमा के रूप में काम करेगा और प्रत्येक इकाई के बारे में विवरण को समाहित करेगा जिसे हम दस्तावेज़ के पाठ से निकालना चाहते हैं।
ध्यान दें कि प्रत्येक इकाई के लिए, हम दस्तावेज़ के पाठ से मूल्य निकालने में एलएलएम की सहायता के लिए यह समझाने के लिए विवरण का उपयोग करते हैं कि वह इकाई क्या है। निम्नलिखित नमूना कोड में, हम इस टेम्पलेट का उपयोग दस्तावेज़ से निकाले गए पाठ के साथ एलएलएम के लिए अपना संकेत तैयार करने के लिए करते हैं AmazonTextractPDFLoader
और बाद में मॉडल के साथ अनुमान लगाएं:
आप देख सकते हैं, {keys}
प्रॉम्प्ट का हिस्सा हमारे टेम्पलेट की कुंजियाँ हैं, और {details}
उनके विवरण सहित कुंजियाँ दी गई हैं। इस मामले में, हम JSON प्रारूप में आउटपुट उत्पन्न करने के निर्देश में निर्दिष्ट करने के अलावा आउटपुट के प्रारूप के साथ मॉडल को स्पष्ट रूप से संकेत नहीं देते हैं। यह अधिकांश भाग के लिए काम करता है; हालाँकि, क्योंकि एलएलएम से आउटपुट गैर-नियतात्मक पाठ पीढ़ी है, हम प्रॉम्प्ट में निर्देश के भाग के रूप में प्रारूप को स्पष्ट रूप से निर्दिष्ट करना चाहते हैं। इसे हल करने के लिए, हम लैंगचेन का उपयोग कर सकते हैं संरचित आउटपुट पार्सर स्वचालित प्रॉम्प्ट इंजीनियरिंग का लाभ उठाने के लिए मॉड्यूल जो हमारे टेम्पलेट को एक प्रारूप अनुदेश प्रॉम्प्ट में परिवर्तित करने में मदद करता है। हम प्रारूप निर्देश प्रॉम्प्ट उत्पन्न करने के लिए पहले परिभाषित टेम्पलेट का उपयोग निम्नानुसार करते हैं:
फिर हम एलएलएम के लिए एक निर्देश के रूप में अपने मूल प्रॉम्प्ट के भीतर इस वेरिएबल का उपयोग करते हैं ताकि यह हमारे प्रॉम्प्ट में एक छोटा सा संशोधन करके वांछित स्कीमा में आउटपुट को निकाल और प्रारूपित कर सके:
अभी तक, हमने दस्तावेज़ से केवल वांछित स्कीमा में डेटा निकाला है। हालाँकि, हमें अभी भी कुछ मानकीकरण करने की आवश्यकता है। उदाहरण के लिए, हम चाहते हैं कि मरीज की भर्ती तिथि और डिस्चार्ज तिथि DD/MM/YYYY प्रारूप में निकाली जाए। इस मामले में, हम इसे बढ़ाते हैं description
फ़ॉर्मेटिंग निर्देश के साथ कुंजी का:
पायथन नोटबुक का संदर्भ लें GitHub संपूर्ण चरण-दर-चरण पूर्वाभ्यास और स्पष्टीकरण के लिए।
वर्तनी जांच और सुधार
एलएलएम ने मानव-सदृश पाठ को समझने और तैयार करने में उल्लेखनीय क्षमताओं का प्रदर्शन किया है। एलएलएम के कम चर्चा वाले लेकिन बेहद उपयोगी अनुप्रयोगों में से एक दस्तावेजों में व्याकरणिक जांच और वाक्य सुधार में उनकी क्षमता है। पारंपरिक व्याकरण जांचकर्ताओं के विपरीत, जो पूर्वनिर्धारित नियमों के एक सेट पर भरोसा करते हैं, एलएलएम उन पैटर्न का उपयोग करते हैं जिन्हें उन्होंने बड़ी मात्रा में टेक्स्ट डेटा से पहचाना है ताकि यह निर्धारित किया जा सके कि सही या धाराप्रवाह भाषा क्या है। इसका मतलब है कि वे उन बारीकियों, संदर्भों और सूक्ष्मताओं का पता लगा सकते हैं जो नियम-आधारित सिस्टम से छूट सकती हैं।
एक रोगी डिस्चार्ज सारांश से निकाले गए पाठ की कल्पना करें जिसमें लिखा है, “रोगी जॉन डो, जिसे गंभीर निमोनिया के साथ भर्ती कराया गया था, ने महत्वपूर्ण सुधार दिखाया है और उसे सुरक्षित रूप से छुट्टी दे दी जा सकती है। फॉलोअप अगले सप्ताह के लिए निर्धारित हैं। एक पारंपरिक वर्तनी-जांचकर्ता "एडमिट," "निमोनिया," "सुधार," और "नेक्स" को त्रुटियों के रूप में पहचान सकता है। हालाँकि, इन त्रुटियों के संदर्भ में आगे गलतियाँ या सामान्य सुझाव हो सकते हैं। एक एलएलएम, जो अपने व्यापक प्रशिक्षण से सुसज्जित है, सुझाव दे सकता है: “रोगी जॉन डो, जिसे गंभीर निमोनिया के साथ भर्ती कराया गया था, ने महत्वपूर्ण सुधार दिखाया है और उसे सुरक्षित रूप से छुट्टी दे दी जा सकती है। अनुवर्ती कार्रवाई अगले सप्ताह के लिए निर्धारित है।
निम्नलिखित एक खराब हस्तलिखित नमूना दस्तावेज़ है जिसमें वही पाठ है जैसा कि पहले बताया गया है।
हम अमेज़ॅन टेक्सट्रैक्ट दस्तावेज़ लोडर के साथ दस्तावेज़ निकालते हैं और फिर किसी भी वर्तनी और व्याकरण संबंधी गलतियों को ठीक करने के लिए निकाले गए पाठ को सुधारने के लिए एलएलएम को त्वरित इंजीनियरिंग के माध्यम से निर्देश देते हैं:
पूर्ववर्ती कोड का आउटपुट दस्तावेज़ लोडर द्वारा निकाले गए मूल पाठ को दिखाता है और उसके बाद एलएलएम द्वारा उत्पन्न सही पाठ को दिखाता है:
ध्यान रखें कि एलएलएम जितने शक्तिशाली हैं, उनके सुझावों को केवल सुझावों के रूप में देखना आवश्यक है। हालाँकि वे भाषा की पेचीदगियों को प्रभावशाली ढंग से पकड़ते हैं, फिर भी वे अचूक नहीं हैं। कुछ सुझाव मूल पाठ के इच्छित अर्थ या स्वर को बदल सकते हैं। इसलिए, मानव समीक्षकों के लिए यह महत्वपूर्ण है कि वे एलएलएम-जनरेटेड सुधारों को एक मार्गदर्शक के रूप में उपयोग करें, न कि पूर्ण रूप से। एलएलएम क्षमताओं के साथ मानव अंतर्ज्ञान का सहयोग एक ऐसे भविष्य का वादा करता है जहां हमारा लिखित संचार न केवल त्रुटि-मुक्त होगा, बल्कि समृद्ध और अधिक सूक्ष्म भी होगा।
निष्कर्ष
जेनरेटिव एआई बदल रहा है कि आप अंतर्दृष्टि प्राप्त करने के लिए आईडीपी के साथ दस्तावेज़ों को कैसे संसाधित कर सकते हैं। पोस्ट में जेनेरिक एआई के साथ एडब्ल्यूएस बुद्धिमान दस्तावेज़ प्रसंस्करण को बढ़ाना, हमने पाइपलाइन के विभिन्न चरणों पर चर्चा की और कैसे एडब्ल्यूएस ग्राहक रिको एलएलएम के साथ अपनी आईडीपी पाइपलाइन को बढ़ा रहा है। इस पोस्ट में, हमने अमेज़ॅन बेडरॉक, अमेज़ॅन टेक्सट्रैक्ट और लोकप्रिय लैंगचेन फ्रेमवर्क के माध्यम से एलएलएम के साथ आईडीपी वर्कफ़्लो को बढ़ाने के विभिन्न तंत्रों पर चर्चा की। आप हमारे यहां उपलब्ध नमूना नोटबुक का उपयोग करके आज ही लैंगचेन के साथ नए अमेज़ॅन टेक्स्टट्रैक्ट दस्तावेज़ लोडर के साथ शुरुआत कर सकते हैं गिटहब भंडार. AWS पर जेनरेटिव AI के साथ काम करने के बारे में अधिक जानकारी के लिए देखें एडब्ल्यूएस पर जनरेटिव एआई के साथ बिल्डिंग के लिए नए टूल्स की घोषणा.
लेखक के बारे में
सोनाली साहू AWS में AI/ML सेवा टीम के साथ बुद्धिमान दस्तावेज़ प्रसंस्करण का नेतृत्व कर रहा है। वह एक लेखिका, विचारक नेता और भावुक प्रौद्योगिकीविद् हैं। उनका मुख्य फोकस क्षेत्र एआई और एमएल है, और वह अक्सर दुनिया भर में एआई और एमएल सम्मेलनों और मीटअप में बोलती हैं। स्वास्थ्य सेवा, वित्तीय क्षेत्र और बीमा में उद्योग विशेषज्ञता के साथ, उनके पास प्रौद्योगिकी और प्रौद्योगिकी उद्योग में अनुभव की व्यापकता और गहराई दोनों है।
अंजन बिस्वास एआई / एमएल और डेटा एनालिटिक्स पर ध्यान देने के साथ एक वरिष्ठ एआई सेवा समाधान वास्तुकार है। अंजन विश्वव्यापी एआई सेवा टीम का हिस्सा है और एआई और एमएल के साथ व्यावसायिक समस्याओं के समाधान को समझने और विकसित करने में ग्राहकों की मदद करने के लिए उनके साथ काम करता है। अंजन के पास वैश्विक आपूर्ति श्रृंखला, विनिर्माण और खुदरा संगठनों के साथ काम करने का 14 से अधिक वर्षों का अनुभव है, और सक्रिय रूप से ग्राहकों को AWS AI सेवाओं को शुरू करने और बढ़ाने में मदद कर रहा है।
चिन्मयी राणे अमेज़ॅन वेब सर्विसेज में एआई/एमएल स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। उन्हें व्यावहारिक गणित और मशीन लर्निंग का शौक है। वह AWS ग्राहकों के लिए इंटेलिजेंट दस्तावेज़ प्रसंस्करण और जेनरेटिव AI समाधान डिजाइन करने पर ध्यान केंद्रित करती है। काम के अलावा, वह साल्सा और बचाता नृत्य का आनंद लेती है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/intelligent-document-processing-with-amazon-textract-amazon-bedrock-and-langchain/
- :हैस
- :है
- :नहीं
- :कहाँ
- .nex
- $1000
- $यूपी
- 1
- 10
- 100
- 11
- 12
- 13
- 14
- 15% तक
- 16
- 22
- 23
- 33
- 35% तक
- 7
- 9
- a
- क्षमताओं
- About
- पूर्ण
- पहुँच
- पहुँचा
- अनुसार
- शुद्धता
- सही
- हासिल
- के पार
- कार्य
- कार्रवाई
- सक्रिय रूप से
- गतिविधि
- कार्य करता है
- Ad
- पता
- जोड़ता है
- स्वीकार कर लिया
- स्वीकार करना
- स्वीकार किया
- प्रगति
- लाभ
- आगमन
- उम्र
- एजेंटों
- AI
- ऐ सेवा
- ऐ / एमएल
- गठबंधन
- सब
- की अनुमति दे
- की अनुमति देता है
- साथ में
- भी
- वैकल्पिक
- हालांकि
- वीरांगना
- Amazon Comprehend
- अमेज़ॅन आरडीएस
- अमेज़न टेक्सट्रेक
- अमेज़ॅन वेब सेवा
- राशियाँ
- an
- विश्लेषिकी
- विश्लेषण करें
- और
- जवाब
- anthropic
- कोई
- एपीआई
- अनुप्रयोगों
- लागू
- नियुक्तियों
- दृष्टिकोण
- स्थापत्य
- हैं
- क्षेत्र
- चारों ओर
- कला
- कृत्रिम
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता (AI)
- AS
- पहलू
- सहायता
- सहायक
- At
- बढ़ाना
- संवर्धित
- लेखक
- को स्वचालित रूप से
- स्वचालित
- स्वतः
- स्वचालन
- उपलब्ध
- जागरूकता
- एडब्ल्यूएस
- एडब्ल्यूएस ग्राहक
- बैंक
- BE
- क्योंकि
- हो जाता है
- किया गया
- से पहले
- लाभदायक
- लाभ
- BEST
- सर्वोत्तम प्रथाओं
- के बीच
- खंड
- ब्लॉक
- के छात्रों
- चौड़ाई
- टूटना
- टूट जाता है
- निर्माण
- इमारत
- में निर्मित
- व्यापार
- व्यवसायों
- लेकिन
- by
- कॉल
- कर सकते हैं
- पा सकते हैं
- क्षमताओं
- कब्जा
- मामला
- मामलों
- कोशिकाओं
- कुछ
- श्रृंखला
- चेन
- चुनौती
- चुनौतीपूर्ण
- परिवर्तन
- परिवर्तन
- बदलना
- जाँचता
- चुनाव
- का दावा है
- कक्षा
- कक्षाएं
- वर्गीकरण
- वर्गीकृत
- कोड
- सुसंगत
- सहयोग
- स्तंभ
- स्तंभ
- संयोजन
- गठबंधन
- आता है
- सामान्य
- सामान्यतः
- संचार
- संगत
- पूरा
- जटिल
- जटिलता
- समझना
- संक्षिप्त
- सम्मेलनों
- कनेक्ट कर रहा है
- संगत
- होते हैं
- की कमी
- निर्माण
- शामिल
- निहित
- शामिल हैं
- सामग्री
- प्रसंग
- प्रासंगिक
- बदलना
- मूल
- सही
- संशोधित
- सुधार
- सका
- शिल्प
- तैयार
- बनाता है
- महत्वपूर्ण
- रिवाज
- ग्राहक
- ग्राहक
- नाच
- तिथि
- डेटा विश्लेषण
- डाटाबेस
- डेटाबेस
- तारीख
- खजूर
- सौदा
- गहरा
- और गहरा
- परिभाषित
- परिभाषित
- परिभाषित करने
- साबित
- निर्भर करता है
- जमा
- गहराई
- वर्णित
- विवरण
- डिज़ाइन बनाना
- वांछित
- विस्तार
- विस्तृत
- विवरण
- पता लगाना
- निर्धारित करना
- विकसित करना
- डेवलपर्स
- आहार
- विभिन्न
- सीधे
- चर्चा करना
- चर्चा की
- डुबकी
- विभाजित
- विभाजित
- do
- चिकित्सक
- दस्तावेज़
- दस्तावेज़ीकरण
- दस्तावेजों
- हरिणी
- नहीं करता है
- कर
- डॉन
- किया
- dont
- नीचे
- नाटकीय रूप से
- दो
- दौरान
- गतिशील
- e
- से प्रत्येक
- पूर्व
- आसानी
- आसान करने के लिए उपयोग
- प्रभावी रूप से
- दक्षता
- कुशल
- कुशलता
- प्रयासों
- भी
- तत्व
- एम्बेड
- कार्यरत
- अधिकार
- सक्षम
- सक्षम बनाता है
- समर्थकारी
- समाप्त
- अभियांत्रिकी
- बढ़ाना
- वर्धित
- बढ़ाने
- सुनिश्चित
- सुनिश्चित
- संपूर्ण
- संस्थाओं
- सत्ता
- सुसज्जित
- त्रुटियाँ
- आवश्यक
- और भी
- उदाहरण
- सिवाय
- अपवाद
- मौजूदा
- अनुभव
- विशेषज्ञता
- समझाना
- समझाया
- बताते हैं
- स्पष्टीकरण
- स्पष्ट रूप से
- अभिव्यक्ति
- विस्तार
- विस्तार
- व्यापक
- उद्धरण
- निष्कर्षण
- अर्क
- गिरना
- असत्य
- दूर
- थकान
- फ़ील्ड
- आकृति
- अंतिम
- अंत में
- वित्तीय
- वित्तीय क्षेत्र
- प्रथम
- फिट
- फोकस
- केंद्रित
- का पालन करें
- पीछा किया
- निम्नलिखित
- इस प्रकार है
- के लिए
- प्रारूप
- रूपों
- पाया
- बुनियाद
- ढांचा
- मुक्त
- अक्सर
- से
- सीमांत
- पूर्ण
- पूरी तरह से
- आगे
- भविष्य
- सामान्य जानकारी
- उत्पन्न
- उत्पन्न
- उत्पन्न करता है
- सृजन
- पीढ़ी
- उत्पादक
- जनरेटिव एआई
- मिल
- देना
- दी
- वैश्विक
- व्याकरण
- मुट्ठी
- अधिक से अधिक
- समूह
- गाइड
- हाथ
- संभालना
- होना
- हो रहा है
- हार्डवेयर
- है
- हेडर
- स्वास्थ्य सेवा
- भारी
- मदद
- सहायक
- मदद
- मदद करता है
- उसे
- यहाँ उत्पन्न करें
- उच्च स्तर
- उच्च कार्य - निष्पादन
- उच्चतर
- रखती है
- अस्पताल
- कैसे
- How To
- तथापि
- एचटीएमएल
- HTTPS
- मानव
- i
- ID
- पहचान
- if
- दिखाता है
- की छवि
- बेहद
- प्रभाव
- आयात
- महत्वपूर्ण
- का आयात
- लगाया
- सुधार
- in
- सहित
- अनुक्रमणिका
- उद्योग
- करें-
- सूचना आयु
- नवोन्मेष
- निवेश
- अंतर्दृष्टि
- उदाहरण
- निर्देश
- बीमा
- एकीकृत
- एकीकृत
- घालमेल
- एकीकरण
- बुद्धि
- बुद्धिमान
- बुद्धिमान दस्तावेज़ प्रसंस्करण
- इरादा
- के भीतर
- में
- पेचीदगियों
- परिचय कराना
- शुरू की
- द्वारा प्रस्तुत
- IT
- आईटी इस
- जैक्सन
- जॉन
- जॉन डो
- जॉन
- जेपीजी
- JSON
- केवल
- कुंजी
- Instagram पर
- जानना
- ज्ञान
- जानने वाला
- भाषा
- बड़ा
- ख़ाका
- नेतृत्व
- नेता
- प्रमुख
- सीख रहा हूँ
- छोड़ने
- पुस्तकालय
- पसंद
- संभावित
- सीमाओं
- सीमाएं
- सूची
- एलएलएम
- भार
- लोडर
- तर्क
- देखिए
- लॉट
- मशीन
- यंत्र अधिगम
- निर्माण
- प्रबंधन
- प्रबंधनीय
- कामयाब
- प्रबंध
- गाइड
- विनिर्माण
- चिह्नित
- गणित
- मई..
- me
- अर्थ
- सार्थक
- साधन
- तंत्र
- तंत्र
- मुलाकातें
- याद
- मेटा
- मेटाडाटा
- तरीका
- तरीकों
- हो सकता है
- मन
- याद आती है
- गलतियां
- ML
- आदर्श
- मॉडल
- मॉड्यूल
- अधिक
- बंधक
- अधिकांश
- विभिन्न
- नाम
- नामों
- प्राकृतिक
- प्राकृतिक भाषा संसाधन
- आवश्यक
- आवश्यकता
- जरूरत
- की जरूरत है
- नया
- अगला
- अगले सप्ताह
- NLP
- नोटबुक
- अभी
- लकीर खींचने की क्रिया
- संख्या
- वस्तु
- वस्तुओं
- of
- ऑफर
- अक्सर
- on
- ONE
- केवल
- खुला स्रोत
- संचालन
- अवसर
- इष्टतम
- ऑप्शंस
- or
- संगठनों
- मूल
- अन्य
- अन्यथा
- हमारी
- आउट
- परिणाम
- उत्पादन
- outputs के
- बाहर
- के ऊपर
- सिंहावलोकन
- संकुल
- पृष्ठ
- पृष्ठों
- दर्द
- बनती
- जोड़े
- भाग
- विशेष रूप से
- पास
- पारित कर दिया
- पासिंग
- आवेशपूर्ण
- पथ
- रोगी
- पैटर्न
- पैटर्न उपयोग करें
- पीडीएफ
- प्रति
- निष्पादन
- प्रदर्शन
- प्रदर्शन
- प्रदर्शन
- प्रदर्शन
- चरण
- पीएचडी
- मुहावरों
- पाइपलाइन
- योजना
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- कृप्या अ
- निमोनिया
- अंक
- लोकप्रिय
- संभव
- पद
- संभावित
- बिजली
- संचालित
- शक्तिशाली
- प्रथाओं
- ठीक - ठीक
- शुद्धता
- वरीय
- वर्तमान
- पहले से
- मुख्यत
- छाप
- प्रिंट
- मुसीबत
- समस्याओं
- प्रक्रिया
- प्रसंस्कृत
- प्रसंस्करण
- उत्पादन
- का वादा किया
- उचित
- प्रदान करना
- बशर्ते
- प्रदाता
- प्रदान करता है
- अजगर
- क्यू एंड ए
- गुणवत्ता
- प्रश्न
- त्वरित
- जल्दी से
- कच्चा
- पढ़ना
- पहचान
- को कम करने
- उल्लेख
- संदर्भ
- निर्दिष्ट
- रिश्ते
- प्रासंगिक
- भरोसा करना
- भरोसा
- असाधारण
- रिपोर्ट
- प्रतिनिधित्व
- का प्रतिनिधित्व
- अपेक्षित
- की आवश्यकता होती है
- क्रमश
- प्रतिक्रियाएं
- प्रतिबंध
- परिणाम
- जिसके परिणामस्वरूप
- परिणाम
- खुदरा
- बनाए रखने के
- बनाए रखने की
- रिटर्न
- धनी
- कक्ष
- नियम
- रन
- चलाता है
- s
- सुरक्षित
- वही
- कहना
- स्केल
- परिदृश्यों
- अनुसूचित
- Search
- दूसरा
- अनुभाग
- वर्गों
- सेक्टर
- देखना
- खंड
- चयनित
- वरिष्ठ
- वाक्य
- कई
- सेवा
- कार्य करता है
- सेवा
- सेवाएँ
- सेट
- गंभीर
- वह
- कम
- चाहिए
- दिखाया
- दिखाता है
- महत्वपूर्ण
- एक
- छोटा
- छोटे
- टुकड़ा
- So
- केवल
- समाधान ढूंढे
- हल
- कुछ
- स्रोत
- अंतरिक्ष
- बोलता हे
- विशेषज्ञ
- विशिष्ट
- विशेष रूप से
- विनिर्दिष्ट
- वर्तनी
- विभाजित
- चरणों
- मानकीकरण
- प्रारंभ
- शुरू
- राज्य के-the-कला
- कथन
- कदम
- कदम
- फिर भी
- की दुकान
- संग्रहित
- भंडार
- ताकत
- तार
- संरचनात्मक
- संरचना
- संरचित
- संघर्ष
- आगामी
- इसके बाद
- ऐसा
- सुझाव
- संक्षेप में प्रस्तुत करना
- सारांश
- आपूर्ति
- आपूर्ति श्रृंखला
- समर्थन
- समर्थन करता है
- तालमेल
- सिस्टम
- तालिका
- लेना
- लेता है
- कार्य
- कार्य
- टीम
- तकनीक
- तकनीक
- टैकनोलजिस्ट
- टेक्नोलॉजी
- टेम्पलेट
- शर्तों
- टेक्स्ट
- शाब्दिक
- से
- कि
- RSI
- दुनिया
- लेकिन हाल ही
- उन
- फिर
- वहाँ।
- इसलिये
- इन
- वे
- इसका
- विचार
- तीन
- यहाँ
- टाइटन
- सेवा मेरे
- आज
- आज का दि
- एक साथ
- टोकन
- टोकन
- स्वर
- उपकरण
- ऊपर का
- कुल
- परंपरागत
- अनुगामी
- प्रशिक्षण
- लेनदेन
- बदालना
- परिवर्तनों
- <strong>उद्देश्य</strong>
- कोशिश
- दो
- टाइप
- प्रकार
- समझना
- समझ
- भिन्न
- अनावरण
- यूआरएल
- उपयोग
- उदाहरण
- प्रयुक्त
- उपयोगकर्ताओं
- का उपयोग करता है
- का उपयोग
- उपयोग किया
- उपयोग
- v1
- मूल्य
- मान
- परिवर्तनशील
- विभिन्न
- व्यापक
- बहुमुखी
- संस्करण
- के माध्यम से
- देखें
- संस्करणों
- walkthrough
- करना चाहते हैं
- था
- मार्ग..
- we
- वेब
- वेब सेवाओं
- सप्ताह
- कुंआ
- क्या
- कब
- कौन कौन से
- जब
- कौन
- मर्जी
- साथ में
- अंदर
- बिना
- देखा
- शब्द
- शब्द
- काम
- वर्कफ़्लो
- workflows
- काम कर रहे
- कार्य
- विश्व
- होगा
- लिखा हुआ
- X
- साल
- आप
- जेफिरनेट