معاہدوں، انوائسز، ریزیومے اور رپورٹس جیسی دستاویزات کی بہت بڑی مقداروں سے نمٹنے والی جدید کمپنیوں کے لیے، مسابقتی برتری کو برقرار رکھنے کے لیے متعلقہ ڈیٹا کو مؤثر طریقے سے پروسیسنگ اور بازیافت کرنا بہت ضروری ہے۔ تاہم، دستاویزات کو ذخیرہ کرنے اور تلاش کرنے کے روایتی طریقے وقت طلب ہو سکتے ہیں اور اکثر اس کے نتیجے میں کسی خاص دستاویز کو تلاش کرنے کی بڑی کوشش ہوتی ہے، خاص طور پر جب ان میں لکھاوٹ شامل ہو۔ کیا ہوگا اگر دستاویزات کو ذہانت سے پروسیس کرنے اور انہیں اعلی درستگی کے ساتھ تلاش کرنے کے قابل بنانے کا کوئی طریقہ تھا؟
سے یہ ممکن ہوا ہے۔ ایمیزون ٹیکسٹ, AWS کی ذہین دستاویز پروسیسنگ سروس، تیز رفتار تلاش کی صلاحیتوں کے ساتھ افتتاحی. اس پوسٹ میں، ہم آپ کو دستاویز کی تلاش کے اشاریہ سازی کے حل کو تیزی سے بنانے اور تعینات کرنے کے سفر پر لے جائیں گے جو آپ کی تنظیم کو دستاویزات سے بصیرت کو بہتر طریقے سے استعمال کرنے اور نکالنے میں مدد کرتا ہے۔
چاہے آپ ہیومن ریسورسز میں ملازمین کے معاہدوں میں مخصوص شقوں کی تلاش میں ہوں، یا کوئی مالیاتی تجزیہ کار ادائیگی کا ڈیٹا نکالنے کے لیے انوائسز کے پہاڑ کو چھان رہا ہو، یہ حل آپ کو بے مثال رفتار اور درستگی کے ساتھ درکار معلومات تک رسائی کے لیے بااختیار بنانے کے لیے تیار کیا گیا ہے۔
مجوزہ حل کے ساتھ، آپ کی دستاویزات خود بخود ہضم ہو جاتی ہیں، ان کے مواد کو پارس کیا جاتا ہے اور بعد ازاں ایک انتہائی ذمہ دار اور قابل توسیع اوپن سرچ انڈیکس میں ترتیب دیا جاتا ہے۔
ہم اس بات کا احاطہ کریں گے کہ کس طرح ٹیکنالوجیز جیسے ایمیزون ٹیکسٹریکٹ، او ڈبلیو ایس لامبڈا۔, ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)، اور ایمیزون اوپن سرچ سروس ایک ورک فلو میں ضم کیا جا سکتا ہے جو بغیر کسی رکاوٹ کے دستاویزات پر کارروائی کرتا ہے۔ پھر ہم اس ڈیٹا کو OpenSearch میں انڈیکس کرنے میں غوطہ لگاتے ہیں اور تلاش کی ان صلاحیتوں کا مظاہرہ کرتے ہیں جو آپ کی انگلیوں پر دستیاب ہوتی ہیں۔
چاہے آپ کی تنظیم ڈیجیٹل تبدیلی کے دور میں پہلے قدم اٹھا رہی ہو یا ٹربو چارج معلومات کی بازیافت کے لیے ایک قائم شدہ کمپنی ہو، یہ گائیڈ ان مواقع کو نیویگیٹ کرنے کے لیے آپ کا کمپاس ہے جو AWS Intelligent Document Processing اور OpenSearch پیش کرتے ہیں۔
۔ نفاذ اس پوسٹ میں استعمال کیا جاتا ہے Amazon Textract IDP CDK تعمیر کرتا ہے۔ - AWS کلاؤڈ ڈویلپمنٹ کٹ (CDK) اجزاء انٹیلیجنٹ ڈاکومنٹ پروسیسنگ (IDP) ورک فلوز کے لیے بنیادی ڈھانچے کی وضاحت کرنے کے لیے - جو آپ کو استعمال کے معاملے میں مخصوص حسب ضرورت IDP ورک فلوز بنانے کی اجازت دیتے ہیں۔ IDP CDK کی تعمیرات اور نمونے AWS پر IDP کے عمل کی تعریف کو فعال کرنے کے لیے اجزاء کا مجموعہ ہیں اور اسے شائع کیا گیا ہے۔ GitHub کے. استعمال ہونے والے اہم تصورات AWS ہیں۔ کلاؤڈ ڈویلپمنٹ کٹ (CDK) تعمیرات، اصل CDK اسٹیک اور AWS اسٹیپ فنکشنز. ورکشاپ پیمانے پر دستاویزات کو خودکار اور پروسیس کرنے کے لیے مشین لرننگ کا استعمال کریں۔ ورک فلو کو حسب ضرورت بنانے اور دوسرے نمونہ ورک فلوز کو اپنے لیے بنیاد کے طور پر استعمال کرنے کے بارے میں مزید جاننے کے لیے ایک اچھا نقطہ آغاز ہے۔
حل جائزہ
اس حل میں، ہم معلومات اور دستاویزات کی فوری تلاش اور بازیافت کے لیے دستاویزات کو اوپن سرچ انڈیکس میں انڈیکس کرنے پر توجہ مرکوز کرتے ہیں۔ پی ڈی ایف، ٹی آئی ایف ایف، جے پی ای جی یا پی این جی فارمیٹ میں دستاویزات کو ایمیزون سادہ اسٹوریج سروس میں رکھا جاتا ہے (ایمیزون S3) بالٹی اور اس کے بعد اس Step Functions ورک فلو کا استعمال کرتے ہوئے OpenSearch میں انڈیکس کیا گیا۔
۔ OpenSearchWorkflow-Decider دستاویز کو دیکھتا ہے اور تصدیق کرتا ہے کہ دستاویز معاون مائم اقسام میں سے ایک ہے (PDF، TIFF، PNG یا JPEG)۔ یہ ایک پر مشتمل ہے۔ او ڈبلیو ایس لامبڈا۔ تقریب.
۔ DocumentSplitter دستاویزات سے زیادہ سے زیادہ 2500 صفحات کا حصہ تیار کرتا ہے۔ اس کا مطلب یہ ہے کہ اگرچہ Amazon Textract 3000 صفحات تک کی دستاویزات کو سپورٹ کرتا ہے، لیکن آپ مزید صفحات کے ساتھ دستاویزات پاس کر سکتے ہیں اور یہ عمل اب بھی ٹھیک کام کرتا ہے اور صفحات کو OpenSearch میں ڈالتا ہے اور صحیح صفحہ نمبر بناتا ہے۔ دی DocumentSplitter AWS Lambda فنکشن کے طور پر لاگو کیا جاتا ہے۔
۔ نقشہ ریاست ہر ٹکڑے کو متوازی طور پر پروسیس کرتا ہے۔
۔ TextractAsync asynchronous کا استعمال کرتے ہوئے ٹاسک ایمیزون ٹیکسٹ کو کال کرتا ہے۔ ایپلیکیشن پروگرامنگ انٹرفیس۔ (API) مندرجہ ذیل بہترین طریقوں ایمیزون سادہ نوٹیفکیشن سروس کے ساتھ (ایمیزون ایس این ایس)اطلاعات اور آؤٹ پٹ کنفیگ Amazon Textract JSON آؤٹ پٹ کو کسی صارف Amazon S3 بالٹی میں اسٹور کرنے کے لیے۔ یہ Amazon Lambda کے دو فنکشنز پر مشتمل ہے: ایک دستاویز کو پروسیسنگ کے لیے جمع کروانا اور دوسرا Amazon SNS نوٹیفکیشن پر متحرک ہونا۔
کیونکہ TextractAsyاین سی ٹاسک ایک سے زیادہ صفحہ بندی آؤٹ پٹ فائلیں تیار کر سکتا ہے، TextractAsyncToJSON2 عمل انہیں ایک JSON فائل میں جوڑتا ہے۔
سٹیپ فنکشنز کا سیاق و سباق ایسی معلومات سے مالا مال ہے جو اوپن سرچ انڈیکس میں بھی تلاش کے قابل ہونا چاہیے۔ سیٹ میٹا ڈیٹا قدم نمونے کے نفاذ میں اضافہ ہوتا ہے۔ ORIGIN_FILE_NAME
, START_PAGE_NUMBER
، اور ORIGIN_FILE_URI
. آپ تلاش کے تجربے کو بہتر بنانے کے لیے کوئی بھی معلومات شامل کر سکتے ہیں، جیسے کہ دوسرے بیک اینڈ سسٹم سے معلومات، مخصوص IDs یا درجہ بندی کی معلومات۔
۔ اوپن سرچ بیچ بنائیں تیار کردہ Amazon Textract آؤٹ پٹ JSON لیتا ہے، اسے SetMetaData کے ذریعے ترتیب دیے گئے سیاق و سباق سے حاصل کردہ معلومات کے ساتھ جوڑتا ہے اور ایک فائل تیار کرتا ہے جو OpenSearch میں بیچ درآمد کے لیے موزوں ہے۔
میں OpenSearchPushInvoke، یہ بیچ درآمد فائل OpenSearch انڈیکس میں بھیجی گئی ہے اور تلاش کے لیے دستیاب ہے۔ یہ AWS Lambda فنکشن کے ساتھ منسلک ہے۔ aws-lambda-opensearch سے تعمیر کریں AWS حل m6g.large.search مثالوں کا استعمال کرتے ہوئے لائبریری، OpenSearch ورژن 2.7، اور Amazon Elastic Block Service (ایمیزون ای بی ایس) والیوم سائز 2 جی بی کے ساتھ جنرل پرپز 2 (GP200) تک۔ آپ اپنی ضروریات کے مطابق اوپن سرچ کنفیگریشن کو تبدیل کر سکتے ہیں۔
آخری ٹاسک اوپن سرچ میپنگ قدم سیاق و سباق کو صاف کرتا ہے، جو دوسری صورت میں حد سے تجاوز کر سکتا ہے۔ سٹیپ فنکشنز کوٹہ of کسی کام، ریاست، یا عمل کے لیے زیادہ سے زیادہ ان پٹ یا آؤٹ پٹ سائز.
شرائط
نمونوں کو تعینات کرنے کے لیے، آپ کو AWS اکاؤنٹ کی ضرورت ہے۔ AWS کلاؤڈ ڈویلپمنٹ کٹ (AWS CDK)، ایک موجودہ Python ورژن اور Docker کی ضرورت ہے۔ AWS CloudFormation ٹیمپلیٹس کو تعینات کرنے کے لیے آپ کو اجازت کی ضرورت ہے، پر پش کریں۔ ایمیزون لچکدار کنٹینر رجسٹری (ایمیزون ای سی آر)، تخلیق کریں۔ ایمیزون شناخت اور رسائی کا انتظام (AWS IAM) کے کردار، Amazon Lambda فنکشنز، Amazon S3 بالٹیز، Amazon Step Functions، Amazon OpenSearch کلسٹر، اور ایک ایمیزون کاگنیٹو صارف پول. یقینی بنائیں کہ آپ کی AWS CLI ماحول سیٹ اپ ہے۔ اجازت کے مطابق۔
آپ اسپن اپ بھی کر سکتے ہیں۔ AWS کلاؤڈ 9 مثال کے طور پر AWS CDK، Python اور Docker کے ساتھ تعیناتی شروع کرنے کے لیے پہلے سے انسٹال ہے۔
واک تھرو
تعیناتی
- شرائط کو ترتیب دینے کے بعد، آپ کو پہلے ذخیرہ کو کلون کرنا ہوگا:
- پھر repository فولڈر میں cd اور انحصار انسٹال کریں:
- OpenSearchWorkflow اسٹیک تعینات کریں:
گٹ ہب کے نمونوں سے ڈیفالٹ کنفیگریشن سیٹنگز کے ساتھ تعیناتی میں لگ بھگ 25 منٹ لگتے ہیں، اور ایک سٹیپ فنکشنز ورک فلو بناتا ہے، جو اس وقت شروع کیا جاتا ہے جب کسی دستاویز کو ایمیزون S3 بالٹی/پریفکس میں رکھا جاتا ہے اور اس کے بعد اس پر کارروائی کی جاتی ہے جب تک کہ دستاویز کا مواد انڈیکس نہ ہو جائے۔ اوپن سرچ کلسٹر میں۔
مندرجہ ذیل ایک نمونہ آؤٹ پٹ ہے جس میں مفید لنکس اور معلومات شامل ہیں۔cdk deploy OpenSearchWorkflow
کمانڈ:
یہ معلومات AWS CloudFormation Console میں بھی دستیاب ہے۔
جب ایک نئی دستاویز کے نیچے رکھی جاتی ہے۔ OpenSearchWorkflow.DocumentUploadLocationاس دستاویز کے لیے ایک نیا Step Functions ورک فلو شروع کیا گیا ہے۔
اس دستاویز کی حیثیت کو چیک کرنے کے لیے، OpenSearchWorkflow.StepFunctionFlowLink AWS مینجمنٹ کنسول میں StepFunction کے عمل کی فہرست کا ایک لنک فراہم کرتا ہے، جو Amazon S3 پر اپ لوڈ کی گئی ہر دستاویز کے لیے دستاویز کی کارروائی کی حیثیت کو ظاہر کرتا ہے۔ ٹیوٹوریل اسٹیپ فنکشنز کنسول پر عملدرآمد کو دیکھنا اور ڈیبگ کرنا AWS کنسول میں اجزاء اور آراء کا ایک جائزہ فراہم کرتا ہے۔
ٹیسٹنگ
- نمونہ فائل کا استعمال کرتے ہوئے پہلا ٹیسٹ۔
- StepFunction ورک فلو کا لنک منتخب کرنے کے بعد یا AWS Management Console کھولنے اور Step Functions سروس کے صفحہ پر جانے کے بعد، آپ مختلف ورک فلو کی درخواستوں کو دیکھ سکتے ہیں۔
- فی الحال چل رہے نمونے کی دستاویز پر عمل درآمد پر ایک نظر ڈالیں، جہاں آپ انفرادی ورک فلو کے کاموں کو انجام دے سکتے ہیں۔
تلاش کریں
عمل مکمل ہونے کے بعد، ہم تصدیق کر سکتے ہیں کہ دستاویز کو اوپن سرچ انڈیکس میں ترتیب دیا گیا ہے۔
- ایسا کرنے کے لیے، پہلے ہم ایک Amazon Cognito صارف بناتے ہیں۔ Amazon Cognito کو اوپن سرچ انڈیکس کے خلاف صارفین کی توثیق کے لیے استعمال کیا جاتا ہے۔ cdk deploy سے آؤٹ پٹ میں لنک کو منتخب کریں (یا دیکھیں AWS کلاؤڈ فارمیشن AWS مینجمنٹ کنسول میں آؤٹ پٹ) کا نام دیا گیا ہے۔ OpenSearchWorkflow.CognitoUserPoolLink.
- اگلا، منتخب کریں صارف بنائیں بٹن، جو آپ کو اوپن سرچ ڈیش بورڈ تک رسائی کے لیے صارف نام اور پاس ورڈ درج کرنے کے لیے ایک صفحہ پر لے جاتا ہے۔
- منتخب کرنے کے بعد صارف بنائیں، آپ اوپن سرچ ڈیش بورڈ پر کلک کرکے جاری رکھ سکتے ہیں۔ OpenSearchWorkflow.OpenSearchDashboard CDK تعیناتی آؤٹ پٹ سے۔ پہلے سے بنائے گئے صارف نام اور پاس ورڈ کا استعمال کرتے ہوئے لاگ ان کریں۔ پہلی بار لاگ ان ہونے پر آپ کو پاس ورڈ تبدیل کرنا ہوگا۔
- اوپن سرچ ڈیش بورڈ میں لاگ ان ہونے کے بعد، منتخب کریں۔ اسٹیک مینجمنٹ سیکشن، اس کے بعد انڈیکس پیٹرنs تلاش انڈیکس بنانے کے لیے۔
- انڈیکس کا ڈیفالٹ نام ہے۔ کاغذات-انڈیکس اور انڈیکس پیٹرن کا نام کاغذات کی فہرست* اس سے ملیں گے.
- کلک کرنے کے بعد اگلا قدممنتخب ٹائمسٹیمپ کے طور پر ٹائم فیلڈ اور انڈیکس پیٹرن بنائیں.
- اب، مینو سے، منتخب کریں۔ دریافت.
زیادہ تر معاملات میں، آپ کو اپنے آخری ادخال کے مطابق وقت کی مدت کو تبدیل کرنے کی ضرورت ہے۔ پہلے سے طے شدہ 15 منٹ ہے اور اکثر پچھلے 15 منٹ میں کوئی سرگرمی نہیں تھی۔ اس مثال میں، ادخال کو دیکھنے کے لیے اسے 15 دنوں میں تبدیل کر دیا گیا۔
- اب آپ تلاش کرنا شروع کر سکتے ہیں۔ ایک ناول کو ترتیب دیا گیا تھا، آپ کسی بھی اصطلاح کو تلاش کر سکتے ہیں۔ مجھے اسماعیل کہتے ہیں اور نتائج دیکھیں.
اس صورت میں، اصطلاح مجھے اسماعیل کہتے ہیں دستاویز کے صفحہ 6 پر دیے گئے یونیفارم ریسورس آئیڈینٹیفائر (URI) پر ظاہر ہوتا ہے، جو فائل کے Amazon S3 مقام کی طرف اشارہ کرتا ہے۔ اس سے دستاویزات کی شناخت اور پی ڈی ایف، TIFF یا تصویری دستاویزات کے ایک بڑے کارپس میں معلومات تلاش کرنا تیز تر ہو جاتا ہے، ان کو دستی طور پر چھوڑنے کے مقابلے میں۔
پیمانے پر چل رہا ہے۔
اشاریہ سازی کے عمل کے پیمانے اور دورانیہ کا اندازہ لگانے کے لیے، عمل درآمد کو 93,997 دستاویزات اور 1,583,197 صفحات کی کل رقم (اوسط 16.84 صفحات/دستاویز اور 3755 صفحات پر مشتمل سب سے بڑی فائل) کے ساتھ جانچا گیا، جس میں سبھی کو OpenSearch میں ترتیب دیا گیا ہے۔ تمام فائلوں کو پروسیس کرنے اور OpenSearch میں انڈیکس کرنے میں US East (N. Virginia – us-east-5.5) کے علاقے میں ڈیفالٹ کا استعمال کرتے ہوئے 1 گھنٹے لگے۔ ایمیزون ٹیکسٹریکٹ سروس کوٹہ. نیچے کا گراف 18:00 پر ایک ابتدائی ٹیسٹ دکھاتا ہے جس کے بعد 21:00 پر مین انجسٹ ہوتا ہے اور یہ سب 2:30 تک ہوتا ہے۔
پروسیسنگ کے لئے، tcdk.SFE ExecutionsStartThrottle ایک پر مقرر کیا گیا تھا executions_concurrency_threshold
=550، جس کا مطلب ہے کہ دستاویزی پروسیسنگ کے کام کے بہاؤ کو 550 تک محدود کر دیا گیا ہے اور اضافی درخواستوں کو قطار میں لگا دیا گیا ہے ایمیزون ایس کیو ایس Fist-In-First-Out (FIFO) قطار، جو بعد میں موجودہ ورک فلو ختم ہونے پر ختم ہو جاتی ہے۔ 550 کی حد US-east-600 ریجن میں 1 کے ٹیکسٹریکٹ سروس کوٹہ پر مبنی ہے۔ لہذا، سب سے پرانے پیغام کی قطار کی گہرائی اور عمر نگرانی کے قابل میٹرکس ہیں۔
اس ٹیسٹ میں، تمام دستاویزات ایک ہی وقت میں Amazon S3 پر اپ لوڈ کر دی گئیں، اس لیے مرئی پیغامات کی تخمینی تعداد اس میں زبردست اضافہ ہوا ہے اور پھر آہستہ آہستہ کمی ہے کیونکہ کوئی نئی دستاویزات داخل نہیں کی جاتی ہیں۔ دی قدیم ترین پیغام کی تخمینی عمر تمام پیغامات پر کارروائی ہونے تک بڑھتا ہے۔ ایمیزون ایس کیو ایس پیغام برقرار رکھنے کا دورانیہ 14 دن مقرر کیا گیا ہے. بہت لمبے عرصے تک چلنے والی بیک لاگ پروسیسنگ کے لیے جو 14 دن سے زیادہ ہو سکتی ہے، نمائندہ دستاویزات کے چھوٹے ذیلی سیٹ پر کارروائی کے ساتھ شروع کریں اور عمل درآمد کے دورانیے کی نگرانی کریں تاکہ اندازہ لگایا جا سکے کہ آپ 14 دنوں سے پہلے کتنی دستاویزات پاس کر سکتے ہیں۔ Amazon SQS CloudWatch میٹرکس دستاویزات کے ایک بڑے بیک لاگ پر کارروائی کرنے کے استعمال کے معاملے کے لیے یکساں نظر آتے ہیں، جسے ایک ہی وقت میں کھا لیا جاتا ہے اور پھر مکمل طور پر کارروائی کی جاتی ہے۔ اگر آپ کا استعمال کیس دستاویزات کا ایک مستقل بہاؤ ہے، دونوں میٹرکس، مرئی پیغامات کی تخمینی تعداد اور قدیم ترین پیغام کی تخمینی عمر زیادہ لکیری ہو جائے گا. آپ بیک لاگ پروسیسنگ کے ساتھ مستقل بوجھ کو ملانے اور اپنی پروسیسنگ کی ضروریات کے مطابق صلاحیت مختص کرنے کے لیے تھریشولڈ پیرامیٹر کا استعمال بھی کر سکتے ہیں۔
نگرانی کے لیے ایک اور میٹرکس OpenSearch کلسٹر کی صحت ہے، جسے آپ کے مطابق سیٹ اپ کرنا چاہیے۔ Amazon OpenSearch سروس کے لیے آپریشنل بہترین طریقے. ڈیفالٹ تعیناتی m6g.large.search مثالوں کا استعمال کرتی ہے۔
اوپن سرچ کلسٹر کے لیے کلیدی پرفارمنس انڈیکیٹرز (KPI) کا ایک سنیپ شاٹ یہ ہے۔ کوئی غلطی نہیں، مسلسل اشاریہ سازی ڈیٹا کی شرح اور تاخیر۔
سٹیپ فنکشنز کے ورک فلو پر عمل درآمد ہر انفرادی دستاویز کی پروسیسنگ کی حالت کو ظاہر کرتا ہے۔ اگر آپ اس میں پھانسیاں دیکھتے ہیں۔ ناکام ریاست، پھر تفصیلات منتخب کریں۔ نگرانی کے لیے ایک اچھا میٹرک AWS ہے۔ CloudWatch خودکار ڈیش بورڈ سٹیپ فنکشنز کے لیے، جو کچھ کو بے نقاب کرتا ہے۔ سٹیپ فنکشنز CloudWatch میٹرکس.
اس AWS CloudWatch ڈیش بورڈ گراف میں، آپ وقت کے ساتھ ساتھ اسٹیپ فنکشنز کے کامیاب عمل کو دیکھتے ہیں۔
اور یہ ناکام پھانسیوں کو ظاہر کرتا ہے۔ یہ AWS Console Step Functions کے جائزہ کے ذریعے تفتیش کے قابل ہیں۔
مندرجہ ذیل اسکرین شاٹ اصل فائل کے 0 سائز کی ہونے کی وجہ سے ناکام عمل درآمد کی ایک مثال دکھاتا ہے، جو سمجھ میں آتا ہے کیونکہ فائل میں کوئی مواد نہیں ہے اور اس پر کارروائی نہیں کی جا سکتی ہے۔ ناکام عمل کو فلٹر کرنا اور ناکامیوں کا تصور کرنا ضروری ہے، تاکہ آپ ماخذ دستاویز پر واپس جا سکیں اور اصل وجہ کی توثیق کر سکیں۔
دیگر ناکامیوں میں ایسی دستاویزات شامل ہو سکتی ہیں جو مائم قسم کی نہیں ہیں: ایپلیکیشن/pdf، image/png، image/jpeg، یا image/tiff کیونکہ دیگر دستاویزات کی اقسام Amazon Textract کے ذریعے تعاون یافتہ نہیں ہیں۔
قیمت
1,583,278 صفحات کے اندراج کی کل لاگت کو عمل درآمد کے لیے استعمال ہونے والی AWS سروسز میں تقسیم کیا گیا تھا۔ درج ذیل فہرست تخمینی تعداد کے طور پر کام کرتی ہے، کیونکہ آپ کی اصل لاگت اور پروسیسنگ کا دورانیہ دستاویزات کے سائز، فی دستاویز کے صفحات کی تعداد، دستاویزات میں معلومات کی کثافت، اور AWS ریجن کے لحاظ سے مختلف ہوتا ہے۔ ایمیزون ڈائنومو ڈی بی $0.55، Amazon S3 $3.33، OpenSearch Service $14.71، Step Functions $17.92، AWS Lambda $28.95، اور Amazon Textract $1,849.97 استعمال کر رہا تھا۔ اس کے علاوہ، یہ بھی ذہن میں رکھیں کہ تعینات کردہ Amazon OpenSearch سروس کلسٹر کا بل ایک گھنٹے کے حساب سے لیا جاتا ہے اور وقت کے ساتھ چلنے پر زیادہ لاگت جمع ہوتی ہے۔
ترمیم
زیادہ تر امکان ہے کہ، آپ نفاذ میں ترمیم کرنا چاہتے ہیں اور اپنے استعمال کے کیس اور دستاویزات کے لیے اپنی مرضی کے مطابق بنانا چاہتے ہیں۔ ورکشاپ پیمانے پر دستاویزات کو خودکار اور پروسیس کرنے کے لیے مشین لرننگ کا استعمال کریں۔ اصل کام کے بہاؤ، بہاؤ کو تبدیل کرنے، اور نئے اجزاء شامل کرنے کے بارے میں ایک اچھا جائزہ پیش کرتا ہے۔ اوپن سرچ انڈیکس میں حسب ضرورت فیلڈز شامل کرنے کے لیے، دیکھیں سیٹ میٹا ڈیٹا کا استعمال کرتے ہوئے ورک فلو میں کام set-manifest-meta-data-opensearch سیاق و سباق میں میٹا ڈیٹا شامل کرنے کے لیے AWS Lambda فنکشن، جسے OpenSearch انڈیکس میں بطور فیلڈ شامل کیا جائے گا۔ کوئی بھی میٹا ڈیٹا معلومات انڈیکس کا حصہ بن جائے گی۔
صفائی ستھرائی
مثال کے وسائل کو حذف کریں اگر آپ کو ان کی مزید ضرورت نہیں ہے، تاکہ مستقبل کے اخراجات سے بچنے کے لیے مندرجہ ذیل کمانڈ کا استعمال کریں:
کے طور پر ایک ہی ماحول میں cdk deploy
کمانڈ. ہوشیار رہو کہ یہ سب کچھ ہٹا دیتا ہے، بشمول OpenSearch کلسٹر اور تمام دستاویزات اور Amazon S3 بالٹی۔ اگر آپ اس معلومات کو برقرار رکھنا چاہتے ہیں، تو اپنے Amazon S3 بالٹی اور بیک اپ بنائیں اپنے OpenSearch کلسٹر سے ایک انڈیکس سنیپ شاٹ بنائیں. اگر آپ نے بہت سی فائلوں پر کارروائی کی ہے، تو آپ کو پہلے AWS مینجمنٹ کنسول کا استعمال کرتے ہوئے Amazon S3 بالٹی کو خالی کرنا پڑے گا (یعنی، اگر آپ معلومات کو برقرار رکھنا چاہتے ہیں تو بیک اپ لینے کے بعد یا انہیں کسی دوسری بالٹی میں ہم آہنگ کرنے کے بعد)، کیونکہ کلین اپ فنکشن وقت ختم ہو سکتا ہے اور پھر AWS CloudFormation اسٹیک کو تباہ کر سکتا ہے۔
نتیجہ
اس پوسٹ میں، ہم نے آپ کو دکھایا کہ ایک بڑی تعداد میں دستاویزات کو OpenSearch انڈیکس میں داخل کرنے کے لیے ایک مکمل اسٹیک حل کیسے لگایا جائے، جو تلاش کے استعمال کے معاملات کے لیے استعمال کیے جانے کے لیے تیار ہیں۔ نفاذ کے انفرادی اجزاء کے ساتھ ساتھ اسکیلنگ کے تحفظات، لاگت اور ترمیم کے اختیارات پر بھی تبادلہ خیال کیا گیا۔ GitHub پر اوپن سورس کے بطور تمام کوڈ قابل رسائی ہے۔ IDP CDK کے نمونے۔ اور جیسا کہ IDP CDK تعمیر کرتا ہے۔ شروع سے اپنے حل تیار کرنے کے لیے۔ اگلے مرحلے کے طور پر آپ ورک فلو میں ترمیم کرنا شروع کر سکتے ہیں، سرچ انڈیکس میں دستاویزات میں معلومات شامل کر سکتے ہیں اور آئی ڈی پی ورکشاپ. براہ کرم موجودہ حل کو بڑھانے کے لیے اپنے تجربے اور خیالات پر نیچے تبصرہ کریں۔
مصنف کے بارے میں
مارٹن شیڈ Amazon Textract ٹیم کے ساتھ ایک سینئر ML پروڈکٹ SA ہے۔ اس کے پاس انٹرنیٹ سے متعلقہ ٹیکنالوجیز، انجینئرنگ، اور آرکیٹیکٹنگ حل کے ساتھ 20 سال سے زیادہ کا تجربہ ہے۔ اس نے 2014 میں AWS میں شمولیت اختیار کی، پہلے AWS سروسز کے سب سے زیادہ موثر اور توسیع پذیر استعمال کے بارے میں کچھ بڑے AWS صارفین کی رہنمائی کی، اور بعد میں کمپیوٹر ویژن پر توجہ مرکوز کرتے ہوئے AI/ML پر توجہ مرکوز کی۔ فی الحال، اسے دستاویزات سے معلومات نکالنے کا جنون ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
- پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- پلیٹو ای ایس جی۔ آٹوموٹو / ای وی، کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
- پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
- چارٹ پرائم۔ ChartPrime کے ساتھ اپنے ٹریڈنگ گیم کو بلند کریں۔ یہاں تک رسائی حاصل کریں۔
- بلاک آفسیٹس۔ ماحولیاتی آفسیٹ ملکیت کو جدید بنانا۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://aws.amazon.com/blogs/machine-learning/implement-smart-document-search-index-with-amazon-textract-and-amazon-opensearch/
- : ہے
- : ہے
- : نہیں
- :کہاں
- $3
- $UP
- 1
- 10
- 100
- 11
- 12
- 13
- 14
- 15٪
- 16
- 17
- 20
- 20 سال
- 200
- 2014
- 216
- 220
- 25
- 30
- 3000
- 32
- 33
- 7
- 700
- 8
- 820
- 84
- 9
- a
- ہمارے بارے میں
- تک رسائی حاصل
- قابل رسائی
- تک رسائی حاصل
- کے مطابق
- اکاؤنٹ
- جمع کرنا
- درستگی
- کے پار
- سرگرمی
- اصل
- شامل کریں
- شامل کیا
- انہوں نے مزید کہا
- جوڑتا ہے
- کے بعد
- کے خلاف
- عمر
- AI / ML
- تمام
- مختص
- کی اجازت
- بھی
- ایمیزون
- ایمیزون کاگنیٹو
- ایمیزون اوپن سرچ سروس
- ایمیزون ٹیکسٹ
- ایمیزون ویب سروسز
- an
- تجزیہ کار
- اور
- کوئی بھی
- اے پی آئی
- ظاہر ہوتا ہے
- تخمینہ
- کیا
- ارد گرد
- AS
- At
- کی توثیق
- خود کار طریقے سے
- خودکار
- خود کار طریقے سے
- دستیاب
- اوسط
- سے اجتناب
- AWS
- AWS کلاؤڈ فارمیشن
- او ڈبلیو ایس لامبڈا۔
- AWS مینجمنٹ کنسول
- واپس
- پسدید
- بیک اپ
- بیس
- کی بنیاد پر
- BE
- کیونکہ
- بن
- اس سے پہلے
- کیا جا رہا ہے
- نیچے
- BEST
- بہترین طریقوں
- بہتر
- بچو
- بلاک
- دونوں
- تعمیر
- بٹن
- by
- کالز
- کر سکتے ہیں
- صلاحیتوں
- اہلیت
- کیس
- مقدمات
- کیونکہ
- CD
- تبدیل
- تبدیل کر دیا گیا
- تبدیل کرنے
- چیک کریں
- منتخب کریں
- درجہ بندی
- بادل
- کلسٹر
- کوڈ
- مجموعہ
- یکجا
- تبصرہ
- کمپنیاں
- مقابلے میں
- کمپاس
- مقابلہ
- اجزاء
- کمپیوٹر
- کمپیوٹر ویژن
- تصورات
- سمورتی
- ترتیب
- تشکیل شدہ
- منسلک
- خیالات
- مشتمل
- کنسول
- مسلسل
- تعمیر
- کنٹینر
- مواد
- سیاق و سباق
- جاری
- معاہدے
- درست
- قیمت
- اخراجات
- سکتا ہے
- مل کر
- احاطہ
- تخلیق
- بنائی
- پیدا
- اہم
- موجودہ
- اس وقت
- اپنی مرضی کے
- گاہک
- گاہکوں
- مرضی کے مطابق
- اپنی مرضی کے مطابق
- ڈیش بورڈ
- ڈیش بورڈز
- اعداد و شمار
- دن
- نمٹنے کے
- کو رد
- پہلے سے طے شدہ
- وضاحت
- تعریف
- مظاہرہ
- انحصار
- منحصر ہے
- تعیناتی
- تعینات
- تعیناتی
- گہرائی
- تباہ
- تفصیلات
- ترقی
- مکالمے کے
- مختلف
- ڈیجیٹل
- ڈیجیٹل تبدیلی
- دریافت
- بات چیت
- دکھانا
- ڈوبکی
- do
- میں Docker
- دستاویز
- دستاویزات
- کیا
- سوکھا ہوا
- دو
- مدت
- e
- ہر ایک
- وسطی
- ایج
- ہنر
- مؤثر طریقے سے
- کوشش
- ملازم
- بااختیار
- کو چالو کرنے کے
- انجنیئرنگ
- بہت بڑا
- افزودگی
- افزودہ
- درج
- ماحولیات
- دور
- نقائص
- خاص طور پر
- قائم
- تخمینہ
- بھی
- سب کچھ
- مثال کے طور پر
- حد سے تجاوز
- متجاوز
- اضافی
- پھانسی
- توسیع
- تجربہ
- تلاش
- نکالنے
- ناکام
- فاسٹ
- تیز تر
- میدان
- قطعات
- اعداد و شمار
- فائل
- فائلوں
- فلٹر
- فائنل
- مالی
- مل
- آخر
- انگلی
- ختم
- پہلا
- پہلا قدم
- پہلی بار
- بہاؤ
- توجہ مرکوز
- توجہ مرکوز
- پر عمل کریں
- پیچھے پیچھے
- کے بعد
- کے لئے
- فارمیٹ
- سے
- مکمل
- مکمل اسٹیک
- مکمل طور پر
- تقریب
- افعال
- مستقبل
- جنرل
- پیدا
- پیدا ہوتا ہے
- حاصل کرنے
- وشال
- GitHub کے
- دی
- Go
- جا
- اچھا
- گراف
- رہنمائی
- کنٹرول
- ہے
- ہونے
- he
- صحت
- مدد کرتا ہے
- ہائی
- اعلی
- انتہائی
- گھنٹہ
- HOURS
- کس طرح
- کیسے
- تاہم
- HTML
- HTTPS
- انسانی
- انسانی وسائل
- i
- خیالات
- شناخت
- شناخت
- شناختی
- شناخت
- if
- تصویر
- پر عملدرآمد
- نفاذ
- عملدرآمد
- درآمد
- اہم
- in
- شامل
- سمیت
- اضافہ
- اضافہ
- انڈکس
- انڈیکس شدہ
- انڈیکیٹر
- انفرادی
- معلومات
- انفراسٹرکچر
- ابتدائی
- شروع
- ان پٹ
- بصیرت
- انسٹال
- مثال کے طور پر
- ضم
- انٹیلجنٹ
- ذہین دستاویز پروسیسنگ
- میں
- تحقیقات
- درخواست کی
- IT
- شامل ہو گئے
- سفر
- فوٹو
- JSON
- رکھیں
- کلیدی
- بڑے
- سب سے بڑا
- آخری
- تاخیر
- بعد
- جانیں
- سیکھنے
- لائبریری
- کی طرح
- امکان
- LINK
- لنکس
- لسٹ
- لوڈ
- محل وقوع
- انکرنا
- لاگ ان
- لانگ
- اب
- دیکھو
- تلاش
- دیکھنا
- مشین
- مشین لرننگ
- بنا
- مین
- برقرار رکھنے کے
- برقرار رکھنے
- بنا
- بناتا ہے
- انتظام
- دستی طور پر
- بہت سے
- میچ
- زیادہ سے زیادہ
- مئی..
- me
- کا مطلب ہے کہ
- مینو
- پیغام
- پیغامات
- طریقوں
- میٹرک۔
- پیمائش کا معیار
- شاید
- برا
- منٹ
- اختلاط
- ML
- جدید
- نظر ثانی کرنے
- کی نگرانی
- نگرانی
- زیادہ
- سب سے زیادہ
- ماؤنٹین
- ایک سے زیادہ
- نام
- نامزد
- تشریف لے جارہا ہے
- ضرورت ہے
- ضروریات
- نئی
- اگلے
- نہیں
- نوٹیفیکیشن
- اطلاعات
- ناول
- تعداد
- تعداد
- of
- پیش کرتے ہیں
- اکثر
- سب سے پرانی
- on
- ایک بار
- ایک
- کھول
- آزاد مصدر
- مواقع
- اصلاح
- آپشنز کے بھی
- or
- حکم
- تنظیم
- اصل
- دیگر
- دوسری صورت میں
- باہر
- پیداوار
- پر
- مجموعی جائزہ
- خود
- صفحہ
- صفحات
- متوازی
- پیرامیٹر
- حصہ
- منظور
- پاس ورڈ
- پاٹرن
- پیٹرن
- ادائیگی
- فی
- کارکردگی
- مدت
- اجازتیں
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- مہربانی کرکے
- پوائنٹ
- پوائنٹس
- پول
- ممکن
- پوسٹ
- طریقوں
- تیار کرتا ہے
- ضروریات
- تحفہ
- پہلے
- عمل
- عملدرآمد
- عمل
- پروسیسنگ
- پیدا
- مصنوعات
- پروگرامنگ
- مجوزہ
- فراہم کرتا ہے
- شائع
- مقصد
- پش
- ڈال
- رکھتا ہے
- ازگر
- فوری
- میں تیزی سے
- شرح
- تیار
- خطے
- رپورٹیں
- ذخیرہ
- نمائندے
- درخواستوں
- ضرورت
- ضروریات
- وسائل
- وسائل
- قبول
- نتیجہ
- نتائج کی نمائش
- برقرار رکھنے
- کردار
- جڑ
- رن
- چل رہا ہے
- SA
- اسی
- توسیع پذیر
- پیمانے
- سکیلنگ
- فیرنا
- بغیر کسی رکاوٹ کے
- تلاش کریں
- تلاش
- سیکشن
- دیکھنا
- کی تلاش
- منتخب
- سینئر
- احساس
- بھیجا
- کام کرتا ہے
- سروس
- سروسز
- مقرر
- ترتیبات
- سیٹ اپ
- ہونا چاہئے
- دکھائیں
- سے ظاہر ہوا
- شوز
- اسی طرح
- سادہ
- سائز
- سست
- چھوٹے
- ہوشیار
- سنیپشاٹ
- So
- حل
- حل
- کچھ
- ماخذ
- مخصوص
- تیزی
- سپن
- تقسیم
- ڈھیر لگانا
- شروع کریں
- شروع
- شروع
- حالت
- امریکہ
- درجہ
- مستحکم
- مرحلہ
- مراحل
- ابھی تک
- ذخیرہ
- ذخیرہ
- ذخیرہ کرنے
- جمع
- بعد میں
- کامیاب
- اس طرح
- تائید
- کی حمایت کرتا ہے
- اس بات کا یقین
- سسٹمز
- موزوں
- لے لو
- لیتا ہے
- لینے
- ٹاسک
- کاموں
- ٹیم
- ٹیکنالوجی
- سانچے
- اصطلاح
- شرائط
- ٹیسٹ
- تجربہ
- متن
- کہ
- ۔
- گراف
- کے بارے میں معلومات
- ماخذ
- ریاست
- ان
- ان
- تو
- وہاں.
- لہذا
- یہ
- وہ
- اس
- اگرچہ؟
- حد
- کے ذریعے
- کے لئے
- وقت
- وقت لگتا
- کرنے کے لئے
- لیا
- کل
- روایتی
- تبدیلی
- متحرک
- سبق
- دو
- قسم
- اقسام
- کے تحت
- بے مثال
- جب تک
- اپ لوڈ کردہ
- us
- استعمال کی شرائط
- استعمال کیس
- استعمال کیا جاتا ہے
- رکن کا
- صارفین
- استعمال
- کا استعمال کرتے ہوئے
- استعمال کرتا ہے
- تصدیق کریں۔
- قیمت
- ورژن
- بہت
- خیالات
- ورجینیا
- نقطہ نظر
- تصور کرنا
- حجم
- جلد
- چاہتے ہیں
- تھا
- راستہ..
- we
- ویب
- ویب خدمات
- اچھا ہے
- تھے
- کیا
- جب
- جس
- گے
- ساتھ
- کام کا بہاؤ
- کام کے بہاؤ
- کام کرتا ہے
- ورکشاپ
- ورکشاپ
- قابل
- سال
- تم
- اور
- زیفیرنیٹ