ایمیزون کینڈر کو اسکین شدہ یا تصویر پر مبنی ٹیکسٹ دستاویز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے لیے تلاش کو فعال کریں۔ عمودی تلاش۔ عی

اسکین شدہ یا تصویر پر مبنی ٹیکسٹ دستاویز کے لیے Amazon Kendra تلاش کو فعال کریں۔

ایمیزون کیندر مشین لرننگ (ML) سے چلنے والی ایک ذہین سرچ سروس ہے۔ Amazon Kendra آپ کی ویب سائٹس اور ایپلیکیشنز کی تلاش کا دوبارہ تصور کرتا ہے تاکہ آپ کے ملازمین اور صارفین آسانی سے وہ مواد تلاش کر سکیں جس کی وہ تلاش کر رہے ہیں، یہاں تک کہ جب یہ آپ کی تنظیم کے اندر متعدد مقامات اور مواد کے ذخیروں میں بکھرا ہوا ہو۔

ایمیزون کینڈر متعدد دستاویزات کی شکلوں کو سپورٹ کرتا ہے، جیسے مائیکروسافٹ ورڈ، پی ڈی ایف، اور ٹیکسٹ۔ ایک سرکردہ ایڈٹیک کسٹمر کے ساتھ کام کرتے ہوئے، ہمیں ایک انٹرپرائز سرچ حل بنانے کے لیے کہا گیا جو امیجز اور پی پی ٹی فائلوں کو بھی استعمال کرتا ہے۔ یہ پوسٹ ایمیزون کینڈر میں دستاویز کی حمایت کو بڑھانے پر مرکوز ہے تاکہ آپ ٹیکسٹ امیجز اور اسکین شدہ دستاویزات (JPEG، PNG، یا PDF فارمیٹ) کو تلاش کے قابل بنانے کے لیے پہلے سے پروسیس کر سکیں۔ حل یکجا کرتا ہے۔ ایمیزون ٹیکسٹ دستاویز پری پروسیسنگ اور آپٹیکل کریکٹر ریکگنیشن (OCR) کے لیے، اور ذہین تلاش کے لیے Amazon Kendra۔

Amazon Kendra میں اپنی مرضی کے مطابق دستاویز کی افزودگی کی نئی خصوصیت کے ساتھ، اب آپ ادخال کے دوران اپنے دستاویزات کو پہلے سے پروسیس کر سکتے ہیں اور اپنے دستاویزات کو نئے میٹا ڈیٹا کے ساتھ بڑھا سکتے ہیں۔ حسب ضرورت دستاویز کی افزودگی آپ کو بیرونی خدمات جیسے کال کرنے کی اجازت دیتی ہے۔ ایمیزون کی تعریف, Amazon Textract, and ایمیزون نقل تصاویر سے متن نکالنے، آڈیو کو نقل کرنے، اور ویڈیو کا تجزیہ کرنے کے لیے۔ حسب ضرورت دستاویز کی افزودگی کے استعمال کے بارے میں مزید معلومات کے لیے، رجوع کریں۔ Amazon Kendra میں اپنی مرضی کے مطابق دستاویز کی افزودگی کے ساتھ اپنے تلاش کے تجربے کو بڑھانے کے لیے اپنے مواد اور میٹا ڈیٹا کو بہتر بنائیں.

اس پوسٹ میں، ہم Amazon Kendra میں ادخال کے عمل کو کال کرنے سے پہلے مواد کو پہلے سے پروسیس کرنے کا ایک متبادل طریقہ تجویز کرتے ہیں۔

حل جائزہ

Amazon Textract ایک ML سروس ہے جو خود بخود اسکین شدہ دستاویزات سے ٹیکسٹ، ہینڈ رائٹنگ اور ڈیٹا نکالتی ہے اور فارمز اور ٹیبلز سے ڈیٹا کی شناخت، سمجھنے اور نکالنے کے لیے بنیادی OCR سے آگے جاتی ہے۔ آج، بہت سی کمپنیاں دستی طور پر اسکین شدہ دستاویزات جیسے PDFs، تصاویر، ٹیبلز اور فارمز سے بنیادی OCR سافٹ ویئر کے ذریعے ڈیٹا نکالتی ہیں جس کے لیے دستی کنفیگریشن کی ضرورت ہوتی ہے، جس کے لیے فارم تبدیل ہونے پر اکثر ری کنفیگریشن کی ضرورت ہوتی ہے۔

ان دستی اور مہنگے عمل پر قابو پانے کے لیے، Amazon Textract دستاویزات کی ایک وسیع رینج کو پڑھنے اور اس پر کارروائی کرنے کے لیے مشین لرننگ کا استعمال کرتا ہے، بغیر کسی دستی کوشش کے متن، ہینڈ رائٹنگ، ٹیبلز اور دیگر ڈیٹا کو درست طریقے سے نکالتا ہے۔ آپ دستاویز کی پروسیسنگ کو تیزی سے خودکار کر سکتے ہیں اور نکالی گئی معلومات پر کارروائی کر سکتے ہیں، چاہے یہ قرضوں کی پروسیسنگ کو خودکار کرنا ہو یا رسیدوں اور رسیدوں سے معلومات نکالنا ہو۔

ایمیزون کیندر ایک استعمال میں آسان انٹرپرائز سرچ سروس ہے جو آپ کو اپنی ایپلی کیشنز میں تلاش کی صلاحیتیں شامل کرنے کی اجازت دیتی ہے تاکہ اختتامی صارفین آپ کی کمپنی کے اندر مختلف ڈیٹا ذرائع میں محفوظ کردہ معلومات آسانی سے تلاش کر سکیں۔ اس میں رسیدیں، کاروباری دستاویزات، تکنیکی کتابچے، سیلز رپورٹس، کارپوریٹ لغتیں، اندرونی ویب سائٹس، اور بہت کچھ شامل ہوسکتا ہے۔ آپ اس معلومات کو سٹوریج کے حل سے حاصل کر سکتے ہیں جیسے ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) اور OneDrive؛ ایپلی کیشنز جیسے سیلز فورس، شیئرپوائنٹ، اور سروس ناؤ؛ یا رشتہ دار ڈیٹا بیس جیسے ایمیزون متعلقہ ڈیٹا بیس سروس (ایمیزون آر ڈی ایس)۔

مجوزہ حل آپ کو اسکین شدہ دستاویزات میں تلاش کی صلاحیت کو غیر مقفل کرنے کے قابل بناتا ہے، جس سے Amazon Kendra کی دستاویز کی اقسام کی وسیع رینج میں درست جوابات تلاش کرنے کی صلاحیت میں اضافہ ہوتا ہے۔ ورک فلو میں درج ذیل مراحل شامل ہیں:

  1. Amazon S3 پر ایک دستاویز (یا مختلف اقسام کی دستاویزات) اپ لوڈ کریں۔
  2. واقعہ ایک کو متحرک کرتا ہے۔ او ڈبلیو ایس لامبڈا۔ فنکشن جو ہم وقت ساز Amazon Textract API (DetectDocumentText).
  3. Amazon Textract Amazon S3 میں دستاویز کو پڑھتا ہے، اس سے متن کو نکالتا ہے، اور نکالے گئے متن کو Lambda فنکشن میں واپس کرتا ہے۔
  4. نئی ٹیکسٹ فائل پر ڈیٹا سورس کو دوبارہ ترتیب دینے کی ضرورت ہے۔
  5. دوبارہ ترتیب دینے کے مکمل ہونے پر، آپ نئے ڈیٹاسیٹ کو Amazon Kendra کنسول یا API کے ذریعے تلاش کر سکتے ہیں۔

مندرجہ ذیل خاکہ حل کے فن تعمیر کی وضاحت کرتا ہے۔

ایمیزون کینڈر کو اسکین شدہ یا تصویر پر مبنی ٹیکسٹ دستاویز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے لیے تلاش کو فعال کریں۔ عمودی تلاش۔ عی

مندرجہ ذیل حصوں میں، ہم یہ ظاہر کرتے ہیں کہ لیمبڈا فنکشن کو کیسے ترتیب دیا جائے، ایونٹ کا محرک کیسے بنایا جائے، کسی دستاویز پر کارروائی کی جائے، اور پھر ڈیٹا کو دوبارہ ترتیب دیا جائے۔

لیمبڈا فنکشن کو ترتیب دیں۔

اپنے لیمبڈا فنکشن کو کنفیگر کرنے کے لیے، فنکشن Python ایڈیٹر میں درج ذیل کوڈ شامل کریں:

import urllib
import boto3 textract = boto3.client('textract')
def handler(event, context): source_bucket = event['Records'][0]['s3']['bucket']['name'] object_key = urllib.parse.unquote_plus(event['Records'][0]['s3']['object']['key']) textract_result = textract.detect_document_text( Document={ 'S3Object': { 'Bucket': source_bucket, 'Name': object_key } }) page="" blocks = [x for x in textract_result['Blocks'] if x['BlockType'] == "LINE"] for block in blocks: page += " " + block['Text'] print(page) s3 = boto3.resource('s3') object = s3.Object('demo-kendra-test', 'text/apollo11-summary.txt') object.put(Body=page)

ہم استعمال کرتے ہیں DetectDocumentText ایمیزون S3 میں بازیافت کردہ تصویر (JPEG یا PNG) سے متن کو نکالنے کے لیے API۔

Amazon S3 پر ایک ایونٹ ٹرگر بنائیں

اس مرحلے میں، ہم لیمبڈا فنکشن شروع کرنے کے لیے ایک ایونٹ ٹرگر بناتے ہیں جب ایک نئی دستاویز کسی مخصوص بالٹی پر اپ لوڈ کی جاتی ہے۔ مندرجہ ذیل اسکرین شاٹ Amazon S3 کنسول پر ہمارے نئے فنکشن کو دکھاتا ہے۔

ایمیزون کینڈر کو اسکین شدہ یا تصویر پر مبنی ٹیکسٹ دستاویز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے لیے تلاش کو فعال کریں۔ عمودی تلاش۔ عی

آپ لیمبڈا کنسول پر ایونٹ ٹرگر کی تصدیق بھی کر سکتے ہیں۔

ایمیزون کینڈر کو اسکین شدہ یا تصویر پر مبنی ٹیکسٹ دستاویز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے لیے تلاش کو فعال کریں۔ عمودی تلاش۔ عی

ایک دستاویز پر کارروائی کریں۔

اس عمل کو جانچنے کے لیے، ہم S3 فولڈر میں ایک تصویر اپ لوڈ کرتے ہیں جس کی وضاحت ہم نے S3 ایونٹ ٹرگر کے لیے کی ہے۔ ہم مندرجہ ذیل نمونہ کی تصویر استعمال کرتے ہیں۔

ایمیزون کینڈر کو اسکین شدہ یا تصویر پر مبنی ٹیکسٹ دستاویز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے لیے تلاش کو فعال کریں۔ عمودی تلاش۔ عی

جب لیمبڈا فنکشن مکمل ہو جاتا ہے، تو ہم جا سکتے ہیں۔ ایمیزون کلاؤڈ واچ آؤٹ پٹ چیک کرنے کے لیے کنسول۔ مندرجہ ذیل اسکرین شاٹ نکالا گیا متن دکھاتا ہے، جو اس بات کی تصدیق کرتا ہے کہ لیمبڈا فنکشن کامیابی سے چل رہا ہے۔

ایمیزون کینڈر کو اسکین شدہ یا تصویر پر مبنی ٹیکسٹ دستاویز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے لیے تلاش کو فعال کریں۔ عمودی تلاش۔ عی

ایمیزون کینڈر کے ساتھ ڈیٹا کو دوبارہ ترتیب دیں۔

اب ہم اپنے ڈیٹا کو دوبارہ ترتیب دے سکتے ہیں۔

  1. ایمیزون کینڈر کنسول پر، نیچے ڈیٹا مینجمنٹ نیویگیشن پین میں، منتخب کریں۔ اعداد و شمار ذرائع.
  2. ڈیٹا کا ذریعہ منتخب کریں۔ demo-s3-datasource.
  3. میں سے انتخاب کریں ابھی مطابقت پذیری کریں.

مطابقت پذیری کی حالت میں بدل جاتی ہے۔ Synching - crawling.

ایمیزون کینڈر کو اسکین شدہ یا تصویر پر مبنی ٹیکسٹ دستاویز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے لیے تلاش کو فعال کریں۔ عمودی تلاش۔ عی

مطابقت پذیری مکمل ہونے پر، مطابقت پذیری کی حیثیت تبدیل ہو جاتی ہے۔ Succeeded اور مطابقت پذیری کی حالت میں بدل جاتی ہے۔ Idle.

ایمیزون کینڈر کو اسکین شدہ یا تصویر پر مبنی ٹیکسٹ دستاویز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے لیے تلاش کو فعال کریں۔ عمودی تلاش۔ عی

اب ہم سرچ کنسول پر واپس جا سکتے ہیں اور اپنی پہلوؤں کی تلاش کو عملی شکل میں دیکھ سکتے ہیں۔

  1. نیویگیشن پین میں، منتخب کریں۔ کنسول تلاش کریں.
    ایمیزون کینڈر کو اسکین شدہ یا تصویر پر مبنی ٹیکسٹ دستاویز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے لیے تلاش کو فعال کریں۔ عمودی تلاش۔ عی

ہم نے چند آئٹمز کے لیے میٹا ڈیٹا شامل کیا۔ ان میں سے دو ML الگورتھم XGBoost اور BlazingText ہیں۔

  1. آئیے تلاش کرنے کی کوشش کرتے ہیں۔ Sagemaker.
    ایمیزون کینڈر کو اسکین شدہ یا تصویر پر مبنی ٹیکسٹ دستاویز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے لیے تلاش کو فعال کریں۔ عمودی تلاش۔ عی

ہماری تلاش کامیاب رہی، اور ہمیں نتائج کی فہرست مل گئی۔ آئیے دیکھتے ہیں کہ ہمارے پاس کیا پہلو ہیں۔

  1. توسیع فلٹر تلاش کے نتائج.

ہمارے پاس ہے category اور tags وہ پہلو جو ہمارے آئٹم میٹا ڈیٹا کا حصہ تھے۔

  1. میں سے انتخاب کریں بلیزنگ ٹیکسٹ صرف اس الگورتھم کے نتائج کو فلٹر کرنے کے لیے۔
    ایمیزون کینڈر کو اسکین شدہ یا تصویر پر مبنی ٹیکسٹ دستاویز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے لیے تلاش کو فعال کریں۔ عمودی تلاش۔ عی
  2. اب آئیے نئی اپ لوڈ کردہ تصویری فائلوں پر سرچ کرتے ہیں۔ مندرجہ ذیل اسکرین شاٹ نئے پری پروسیس شدہ دستاویزات کی تلاش کو ظاہر کرتا ہے۔
    ایمیزون کینڈر کو اسکین شدہ یا تصویر پر مبنی ٹیکسٹ دستاویز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے لیے تلاش کو فعال کریں۔ عمودی تلاش۔ عی

نتیجہ

یہ بلاگ تلاش کے نتائج اور تلاش کے تجربے کی تاثیر کو بہتر بنانے میں مددگار ثابت ہوگا۔ آپ ایمیزون ٹیکسٹریکٹ کو اسکین شدہ امیجز سے ٹیکسٹ نکالنے کے لیے استعمال کر سکتے ہیں جو میٹا ڈیٹا کے طور پر شامل کی جاتی ہیں اور بعد میں تلاش کے نتائج کے ساتھ تعامل کے لیے پہلوؤں کے طور پر دستیاب ہوتی ہیں۔ یہ صرف اس بات کی ایک مثال ہے کہ آپ اپنے صارفین کے لیے تلاش کا ایک امتیازی تجربہ بنانے کے لیے AWS مقامی خدمات کا استعمال کیسے کر سکتے ہیں۔ یہ آپ کے علمی اثاثوں کی مکمل صلاحیت کو کھولنے میں بھی مدد کرتا ہے۔

دیگر AWS خدمات کو Amazon Kendra کے ساتھ ملا کر آپ کیا حاصل کر سکتے ہیں اس میں گہرا غوطہ لگانے کے لیے، دیکھیں Amazon Transscribe اور Amazon Kendra کا استعمال کرتے ہوئے اپنی آڈیو اور ویڈیو فائلوں کو قابل تلاش بنائیںخودکار مواد کی افزودگی کے ساتھ ایک ذہین تلاش کا حل تیار کریں۔، اور پر دیگر پوسٹس ایمیزون کیندر بلاگ.


مصنف کے بارے میں

ایمیزون کینڈر کو اسکین شدہ یا تصویر پر مبنی ٹیکسٹ دستاویز پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے لیے تلاش کو فعال کریں۔ عمودی تلاش۔ عیسنجے تیواری۔ ایک ماہر حل آرکیٹیکٹ AI/ML ہے۔ وہ کاروباری ضروریات کی وضاحت کرنے، مخصوص استعمال کے معاملات میں L300 سیشنز فراہم کرنے، اور ML ایپلیکیشنز اور خدمات کو ڈیزائن کرنے کے لیے اسٹریٹجک صارفین کے ساتھ کام کرنے میں اپنا وقت صرف کرتا ہے جو قابل توسیع، قابل اعتماد، اور پرفارمنس ہیں۔ اس نے AI/ML سے چلنے والی Amazon SageMaker سروس کو شروع کرنے اور اسکیل کرنے میں مدد کی ہے اور Amazon AI سروسز کا استعمال کرتے ہوئے تصور کے کئی ثبوتوں کو لاگو کیا ہے۔ اس نے ڈیجیٹل تبدیلی کے سفر کے ایک حصے کے طور پر جدید تجزیاتی پلیٹ فارم بھی تیار کیا ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ