پلیٹو بلاکچین ڈیٹا انٹیلی جنس کی ذہین دستاویز پراسیسنگ کے لیے Amazon Comprehend کے ساتھ ایک قدمی درجہ بندی اور ہستی کی شناخت کا تعارف۔ عمودی تلاش۔ عی

ذہین دستاویز کی پروسیسنگ کے لیے Amazon Comprehend کے ساتھ ایک قدمی درجہ بندی اور ہستی کی شناخت متعارف کرانا

"ذہین دستاویز پروسیسنگ (IDP) حل اعلی حجم، بار بار دستاویز کی پروسیسنگ کے کاموں کے آٹومیشن اور تجزیہ اور بصیرت کے لئے ڈیٹا کو نکالتے ہیں. IDP قدرتی زبان کی ٹیکنالوجیز اور کمپیوٹر ویژن کا استعمال کرتا ہے تاکہ ساختی اور غیر ساختہ مواد سے ڈیٹا نکالا جا سکے، خاص طور پر دستاویزات سے، آٹومیشن اور اضافہ کو سپورٹ کرنے کے لیے۔"  - گارٹنر

ایمیزون کی ذہین دستاویز پراسیسنگ (IDP) کا ہدف مشین لرننگ (ML) کا استعمال کرتے ہوئے بڑی مقدار میں دستاویزات کی پروسیسنگ کو خودکار بنانا ہے تاکہ پیداواری صلاحیت میں اضافہ ہو، انسانی محنت سے وابستہ اخراجات کو کم کیا جا سکے، اور صارف کو ہموار تجربہ فراہم کیا جا سکے۔ صارفین دستاویزات کی شناخت کرنے اور استعمال کے مختلف معاملات کے لیے ان سے اہم معلومات نکالنے میں کافی وقت اور کوشش صرف کرتے ہیں۔ آج، ایمیزون کی تعریف سادہ ٹیکسٹ دستاویزات کے لیے درجہ بندی کی حمایت کرتا ہے، جس کے لیے آپ کو نیم ساختہ فارمیٹس (اسکین شدہ، ڈیجیٹل پی ڈی ایف یا تصاویر جیسے کہ PNG، JPG، TIFF) میں دستاویزات کو پہلے سے پروسیس کرنے کی ضرورت ہوتی ہے اور پھر سادہ ٹیکسٹ آؤٹ پٹ کو استعمال کرتے ہوئے اپنا اندازہ لگانے کے لیے اپنی مرضی کے مطابق درجہ بندی ماڈل اسی طرح، کے لئے اپنی مرضی کے مطابق ہستی کی شناخت اصل وقت میں، پی ڈی ایف اور تصویری فائلوں جیسی نیم ساختہ دستاویزات کے لیے متن کو نکالنے کے لیے پری پروسیسنگ کی ضرورت ہوتی ہے۔ یہ دو قدمی عمل دستاویز کی پروسیسنگ کے کام کے بہاؤ میں پیچیدگیوں کو متعارف کراتا ہے۔

پچھلے سال ، ہم مقامی دستاویز فارمیٹس کے لیے حمایت کا اعلان کیا۔ اپنی مرضی کے مطابق ہستی کی شناخت (NER) کے ساتھ غیر مطابقت پذیر ملازمتیں. آج، ہم Amazon Comprehend کا استعمال کرتے ہوئے مقامی فارمیٹس (PDF، TIFF، JPG، PNG) میں نیم ساختہ دستاویزات کے لیے NER کے لیے ایک قدمی دستاویز کی درجہ بندی اور ریئل ٹائم تجزیہ کا اعلان کرنے کے لیے پرجوش ہیں۔ خاص طور پر، ہم درج ذیل صلاحیتوں کا اعلان کر رہے ہیں:

  • حسب ضرورت درجہ بندی ریئل ٹائم تجزیہ اور غیر مطابقت پذیر ملازمتوں کے لیے مقامی فارمیٹس میں دستاویزات کے لیے معاونت
  • اپنی مرضی کے مطابق ہستی کی شناخت کے حقیقی وقت کے تجزیہ کے لیے مقامی فارمیٹس میں دستاویزات کے لیے معاونت

اس نئی ریلیز کے ساتھ، Amazon Comprehend کسٹم کلاسیفیکیشن اور کسٹم entity recognition (NER) دستاویزات کو PDF، TIFF، PNG، اور JPEG جیسے فارمیٹس میں براہ راست سپورٹ کرتا ہے، بغیر ان سے UTF8 انکوڈ شدہ سادہ متن کو نکالنے کی ضرورت ہے۔ مندرجہ ذیل اعداد و شمار پچھلے عمل کا نئے طریقہ کار اور معاونت سے موازنہ کرتا ہے۔

یہ خصوصیت دستاویزات سے سادہ متن کو نکالنے کے لیے درکار کسی بھی پری پروسیسنگ اقدامات کو ختم کر کے دستاویز کی پروسیسنگ کے ورک فلو کو آسان بناتی ہے، اور ان پر کارروائی کے لیے درکار مجموعی وقت کو کم کرتی ہے۔

اس پوسٹ میں، ہم ایک اعلیٰ سطحی IDP ورک فلو حل کے ڈیزائن، صنعت کے استعمال کے چند کیسز، Amazon Comprehend کی نئی خصوصیات، اور انہیں استعمال کرنے کے طریقے پر تبادلہ خیال کرتے ہیں۔

حل کا جائزہ

آئیے انشورنس انڈسٹری میں ایک عام استعمال کے معاملے کو تلاش کرکے شروع کریں۔ ایک عام بیمہ کے دعوے کے عمل میں کلیم پیکج شامل ہوتا ہے جس میں متعدد دستاویزات شامل ہو سکتی ہیں۔ جب بیمہ کا دعوی دائر کیا جاتا ہے، تو اس میں انشورنس کلیم فارم، واقعے کی رپورٹس، شناختی دستاویزات، اور فریق ثالث کے دعوے کے دستاویزات شامل ہوتے ہیں۔ بیمہ کے دعوے پر کارروائی اور فیصلہ کرنے کے لیے دستاویزات کا حجم دعوے کی قسم اور اس میں شامل کاروباری عمل کے لحاظ سے سینکڑوں اور یہاں تک کہ ہزاروں صفحات تک چل سکتا ہے۔ انشورنس کلیم کے نمائندے اور فیصلہ کنندہ عام طور پر سیکڑوں یا اس سے بھی ہزاروں کلیم فائلنگ سے معلومات کو چھانٹنے، چھانٹنے، اور نکالنے میں سیکڑوں گھنٹے صرف کرتے ہیں۔

انشورنس انڈسٹری کے استعمال کے معاملے کی طرح، ادائیگی کی صنعت سرحد پار ادائیگی کے معاہدوں، رسیدوں، اور فاریکس اسٹیٹمنٹس کے لیے نیم ساختہ دستاویزات کی بڑی مقدار پر کارروائی کرتی ہے۔ کاروباری صارفین اپنا زیادہ تر وقت دستی سرگرمیوں پر صرف کرتے ہیں جیسے کہ شناخت، ترتیب، توثیق، نکالنا، اور مطلوبہ معلومات کو بہاو ایپلیکیشنز تک پہنچانا۔ یہ دستی عمل تکلیف دہ، بار بار، غلطی کا شکار، مہنگا، اور پیمانہ کرنا مشکل ہے۔ دیگر صنعتوں کو جو اسی طرح کے چیلنجوں کا سامنا کرتے ہیں ان میں رہن اور قرض دینا، صحت کی دیکھ بھال اور زندگی سائنس، قانونی، اکاؤنٹنگ، اور ٹیکس مینجمنٹ شامل ہیں۔ کاروباری اداروں کے لیے یہ انتہائی اہم ہے کہ دستاویزات کی اتنی بڑی مقدار کو بروقت اعلیٰ سطح کی درستگی اور برائے نام دستی کوشش کے ساتھ پروسیس کریں۔

Amazon Comprehend دستاویز کی درجہ بندی کو خودکار بنانے کے لیے کلیدی صلاحیتیں فراہم کرتا ہے اور دستاویزات کی ایک بڑی مقدار سے اعلیٰ درستگی کے ساتھ، ایک قابل توسیع اور سرمایہ کاری مؤثر طریقے سے۔ مندرجہ ذیل خاکہ Amazon Comprehend کے ساتھ IDP منطقی ورک فلو دکھاتا ہے۔ ورک فلو کا بنیادی حصہ دستاویزات کی درجہ بندی اور NER کا استعمال کرتے ہوئے Amazon Comprehend کسٹم ماڈلز پر مشتمل معلومات پر مشتمل ہے۔ خاکہ یہ بھی ظاہر کرتا ہے کہ کس طرح اپنی مرضی کے ماڈلز کو مسلسل بہتر بنایا جا سکتا ہے تاکہ دستاویزات اور کاروباری عمل کے ارتقا کے ساتھ ساتھ اعلیٰ درستگی فراہم کی جا سکے۔

پلیٹو بلاکچین ڈیٹا انٹیلی جنس کی ذہین دستاویز پراسیسنگ کے لیے Amazon Comprehend کے ساتھ ایک قدمی درجہ بندی اور ہستی کی شناخت کا تعارف۔ عمودی تلاش۔ عی

اپنی مرضی کے مطابق دستاویز کی درجہ بندی

Amazon Comprehend کسٹم درجہ بندی کے ساتھ، آپ اپنی دستاویزات کو پہلے سے طے شدہ زمروں (کلاسز) میں ترتیب دے سکتے ہیں۔ اعلیٰ سطح پر، حسب ضرورت دستاویز کی درجہ بندی کرنے اور دستاویز کی درجہ بندی کرنے کے لیے درج ذیل اقدامات ہیں:

  1. ایک حسب ضرورت دستاویز کی درجہ بندی کرنے والے کو تربیت دینے کے لیے تربیتی ڈیٹا تیار کریں۔
  2. تربیتی ڈیٹا کے ساتھ کسٹمر دستاویز کی درجہ بندی کرنے والے کو تربیت دیں۔
  3. ماڈل کی تربیت کے بعد، اختیاری طور پر ایک حقیقی وقت کا اختتامی نقطہ تعینات کریں۔
  4. دستاویز کی درجہ بندی کو یا تو غیر مطابقت پذیر کام کے ساتھ انجام دیں یا اختتامی نقطہ کا استعمال کرتے ہوئے حقیقی وقت میں کریں۔

مرحلہ 1 اور 2 عام طور پر IDP پروجیکٹ کے آغاز میں کاروباری عمل سے متعلقہ دستاویز کی کلاسوں کی نشاندہی کے بعد کیا جاتا ہے۔ ایک حسب ضرورت کلاسیفائر ماڈل کی درستگی کو بہتر بنانے اور دستاویز کی نئی کلاسیں متعارف کرانے کے لیے وقتاً فوقتاً دوبارہ تربیت دی جا سکتی ہے۔ آپ اپنی مرضی کے مطابق درجہ بندی کے ماڈل کو تربیت دے سکتے ہیں۔ ملٹی کلاس موڈ or ملٹی لیبل موڈ. تربیت ہر ایک کے لیے دو طریقوں میں سے ایک طریقے سے کی جا سکتی ہے: CSV فائل کا استعمال کرتے ہوئے، یا ایک Augmented manifest فائل کا استعمال۔ کا حوالہ دیتے ہیں تربیتی ڈیٹا کی تیاری اپنی مرضی کے مطابق درجہ بندی کے ماڈل کی تربیت کے بارے میں مزید تفصیلات کے لیے۔ اپنی مرضی کے مطابق درجہ بندی کرنے والے ماڈل کی تربیت کے بعد، کسی دستاویز کو یا تو استعمال کرتے ہوئے درجہ بندی کی جا سکتی ہے۔ حقیقی وقت کا تجزیہ یا ایک متضاد کام. ریئل ٹائم تجزیہ کی ضرورت ہے۔ اختتامی نقطہ تعینات کیا جائے گا۔ تربیت یافتہ ماڈل کے ساتھ اور استعمال کے معاملے کے لحاظ سے چھوٹی دستاویزات کے لیے بہترین موزوں ہے۔ دستاویزات کی ایک بڑی تعداد کے لیے، ایک غیر مطابقت پذیر درجہ بندی کا کام بہترین موزوں ہے۔

اپنی مرضی کے مطابق دستاویز کی درجہ بندی کے ماڈل کو تربیت دیں۔

نئی خصوصیت کو ظاہر کرنے کے لیے، ہم نے ملٹی لیبل موڈ میں ایک حسب ضرورت درجہ بندی ماڈل کو تربیت دی، جو انشورنس دستاویزات کو سات مختلف کلاسوں میں سے ایک میں درجہ بندی کر سکتا ہے۔ کلاسز ہیں۔ INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARY، اور CMS1500. ہم نمونہ دستاویزات کو مقامی پی ڈی ایف، پی این جی، اور جے پی ای جی فارمیٹ میں درجہ بندی کرنا چاہتے ہیں، جو ایک میں محفوظ ہے۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) بالٹی، درجہ بندی ماڈل کا استعمال کرتے ہوئے. غیر مطابقت پذیر درجہ بندی کا کام شروع کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:

  1. Amazon Comprehend کنسول پر، منتخب کریں۔ تجزیہ کی نوکریاں نیوی گیشن پین میں.
  2. میں سے انتخاب کریں نوکری پیدا کریں۔.
    نوکری بنائیں کا انتخاب کریں۔
  3. کے لئے ناماپنی درجہ بندی کے کام کے لیے ایک نام درج کریں۔
  4. کے لئے تجزیہ کی قسممنتخب کریں حسب ضرورت درجہ بندی.
  5. کے لئے درجہ بندی کرنے والا ماڈل، مناسب تربیت یافتہ درجہ بندی ماڈل کا انتخاب کریں۔
  6. کے لئے ورژن، مناسب ماڈل ورژن کا انتخاب کریں۔
    ورژن کے لیے، مناسب ماڈل ورژن کا انتخاب کریں۔

میں ان پٹ ڈیٹا سیکشن، ہم وہ مقام فراہم کرتے ہیں جہاں ہماری دستاویزات محفوظ ہیں۔

  1. کے لئے ان پٹ کی شکلمنتخب کریں فی فائل ایک دستاویز.
  2. کے لئے دستاویز پڑھنے کا موڈمنتخب کریں دستاویز کو پڑھنے کی کارروائی پر مجبور کریں۔.
  3. کے لئے دستاویز پڑھنے کی کارروائیمنتخب کریں ٹیکسٹ دستاویز کے متن کا پتہ لگانا.

یہ Amazon Comprehend کو استعمال کرنے کے قابل بناتا ہے۔ ایمیزون ٹیکسٹ DetectDocumentText درجہ بندی چلانے سے پہلے دستاویزات کو پڑھنے کے لیے API۔ دی DetectDocumentText API دستاویزات سے متن کی لکیریں اور الفاظ نکالنے میں مددگار ہے۔ آپ بھی انتخاب کر سکتے ہیں۔ متن کا تجزیہ دستاویز لیے دستاویز پڑھنے کی کارروائی، جس صورت میں Amazon Comprehend Amazon Textract استعمال کرتا ہے۔ دستاویز کا تجزیہ کریں۔ دستاویزات کو پڑھنے کے لیے API۔ کے ساتہ AnalyzeDocument API، آپ نکالنے کا انتخاب کر سکتے ہیں۔ میزیں, فارم، یا دونوں. دی دستاویز پڑھنے کا موڈ آپشن Amazon Comprehend کو پردے کے پیچھے موجود دستاویزات سے متن نکالنے کے قابل بناتا ہے، جس سے دستاویز سے متن نکالنے کے اضافی مرحلے کو کم کرنے میں مدد ملتی ہے، جو ہمارے دستاویز کی پروسیسنگ ورک فلو میں درکار ہے۔
دستاویز پڑھنے کے موڈ کا اختیار Amazon کو پردے کے پیچھے موجود دستاویزات سے متن کو نکالنے کے قابل بناتا ہے، جس سے دستاویز سے متن نکالنے کے اضافی مرحلے کو کم کرنے میں مدد ملتی ہے، جو ہمارے دستاویز کی پروسیسنگ ورک فلو میں درکار ہے۔

Amazon Comprehend کسٹم کلاسیفائر کے ذریعے تیار کردہ خام JSON جوابات پر بھی کارروائی کر سکتا ہے۔ DetectDocumentText اور AnalyzeDocument APIs، بغیر کسی ترمیم یا پری پروسیسنگ کے۔ یہ موجودہ ورک فلو کے لیے مفید ہے جہاں Amazon Textract پہلے سے ہی دستاویزات سے متن نکالنے میں شامل ہے۔ اس صورت میں، Amazon Textract سے JSON آؤٹ پٹ کو براہ راست Amazon Comprehend دستاویز کی درجہ بندی APIs کو فیڈ کیا جا سکتا ہے۔

  1. میں آؤٹ پٹ ڈیٹا سیکشن، کے لیے S3 مقام، ایک Amazon S3 مقام متعین کریں جہاں آپ چاہتے ہیں کہ غیر مطابقت پذیر کام تخمینہ کے نتائج لکھے۔
  2. باقی آپشنز کو بطور ڈیفالٹ چھوڑ دیں۔
  3. میں سے انتخاب کریں نوکری پیدا کریں۔ کام شروع کرنے کے لیے۔
    کام شروع کرنے کے لیے نوکری بنائیں کا انتخاب کریں۔

آپ نوکری کی حالت دیکھ سکتے ہیں۔ تجزیہ کی نوکریاں صفحہ.

جب کام مکمل ہو جاتا ہے، تو ہم تجزیہ جاب کا آؤٹ پٹ دیکھ سکتے ہیں، جو جاب کنفیگریشن کے دوران فراہم کردہ Amazon S3 مقام میں محفوظ ہے۔ ہمارے سنگل پیج پی ڈی ایف نمونہ CMS1500 دستاویز کے لیے درجہ بندی کی پیداوار حسب ذیل ہے۔ آؤٹ پٹ JSON لائنز فارمیٹ میں ایک فائل ہے، جسے پڑھنے کی اہلیت کو بہتر بنانے کے لیے فارمیٹ کیا گیا ہے۔

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

پچھلا نمونہ ایک صفحے کا پی ڈی ایف دستاویز ہے۔ تاہم، حسب ضرورت درجہ بندی متعدد صفحات پر مشتمل پی ڈی ایف دستاویزات کو بھی سنبھال سکتی ہے۔ کثیر صفحاتی دستاویزات کی صورت میں، آؤٹ پٹ میں متعدد JSON لائنیں ہوتی ہیں، جہاں ہر لائن کسی دستاویز کے ہر ایک صفحہ کی درجہ بندی کا نتیجہ ہوتی ہے۔ درج ذیل ایک نمونہ کثیر صفحاتی درجہ بندی آؤٹ پٹ ہے:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

اپنی مرضی کے مطابق ہستی کی شناخت

Amazon Comprehend کسٹم ہستی کے شناخت کنندہ کے ساتھ، آپ دستاویزات کا تجزیہ کر سکتے ہیں اور پروڈکٹ کوڈز یا کاروباری مخصوص ہستیوں جیسے اداروں کو نکال سکتے ہیں جو آپ کی مخصوص ضروریات کے مطابق ہوں۔ اعلیٰ سطح پر، حسب ضرورت ہستی شناخت کنندہ کو ترتیب دینے اور ہستی کا پتہ لگانے کے لیے درج ذیل اقدامات ہیں:

  1. اپنی مرضی کے مطابق ہستی پہچاننے والے کو تربیت دینے کے لیے تربیتی ڈیٹا تیار کریں۔
  2. تربیتی ڈیٹا کے ساتھ ایک حسب ضرورت ہستی پہچاننے والے کو تربیت دیں۔
  3. ماڈل کی تربیت کے بعد، اختیاری طور پر ایک حقیقی وقت کا اختتامی نقطہ تعینات کریں۔
  4. ہستی کا پتہ لگانے کو یا تو غیر مطابقت پذیر کام کے ساتھ انجام دیں یا اختتامی نقطہ کا استعمال کرتے ہوئے حقیقی وقت میں۔

درستگی کو بہتر بنانے اور ہستی کی نئی اقسام متعارف کرانے کے لیے ایک حسب ضرورت ہستی کی شناخت کرنے والے ماڈل کو وقتاً فوقتاً دوبارہ تربیت دی جا سکتی ہے۔ آپ ان میں سے کسی ایک کے ساتھ ایک حسب ضرورت ہستی پہچاننے والے ماڈل کو تربیت دے سکتے ہیں۔ ہستی کی فہرستیں or تشریحات. دونوں ہی صورتوں میں، Amazon Comprehend دستاویزات کی قسم اور اس سیاق و سباق کے بارے میں سیکھتا ہے جہاں ہستیوں کو ایک ہستی پہچاننے والا ماڈل بنایا جاتا ہے جو نئی ہستیوں کا پتہ لگانے کے لیے عام کر سکتا ہے۔ کا حوالہ دیتے ہیں تربیتی ڈیٹا کی تیاری اپنی مرضی کے مطابق ہستی شناخت کنندہ کے لیے تربیتی ڈیٹا تیار کرنے کے بارے میں مزید جاننے کے لیے۔

اپنی مرضی کے مطابق ہستی کی شناخت کرنے والے ماڈل کی تربیت کے بعد، ہستی کا پتہ لگانا یا تو استعمال کر کے کیا جا سکتا ہے۔ حقیقی وقت کا تجزیہ یا ایک متضاد کام. ریئل ٹائم تجزیہ کی ضرورت ہے۔ اختتامی نقطہ تعینات کیا جائے گا۔ تربیت یافتہ ماڈل کے ساتھ اور استعمال کے معاملے کے لحاظ سے چھوٹی دستاویزات کے لیے بہترین موزوں ہے۔ دستاویزات کی ایک بڑی تعداد کے لیے، ایک غیر مطابقت پذیر درجہ بندی کا کام بہترین موزوں ہے۔

اپنی مرضی کے مطابق ہستی کی شناخت کے ماڈل کو تربیت دیں۔

اصل وقت میں ہستی کی کھوج کو ظاہر کرنے کے لیے، ہم نے اپنی مرضی کے مطابق ہستی کی شناخت کرنے والے ماڈل کو انشورنس دستاویزات اور بڑھا ہوا مینی فیسٹ فائلوں کے ساتھ تربیت دی اور تربیت یافتہ ماڈل کا استعمال کرتے ہوئے اختتامی نقطہ کو تعینات کیا۔ ہستی کی اقسام یہ ہیں۔ Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Action، اور Sender. ہم شناخت کنندہ ماڈل کا استعمال کرتے ہوئے، S3 بالٹی میں ذخیرہ کردہ مقامی PDF، PNG، اور JPEG فارمیٹ میں نمونہ دستاویزات سے اداروں کا پتہ لگانا چاہتے ہیں۔

نوٹ کریں کہ آپ اپنی مرضی کے مطابق ہستی کی شناخت کا ماڈل استعمال کر سکتے ہیں جو PDF، TIFF، امیج، Word، اور سادہ ٹیکسٹ دستاویزات سے حسب ضرورت ہستیوں کو نکالنے کے لیے PDF دستاویزات کے ساتھ تربیت یافتہ ہے۔ اگر آپ کے ماڈل کو ٹیکسٹ دستاویزات اور ہستی کی فہرست کا استعمال کرتے ہوئے تربیت دی گئی ہے، تو آپ اداروں کو نکالنے کے لیے صرف سادہ ٹیکسٹ دستاویزات کا استعمال کر سکتے ہیں۔

ہمیں شناخت کنندہ ماڈل کا استعمال کرتے ہوئے کسی بھی مقامی PDF، PNG، اور JPEG فارمیٹ میں نمونہ دستاویز سے اداروں کا پتہ لگانے کی ضرورت ہے۔ ہم وقت ساز ہستی کا پتہ لگانے کا کام شروع کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:

  1. Amazon Comprehend کنسول پر، منتخب کریں۔ ریئل ٹائم تجزیہ نیوی گیشن پین میں.
  2. کے تحت تجزیہ کی قسممنتخب اپنی مرضی کے.
  3. کے لئے اپنی مرضی کے مطابق ہستی کی شناخت، اپنی مرضی کے مطابق ماڈل کی قسم کا انتخاب کریں۔
  4. کے لئے اختتام پوائنٹریئل ٹائم اینڈ پوائنٹ کا انتخاب کریں جو آپ نے اپنے ہستی کی شناخت کنندہ ماڈل کے لیے بنایا ہے۔
  5. منتخب کریں اپ لوڈ فائل اور منتخب کریں فائل کا انتخاب کریں پی ڈی ایف یا تصویری فائل اپ لوڈ کرنے کے لیے۔
  6. پھیلائیں اعلی درجے کی دستاویز ان پٹ سیکشن اور کے لیے دستاویز پڑھنے کا موڈمنتخب کریں سروس ڈیفالٹ.
  7. کے لئے دستاویز پڑھنے کی کارروائیمنتخب کریں ٹیکسٹ دستاویز کے متن کا پتہ لگانا.
  8. میں سے انتخاب کریں تجزیہ اصل وقت میں دستاویز کا تجزیہ کرنے کے لئے.
    اصل وقت میں دستاویز کا تجزیہ کرنے کے لیے تجزیہ کا انتخاب کریں۔

تسلیم شدہ اداروں میں درج ہیں۔ انسائٹس سیکشن ہر ہستی میں ہستی کی قدر (متن)، ہستی کی قسم جو آپ نے تربیتی عمل کے دوران بیان کی ہے، اور متعلقہ اعتماد کا سکور ہوتا ہے۔
تسلیم شدہ ادارے بصیرت کے سیکشن میں درج ہیں۔ ہر ہستی میں ہستی کی قدر (متن)، ہستی کی قسم ہوتی ہے جیسا کہ آپ نے تربیتی عمل کے دوران بیان کیا ہے، اور متعلقہ اعتماد کا سکور۔

مزید تفصیلات اور کسٹم ہستی پہچاننے والے ماڈل کو تربیت دینے اور غیر مطابقت پذیر تجزیہ جابز کا استعمال کرتے ہوئے غیر مطابقت پذیر تخمینہ کرنے کے لیے اس کا استعمال کرنے کے بارے میں مکمل واک تھرو کے لیے، ملاحظہ کریں Amazon Comprehend کے ساتھ دستاویزات سے ان کے مقامی فارمیٹ میں حسب ضرورت اداروں کو نکالیں۔.

نتیجہ

اس پوسٹ نے یہ ظاہر کیا کہ آپ کس طرح نیم ساختہ دستاویزات کو ان کے مقامی فارمیٹ میں درجہ بندی اور درجہ بندی کر سکتے ہیں اور Amazon Comprehend کا استعمال کرتے ہوئے ان سے کاروباری مخصوص اداروں کا پتہ لگا سکتے ہیں۔ آپ کم لیٹنسی استعمال کے کیسز کے لیے ریئل ٹائم APIs استعمال کر سکتے ہیں، یا بلک ڈاکومنٹ پروسیسنگ کے لیے غیر مطابقت پذیر تجزیہ جابز استعمال کر سکتے ہیں۔

اگلے قدم کے طور پر، ہم آپ کو Amazon Comprehend پر جانے کی ترغیب دیتے ہیں۔ GitHub ذخیرہ ان نئی خصوصیات کو آزمانے کے لیے مکمل کوڈ کے نمونوں کے لیے۔ آپ بھی ملاحظہ کر سکتے ہیں۔ ایمیزون کمپری ہینڈ ڈویلپر گائیڈ اور ایمیزون ڈویلپر کے وسائل کو سمجھیں۔ ویڈیوز، سبق، بلاگز، اور مزید کے لیے۔


مصنفین کے بارے میں

پلیٹو بلاکچین ڈیٹا انٹیلی جنس کی ذہین دستاویز پراسیسنگ کے لیے Amazon Comprehend کے ساتھ ایک قدمی درجہ بندی اور ہستی کی شناخت کا تعارف۔ عمودی تلاش۔ عیریک تالقدار ایمیزون کمپریہنڈ سروس ٹیم کے ساتھ ایک سینئر آرکیٹیکٹ ہے۔ وہ بڑے پیمانے پر مشین لرننگ کو اپنانے میں مدد کرنے کے لیے AWS کے صارفین کے ساتھ کام کرتا ہے۔ کام سے باہر، وہ پڑھنے اور فوٹو گرافی سے لطف اندوز ہوتا ہے۔

پلیٹو بلاکچین ڈیٹا انٹیلی جنس کی ذہین دستاویز پراسیسنگ کے لیے Amazon Comprehend کے ساتھ ایک قدمی درجہ بندی اور ہستی کی شناخت کا تعارف۔ عمودی تلاش۔ عیانجان بسواس اے آئی/ایم ایل اور ڈیٹا اینالیٹکس پر توجہ کے ساتھ ایک سینئر AI سروسز سلوشنز آرکیٹیکٹ ہے۔ انجان دنیا بھر کی AI سروسز ٹیم کا حصہ ہے اور صارفین کے ساتھ کام کرتا ہے تاکہ وہ AI اور ML کے ساتھ کاروباری مسائل کو سمجھنے اور ان کے حل کو تیار کرنے میں مدد کریں۔ انجان کے پاس عالمی سپلائی چین، مینوفیکچرنگ، اور ریٹیل تنظیموں کے ساتھ کام کرنے کا 14 سال سے زیادہ کا تجربہ ہے، اور وہ صارفین کو AWS AI خدمات شروع کرنے اور اسکیل کرنے میں فعال طور پر مدد کر رہا ہے۔

پلیٹو بلاکچین ڈیٹا انٹیلی جنس کی ذہین دستاویز پراسیسنگ کے لیے Amazon Comprehend کے ساتھ ایک قدمی درجہ بندی اور ہستی کی شناخت کا تعارف۔ عمودی تلاش۔ عیگوڈون سہایاراج ونسنٹ AWS میں ایک انٹرپرائز سلوشنز آرکیٹیکٹ ہے جو مشین لرننگ کے بارے میں پرجوش ہے اور صارفین کو اپنے AWS ورک بوجھ اور آرکیٹیکچرز کو ڈیزائن، تعینات کرنے اور ان کا انتظام کرنے کے لیے رہنمائی فراہم کرتا ہے۔ اپنے فارغ وقت میں، وہ اپنے دوستوں کے ساتھ کرکٹ اور اپنے تین بچوں کے ساتھ ٹینس کھیلنا پسند کرتا ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ