انسانی جائزے اور BI ویژولائزیشن PlatoBlockchain Data Intelligence کے ساتھ ذہین دستاویز پروسیسنگ کے لیے کاروباری قواعد کو حسب ضرورت بنائیں۔ عمودی تلاش۔ عی

انسانی جائزے اور BI ویژولائزیشن کے ساتھ ذہین دستاویز پروسیسنگ کے لیے کاروباری اصولوں کو حسب ضرورت بنائیں

کاروباری دستاویزات کی ایک بڑی مقدار ہر صنعتوں میں روزانہ پروسیس کی جاتی ہے۔ ان میں سے بہت سے دستاویزات کاغذ پر مبنی ہیں، آپ کے سسٹم میں بطور تصویر، یا پی ڈی ایف کی طرح غیر ساختہ شکل میں اسکین کی گئی ہیں۔ ان دستاویزات پر کارروائی کرتے وقت ہر کمپنی اپنے کاروباری پس منظر سے وابستہ منفرد قوانین کا اطلاق کر سکتی ہے۔ معلومات کو درست طریقے سے نکالنے اور ان پر لچکدار طریقے سے کارروائی کرنے کا طریقہ بہت سی کمپنیوں کو درپیش ایک چیلنج ہے۔

Amazon Intelligent Document Processing (IDP) آپ کو پچھلے ML تجربے کے بغیر صنعت کی معروف مشین لرننگ (ML) ٹیکنالوجی سے فائدہ اٹھانے کی اجازت دیتا ہے۔ اس پوسٹ میں شامل ایک حل متعارف کرایا گیا ہے۔ ایمیزون آئی ڈی پی ورکشاپ Amazon AI خدمات کا استعمال کرتے ہوئے لچکدار کاروباری قواعد کی خدمت کے لیے دستاویزات پر کارروائی کرنے کا طریقہ دکھا رہا ہے۔ آپ درج ذیل مرحلہ وار استعمال کر سکتے ہیں۔ Jupyter نوٹ بک لیب کو مکمل کرنے کے لیے۔

ایمیزون ٹیکسٹ مختلف دستاویزات سے متن کو آسانی سے نکالنے میں آپ کی مدد کرتا ہے۔ Amazon Augmented AI (Amazon A2I) آپ کو ML پیشین گوئیوں کے انسانی جائزے کو نافذ کرنے کی اجازت دیتا ہے۔ ڈیفالٹ Amazon A2I ٹیمپلیٹ آپ کو قواعد کی بنیاد پر انسانی جائزہ پائپ لائن بنانے کی اجازت دیتا ہے، جیسے کہ جب نکالنے کا اعتماد اسکور پہلے سے طے شدہ حد سے کم ہو یا مطلوبہ کلیدیں غائب ہوں۔ لیکن پیداواری ماحول میں، آپ کو لچکدار کاروباری اصولوں کو سپورٹ کرنے کے لیے دستاویز کی پروسیسنگ پائپ لائن کی ضرورت ہوتی ہے، جیسے کہ سٹرنگ فارمیٹ کی توثیق کرنا، ڈیٹا کی قسم اور رینج کی تصدیق کرنا، اور تمام دستاویزات میں فیلڈز کی توثیق کرنا۔ یہ پوسٹ دکھاتی ہے کہ آپ Amazon Textract اور Amazon A2I کو کس طرح استعمال کر سکتے ہیں تاکہ ایک عام دستاویز پروسیسنگ پائپ لائن کو لچکدار کاروباری اصولوں کی حمایت حاصل ہو۔

حل جائزہ

ہمارے نمونے کے حل کے لیے، ہم استعمال کرتے ہیں۔ ٹیکس فارم 990, ایک US IRS (انٹرنل ریونیو سروس) فارم جو عوام کو ایک غیر منافع بخش تنظیم کے بارے میں مالی معلومات فراہم کرتا ہے۔ اس مثال کے لیے، ہم فارم کے پہلے صفحہ پر صرف کچھ فیلڈز کے لیے نکالنے کی منطق کا احاطہ کرتے ہیں۔ آپ پر مزید نمونہ دستاویزات تلاش کر سکتے ہیں۔ IRS ویب سائٹ.

مندرجہ ذیل خاکہ IDP پائپ لائن کی وضاحت کرتا ہے جو انسانی جائزے کے ساتھ حسب ضرورت کاروباری قواعد کی حمایت کرتی ہے۔

فن تعمیر تین منطقی مراحل پر مشتمل ہے:

  • نکالنے - 990 ٹیکس فارم سے ڈیٹا نکالیں (ہم مثال کے طور پر صفحہ 1 استعمال کرتے ہیں)۔
    • ایک میں ذخیرہ کردہ نمونہ کی تصویر بازیافت کریں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) بالٹی۔
    • کا استعمال کرتے ہوئے Amazon Textract analyze_document API کو کال کریں۔ سوالات صفحہ سے متن نکالنے کی خصوصیت۔
  • توثیق - ہیومن ان دی لوپ جائزے کے ساتھ لچکدار کاروباری اصولوں کا اطلاق کریں۔
    • نکالے گئے ڈیٹا کو کاروباری قواعد کے خلاف درست کریں، جیسے کہ ID فیلڈ کی لمبائی کی توثیق کرنا۔
    • دستاویز کو Amazon A2I کو بھیجیں تاکہ انسان جائزہ لے سکے کہ اگر کوئی کاروباری اصول ناکام ہو جاتا ہے۔
    • جائزہ لینے والے نتائج کی تصدیق کے لیے Amazon A2I UI (ایک حسب ضرورت ویب سائٹ) استعمال کرتے ہیں۔
  • BI ویژولائزیشن - ہم استعمال کرتے ہیں ایمیزون کوئیک سائٹ کاروباری انٹیلی جنس (BI) ڈیش بورڈ بنانے کے لیے جو عمل کی بصیرت کو ظاہر کرتا ہے۔

کاروباری قوانین کو حسب ضرورت بنائیں

آپ درج ذیل JSON فارمیٹ میں عام کاروباری اصول کی وضاحت کر سکتے ہیں۔ نمونہ کوڈ میں، ہم تین اصولوں کی وضاحت کرتے ہیں:

  • پہلا اصول آجر ID فیلڈ کے لیے ہے۔ اگر Amazon Textract کا اعتماد کا سکور 99% سے کم ہو تو یہ اصول ناکام ہو جاتا ہے۔ اس پوسٹ کے لیے، ہم نے اعتماد کے اسکور کی حد اونچی سیٹ کی، جو ڈیزائن کے لحاظ سے ٹوٹ جائے گی۔ آپ حقیقی دنیا کے ماحول میں غیر ضروری انسانی کوششوں کو کم کرنے کے لیے حد کو زیادہ معقول قیمت پر ایڈجسٹ کر سکتے ہیں، جیسے 90%۔
  • دوسرا قاعدہ DLN فیلڈ (ٹیکس فارم کا منفرد شناخت کنندہ) کے لیے ہے، جو ڈاؤن اسٹریم پروسیسنگ منطق کے لیے درکار ہے۔ یہ اصول ناکام ہوجاتا ہے اگر DLN فیلڈ غائب ہے یا اس کی قدر خالی ہے۔
  • تیسرا اصول DLN فیلڈ کے لیے بھی ہے لیکن ایک مختلف حالت کی قسم کے ساتھ: LengthCheck۔ اگر DLN کی لمبائی 16 حروف نہیں ہے تو اصول ٹوٹ جاتا ہے۔

درج ذیل کوڈ ہمارے کاروباری اصولوں کو JSON فارمیٹ میں دکھاتا ہے:

rules = [
    {
        "description": "Employee Id confidence score should greater than 99",
        "field_name": "d.employer_id",
        "field_name_regex": None, # support Regex: "_confidence$",
        "condition_category": "Confidence",
        "condition_type": "ConfidenceThreshold",
        "condition_setting": "99",
    },
    {
        "description": "dln is required",
        "field_name": "dln",
        "condition_category": "Required",
        "condition_type": "Required",
        "condition_setting": None,
    },
    {
        "description": "dln length should be 16",
        "field_name": "dln",
        "condition_category": "LengthCheck",
        "condition_type": "ValueRegex",
        "condition_setting": "^[0-9a-zA-Z]{16}$",
    }
]

آپ اسی ڈھانچے کی پیروی کرتے ہوئے مزید کاروباری قواعد شامل کرکے حل کو بڑھا سکتے ہیں۔

Amazon Textract استفسار کا استعمال کرتے ہوئے متن کو نکالیں۔

نمونے کے حل میں، ہم Amazon Textract analyze_document API کہتے ہیں۔ استفسار میں مخصوص سوالات پوچھ کر فیلڈز نکالنے کی خصوصیت۔ آپ کو دستاویز میں ڈیٹا کی ساخت جاننے کی ضرورت نہیں ہے (ٹیبل، فارم، مضمر فیلڈ، نیسٹڈ ڈیٹا) یا دستاویز کے ورژن اور فارمیٹس میں تغیرات کے بارے میں فکر کرنے کی ضرورت نہیں ہے۔ استفسارات بصری، مقامی اور زبان کے اشارے کے امتزاج کا استعمال کرتے ہیں تاکہ آپ جو معلومات تلاش کرتے ہیں اسے اعلیٰ درستگی کے ساتھ نکال سکیں۔

DLN فیلڈ کی قدر نکالنے کے لیے، آپ قدرتی زبانوں میں سوالات کے ساتھ ایک درخواست بھیج سکتے ہیں، جیسے "DLN کیا ہے؟" Amazon Textract متن، اعتماد، اور دیگر میٹا ڈیٹا واپس کرتا ہے اگر اسے تصویر یا دستاویز پر متعلقہ معلومات ملتی ہیں۔ مندرجہ ذیل ایک Amazon Textract استفسار کی درخواست کی ایک مثال ہے:

textract.analyze_document(
        Document={'S3Object': {'Bucket': data_bucket, 'Name': s3_key}},
        FeatureTypes=["QUERIES"],
        QueriesConfig={
                'Queries': [
                    {
                        'Text': 'What is the DLN?',
                       'Alias': 'The DLN number - unique identifier of the form'
                    }
               ]
        }
)

ڈیٹا ماڈل کی وضاحت کریں۔

نمونہ حل عام کاروباری اصول کی تشخیص کی خدمت کے لیے ڈیٹا کو ایک منظم شکل میں بناتا ہے۔ نکالی گئی قدروں کو برقرار رکھنے کے لیے، آپ ہر دستاویز کے صفحہ کے لیے ڈیٹا ماڈل کی وضاحت کر سکتے ہیں۔ مندرجہ ذیل تصویر سے پتہ چلتا ہے کہ صفحہ 1 پر موجود متن JSON فیلڈز کو کس طرح نقشہ بناتا ہے۔حسب ضرورت ڈیٹا ماڈل

ہر فیلڈ صفحہ پر دستاویز کے متن، چیک باکس، یا ٹیبل/فارم سیل کی نمائندگی کرتا ہے۔ JSON آبجیکٹ درج ذیل کوڈ کی طرح لگتا ہے:

{
    "dln": {
        "value": "93493319020929",
        "confidence": 0.9765, 
        "block": {} 
    },
    "omb_no": {
        "value": "1545-0047",
        "confidence": 0.9435,
        "block": {}
    },
    ...
}

آپ JSON کی ساخت کی تفصیلی تعریف کو میں تلاش کر سکتے ہیں۔ GitHub repo.

کاروباری قواعد کے خلاف ڈیٹا کا اندازہ لگائیں۔

نمونہ حل کنڈیشن کلاس کے ساتھ آتا ہے — ایک عام اصولوں کا انجن جو نکالا گیا ڈیٹا (جیسا کہ ڈیٹا ماڈل میں بیان کیا گیا ہے) اور قواعد (جیسا کہ حسب ضرورت کاروباری قواعد میں بیان کیا گیا ہے) لیتا ہے۔ یہ ناکام اور مطمئن حالات کے ساتھ دو فہرستیں لوٹاتا ہے۔ ہم یہ فیصلہ کرنے کے لیے نتیجہ استعمال کر سکتے ہیں کہ آیا ہمیں دستاویز کو ایمیزون A2I کو انسانی جائزہ کے لیے بھیجنا چاہیے۔

کنڈیشن کلاس سورس کوڈ نمونے میں ہے۔ GitHub repo. یہ بنیادی توثیق کی منطق کو سپورٹ کرتا ہے، جیسے سٹرنگ کی لمبائی، قدر کی حد، اور اعتماد کے سکور کی حد کو درست کرنا۔ آپ مزید شرائط کی اقسام اور پیچیدہ توثیق کی منطق کو سپورٹ کرنے کے لیے کوڈ میں ترمیم کر سکتے ہیں۔

ایک حسب ضرورت ایمیزون A2I ویب UI بنائیں

Amazon A2I آپ کو ایک کی وضاحت کرکے جائزہ لینے والے کے ویب UI کو اپنی مرضی کے مطابق کرنے کی اجازت دیتا ہے۔ ورکر ٹاسک ٹیمپلیٹ. ٹیمپلیٹ HTML اور JavaScript میں ایک جامد ویب صفحہ ہے۔ آپ کا استعمال کرتے ہوئے اپنی مرضی کے مطابق جائزہ لینے والے صفحہ پر ڈیٹا منتقل کر سکتے ہیں۔ مائع نحو

نمونے کے حل میں، اپنی مرضی کے مطابق ایمیزون A2I UI ٹیمپلیٹ بائیں طرف صفحہ دکھاتا ہے اور دائیں طرف ناکامی کے حالات۔ جائزہ لینے والے اسے نکالنے کی قیمت کو درست کرنے اور اپنے تبصرے شامل کرنے کے لیے استعمال کر سکتے ہیں۔

مندرجہ ذیل اسکرین شاٹ ہمارا حسب ضرورت ایمیزون A2I UI دکھاتا ہے۔ یہ بائیں طرف اصل تصویری دستاویز اور دائیں جانب درج ذیل ناکام شرائط دکھاتا ہے:

  • DLN نمبرز 16 حروف کے ہونے چاہئیں۔ اصل DLN میں 15 حروف ہیں۔
  • employer_id کا اعتماد کا اسکور 99% سے کم ہے۔ اصل اعتماد کا اسکور تقریباً 98% ہے۔

جائزہ لینے والے دستی طور پر ان نتائج کی تصدیق کر سکتے ہیں اور میں تبصرے شامل کر سکتے ہیں۔ وجہ تبدیل کریں۔ ٹیکسٹ بکسحسب ضرورت A2I جائزہ UI

ایمیزون A2I کو کسی بھی کسٹم ایم ایل ورک فلو میں ضم کرنے کے بارے میں مزید معلومات کے لیے، 60 سے زیادہ دیکھیں پری بلٹ ورکر ٹیمپلیٹس GitHub ریپو پر اور حسب ضرورت ٹاسک کی اقسام کے ساتھ Amazon Augmented AI استعمال کریں۔.

ایمیزون A2I آؤٹ پٹ پر کارروائی کریں۔

جائزہ لینے کے بعد ایمیزون A2I حسب ضرورت UI کا استعمال کرتے ہوئے نتیجہ کی تصدیق کرتا ہے اور انتخاب کرتا ہے۔ جمع کرائیں، Amazon A2I ایک JSON فائل کو S3 بالٹی فولڈر میں اسٹور کرتا ہے۔ JSON فائل میں روٹ لیول پر درج ذیل معلومات شامل ہیں:

  • Amazon A2I بہاؤ کی تعریف ARN اور انسانی لوپ کا نام
  • انسانی جوابات (تخصیص کردہ ایمیزون A2I UI کے ذریعے جمع کردہ جائزہ لینے والے کا ان پٹ)
  • ان پٹ مواد (انسانی لوپ ٹاسک شروع کرتے وقت ایمیزون A2I کو بھیجا گیا اصل ڈیٹا)

ایمیزون A2I کی طرف سے تیار کردہ JSON کا نمونہ درج ذیل ہے:

{
  "flowDefinitionArn": "arn:aws:sagemaker:us-east-1:711334203977:flow-definition/a2i-custom-ui-demo-workflow",
  "humanAnswers": [
    {
      "acceptanceTime": "2022-08-23T15:23:53.488Z",
      "answerContent": {
        "Change Reason 1": "Missing X at the end.",
        "True Value 1": "93493319020929X",
        "True Value 2": "04-3018996"
      },
      "submissionTime": "2022-08-23T15:24:47.991Z",
      "timeSpentInSeconds": 54.503,
      "workerId": "94de99f1bc6324b8",
      "workerMetadata": {
        "identityData": {
          "identityProviderType": "Cognito",
          "issuer": "https://cognito-idp.us-east-1.amazonaws.com/us-east-1_URd6f6sie",
          "sub": "cef8d484-c640-44ea-8369-570cdc132d2d"
        }
      }
    }
  ],
  "humanLoopName": "custom-loop-9b4e67ff-2c9f-40f9-aae5-0e26316c905c",
  "inputContent": {...} # the original input send to A2I when starting the human review task
}

آپ Amazon A2I آؤٹ پٹ JSON سے معلومات کو پارس کرنے اور اسے فائل یا ڈیٹا بیس میں اسٹور کرنے کے لیے ایکسٹریکٹ، ٹرانسفارم، اور لوڈ (ETL) منطق کو نافذ کر سکتے ہیں۔ نمونہ حل ایک کے ساتھ آتا ہے۔ CSV فائل۔ پروسیسڈ ڈیٹا کے ساتھ۔ آپ اسے اگلے حصے میں دی گئی ہدایات پر عمل کرکے BI ڈیش بورڈ بنانے کے لیے استعمال کر سکتے ہیں۔

Amazon QuickSight میں ایک ڈیش بورڈ بنائیں

نمونے کے حل میں ایمیزون QuickSight کی طرف سے پیش کردہ ویژولائزیشن ڈیش بورڈ کے ساتھ رپورٹنگ کا مرحلہ شامل ہے۔ BI ڈیش بورڈ کلیدی میٹرکس دکھاتا ہے جیسے کہ خود کار طریقے سے یا دستی طور پر پروسیس ہونے والی دستاویزات کی تعداد، سب سے مشہور فیلڈز جن کے لیے انسانی جائزے کی ضرورت ہوتی ہے، اور دیگر بصیرتیں۔ یہ ڈیش بورڈ آپ کو دستاویز کی پروسیسنگ پائپ لائن کی نگرانی حاصل کرنے اور انسانی جائزے کا سبب بننے والی عام وجوہات کا تجزیہ کرنے میں مدد کر سکتا ہے۔ آپ انسانی ان پٹ کو مزید کم کر کے ورک فلو کو بہتر بنا سکتے ہیں۔

نمونہ ڈیش بورڈ میں بنیادی میٹرکس شامل ہیں۔ آپ ڈیٹا میں مزید بصیرتیں دکھانے کے لیے Amazon QuickSight کا استعمال کرتے ہوئے حل کو بڑھا سکتے ہیں۔BI ڈیش بورڈ

مزید دستاویزات اور کاروباری قواعد کی حمایت کے لیے حل کو پھیلائیں۔

متعلقہ کاروباری قواعد کے ساتھ مزید دستاویزی صفحات کو سپورٹ کرنے کے حل کو بڑھانے کے لیے، آپ کو درج ذیل تبدیلیاں کرنے کی ضرورت ہے:

  • JSON ڈھانچے میں نئے صفحہ کے لیے ایک ڈیٹا ماڈل بنائیں جو ان تمام اقدار کی نمائندگی کرتا ہے جنہیں آپ صفحات سے نکالنا چاہتے ہیں۔ سے رجوع کریں۔ ڈیٹا ماڈل کی وضاحت کریں۔ تفصیلی فارمیٹ کے لیے سیکشن۔
  • دستاویز سے متن نکالنے اور ڈیٹا ماڈل میں اقدار کو آباد کرنے کے لیے Amazon Textract کا استعمال کریں۔
  • JSON فارمیٹ میں صفحہ سے متعلقہ کاروباری اصول شامل کریں۔ سے رجوع کریں۔ کاروباری قوانین کو حسب ضرورت بنائیں تفصیلی فارمیٹ کے لیے سیکشن۔

حل میں حسب ضرورت Amazon A2I UI عام ہے، جس میں نئے کاروباری اصولوں کو سپورٹ کرنے کے لیے کسی تبدیلی کی ضرورت نہیں ہے۔

نتیجہ

ذہین دستاویز پروسیسنگ کی بہت زیادہ مانگ ہے، اور کمپنیوں کو اپنی منفرد کاروباری منطق کو سپورٹ کرنے کے لیے اپنی مرضی کے مطابق پائپ لائن کی ضرورت ہے۔ Amazon A2I آپ کے انسانی جائزے کے استعمال کے معاملات کو لاگو کرنے کے لیے Amazon Textract کے ساتھ مربوط ایک بلٹ ان ٹیمپلیٹ بھی پیش کرتا ہے۔ یہ آپ کو لچکدار تقاضوں کو پورا کرنے کے لیے جائزہ لینے والے صفحہ کو حسب ضرورت بنانے کی بھی اجازت دیتا ہے۔

اس پوسٹ نے ایک IDP پائپ لائن بنانے کے لیے Amazon Textract اور Amazon A2I کا استعمال کرتے ہوئے ایک حوالہ حل کے ذریعے آپ کی رہنمائی کی ہے جو لچکدار کاروباری اصولوں کو سپورٹ کرتی ہے۔ آپ اسے استعمال کرکے آزما سکتے ہیں۔ Jupyter نوٹ بک GitHub IDP ورکشاپ ریپو میں۔


مصنفین کے بارے میں

انسانی جائزے اور BI ویژولائزیشن PlatoBlockchain Data Intelligence کے ساتھ ذہین دستاویز پروسیسنگ کے لیے کاروباری قواعد کو حسب ضرورت بنائیں۔ عمودی تلاش۔ عیلانا ژانگ AWS WWSO AI سروسز ٹیم میں ایک Sr. Solutions architect ہے جو ذہین دستاویز کی پروسیسنگ اور مواد کی اعتدال کے لیے AI اور ML میں مہارت رکھتا ہے۔ وہ AWS AI خدمات کو فروغ دینے اور صارفین کو ان کے کاروباری حل کو تبدیل کرنے میں مدد کرنے کے بارے میں پرجوش ہے۔

انسانی جائزے اور BI ویژولائزیشن PlatoBlockchain Data Intelligence کے ساتھ ذہین دستاویز پروسیسنگ کے لیے کاروباری قواعد کو حسب ضرورت بنائیں۔ عمودی تلاش۔ عی
سونالی ساہو ایمیزون ویب سروسز میں انٹیلجنٹ ڈاکومنٹ پروسیسنگ AI/ML سلوشنز آرکیٹیکٹ ٹیم کی قیادت کر رہا ہے۔ وہ ایک پرجوش ٹیکنوفائل ہے اور اختراع کا استعمال کرتے ہوئے پیچیدہ مسائل کو حل کرنے کے لیے صارفین کے ساتھ کام کرنے سے لطف اندوز ہوتی ہے۔ اس کی توجہ کا بنیادی شعبہ مصنوعی ذہانت اور ذہین دستاویزی پروسیسنگ کے لیے مشین لرننگ ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ