AWS AI سروسز کے ساتھ ذہین دستاویز پراسیسنگ: حصہ 1

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

صحت کی دیکھ بھال، مالیات اور قرض دینے، قانونی، خوردہ اور مینوفیکچرنگ جیسی صنعتوں کی تنظیموں کو اپنے روزمرہ کے کاروباری عمل میں اکثر دستاویزات سے نمٹنا پڑتا ہے۔ ان دستاویزات میں ایسی اہم معلومات ہوتی ہیں جو وقت پر فیصلے کرنے کے لیے کلیدی حیثیت رکھتی ہیں تاکہ گاہک کی اطمینان کی بلند ترین سطح کو برقرار رکھا جا سکے، گاہک کی تیز تر آن بورڈنگ، اور گاہک کو کم کیا جا سکے۔ زیادہ تر معاملات میں، معلومات اور بصیرت کو نکالنے کے لیے دستاویزات کو دستی طور پر پروسیس کیا جاتا ہے، جو کہ وقت طلب، غلطی کا شکار، مہنگا اور پیمانہ کرنا مشکل ہے۔ ان دستاویزات سے معلومات پر کارروائی اور نکالنے کے لیے آج محدود آٹومیشن دستیاب ہے۔ AWS مصنوعی ذہانت (AI) خدمات کے ساتھ ذہین دستاویز پروسیسنگ (IDP) مشین لرننگ (ML) کی مہارتوں کی ضرورت کے بغیر، جلدی اور اعلیٰ درستگی کے ساتھ، مختلف اقسام اور فارمیٹس کی دستاویزات سے خودکار معلومات نکالنے میں مدد کرتی ہے۔ اعلیٰ درستگی کے ساتھ تیز تر معلومات کا حصول وقت پر معیاری کاروباری فیصلے کرنے میں مدد کرتا ہے، جبکہ مجموعی اخراجات کو کم کرتا ہے۔

اگرچہ IDP ورک فلو کے مراحل مختلف ہو سکتے ہیں اور استعمال کے معاملے اور کاروباری تقاضوں سے متاثر ہو سکتے ہیں، درج ذیل اعداد و شمار ان مراحل کو دکھاتا ہے جو عام طور پر IDP ورک فلو کا حصہ ہوتے ہیں۔ پروسیسنگ دستاویزات جیسے ٹیکس فارم، دعوے، میڈیکل نوٹس، نئے کسٹمر فارم، رسیدیں، قانونی معاہدے، اور بہت کچھ IDP کے استعمال کے چند کیسز ہیں۔

اس دو حصوں کی سیریز میں، ہم اس بات پر تبادلہ خیال کرتے ہیں کہ آپ AWS AI خدمات کا استعمال کرتے ہوئے پیمانے پر دستاویزات کو کس طرح خودکار اور ذہانت سے پروسیس کر سکتے ہیں۔ اس پوسٹ میں، ہم IDP ورک فلو کے پہلے تین مرحلوں پر بات کرتے ہیں۔ میں حصہ 2، ہم بقیہ ورک فلو مراحل پر تبادلہ خیال کرتے ہیں۔

حل جائزہ

مندرجہ ذیل آرکیٹیکچر ڈایاگرام IDP ورک فلو کے مراحل کو ظاہر کرتا ہے۔ یہ مختلف فائل فارمیٹس (PDF، JPEG، PNG، TIFF) اور دستاویزات کے لے آؤٹ کو محفوظ طریقے سے ذخیرہ کرنے اور جمع کرنے کے لیے ڈیٹا کیپچر کے مرحلے سے شروع ہوتا ہے۔ اگلا مرحلہ درجہ بندی کا ہے، جہاں آپ اپنے دستاویزات (جیسے معاہدے، کلیم فارم، رسیدیں، یا رسیدیں) کی درجہ بندی کرتے ہیں، اس کے بعد دستاویزات نکالتے ہیں۔ نکالنے کے مرحلے میں، آپ اپنے دستاویزات سے بامعنی کاروباری معلومات نکال سکتے ہیں۔ یہ نکالا گیا ڈیٹا اکثر ڈیٹا کے تجزیہ کے ذریعے بصیرت جمع کرنے کے لیے استعمال ہوتا ہے، یا ڈیٹا بیس یا لین دین کے نظام جیسے ڈاون اسٹریم سسٹمز کو بھیجا جاتا ہے۔ مندرجہ ذیل مرحلہ افزودگی کا ہے، جہاں محفوظ شدہ صحت کی معلومات (PHI) یا ذاتی طور پر قابل شناخت معلومات (PII) ڈیٹا، کسٹم بزنس ٹرم نکالنے وغیرہ کے ذریعے دستاویزات کو افزودہ کیا جا سکتا ہے۔ آخر میں، جائزہ اور توثیق کے مرحلے میں، آپ دستاویز کے جائزوں کے لیے ایک انسانی افرادی قوت کو شامل کر سکتے ہیں تاکہ یہ یقینی بنایا جا سکے کہ نتیجہ درست ہے۔

اس پوسٹ کے مقاصد کے لیے، ہم نمونہ دستاویزات کے ایک سیٹ پر غور کرتے ہیں جیسے کہ بینک اسٹیٹمنٹ، رسیدیں، اور اسٹور کی رسیدیں۔ دستاویز کے نمونے، نمونہ کوڈ کے ساتھ، ہمارے میں مل سکتے ہیں۔ GitHub ذخیرہ. مندرجہ ذیل حصوں میں، ہم آپ کو ان کوڈ کے نمونوں کے ساتھ ساتھ حقیقی عملی اطلاق کے بارے میں بتاتے ہیں۔ ہم یہ ظاہر کرتے ہیں کہ آپ ایم ایل کی صلاحیتوں کو کس طرح استعمال کر سکتے ہیں۔ ایمیزون ٹیکسٹ, ایمیزون کی تعریف، اور Amazon Augmented AI (ایمیزون A2I) دستاویزات پر کارروائی کرنے اور ان سے نکالے گئے ڈیٹا کی توثیق کرنے کے لیے۔

Amazon Textract ایک ML سروس ہے جو خودکار طور پر سکین شدہ دستاویزات سے ٹیکسٹ، ہینڈ رائٹنگ اور ڈیٹا نکالتی ہے۔ یہ فارمز اور ٹیبلز سے ڈیٹا کی شناخت، سمجھنے اور نکالنے کے لیے سادہ آپٹیکل کریکٹر ریکگنیشن (OCR) سے آگے ہے۔ Amazon Textract کسی بھی قسم کی دستاویز کو پڑھنے اور اس پر کارروائی کرنے کے لیے ML کا استعمال کرتا ہے، بغیر کسی دستی کوشش کے متن، ہینڈ رائٹنگ، ٹیبلز اور دیگر ڈیٹا کو درست طریقے سے نکالتا ہے۔

Amazon Comprehend ایک قدرتی زبان کی پروسیسنگ (NLP) سروس ہے جو دستاویزات کے مواد کے بارے میں بصیرت نکالنے کے لیے ML کا استعمال کرتی ہے۔ Amazon Comprehend دستاویزات میں اہم عناصر کی شناخت کر سکتا ہے، بشمول زبان، لوگوں اور مقامات کے حوالے، اور انہیں متعلقہ عنوانات یا کلسٹرز میں درجہ بندی کر سکتا ہے۔ یہ واحد دستاویز یا بیچ کا پتہ لگانے کا استعمال کرتے ہوئے حقیقی وقت میں کسی دستاویز کے جذبات کا تعین کرنے کے لیے جذباتی تجزیہ کر سکتا ہے۔ مثال کے طور پر، یہ بلاگ پوسٹ پر تبصروں کا تجزیہ کر سکتا ہے تاکہ یہ معلوم ہو سکے کہ آیا آپ کے قارئین کو پوسٹ پسند ہے یا نہیں۔ Amazon Comprehend PII جیسے ایڈریسز، بینک اکاؤنٹ نمبرز، اور فون نمبرز کا بھی اصل وقت میں ٹیکسٹ دستاویزات میں پتہ لگاتا ہے اور اسینکرونس بیچ جابز۔ یہ غیر مطابقت پذیر بیچ ملازمتوں میں PII اداروں کو بھی رد کر سکتا ہے۔

Amazon A2I ایک ML سروس ہے جو انسانی جائزے کے لیے درکار ورک فلو کو آسان بناتی ہے۔ Amazon A2I تمام ڈویلپرز کے لیے انسانی جائزہ لے کر آتا ہے، انسانی جائزہ کے نظام کی تعمیر یا انسانی جائزہ لینے والوں کی بڑی تعداد کا انتظام کرنے سے وابستہ غیر متفاوت ہیوی لفٹنگ کو ہٹاتا ہے، چاہے یہ AWS پر چلتا ہے یا نہیں۔ ایمیزون A2I دونوں کے ساتھ ضم کرتا ہے۔ ایمیزون ٹیکسٹ اور ایمیزون کی تعریف آپ کو اپنے ذہین دستاویز پروسیسنگ ورک فلو کے اندر انسانی جائزے کے اقدامات متعارف کرانے کی صلاحیت فراہم کرنے کے لیے۔

ڈیٹا کیپچر کا مرحلہ

آپ دستاویزات کو انتہائی توسیع پذیر اور پائیدار اسٹوریج جیسے میں اسٹور کرسکتے ہیں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)۔ Amazon S3 ایک آبجیکٹ سٹوریج سروس ہے جو صنعت کی معروف اسکیل ایبلٹی، ڈیٹا کی دستیابی، سیکورٹی اور کارکردگی پیش کرتی ہے۔ Amazon S3 کو 11 کی پائیداری کے لیے ڈیزائن کیا گیا ہے اور دنیا بھر کے لاکھوں صارفین کے لیے ڈیٹا اسٹور کرتا ہے۔ دستاویزات مختلف فارمیٹس اور لے آؤٹس میں آ سکتے ہیں، اور مختلف چینلز جیسے ویب پورٹلز یا ای میل منسلکات سے آ سکتے ہیں۔

درجہ بندی کا مرحلہ

پچھلے مرحلے میں، ہم نے مختلف اقسام اور فارمیٹس کی دستاویزات جمع کیں۔ اس مرحلے میں، ہمیں مزید نکالنے سے پہلے دستاویزات کی درجہ بندی کرنے کی ضرورت ہے۔ اس کے لیے ہم Amazon Comprehend استعمال کرتے ہیں۔ اپنی مرضی کے مطابق درجہ بندی. دستاویز کی درجہ بندی ایک دو قدمی عمل ہے۔ سب سے پہلے، آپ ایک Amazon Comprehend کسٹم کلاسیفائر کو تربیت دیتے ہیں تاکہ ان کلاسوں کو پہچان سکیں جو آپ کے لیے دلچسپی کا باعث ہیں۔ اگلا، آپ ماڈل کو a کے ساتھ تعینات کرتے ہیں۔ کسٹم کلاسیفائر ریئل ٹائم اینڈ پوائنٹ اور بغیر لیبل والے دستاویزات کو ریئل ٹائم اینڈ پوائنٹ پر بھیجیں تاکہ درجہ بندی کی جاسکے۔

درج ذیل اعداد و شمار ایک عام دستاویز کی درجہ بندی کے ورک فلو کی نمائندگی کرتا ہے۔

درجہ بندی کا مرحلہ

درجہ بندی کرنے والے کو تربیت دینے کے لیے، ان کلاسوں کی نشاندہی کریں جن میں آپ کی دلچسپی ہے اور ہر کلاس کے لیے بطور تربیتی مواد فراہم کریں۔ آپ کے بتائے گئے اختیارات کی بنیاد پر، Amazon Comprehend ایک حسب ضرورت ML ماڈل بناتا ہے جسے وہ آپ کے فراہم کردہ دستاویزات کی بنیاد پر تربیت دیتا ہے۔ یہ حسب ضرورت ماڈل (کلاسیفائر) آپ کی جمع کردہ ہر دستاویز کی جانچ کرتا ہے۔ یہ یا تو وہ مخصوص کلاس لوٹاتا ہے جو مواد کی بہترین نمائندگی کرتا ہے (اگر آپ ملٹی کلاس موڈ استعمال کر رہے ہیں) یا اس پر لاگو ہونے والی کلاسز کا سیٹ (اگر آپ ملٹی لیبل موڈ استعمال کر رہے ہیں)۔

تربیتی ڈیٹا تیار کریں۔

پہلا قدم Amazon Comprehend کسٹم کلاسیفائر کے لیے درکار دستاویزات سے متن نکالنا ہے۔ Amazon S3 میں موجود تمام دستاویزات کے لیے خام متن کی معلومات کو نکالنے کے لیے، ہم Amazon Textract کا استعمال کرتے ہیں۔ detect_document_text() API ہم ڈیٹا کو دستاویز کی قسم کے مطابق بھی لیبل لگاتے ہیں جس کا استعمال حسب ضرورت Amazon Comprehend کلاسیفائر کو تربیت دینے کے لیے کیا جائے گا۔

مندرجہ ذیل کوڈ کو آسان بنانے کے مقاصد کے لیے تراشا گیا ہے۔ مکمل کوڈ کے لیے GitHub سے رجوع کریں۔ نمونہ کوڈ لیے textract_extract_text(). تقریب call_textract() ایک wr4apper فنکشن ہے جو کال کرتا ہے۔ دستاویز کا تجزیہ کریں۔ API اندرونی طور پر، اور طریقہ کار کو پاس کیے گئے پیرامیٹرز کچھ کنفیگریشنز کا خلاصہ کرتے ہیں جن کی API کو نکالنے کے کام کو چلانے کے لیے ضرورت ہوتی ہے۔

def textract_extract_text(document, bucket=data_bucket):        
    try:
        print(f'Processing document: {document}')
        lines = ""
        row = []
        
        # using amazon-textract-caller
        response = call_textract(input_document=f's3://{bucket}/{document}') 
        # using pretty printer to get all the lines
        lines = get_string(textract_json=response, output_type=[Textract_Pretty_Print.LINES])
        
        label = [name for name in names if(name in document)]  
        row.append(label[0])
        row.append(lines)        
        return row
    except Exception as e:
        print (e)

اپنی مرضی کے مطابق درجہ بندی کرنے والے کو تربیت دیں۔

اس مرحلے میں، ہم اپنے ماڈل کو دستاویزات کی درجہ بندی کے لیے تربیت دینے کے لیے Amazon Comprehend کسٹم درجہ بندی کا استعمال کرتے ہیں۔ ہم استعمال کرتے ہیں دستاویز کی کلاسیفائر بنائیں API ایک درجہ بندی بنانے کے لیے جو ہمارے لیبل کردہ ڈیٹا کا استعمال کرتے ہوئے ایک حسب ضرورت ماڈل کو تربیت دیتا ہے۔ درج ذیل کوڈ دیکھیں:

create_response = comprehend.create_document_classifier(
        InputDataConfig={
            'DataFormat': 'COMPREHEND_CSV',
            'S3Uri': f's3://{data_bucket}/{key}'
        },
        DataAccessRoleArn=role,
        DocumentClassifierName=document_classifier_name,
        VersionName=document_classifier_version,
        LanguageCode='en',
        Mode='MULTI_CLASS'
    )

ایک ریئل ٹائم اینڈ پوائنٹ تعینات کریں۔

Amazon Comprehend کسٹم کلاسیفائر کو استعمال کرنے کے لیے، ہم استعمال کرتے ہوئے ایک ریئل ٹائم اینڈ پوائنٹ بناتے ہیں۔ CreateEndpoint APIs:

endpoint_response = comprehend.create_endpoint(
        EndpointName=ep_name,
        ModelArn=model_arn,
        DesiredInferenceUnits=1,    
        DataAccessRoleArn=role
    )
    ENDPOINT_ARN=endpoint_response['EndpointArn']
print(f'Endpoint created with ARN: {ENDPOINT_ARN}')

ریئل ٹائم اینڈ پوائنٹ کے ساتھ دستاویزات کی درجہ بندی کریں۔

Amazon Comprehend اینڈ پوائنٹ بننے کے بعد، ہم دستاویزات کی درجہ بندی کرنے کے لیے ریئل ٹائم اینڈ پوائنٹ کا استعمال کر سکتے ہیں۔ ہم استعمال کرتے ہیں comprehend.classify_document() ان پٹ پیرامیٹرز کے طور پر نکالے گئے دستاویز کے متن اور انفرنس اینڈ پوائنٹ کے ساتھ فنکشن:

response = comprehend.classify_document(
      Text= document,
      EndpointArn=ENDPOINT_ARN
      )

Amazon Comprehend کلیدی قدر کے جوڑوں (نام سکور) کی ایک صف میں ہر کلاس سے منسلک اعتماد سکور کے ساتھ دستاویزات کی تمام کلاسز کو واپس کرتا ہے۔ ہم سب سے زیادہ اعتماد کے اسکور کے ساتھ دستاویز کی کلاس چنتے ہیں۔ مندرجہ ذیل اسکرین شاٹ ایک نمونہ جواب ہے۔

ریئل ٹائم اینڈ پوائنٹ کے ساتھ دستاویزات کی درجہ بندی کریں۔

ہم تجویز کرتے ہیں کہ تفصیلی دستاویز کی درجہ بندی کے نمونہ کوڈ کو دیکھیں GitHub کے.

نکالنے کا مرحلہ

Amazon Textract آپ کو Amazon Textract کا استعمال کرتے ہوئے ٹیکسٹ اور سٹرکچرڈ ڈیٹا کی معلومات نکالنے دیتا ہے۔ DetectDocumentText اور دستاویز کا تجزیہ کریں۔ APIs، بالترتیب۔ یہ APIs JSON ڈیٹا کے ساتھ جواب دیتے ہیں، جس میں WORDS، LINES، FORMS، TABLES، جیومیٹری یا باؤنڈنگ باکس کی معلومات، رشتے وغیرہ ہوتے ہیں۔ دونوں DetectDocumentText اور AnalyzeDocument ہم وقت ساز آپریشنز ہیں۔ غیر مطابقت پذیر دستاویزات کا تجزیہ کرنے کے لیے، استعمال کریں۔ StartDocumentTextDetection.

سٹرکچرڈ ڈیٹا نکالنا

آپ ڈیٹا کے ڈھانچے کو محفوظ رکھتے ہوئے دستاویزات سے ٹیبل جیسے سٹرکچرڈ ڈیٹا کو نکال سکتے ہیں۔ آپ استعمال کر سکتے ہیں۔ دستاویز کا تجزیہ کریں۔ API کے ساتھ FeatureType as TABLE دستاویز میں تمام ٹیبلز کا پتہ لگانے کے لیے۔ مندرجہ ذیل تصویر اس عمل کی وضاحت کرتی ہے۔

سٹرکچرڈ ڈیٹا نکالنا

درج ذیل کوڈ دیکھیں:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["TABLES"])

ہم چلاتے ہیں analyze_document() کے ساتھ طریقہ FeatureType as TABLES ملازم کی تاریخ کی دستاویز پر اور درج ذیل نتائج میں ٹیبل نکالنے کو حاصل کریں۔

ٹیبل نکالنے کے لیے دستاویز API جواب کا تجزیہ کریں۔

نیم ساختہ ڈیٹا نکالنا

آپ دستاویزات سے نیم ساختہ ڈیٹا جیسے فارم یا کلیدی قدر کے جوڑے نکال سکتے ہیں جبکہ ڈیٹا کے ڈھانچے اور شناخت شدہ اشیاء کے درمیان تعلقات کو محفوظ رکھتے ہوئے آپ استعمال کر سکتے ہیں۔ دستاویز کا تجزیہ کریں۔ API کے ساتھ FeatureType as FORMS دستاویز میں تمام فارموں کا پتہ لگانے کے لیے۔ مندرجہ ذیل خاکہ اس عمل کی وضاحت کرتا ہے۔

نیم ساختہ ڈیٹا نکالنا

درج ذیل کوڈ دیکھیں:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["FORMS"])

یہاں، ہم چلاتے ہیں analyze_document() کے ساتھ طریقہ FeatureType as FORMS ملازم کی درخواست کے دستاویز پر اور نتائج میں ٹیبل نکالنے کو حاصل کریں۔

AWS AI خدمات کے ساتھ ذہین دستاویز کی پروسیسنگ: حصہ 1 پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

غیر ساختہ ڈیٹا نکالنا

Amazon Textract صنعت کی معروف OCR درستگی کے ساتھ گھنے متن نکالنے کے لیے بہترین ہے۔ آپ استعمال کر سکتے ہیں۔ DetectDocumentText API متن کی لائنوں اور الفاظ کا پتہ لگانے کے لیے جو متن کی ایک لائن بناتے ہیں، جیسا کہ مندرجہ ذیل تصویر میں دکھایا گیا ہے۔

غیر ساختہ ڈیٹا نکالنا

درج ذیل کوڈ دیکھیں:

response = textract.detect_document_text(Document={'Bytes': imageBytes})

# Print detected text
for item in response["Blocks"]:
	if item["BlockType"] == "LINE":
 		print (item["Text"])

اب ہم چلاتے ہیں detect_document_text() نمونے کی تصویر پر طریقہ اور نتائج میں خام متن نکالنا حاصل کریں۔

AWS AI خدمات کے ساتھ ذہین دستاویز کی پروسیسنگ: حصہ 1 پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

رسیدیں اور رسیدیں

Amazon Textract بڑے پیمانے پر رسیدوں اور رسیدوں پر کارروائی کے لیے خصوصی مدد فراہم کرتا ہے۔ دی اخراجات کا تجزیہ کریں۔ API کسی بھی ٹیمپلیٹس یا کنفیگریشن کے بغیر تقریبا کسی بھی رسید یا رسید سے سامان یا خدمات کی آئٹمائزڈ فہرست سے واضح طور پر لیبل لگا ڈیٹا، مضمر ڈیٹا اور لائن آئٹمز نکال سکتا ہے۔ مندرجہ ذیل تصویر اس عمل کی وضاحت کرتی ہے۔

رسیدیں اور رسیدیں نکالنا

درج ذیل کوڈ دیکھیں:

response = textract.analyze_expense(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    })

Amazon Textract ایک رسید پر وینڈر کا نام تلاش کر سکتا ہے یہاں تک کہ اگر یہ صرف صفحہ پر علامت (لوگو) کے اندر "وینڈر" نامی واضح لیبل کے بغیر اشارہ کیا گیا ہو۔ یہ ان اخراجات کی اشیاء، مقدار اور قیمتوں کو بھی تلاش اور نکال سکتا ہے جن پر لائن آئٹمز کے کالم ہیڈر کے ساتھ لیبل نہیں لگایا گیا ہے۔

اخراجات API کے جواب کا تجزیہ کریں۔

شناختی دستاویزات

ایمیزون ٹیکسٹ تجزیہ ID API شناختی دستاویزات سے خود بخود معلومات نکالنے میں آپ کی مدد کر سکتا ہے، جیسے ڈرائیور کے لائسنس اور پاسپورٹ، بغیر کسی ٹیمپلیٹس یا کنفیگریشن کی ضرورت کے۔ ہم مخصوص معلومات نکال سکتے ہیں، جیسے کہ میعاد ختم ہونے کی تاریخ اور تاریخ پیدائش، نیز ذہانت سے نام اور پتہ جیسی مضمر معلومات کی شناخت اور نکال سکتے ہیں۔ مندرجہ ذیل خاکہ اس عمل کی وضاحت کرتا ہے۔

شناختی دستاویزات نکالنا

درج ذیل کوڈ دیکھیں:

textract_client = boto3.client('textract')
j = call_textract_analyzeid(document_pages=["s3://amazon-textract-public-content/analyzeid/driverlicense.png"],boto3_textract_client=textract_client)

ہم استعمال کر سکتے ہیں tabulate ایک خوبصورت پرنٹ آؤٹ پٹ حاصل کرنے کے لیے:

from tabulate import tabulate

print(tabulate([x[1:3] for x in result]))

AWS AI خدمات کے ساتھ ذہین دستاویز کی پروسیسنگ: حصہ 1 پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

ہم تفصیلی دستاویز نکالنے کی تجویز کرتے ہیں۔ نمونہ کوڈ GitHub پر۔ اس پوسٹ میں مکمل کوڈ کے نمونوں کے بارے میں مزید معلومات کے لیے، ملاحظہ کریں۔ GitHub repo.

نتیجہ

دو حصوں کی سیریز کی اس پہلی پوسٹ میں، ہم نے IDP کے مختلف مراحل اور ایک حل فن تعمیر پر تبادلہ خیال کیا۔ ہم نے Amazon Comprehend کسٹم کلاسیفائر کا استعمال کرتے ہوئے دستاویز کی درجہ بندی پر بھی تبادلہ خیال کیا۔ اس کے بعد، ہم نے ان طریقوں کی کھوج کی جو آپ Amazon Textract کو غیر ساختہ، نیم ساختہ، ساختی، اور خصوصی دستاویز کی اقسام سے معلومات نکالنے کے لیے استعمال کر سکتے ہیں۔

In حصہ 2 اس سلسلے میں، ہم Amazon Textract کے اقتباس اور سوالات کی خصوصیات کے ساتھ بحث جاری رکھتے ہیں۔ ہم دیکھتے ہیں کہ Amazon Comprehend پہلے سے طے شدہ اداروں اور کسٹم entities کو کس طرح استعمال کیا جائے تاکہ گھنے متن والی دستاویزات سے اہم کاروباری اصطلاحات نکالیں، اور آپ کے IDP کے عمل میں Amazon A2I ہیومن-ان-دی-لوپ جائزہ کو کیسے ضم کیا جائے۔

ہم تجویز کرتے ہیں کہ کے سیکورٹی سیکشنز کا جائزہ لیں۔ ایمیزون ٹیکسٹ, ایمیزون کی تعریف، اور ایمیزون A2I دستاویزات اور فراہم کردہ رہنما خطوط پر عمل کریں۔ اس کے علاوہ، قیمتوں کا جائزہ لینے اور سمجھنے کے لیے تھوڑا وقت نکالیں۔ ایمیزون ٹیکسٹ, ایمیزون کی تعریف، اور ایمیزون A2I.

مصنفین کے بارے میں

سپرکاش دتہ ایمیزون ویب سروسز میں ایک حل آرکیٹیکٹ ہے۔ وہ ڈیجیٹل تبدیلی کی حکمت عملی، ایپلیکیشن کی جدید کاری اور منتقلی، ڈیٹا اینالیٹکس، اور مشین لرننگ پر توجہ مرکوز کرتا ہے۔

سونالی ساہو ایمیزون ویب سروسز میں انٹیلجنٹ ڈاکومنٹ پروسیسنگ AI/ML سلوشنز آرکیٹیکٹ ٹیم کی قیادت کر رہا ہے۔ وہ ایک پرجوش ٹیکنوفائل ہے اور اختراع کا استعمال کرتے ہوئے پیچیدہ مسائل کو حل کرنے کے لیے صارفین کے ساتھ کام کرنے سے لطف اندوز ہوتی ہے۔ اس کی توجہ کا بنیادی شعبہ مصنوعی ذہانت اور ذہین دستاویز کی پروسیسنگ کے لیے مشین لرننگ ہے۔

انجان بسواس AI/ML اور ڈیٹا اینالیٹکس پر توجہ کے ساتھ ایک سینئر AI سروسز سلوشنز آرکیٹیکٹ ہے۔ انجان دنیا بھر کی AI سروسز ٹیم کا حصہ ہے اور صارفین کے ساتھ کام کرتا ہے تاکہ وہ AI اور ML کے ساتھ کاروباری مسائل کو سمجھنے اور ان کے حل کو تیار کرنے میں مدد کریں۔ انجان کے پاس عالمی سپلائی چین، مینوفیکچرنگ، اور ریٹیل تنظیموں کے ساتھ کام کرنے کا 14 سال سے زیادہ کا تجربہ ہے، اور وہ صارفین کو AWS AI خدمات شروع کرنے اور اسکیل کرنے میں فعال طور پر مدد کر رہا ہے۔

چنمئی رانے ایمیزون ویب سروسز میں ایک AI/ML ماہر حل آرکیٹیکٹ ہے۔ وہ لاگو ریاضی اور مشین لرننگ کے بارے میں پرجوش ہے۔ وہ AWS صارفین کے لیے ذہین دستاویز پروسیسنگ سلوشن ڈیزائن کرنے پر توجہ مرکوز کرتی ہے۔ کام سے باہر، وہ سالسا اور بچتا ڈانس سے لطف اندوز ہوتی ہے۔