AWS AI سروسز کے ساتھ ذہین دستاویز پراسیسنگ: حصہ 2

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

Amazon کی ذہین دستاویز پروسیسنگ (IDP) آپ کو اپنے کاروباری فیصلے کے چکر کو تیز کرنے اور اخراجات کو کم کرنے میں مدد کرتی ہے۔ متعدد صنعتوں میں، صارفین کو اپنے کاروبار کے دوران ہر سال لاکھوں دستاویزات پر کارروائی کرنے کی ضرورت ہوتی ہے۔ لاکھوں دستاویزات پر کارروائی کرنے والے صارفین کے لیے، یہ آخری صارف کے تجربے کے لیے ایک اہم پہلو ہے اور ڈیجیٹل تبدیلی کی اولین ترجیح ہے۔ متنوع فارمیٹس کی وجہ سے، زیادہ تر فرمیں دستی طور پر دستاویزات پر کارروائی کرتی ہیں جیسے کہ W2s، دعوے، شناختی دستاویزات، رسیدیں، اور قانونی معاہدوں، یا میراثی OCR (آپٹیکل کریکٹر ریکگنیشن) حل استعمال کرتی ہیں جو وقت طلب، غلطی کا شکار اور مہنگے ہوتے ہیں۔ AWS AI خدمات کے ساتھ ایک IDP پائپ لائن آپ کو زیادہ درست اور ورسٹائل معلومات کے اخراج کے ساتھ OCR سے آگے جانے، دستاویزات پر تیزی سے کارروائی کرنے، پیسے بچانے اور وسائل کو زیادہ قیمتی کاموں میں منتقل کرنے کا اختیار دیتی ہے۔

اس سلسلے میں، ہم IDP پائپ لائن کا ایک جائزہ پیش کرتے ہیں تاکہ کسی دستاویز کو داخل کرنے اور کلیدی معلومات کو ڈاؤن اسٹریم سسٹمز میں حاصل کرنے میں لگنے والے وقت اور محنت کو کم کیا جا سکے۔ مندرجہ ذیل اعداد و شمار ان مراحل کو دکھاتا ہے جو عام طور پر IDP ورک فلو کا حصہ ہوتے ہیں۔

اس دو حصوں کی سیریز میں، ہم اس بات پر تبادلہ خیال کرتے ہیں کہ آپ AWS AI خدمات کا استعمال کرتے ہوئے پیمانے پر دستاویزات کو کس طرح خودکار اور ذہانت سے پروسیس کر سکتے ہیں۔ میں حصہ 1، ہم نے IDP ورک فلو کے پہلے تین مراحل پر تبادلہ خیال کیا۔ اس پوسٹ میں، ہم ورک فلو کے باقی مراحل پر بات کرتے ہیں۔

حل جائزہ

مندرجہ ذیل ریفرنس آرکیٹیکچر سے پتہ چلتا ہے کہ آپ AWS AI سروسز کو کس طرح استعمال کر سکتے ہیں۔ ایمیزون ٹیکسٹ اور ایمیزون کی تعریفIDP ورک فلو کو نافذ کرنے کے لیے دیگر AWS سروسز کے ساتھ۔ حصہ 1 میں، ہم نے ڈیٹا کیپچر اور دستاویز کی درجہ بندی کے مراحل کو بیان کیا، جہاں ہم نے دستاویزات کو درجہ بندی اور ٹیگ کیا جیسے بینک اسٹیٹمنٹ، رسیدیں، اور رسید دستاویزات۔ ہم نے نکالنے کے مرحلے پر بھی تبادلہ خیال کیا، جہاں آپ اپنے دستاویزات سے بامعنی کاروباری معلومات نکال سکتے ہیں۔ اس پوسٹ میں، ہم نکالنے کے مرحلے میں Amazon Comprehend ڈیفالٹ اور کسٹم اداروں کو دیکھ کر IDP پائپ لائن کو بڑھاتے ہیں، دستاویز کی افزودگی انجام دیتے ہیں، اور مختصراً اس کی صلاحیتوں کو بھی دیکھتے ہیں۔ Amazon Augmented AI (ایمیزون A2I) کا جائزہ لینے اور توثیق کے مرحلے میں ایک انسانی جائزہ افرادی قوت کو شامل کرنا۔

ہم بھی استعمال کرتے ہیں ایمیزون کمپریہنڈ میڈیکل اس حل کے حصے کے طور پر، جو کہ غیر ساختہ طبی متن سے درست اور تیزی سے معلومات نکالنے اور نکالی گئی صحت سے متعلق معلومات کے درمیان رشتوں کی نشاندہی کرنے اور ICD-10-CM، RxNorm، اور SNOMED CT جیسے میڈیکل آنٹولوجی سے منسلک کرنے کی خدمت ہے۔

Amazon A2I ایک مشین لرننگ (ML) سروس ہے جو انسانی جائزے کے لیے درکار ورک فلو کو آسان بناتی ہے۔ Amazon A2I تمام ڈویلپرز کے لیے انسانی جائزہ لے کر آتا ہے، انسانی جائزہ کے نظام کی تعمیر یا انسانی جائزہ لینے والوں کی بڑی تعداد کا انتظام کرنے سے وابستہ غیر متفاوت بھاری لفٹنگ کو ہٹاتا ہے چاہے یہ AWS پر چلتا ہے یا نہیں۔ ایمیزون A2I کے ساتھ ضم ہوتا ہے۔ ایمیزون ٹیکسٹ اور ایمیزون کی تعریف آپ کو اپنے IDP ورک فلو کے اندر انسانی جائزے کے اقدامات متعارف کرانے کی اہلیت فراہم کرنے کے لیے۔

شرائط

شروع کرنے سے پہلے، رجوع کریں۔ حصہ 1 IDP کے اعلیٰ سطحی جائزہ اور ڈیٹا کیپچر، درجہ بندی، اور نکالنے کے مراحل کے بارے میں تفصیلات کے لیے۔

نکالنے کا مرحلہ

اس سیریز کے حصہ 1 میں، ہم نے بحث کی کہ ہم کسی بھی قسم کی دستاویزات کے لیے درست ڈیٹا نکالنے کے لیے Amazon Textract کی خصوصیات کو کس طرح استعمال کر سکتے ہیں۔ اس مرحلے کو بڑھانے کے لیے، ہم مزید دستاویز نکالنے کے لیے Amazon Comprehend پہلے سے تربیت یافتہ اداروں اور Amazon Comprehend کسٹم ہستی کے شناخت کنندہ کا استعمال کرتے ہیں۔ کسٹم ہستی کے شناخت کنندہ کا مقصد مخصوص اداروں کی شناخت کرنا اور CSV یا انسانی پڑھنے کے قابل فارمیٹ میں ہمارے دستاویزات کے حوالے سے حسب ضرورت میٹا ڈیٹا تیار کرنا ہے جس کا بعد میں کاروباری صارفین تجزیہ کریں۔

نام شدہ ہستی کی شناخت

نام شدہ ہستی کی شناخت (NER) ایک قدرتی لینگویج پروسیسنگ (NLP) ذیلی کام ہے جس میں اسم کے فقروں کو تلاش کرنے کے لیے ٹیکسٹ ڈیٹا کے ذریعے چھانٹنا شامل ہے، جسے نامی ہستی کہا جاتا ہے، اور ہر ایک کو لیبل کے ساتھ درجہ بندی کرنا، جیسے برانڈ، تاریخ، واقعہ، مقام، تنظیمیں ، شخص، مقدار، یا عنوان۔ مثال کے طور پر، "میں نے حال ہی میں ایمیزون پرائم کو سبسکرائب کیا ہے" کے بیان میں، Amazon Prime ایک نامزد ادارہ ہے اور اسے ایک برانڈ کے طور پر درجہ بندی کیا جا سکتا ہے۔

Amazon Comprehend آپ کو اس قابل بناتا ہے کہ آپ اپنی دستاویز میں ایسی کسٹم ہستیوں کا پتہ لگا سکیں۔ ہر ہستی کے پاس اعتماد کی سطح کا سکور بھی ہوتا ہے جو Amazon Comprehend ہر ہستی کی قسم کے لیے واپس کرتا ہے۔ درج ذیل خاکہ ہستی کی شناخت کے عمل کی وضاحت کرتا ہے۔

Amazon Comprehend کے ساتھ نام شدہ ہستی کی شناخت

ٹیکسٹ دستاویز سے اداروں کو حاصل کرنے کے لیے، ہم کال کرتے ہیں۔ comprehend.detect_entities() طریقہ اور زبان کوڈ اور متن کو ان پٹ پیرامیٹرز کے طور پر ترتیب دیں:

def get_entities(text):
    try:
        #detect entities
        entities = comprehend.detect_entities(LanguageCode="en", Text=text)  
        df = pd.DataFrame(entities["Entities"], columns = ['Text', 'Type'])
        display(HTML(df.to_html(index=False)))
    except Exception as e:
        print(e)

ہم چلاتے ہیں get_entities() بینک دستاویز پر طریقہ اور نتائج میں ہستی کی فہرست حاصل کریں۔

Comprehend سے get_entities طریقہ سے جواب۔

اگرچہ ہستی نکالنے نے بینک دستاویز میں موجود ہر چیز کے لیے پہلے سے طے شدہ ہستی کی قسموں کی نشاندہی کرنے میں کافی اچھا کام کیا، لیکن ہم چاہتے ہیں کہ ہمارے استعمال کے معاملے کے لیے مخصوص اداروں کو پہچانا جائے۔ مزید خاص طور پر، ہمیں بینک اسٹیٹمنٹ میں گاہک کی بچت اور اکاؤنٹ نمبر چیک کرنے کی ضرورت ہے۔ ہم Amazon Comprehend کسٹم ہستی کی شناخت کا استعمال کرتے ہوئے ان اہم کاروباری اصطلاحات کو نکال سکتے ہیں۔

ایک Amazon Comprehend کسٹم ہستی کی شناخت کے ماڈل کو تربیت دیں۔

گاہک کے بینک اسٹیٹمنٹ سے ان مخصوص اداروں کا پتہ لگانے کے لیے جن میں ہماری دلچسپی ہے، ہم ایک حسب ضرورت ہستی پہچاننے والے کو دو حسب ضرورت اداروں کے ساتھ تربیت دیتے ہیں: SAVINGS_AC اور CHECKING_AC.

پھر ہم ایک حسب ضرورت ہستی کی شناخت کے ماڈل کو تربیت دیتے ہیں۔ ہم Amazon Comprehend کو ڈیٹا فراہم کرنے کے دو طریقوں میں سے ایک کا انتخاب کر سکتے ہیں: تشریحات یا ہستی کی فہرستیں۔

تشریحات کا طریقہ اکثر تصویری فائلوں، پی ڈی ایف، یا ورڈ دستاویزات کے لیے زیادہ بہتر نتائج کا باعث بن سکتا ہے کیونکہ آپ اپنی دستاویزات کے ساتھ تشریحات کے طور پر زیادہ درست سیاق و سباق جمع کر کے ماڈل کو تربیت دیتے ہیں۔ تاہم، تشریحات کا طریقہ وقت طلب اور کام کرنے والا ہو سکتا ہے۔ اس بلاگ پوسٹ کی سادگی کے لیے، ہم ہستی کی فہرستوں کا طریقہ استعمال کرتے ہیں، جسے آپ صرف سادہ متنی دستاویزات کے لیے استعمال کر سکتے ہیں۔ یہ طریقہ ہمیں ایک CSV فائل دیتا ہے جس میں سادہ متن اور اس سے متعلقہ ہستی کی قسم ہونی چاہیے، جیسا کہ پچھلی مثال میں دکھایا گیا ہے۔ اس فائل میں موجود ادارے ہماری کاروباری ضروریات (بچت اور اکاؤنٹ نمبروں کی جانچ) کے لیے مخصوص ہوں گے۔

تشریحات یا ہستی کی فہرستوں کے طریقوں کا استعمال کرتے ہوئے مختلف استعمال کے معاملات کے لیے تربیتی ڈیٹا کو کیسے تیار کیا جائے اس بارے میں مزید تفصیلات کے لیے، ملاحظہ کریں تربیتی ڈیٹا کی تیاری.

درج ذیل اسکرین شاٹ ہماری ہستی کی فہرست کی ایک مثال دکھاتا ہے۔

ہستی کی فہرست کا ایک سنیپ شاٹ۔

ایک Amazon Comprehend کسٹم NER ریئل ٹائم اینڈ پوائنٹ بنائیں

اس کے بعد، ہم اپنے تربیت یافتہ ماڈل کا استعمال کرتے ہوئے ایک حسب ضرورت ہستی پہچاننے والا ریئل ٹائم اینڈ پوائنٹ بناتے ہیں۔ ہم استعمال کرتے ہیں Endpoint تخلیق کریں۔ API کے ذریعے comprehend.create_endpoint() ریئل ٹائم اینڈ پوائنٹ بنانے کا طریقہ:

#create comprehend endpoint
model_arn = entity_recognizer_arn
ep_name = 'idp-er-endpoint'

try:
    endpoint_response = comprehend.create_endpoint(
        EndpointName=ep_name,
        ModelArn=model_arn,
        DesiredInferenceUnits=1,    
        DataAccessRoleArn=role
    )
    ER_ENDPOINT_ARN=endpoint_response['EndpointArn']
    print(f'Endpoint created with ARN: {ER_ENDPOINT_ARN}')
    %store ER_ENDPOINT_ARN
except Exception as error:
    if error.response['Error']['Code'] == 'ResourceInUseException':
        print(f'An endpoint with the name "{ep_name}" already exists.')
        ER_ENDPOINT_ARN = f'arn:aws:comprehend:{region}:{account_id}:entity-recognizer-endpoint/{ep_name}'
        print(f'The classifier endpoint ARN is: "{ER_ENDPOINT_ARN}"')
        %store ER_ENDPOINT_ARN
    else:
        print(error)

ایک حسب ضرورت ہستی شناخت کنندہ کو تربیت دینے کے بعد، ہم دستاویز سے کچھ افزودہ معلومات نکالنے کے لیے حسب ضرورت ریئل ٹائم اینڈ پوائنٹ کا استعمال کرتے ہیں اور پھر Amazon Comprehend کے ذریعے پہچانے گئے حسب ضرورت اداروں کی مدد سے دستاویز کی اصلاح کرتے ہیں اور Amazon Textract سے باکس کی معلومات کو باؤنڈنگ کرتے ہیں۔

افزودگی کا مرحلہ

دستاویز کی افزودگی کے مرحلے میں، ہم ذاتی طور پر قابل شناخت معلومات (PII) ڈیٹا، اپنی مرضی کے مطابق کاروباری اصطلاح نکالنے، اور اسی طرح کے ذریعے دستاویز کی افزودگی انجام دے سکتے ہیں۔ ہماری پچھلی نمونہ دستاویز (ایک بینک اسٹیٹمنٹ) صارفین کی بچت اور چیکنگ اکاؤنٹ نمبرز پر مشتمل ہے، جسے ہم دوبارہ ترتیب دینا چاہتے ہیں۔ چونکہ ہم ان حسب ضرورت اداروں کو اپنے Amazon Comprehend کسٹم NER ماڈل کے ذریعے پہلے سے ہی جانتے ہیں، ہم ان PII اداروں کو جہاں کہیں بھی دستاویز میں ظاہر کرتے ہیں ان کو درست کرنے کے لیے Amazon Textract جیومیٹری ڈیٹا ٹائپ کو آسانی سے استعمال کر سکتے ہیں۔ مندرجہ ذیل فن تعمیر میں، ہم بینک اسٹیٹمنٹ دستاویز سے اہم کاروباری اصطلاحات (بچت اور چیکنگ اکاؤنٹس) کو تبدیل کرتے ہیں۔

دستاویز کی افزودگی کا مرحلہ۔

جیسا کہ آپ مندرجہ ذیل مثال میں دیکھ سکتے ہیں، چیکنگ اور سیونگ اکاؤنٹ نمبرز اب بینک اسٹیٹمنٹ میں چھپے ہوئے ہیں۔

ترمیم شدہ بینک اسٹیٹمنٹ کا نمونہ۔

روایتی OCR حل زیادہ تر غیر ساختہ اور نیم ساختہ دستاویزات سے درست طریقے سے ڈیٹا نکالنے کے لیے جدوجہد کرتے ہیں کیونکہ ان دستاویزات کے متعدد ورژنز اور فارمیٹس میں ڈیٹا کو کیسے ترتیب دیا جاتا ہے اس میں اہم تغیرات ہیں۔ اس کے بعد آپ کو حسب ضرورت پری پروسیسنگ منطق کو لاگو کرنے یا ان دستاویزات میں سے معلومات کو دستی طور پر نکالنے کی ضرورت پڑ سکتی ہے۔ اس صورت میں، IDP پائپ لائن دو خصوصیات کو سپورٹ کرتی ہے جو آپ استعمال کر سکتے ہیں: Amazon Comprehend custom NER اور Amazon Textract کے سوالات۔ یہ دونوں خدمات دستاویزات کے مواد کے بارے میں بصیرت حاصل کرنے کے لیے NLP کا استعمال کرتی ہیں۔

Amazon Textract کے سوالات کے ساتھ نکالنا

Amazon Textract کے ساتھ کسی دستاویز پر کارروائی کرتے وقت، آپ اپنے تجزیے میں سوالات کے نئے فیچر کو شامل کر سکتے ہیں تاکہ یہ بتا سکیں کہ آپ کو کس معلومات کی ضرورت ہے۔ اس میں NLP سوال پاس کرنا شامل ہے، جیسے کہ "گاہک کا سوشل سیکورٹی نمبر کیا ہے؟" ایمیزون ٹیکسٹ کو. Amazon Textract اس سوال کے لیے دستاویز میں معلومات تلاش کرتا ہے اور اسے دستاویز کی باقی معلومات سے الگ جوابی ڈھانچے میں واپس کرتا ہے۔ سوالات پر اکیلے، یا کسی دوسرے کے ساتھ مل کر کارروائی کی جا سکتی ہے۔ FeatureType، جیسے Tables or Forms.

ایمیزون ٹیکسٹریکٹ کا استعمال کرتے ہوئے استفسار پر مبنی نکالنا۔

Amazon Textract کے سوالات کے ساتھ، آپ اس بات سے قطع نظر کہ ڈیٹا کو کسی دستاویز کے ڈھانچے میں کیسے رکھا گیا ہے، جیسے کہ فارم، ٹیبلز، اور چیک باکسز، یا کسی دستاویز میں نیسٹڈ سیکشنز میں رکھے گئے ہیں، آپ اعلیٰ درستگی کے ساتھ معلومات نکال سکتے ہیں۔

استفسارات کی خصوصیت کو ظاہر کرنے کے لیے، ہم معلومات کے قیمتی ٹکڑے جیسے مریض کا پہلا اور آخری نام، خوراک تیار کرنے والا، اور اسی طرح دستاویزات جیسے کہ COVID-19 ویکسینیشن کارڈ سے نکالتے ہیں۔

ایک نمونہ ویکسینیشن کارڈ۔

ہم استعمال کرتے ہیں textract.analyze_document() فنکشن اور وضاحت کریں۔ FeatureType as QUERIES اس کے ساتھ ساتھ میں قدرتی زبان کے سوالات کی شکل میں سوالات شامل کریں۔ QueriesConfig.

مندرجہ ذیل کوڈ کو آسان بنانے کے مقاصد کے لیے تراشا گیا ہے۔ مکمل کوڈ کے لیے، GitHub سے رجوع کریں۔ نمونہ کوڈ لیے analyze_document().

response = None
with open(image_filename, 'rb') as document:
    imageBytes = bytearray(document.read())

# Call Textract
response = textract.analyze_document(
    Document={'Bytes': imageBytes},
    FeatureTypes=["QUERIES"],
    QueriesConfig={
            "Queries": [{
                "Text": "What is the date for the 1st dose covid-19?",
                "Alias": "COVID_VACCINATION_FIRST_DOSE_DATE"
            },
# code trimmed down for simplification
#..
]
})

سوالات کی خصوصیت کے لیے، textract.analyze_document() فنکشن JSON کے جواب میں تمام OCR الفاظ اور لائنز، جیومیٹری کی معلومات، اور اعتماد کے اسکور کو آؤٹ پٹ کرتا ہے۔ تاہم، ہم صرف اس معلومات کو پرنٹ کر سکتے ہیں جس کے لیے ہم نے استفسار کیا تھا۔

Document ایک ریپر فنکشن ہے جو API سے JSON ردعمل کو پارس کرنے میں مدد کے لیے استعمال ہوتا ہے۔ یہ ایک اعلیٰ سطحی تجرید فراہم کرتا ہے اور API آؤٹ پٹ کو قابل تکرار اور معلومات حاصل کرنے میں آسان بناتا ہے۔ مزید معلومات کے لیے، سے رجوع کریں۔ ٹیکسٹ ریسپانس پارسر اور ٹیکسٹریکٹر GitHub repos. جواب پر کارروائی کرنے کے بعد، ہمیں مندرجہ ذیل معلومات ملتی ہیں جیسا کہ اسکرین شاٹ میں دکھایا گیا ہے۔

import trp.trp2 as t2
from tabulate import tabulate

d = t2.TDocumentSchema().load(response)
page = d.pages[0]

query_answers = d.get_query_answers(page=page)

print(tabulate(query_answers, tablefmt="github"))

سوالات نکالنے سے جواب۔

جائزہ اور توثیق کا مرحلہ

یہ ہماری آئی ڈی پی پائپ لائن کا آخری مرحلہ ہے۔ اس مرحلے میں، ہم کسی دستاویز کی مکمل جانچ کے لیے اپنے کاروباری اصول استعمال کر سکتے ہیں۔ مثال کے طور پر، انشورنس کلیمز کی دستاویز سے، کلیم آئی ڈی درست اور کامیابی کے ساتھ نکالی جاتی ہے۔ ہم AWS سرور لیس ٹیکنالوجیز استعمال کر سکتے ہیں جیسے او ڈبلیو ایس لامبڈا۔ ان کاروباری قواعد کی مزید آٹومیشن کے لیے۔ مزید یہ کہ، پیشین گوئیاں درست ہونے کو یقینی بنانے کے لیے ہم دستاویز کے جائزوں کے لیے ایک انسانی افرادی قوت کو شامل کر سکتے ہیں۔ ایمیزون A2I ایم ایل پیشین گوئیوں کے لیے انسانی جائزے کے لیے درکار عمارت کے ورک فلو کو تیز کرتا ہے۔

Amazon A2I کے ساتھ، آپ انسانی جائزہ لینے والوں کو اس وقت قدم رکھنے کی اجازت دے سکتے ہیں جب کوئی ماڈل اعلیٰ اعتماد کی پیشین گوئی کرنے یا اپنی پیشین گوئیوں کا مسلسل بنیادوں پر آڈٹ کرنے سے قاصر ہو۔ IDP پائپ لائن کا مقصد آپ کے فیصلے کے نظام میں درست معلومات حاصل کرنے کے لیے درکار انسانی ان پٹ کی مقدار کو کم کرنا ہے۔ IDP کے ساتھ، آپ اپنے دستاویز کے عمل کے لیے انسانی ان پٹ کی مقدار کے ساتھ ساتھ دستاویز کی پروسیسنگ کی کل لاگت کو بھی کم کر سکتے ہیں۔

آپ کے پاس دستاویزات سے تمام درست معلومات حاصل کرنے کے بعد، آپ Lambda فنکشنز کا استعمال کرتے ہوئے کاروبار کے لیے مخصوص قواعد کو مزید شامل کر سکتے ہیں اور آخر میں اس حل کو بہاو ڈیٹا بیس یا ایپلیکیشنز کے ساتھ مربوط کر سکتے ہیں۔

انسانی جائزہ اور تصدیق کا مرحلہ۔

Amazon A2I ورک فلو بنانے کے طریقے کے بارے میں مزید معلومات کے لیے، سے ہدایات پر عمل کریں۔ ماڈیول 4 کی تیاری کے آخر میں قدم 03-idp-document-enrichment.ipynb ہمارے میں GitHub repo.

صاف کرو

اپنے AWS اکاؤنٹ پر مستقبل کے چارجز کو روکنے کے لیے، ان وسائل کو حذف کریں جو ہم نے ریپوزٹری کے سیٹ اپ میں فراہم کیے تھے۔ صفائی کا سیکشن ہمارے ریپو میں.

نتیجہ

اس دو حصوں پر مشتمل پوسٹ میں، ہم نے دیکھا کہ کس طرح ML کے بہت کم یا بغیر کسی تجربے کے آخر سے آخر تک آئی ڈی پی پائپ لائن بنائی جاتی ہے۔ ہم نے پائپ لائن کے مختلف مراحل اور AWS AI سروسز جیسے Amazon Textract، Amazon Comprehend، Amazon Comprehend Medical، اور Amazon A2I کے ساتھ ایک ہینڈ آن حل پر تبادلہ خیال کیا تاکہ صنعت کے مخصوص استعمال کے کیسز کو ڈیزائن اور بنایا جا سکے۔ میں پہلی پوسٹ سیریز میں، ہم نے مختلف دستاویزات سے معلومات نکالنے کے لیے Amazon Textract اور Amazon Comprehend کو استعمال کرنے کا طریقہ دکھایا۔ اس پوسٹ میں، ہم نے اپنے دستاویزات سے حسب ضرورت ہستیوں کو نکالنے کے لیے ایک Amazon Comprehend کسٹم ہستی شناخت کنندہ کو تربیت دینے کے بارے میں گہرا غوطہ لگایا۔ ہم نے دستاویز کی افزودگی کی تکنیکیں بھی انجام دیں جیسے Amazon Textract کے ساتھ ساتھ Amazon Comprehend سے ہستی کی فہرست کا استعمال کرتے ہوئے ریڈیکشن۔ آخر میں، ہم نے دیکھا کہ آپ ایک نجی ورک ٹیم کو شامل کرکے Amazon Textract کے لیے Amazon A2I ہیومن ریویو ورک فلو کا استعمال کیسے کر سکتے ہیں۔

اس پوسٹ میں مکمل کوڈ کے نمونوں کے بارے میں مزید معلومات کے لیے، ملاحظہ کریں۔ GitHub repo.

ہم تجویز کرتے ہیں کہ آپ کے سیکورٹی سیکشنز کا جائزہ لیں۔ ایمیزون ٹیکسٹ, ایمیزون کی تعریف، اور ایمیزون A2I دستاویزات اور فراہم کردہ رہنما خطوط پر عمل کریں۔ اس کے علاوہ، قیمتوں کا جائزہ لینے اور سمجھنے کے لیے تھوڑا وقت نکالیں۔ ایمیزون ٹیکسٹ, ایمیزون کی تعریف، اور ایمیزون A2I.

مصنفین کے بارے میں

چن رانے ایمیزون ویب سروسز میں ایک AI/ML ماہر حل آرکیٹیکٹ ہے۔ وہ لاگو ریاضی اور مشین لرننگ کے بارے میں پرجوش ہے۔ وہ AWS صارفین کے لیے ذہین دستاویز پروسیسنگ سلوشن ڈیزائن کرنے پر توجہ مرکوز کرتی ہے۔ کام سے باہر، وہ سالسا اور بچتا ڈانس سے لطف اندوز ہوتی ہے۔

سونالی ساہو ایمیزون ویب سروسز میں انٹیلجنٹ ڈاکومنٹ پروسیسنگ AI/ML سلوشنز آرکیٹیکٹ ٹیم کی قیادت کر رہا ہے۔ وہ ایک پرجوش ٹیکنوفائل ہے اور اختراع کا استعمال کرتے ہوئے پیچیدہ مسائل کو حل کرنے کے لیے صارفین کے ساتھ کام کرنے سے لطف اندوز ہوتی ہے۔ اس کی توجہ کے بنیادی شعبے مصنوعی ذہانت اور ذہین دستاویز کی پروسیسنگ کے لیے مشین لرننگ ہیں۔

انجان بسواس ایک AI/ML ماہر سینئر سولیوشن آرکیٹیکٹ ہے۔ انجان انٹرپرائز صارفین کے ساتھ کام کرتا ہے اور AI/ML، ڈیٹا اینالیٹکس، اور بڑے ڈیٹا سلوشنز کو تیار کرنے، تعینات کرنے اور اس کی وضاحت کرنے کا شوق رکھتا ہے۔ انجان کو عالمی سپلائی چین، مینوفیکچرنگ، اور ریٹیل تنظیموں کے ساتھ کام کرنے کا 14 سال سے زیادہ کا تجربہ ہے، اور وہ صارفین کو AWS شروع کرنے اور اسکیل کرنے میں فعال طور پر مدد کر رہا ہے۔

سپرکاش دتہ ایمیزون ویب سروسز میں ایک حل آرکیٹیکٹ ہے۔ وہ ڈیجیٹل تبدیلی کی حکمت عملی، ایپلیکیشن کی جدید کاری اور منتقلی، ڈیٹا اینالیٹکس، اور مشین لرننگ پر توجہ مرکوز کرتا ہے۔ وہ AWS میں AI/ML کمیونٹی کا حصہ ہے اور ذہین دستاویز پراسیسنگ سلوشن ڈیزائن کرتا ہے۔

ٹائم اسٹیمپ: اگست 15، 2022اگست 17، 2022

ٹائم اسٹیمپ: جنوری 11، 2023

AWS AI خدمات کے ساتھ ذہین دستاویز پروسیسنگ: حصہ 2

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

حل جائزہ

شرائط

نکالنے کا مرحلہ

نام شدہ ہستی کی شناخت

ایک Amazon Comprehend کسٹم ہستی کی شناخت کے ماڈل کو تربیت دیں۔

ایک Amazon Comprehend کسٹم NER ریئل ٹائم اینڈ پوائنٹ بنائیں

افزودگی کا مرحلہ

Amazon Textract کے سوالات کے ساتھ نکالنا

جائزہ اور توثیق کا مرحلہ

صاف کرو

نتیجہ

مصنفین کے بارے میں

سے زیادہ AWS مشین لرننگ

متعارف کرایا جا رہا ہے AWS جنریٹیو AI انوویشن سنٹر کا کسٹم ماڈل پروگرام برائے اینتھروپک کلاڈ | ایمیزون ویب سروسز

نیا ٹیکنیکل ڈیپ ڈائیو کورس: AWS پر جنریٹو AI بنیادیں | ایمیزون ویب سروسز

ایمیزون سیج میکر ڈیٹا متوازی لائبریری کے ساتھ تیز تر تربیت کو فعال کریں۔ ایمیزون ویب سروسز

ایمیزون سیج میکر ڈیٹا رینگلر کے ساتھ ٹیکسٹ ڈیٹا میں پیٹرن کا پتہ لگائیں۔

ہفتہ وار پیشین گوئیاں اب اتوار کو ایمیزون کی پیشن گوئی کے ساتھ شروع ہو سکتی ہیں۔

AWS Inferentia2 کے ساتھ مستحکم بازی کی کارکردگی اور کم تخمینہ لاگت کو زیادہ سے زیادہ کریں۔ ایمیزون ویب سروسز

Refinitiv Data Library، AWS سروسز، اور Amazon SageMaker کے ساتھ ریئل ٹائم نیوز اسٹریمز کو تقویت بخشنا

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ