AWS AI পরিষেবার সাথে ইন্টেলিজেন্ট ডকুমেন্ট প্রসেসিং: পার্ট 1

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

স্বাস্থ্যসেবা, অর্থ এবং ঋণ, আইনি, খুচরা এবং উত্পাদনের মতো শিল্প জুড়ে সংস্থাগুলিকে তাদের প্রতিদিনের ব্যবসায়িক প্রক্রিয়াগুলিতে প্রায়শই প্রচুর নথির সাথে মোকাবিলা করতে হয়। এই নথিগুলিতে গুরুত্বপূর্ণ তথ্য রয়েছে যা গ্রাহক সন্তুষ্টির সর্বোচ্চ স্তর বজায় রাখার জন্য, দ্রুত গ্রাহক অনবোর্ডিং এবং নিম্ন গ্রাহক মন্থন করার জন্য সময়মতো সিদ্ধান্ত নেওয়ার চাবিকাঠি। বেশিরভাগ ক্ষেত্রে, তথ্য এবং অন্তর্দৃষ্টি বের করার জন্য নথিগুলি ম্যানুয়ালি প্রক্রিয়া করা হয়, যা সময়সাপেক্ষ, ত্রুটি-প্রবণ, ব্যয়বহুল এবং মাপকাঠি করা কঠিন। এই নথিগুলি থেকে তথ্য প্রক্রিয়াকরণ এবং বের করার জন্য আজ সীমিত অটোমেশন উপলব্ধ। AWS কৃত্রিম বুদ্ধিমত্তা (AI) পরিষেবাগুলির সাথে ইন্টেলিজেন্ট ডকুমেন্ট প্রসেসিং (IDP) মেশিন লার্নিং (ML) দক্ষতার প্রয়োজন ছাড়াই দ্রুত এবং উচ্চ নির্ভুলতার সাথে বিভিন্ন ধরণের এবং ফর্ম্যাটের নথি থেকে স্বয়ংক্রিয়ভাবে তথ্য নিষ্কাশন করতে সহায়তা করে৷ উচ্চ নির্ভুলতার সাথে দ্রুত তথ্য আহরণ সামগ্রিক খরচ কমানোর সাথে সাথে সময়মতো মানসম্পন্ন ব্যবসায়িক সিদ্ধান্ত নিতে সাহায্য করে।

যদিও একটি IDP কর্মপ্রবাহের পর্যায়গুলি পরিবর্তিত হতে পারে এবং ব্যবহারের ক্ষেত্রে এবং ব্যবসার প্রয়োজনীয়তার দ্বারা প্রভাবিত হতে পারে, নিম্নলিখিত চিত্রটি এমন পর্যায়গুলি দেখায় যেগুলি সাধারণত একটি IDP কর্মপ্রবাহের অংশ। প্রসেসিং ডকুমেন্ট যেমন ট্যাক্স ফর্ম, দাবি, মেডিকেল নোট, নতুন গ্রাহক ফর্ম, চালান, আইনি চুক্তি এবং আরও অনেক কিছু IDP-এর ব্যবহারের ক্ষেত্রে কয়েকটি।

এই দুই-অংশের সিরিজে, আমরা আলোচনা করব কিভাবে আপনি AWS AI পরিষেবাগুলি ব্যবহার করে স্কেলে নথিগুলিকে স্বয়ংক্রিয় এবং বুদ্ধিমানের সাথে প্রক্রিয়া করতে পারেন। এই পোস্টে, আমরা IDP কর্মপ্রবাহের প্রথম তিনটি ধাপ নিয়ে আলোচনা করব। ভিতরে অংশ 2, আমরা অবশিষ্ট কর্মপ্রবাহ পর্যায়গুলি নিয়ে আলোচনা করি।

সমাধান ওভারভিউ

নিম্নলিখিত আর্কিটেকচার ডায়াগ্রামটি একটি IDP কর্মপ্রবাহের পর্যায়গুলি দেখায়। এটি বিভিন্ন ফাইল ফরম্যাট (পিডিএফ, জেপিইজি, পিএনজি, টিআইএফএফ) এবং নথির লেআউটগুলিকে নিরাপদে সংরক্ষণ এবং একত্রিত করার জন্য একটি ডেটা ক্যাপচার স্টেজ দিয়ে শুরু হয়। পরবর্তী ধাপ হল শ্রেণীবিন্যাস, যেখানে আপনি আপনার নথিগুলিকে (যেমন চুক্তি, দাবির ফর্ম, চালান বা রসিদ) শ্রেণীবদ্ধ করেন, তারপরে নথি নিষ্কাশন করা হয়। নিষ্কাশন পর্যায়ে, আপনি আপনার নথি থেকে অর্থপূর্ণ ব্যবসার তথ্য বের করতে পারেন। এই নিষ্কাশিত ডেটা প্রায়শই ডেটা বিশ্লেষণের মাধ্যমে অন্তর্দৃষ্টি সংগ্রহ করতে ব্যবহৃত হয় বা ডাটাবেস বা লেনদেন সিস্টেমের মতো ডাউনস্ট্রিম সিস্টেমে পাঠানো হয়। নিম্নলিখিত পর্যায়টি সমৃদ্ধকরণ, যেখানে নথিগুলিকে সুরক্ষিত স্বাস্থ্য তথ্য (PHI) বা ব্যক্তিগতভাবে সনাক্তযোগ্য তথ্য (PII) ডেটা, কাস্টম ব্যবসায়িক শব্দ নিষ্কাশন ইত্যাদি সংশোধন করে সমৃদ্ধ করা যেতে পারে। পরিশেষে, পর্যালোচনা এবং যাচাইকরণ পর্যায়ে, ফলাফল সঠিক কিনা তা নিশ্চিত করার জন্য আপনি নথি পর্যালোচনার জন্য একটি মানব কর্মী অন্তর্ভুক্ত করতে পারেন।

এই পোস্টের উদ্দেশ্যে, আমরা নমুনা নথির একটি সেট বিবেচনা করি যেমন ব্যাঙ্ক স্টেটমেন্ট, ইনভয়েস এবং স্টোর রসিদ। নমুনা কোড সহ নথির নমুনা আমাদের পাওয়া যাবে GitHub সংগ্রহস্থল. নিম্নলিখিত বিভাগে, আমরা বাস্তব বাস্তব প্রয়োগের সাথে এই কোড নমুনার মাধ্যমে আপনাকে হেঁটেছি। আমরা দেখাই কিভাবে আপনি ML ক্ষমতা ব্যবহার করতে পারেন অ্যামাজন টেক্সট্র্যাক, অ্যামাজন সমঝোতা, এবং অ্যামাজন অগমেন্টেড এআই (Amazon A2I) নথিগুলি প্রক্রিয়া করতে এবং তাদের থেকে নেওয়া ডেটা যাচাই করতে।

Amazon Textract হল একটি ML পরিষেবা যা স্বয়ংক্রিয়ভাবে স্ক্যান করা নথি থেকে পাঠ্য, হাতের লেখা এবং ডেটা বের করে। ফর্ম এবং টেবিল থেকে ডেটা সনাক্ত করতে, বুঝতে এবং বের করতে এটি সহজ অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) এর বাইরে চলে যায়। অ্যামাজন টেক্সট্র্যাক্ট যেকোন ধরণের নথি পড়তে এবং প্রক্রিয়া করতে ML ব্যবহার করে, সঠিকভাবে পাঠ্য, হস্তাক্ষর, টেবিল এবং অন্যান্য ডেটা নিষ্কাশন করার জন্য কোন ম্যানুয়াল প্রচেষ্টা ছাড়াই।

Amazon Comprehend হল একটি প্রাকৃতিক-ভাষা প্রক্রিয়াকরণ (NLP) পরিষেবা যা নথির বিষয়বস্তু সম্পর্কে অন্তর্দৃষ্টি বের করতে ML ব্যবহার করে। Amazon Comprehend ভাষা, মানুষ এবং স্থানের রেফারেন্স সহ নথিতে গুরুত্বপূর্ণ উপাদানগুলি সনাক্ত করতে পারে এবং প্রাসঙ্গিক বিষয় বা ক্লাস্টারে শ্রেণীবদ্ধ করতে পারে। এটি একক নথি বা ব্যাচ সনাক্তকরণ ব্যবহার করে বাস্তব সময়ে একটি নথির অনুভূতি নির্ধারণ করতে অনুভূতি বিশ্লেষণ করতে পারে। উদাহরণস্বরূপ, আপনার পাঠকরা পোস্টটি পছন্দ করেন কিনা তা জানতে এটি একটি ব্লগ পোস্টে মন্তব্যগুলি বিশ্লেষণ করতে পারে। Amazon Comprehend রিয়েল টাইমে এবং অ্যাসিঙ্ক্রোনাস ব্যাচের কাজগুলিতে টেক্সট নথিতে ঠিকানা, ব্যাঙ্ক অ্যাকাউন্ট নম্বর এবং ফোন নম্বরের মতো PII সনাক্ত করে। এটি অ্যাসিঙ্ক্রোনাস ব্যাচের কাজগুলিতে PII সত্তাগুলিকেও সংশোধন করতে পারে।

Amazon A2I হল একটি ML পরিষেবা যা মানুষের পর্যালোচনার জন্য প্রয়োজনীয় কর্মপ্রবাহ তৈরি করা সহজ করে। Amazon A2I সমস্ত ডেভেলপারদের কাছে মানব পর্যালোচনা নিয়ে আসে, মানব পর্যালোচনা সিস্টেম তৈরির সাথে সম্পর্কিত অপ্রত্যাশিত ভারী উত্তোলনগুলিকে সরিয়ে দেয় বা বিপুল সংখ্যক মানব পর্যালোচক পরিচালনা করে, এটি AWS-এ চলে বা না চলে। Amazon A2I উভয়ের সাথে একীভূত করে অ্যামাজন টেক্সট্র্যাক এবং অ্যামাজন সমঝোতা আপনার বুদ্ধিমান ডকুমেন্ট প্রসেসিং ওয়ার্কফ্লো এর মধ্যে আপনাকে মানব পর্যালোচনা পদক্ষেপগুলি প্রবর্তন করার ক্ষমতা প্রদান করতে।

ডেটা ক্যাপচার ফেজ

আপনি একটি উচ্চ মাপযোগ্য এবং টেকসই স্টোরেজ মত নথি সংরক্ষণ করতে পারেন আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3)। Amazon S3 হল একটি অবজেক্ট স্টোরেজ পরিষেবা যা শিল্প-নেতৃস্থানীয় স্কেলেবিলিটি, ডেটা প্রাপ্যতা, নিরাপত্তা এবং কর্মক্ষমতা প্রদান করে। Amazon S3 11 এর স্থায়িত্বের জন্য ডিজাইন করা হয়েছে এবং সারা বিশ্ব জুড়ে লক্ষ লক্ষ গ্রাহকদের ডেটা সঞ্চয় করে৷ নথিগুলি বিভিন্ন ফর্ম্যাট এবং লেআউটে আসতে পারে এবং ওয়েব পোর্টাল বা ইমেল সংযুক্তিগুলির মতো বিভিন্ন চ্যানেল থেকে আসতে পারে।

শ্রেণিবিন্যাস পর্ব

পূর্ববর্তী ধাপে, আমরা বিভিন্ন ধরনের এবং বিন্যাসের নথি সংগ্রহ করেছি। এই ধাপে, আমরা আরও নিষ্কাশন করতে পারার আগে আমাদের নথিগুলিকে শ্রেণিবদ্ধ করতে হবে। যে জন্য, আমরা Amazon Comprehend ব্যবহার করি কাস্টম শ্রেণীবিভাগ. নথি শ্রেণীবিভাগ একটি দ্বি-পদক্ষেপ প্রক্রিয়া। প্রথমত, আপনি একটি Amazon Comprehend কাস্টম ক্লাসিফায়ারকে প্রশিক্ষণ দেবেন যাতে আপনার আগ্রহের ক্লাসগুলি চিনতে পারেন। এর পরে, আপনি একটি দিয়ে মডেল স্থাপন করুন কাস্টম ক্লাসিফায়ার রিয়েল-টাইম এন্ডপয়েন্ট এবং শ্রেণীবদ্ধ করার জন্য রিয়েল-টাইম এন্ডপয়েন্টে লেবেলবিহীন নথি পাঠান।

নিম্নলিখিত চিত্রটি একটি সাধারণ নথির শ্রেণিবিন্যাস কর্মপ্রবাহ উপস্থাপন করে।

শ্রেণিবিন্যাস পর্ব

ক্লাসিফায়ারকে প্রশিক্ষণ দিতে, আপনি যে ক্লাসগুলিতে আগ্রহী তা চিহ্নিত করুন এবং প্রশিক্ষণ সামগ্রী হিসাবে প্রতিটি ক্লাসের জন্য নমুনা নথি প্রদান করুন। আপনার নির্দেশিত বিকল্পগুলির উপর ভিত্তি করে, Amazon Comprehend একটি কাস্টম ML মডেল তৈরি করে যা এটি আপনার প্রদত্ত নথির উপর ভিত্তি করে প্রশিক্ষণ দেয়। এই কাস্টম মডেল (শ্রেণীবিভাগকারী) আপনার জমা দেওয়া প্রতিটি নথি পরীক্ষা করে। এটি হয় নির্দিষ্ট শ্রেণী প্রদান করে যা বিষয়বস্তুকে সবচেয়ে ভালোভাবে উপস্থাপন করে (যদি আপনি মাল্টি-ক্লাস মোড ব্যবহার করেন) অথবা এটিতে প্রযোজ্য ক্লাসের সেট (যদি আপনি মাল্টি-লেবেল মোড ব্যবহার করেন)।

প্রশিক্ষণ তথ্য প্রস্তুত

প্রথম ধাপ হল Amazon Comprehend কাস্টম ক্লাসিফায়ারের জন্য প্রয়োজনীয় নথি থেকে পাঠ্য বের করা। Amazon S3 এ সমস্ত নথির জন্য কাঁচা পাঠ্য তথ্য বের করতে, আমরা Amazon Textract ব্যবহার করি detect_document_text() API আমরা একটি কাস্টম অ্যামাজন কম্প্রেহেন্ড ক্লাসিফায়ারকে প্রশিক্ষণের জন্য ব্যবহার করা নথির ধরন অনুযায়ী ডেটা লেবেল করি।

নিচের কোডটি সরলীকরণের উদ্দেশ্যে ছোট করা হয়েছে। সম্পূর্ণ কোডের জন্য, GitHub পড়ুন কোডের উদাহরণ উন্নত textract_extract_text()। কাজ call_textract() একটি wr4apper ফাংশন যা কল করে ডকুমেন্ট বিশ্লেষণ করুন এপিআই অভ্যন্তরীণভাবে, এবং পদ্ধতিতে পাস করা পরামিতিগুলি কিছু কনফিগারেশনকে বিমূর্ত করে যা এপিআইকে নিষ্কাশন কাজ চালানোর জন্য প্রয়োজন।

def textract_extract_text(document, bucket=data_bucket):        
    try:
        print(f'Processing document: {document}')
        lines = ""
        row = []
        
        # using amazon-textract-caller
        response = call_textract(input_document=f's3://{bucket}/{document}') 
        # using pretty printer to get all the lines
        lines = get_string(textract_json=response, output_type=[Textract_Pretty_Print.LINES])
        
        label = [name for name in names if(name in document)]  
        row.append(label[0])
        row.append(lines)        
        return row
    except Exception as e:
        print (e)

একটি কাস্টম ক্লাসিফায়ার প্রশিক্ষণ

এই ধাপে, আমরা নথি শ্রেণীবদ্ধ করার জন্য আমাদের মডেলকে প্রশিক্ষণ দিতে Amazon Comprehend কাস্টম শ্রেণীবিভাগ ব্যবহার করি। আমরা ব্যবহার করি ডকুমেন্ট ক্লাসিফায়ার তৈরি করুন আমাদের লেবেলযুক্ত ডেটা ব্যবহার করে একটি কাস্টম মডেলকে প্রশিক্ষণ দেয় এমন একটি শ্রেণিবদ্ধকারী তৈরি করতে API। নিম্নলিখিত কোড দেখুন:

create_response = comprehend.create_document_classifier(
        InputDataConfig={
            'DataFormat': 'COMPREHEND_CSV',
            'S3Uri': f's3://{data_bucket}/{key}'
        },
        DataAccessRoleArn=role,
        DocumentClassifierName=document_classifier_name,
        VersionName=document_classifier_version,
        LanguageCode='en',
        Mode='MULTI_CLASS'
    )

একটি রিয়েল-টাইম এন্ডপয়েন্ট স্থাপন করুন

Amazon Comprehend কাস্টম ক্লাসিফায়ার ব্যবহার করতে, আমরা ব্যবহার করে একটি রিয়েল-টাইম এন্ডপয়েন্ট তৈরি করি CreateEndpoint এপিআই:

endpoint_response = comprehend.create_endpoint(
        EndpointName=ep_name,
        ModelArn=model_arn,
        DesiredInferenceUnits=1,    
        DataAccessRoleArn=role
    )
    ENDPOINT_ARN=endpoint_response['EndpointArn']
print(f'Endpoint created with ARN: {ENDPOINT_ARN}')

রিয়েল-টাইম এন্ডপয়েন্ট সহ নথি শ্রেণীবদ্ধ করুন

Amazon Comprehend এন্ডপয়েন্ট তৈরি হওয়ার পর, আমরা নথি শ্রেণীবদ্ধ করতে রিয়েল-টাইম এন্ডপয়েন্ট ব্যবহার করতে পারি। আমরা ব্যবহার করি comprehend.classify_document() নিষ্কাশিত নথির পাঠ্য এবং ইনপুট পরামিতি হিসাবে অনুমান শেষ পয়েন্ট সহ ফাংশন:

response = comprehend.classify_document(
      Text= document,
      EndpointArn=ENDPOINT_ARN
      )

অ্যামাজন কম্প্রেহেন্ড কী-মানের জোড়ার (নাম-স্কোর) একটি অ্যারেতে প্রতিটি শ্রেণীর সাথে লিঙ্কযুক্ত একটি আত্মবিশ্বাসের স্কোর সহ সমস্ত শ্রেণীর নথি ফেরত দেয়। আমরা সর্বোচ্চ আত্মবিশ্বাসের স্কোর সহ নথি শ্রেণী বাছাই করি। নিম্নলিখিত স্ক্রিনশট একটি নমুনা প্রতিক্রিয়া.

রিয়েল-টাইম এন্ডপয়েন্ট সহ নথি শ্রেণীবদ্ধ করুন

আমরা বিস্তারিত নথির শ্রেণিবিন্যাস নমুনা কোডের মাধ্যমে যাওয়ার পরামর্শ দিই GitHub.

নিষ্কাশন পর্ব

অ্যামাজন টেক্সট্র্যাক্ট আপনাকে অ্যামাজন টেক্সট্র্যাক্ট ব্যবহার করে পাঠ্য এবং কাঠামোগত ডেটা তথ্য বের করতে দেয় DetectDocumentText এবং ডকুমেন্ট বিশ্লেষণ করুন APIs, যথাক্রমে। এই APIগুলি JSON ডেটার সাথে সাড়া দেয়, যার মধ্যে রয়েছে শব্দ, লাইন, ফর্ম, টেবিল, জ্যামিতি বা বাউন্ডিং বক্সের তথ্য, সম্পর্ক ইত্যাদি। উভয় DetectDocumentText এবং AnalyzeDocument সিঙ্ক্রোনাস অপারেশন হয়। অসিঙ্ক্রোনাসভাবে নথি বিশ্লেষণ করতে, ব্যবহার করুন স্টার্টডোকামেন্টটেক্সটেক্টেশন.

স্ট্রাকচার্ড ডেটা এক্সট্রাকশন

শনাক্ত করা আইটেমগুলির মধ্যে ডেটা গঠন এবং সম্পর্ক সংরক্ষণ করার সময় আপনি নথি থেকে টেবিলের মতো কাঠামোগত ডেটা বের করতে পারেন। আপনি ব্যবহার করতে পারেন ডকুমেন্ট বিশ্লেষণ করুন API এর সাথে FeatureType as TABLE একটি নথিতে সমস্ত টেবিল সনাক্ত করতে। নীচের চিত্রটি এই প্রক্রিয়াটি চিত্রিত করে।

স্ট্রাকচার্ড ডেটা এক্সট্রাকশন

নিম্নলিখিত কোডটি দেখুন:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["TABLES"])

আমরা চালান analyze_document() সঙ্গে পদ্ধতি FeatureType as TABLES কর্মচারী ইতিহাস নথিতে এবং নিম্নলিখিত ফলাফলে টেবিল নিষ্কাশন প্রাপ্ত.

টেবিল নিষ্কাশন জন্য নথি API প্রতিক্রিয়া বিশ্লেষণ

আধা-কাঠামোগত তথ্য নিষ্কাশন

শনাক্ত করা আইটেমগুলির মধ্যে ডেটা কাঠামো এবং সম্পর্ক সংরক্ষণ করার সময় আপনি নথি থেকে ফর্ম বা কী-মানের জোড়ার মতো আধা-গঠিত ডেটা বের করতে পারেন। আপনি ব্যবহার করতে পারেন ডকুমেন্ট বিশ্লেষণ করুন API এর সাথে FeatureType as FORMS একটি নথিতে সমস্ত ফর্ম সনাক্ত করতে। নিম্নলিখিত চিত্রটি এই প্রক্রিয়াটি চিত্রিত করে।

আধা-কাঠামোগত তথ্য নিষ্কাশন

নিম্নলিখিত কোডটি দেখুন:

response = textract.analyze_document(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    },
    FeatureTypes=["FORMS"])

এখানে, আমরা চালান analyze_document() সঙ্গে পদ্ধতি FeatureType as FORMS কর্মচারী আবেদন নথিতে এবং ফলাফলে টেবিল নিষ্কাশন প্রাপ্ত.

AWS AI পরিষেবাগুলির সাথে বুদ্ধিমান নথি প্রক্রিয়াকরণ: পার্ট 1 PlatoBlockchain ডেটা ইন্টেলিজেন্স৷ উল্লম্ব অনুসন্ধান. আ.

অসংগঠিত তথ্য নিষ্কাশন

শিল্প-নেতৃস্থানীয় OCR নির্ভুলতার সাথে ঘন পাঠ্য নিষ্কাশনের জন্য Amazon Textract সর্বোত্তম। আপনি ব্যবহার করতে পারেন DetectDocumentText API পাঠ্যের লাইন এবং শব্দগুলি সনাক্ত করতে যা পাঠ্যের একটি লাইন তৈরি করে, যেমনটি নিম্নলিখিত চিত্রে চিত্রিত হয়েছে।

অসংগঠিত তথ্য নিষ্কাশন

নিম্নলিখিত কোডটি দেখুন:

response = textract.detect_document_text(Document={'Bytes': imageBytes})

# Print detected text
for item in response["Blocks"]:
	if item["BlockType"] == "LINE":
 		print (item["Text"])

এখন আমরা চালান detect_document_text() নমুনা ইমেজ উপর পদ্ধতি এবং ফলাফল কাঁচা টেক্সট নিষ্কাশন প্রাপ্ত.

চালান এবং রসিদ

অ্যামাজন টেক্সট্র্যাক্ট স্কেলে চালান এবং রসিদগুলি প্রক্রিয়া করার জন্য বিশেষ সহায়তা প্রদান করে। দ্য ব্যয় বিশ্লেষণ করুন API কোনো টেমপ্লেট বা কনফিগারেশন ছাড়াই প্রায় যেকোনো ইনভয়েস বা রসিদ থেকে পণ্য বা পরিষেবার একটি আইটেমাইজড তালিকা থেকে স্পষ্টভাবে লেবেল করা ডেটা, উহ্য ডেটা এবং লাইন আইটেমগুলি বের করতে পারে। নীচের চিত্রটি এই প্রক্রিয়াটি চিত্রিত করে।

চালান এবং রসিদ নিষ্কাশন

নিম্নলিখিত কোডটি দেখুন:

response = textract.analyze_expense(
    Document={
        'S3Object': {
            'Bucket': s3BucketName,
            'Name': documentName
        }
    })

অ্যামাজন টেক্সট্র্যাক্ট একটি রসিদে বিক্রেতার নাম খুঁজে পেতে পারে এমনকি যদি এটি শুধুমাত্র "বিক্রেতা" নামক একটি স্পষ্ট লেবেল ছাড়া পৃষ্ঠার একটি লোগোতে নির্দেশিত হয়। এটি লাইন আইটেমগুলির জন্য কলাম শিরোনামগুলির সাথে লেবেলযুক্ত নয় এমন ব্যয়ের আইটেম, পরিমাণ এবং দামগুলিও খুঁজে পেতে এবং বের করতে পারে৷

খরচ API প্রতিক্রিয়া বিশ্লেষণ

পরিচয় নথি

অ্যামাজন টেক্সট্র্যাক্ট আইডি বিশ্লেষণ করুন API আপনাকে টেমপ্লেট বা কনফিগারেশনের প্রয়োজন ছাড়াই শনাক্তকরণ নথি থেকে স্বয়ংক্রিয়ভাবে তথ্য বের করতে সাহায্য করতে পারে, যেমন ড্রাইভারের লাইসেন্স এবং পাসপোর্ট। আমরা নির্দিষ্ট তথ্য বের করতে পারি, যেমন মেয়াদ শেষ হওয়ার তারিখ এবং জন্ম তারিখ, সেইসাথে বুদ্ধিমত্তার সাথে নাম এবং ঠিকানার মতো অন্তর্নিহিত তথ্য সনাক্ত করতে এবং বের করতে পারি। নিম্নলিখিত চিত্রটি এই প্রক্রিয়াটি চিত্রিত করে।

পরিচয় নথি নিষ্কাশন

নিম্নলিখিত কোডটি দেখুন:

textract_client = boto3.client('textract')
j = call_textract_analyzeid(document_pages=["s3://amazon-textract-public-content/analyzeid/driverlicense.png"],boto3_textract_client=textract_client)

আমরা ব্যবহার করতে পারি tabulate একটি সুন্দর মুদ্রিত আউটপুট পেতে:

from tabulate import tabulate

print(tabulate([x[1:3] for x in result]))

আমরা বিস্তারিত নথি নিষ্কাশন মাধ্যমে যাওয়ার সুপারিশ কোডের উদাহরণ গিটহাবে। এই পোস্টে সম্পূর্ণ কোড নমুনা সম্পর্কে আরও তথ্যের জন্য, পড়ুন গিটহুব রেপো.

উপসংহার

দুই পর্বের সিরিজের এই প্রথম পোস্টে, আমরা IDP-এর বিভিন্ন পর্যায় এবং একটি সমাধান আর্কিটেকচার নিয়ে আলোচনা করেছি। আমরা একটি Amazon Comprehend কাস্টম ক্লাসিফায়ার ব্যবহার করে নথির শ্রেণীবিভাগ নিয়েও আলোচনা করেছি। এরপরে, আমরা অসংগঠিত, আধা-কাঠামোগত, কাঠামোগত, এবং বিশেষায়িত নথির প্রকারগুলি থেকে তথ্য আহরণের জন্য Amazon Textract ব্যবহার করার উপায়গুলি অন্বেষণ করেছি৷

In অংশ 2 এই সিরিজের, আমরা অ্যামাজন টেক্সট্র্যাক্টের নির্যাস এবং প্রশ্নের বৈশিষ্ট্য নিয়ে আলোচনা চালিয়ে যাচ্ছি। আমরা কীভাবে অ্যামাজন কম্প্রেহেন্ড পূর্ব-নির্ধারিত সত্তা এবং কাস্টম সত্তাগুলিকে ঘন টেক্সট সহ নথিগুলি থেকে মূল ব্যবসার পদগুলি বের করতে এবং কীভাবে আপনার IDP প্রক্রিয়াগুলিতে একটি Amazon A2I হিউম্যান-ইন-দ্য-লুপ পর্যালোচনাকে সংহত করতে হয় তা দেখছি।

আমরা এর সুরক্ষা বিভাগগুলি পর্যালোচনা করার পরামর্শ দিই৷ অ্যামাজন টেক্সট্র্যাক, অ্যামাজন সমঝোতা, এবং আমাজন A2I ডকুমেন্টেশন এবং প্রদত্ত নির্দেশিকা অনুসরণ। এছাড়াও, মূল্য নির্ধারণের পর্যালোচনা এবং বুঝতে কিছুক্ষণ সময় নিন অ্যামাজন টেক্সট্র্যাক, অ্যামাজন সমঝোতা, এবং আমাজন A2I.

লেখক সম্পর্কে

সুপ্রকাশ দত্ত অ্যামাজন ওয়েব সার্ভিসের একজন সলিউশন আর্কিটেক্ট। তিনি ডিজিটাল রূপান্তর কৌশল, অ্যাপ্লিকেশন আধুনিকীকরণ এবং স্থানান্তর, ডেটা বিশ্লেষণ এবং মেশিন লার্নিং এর উপর ফোকাস করেন।

সোনালী সাহু Amazon Web Services-এ ইন্টেলিজেন্ট ডকুমেন্ট প্রসেসিং এআই/এমএল সলিউশন আর্কিটেক্ট দলের নেতৃত্ব দিচ্ছে। তিনি একজন উত্সাহী টেকনোফাইল এবং উদ্ভাবন ব্যবহার করে জটিল সমস্যা সমাধানের জন্য গ্রাহকদের সাথে কাজ করা উপভোগ করেন। তার ফোকাসের মূল ক্ষেত্র হল কৃত্রিম বুদ্ধিমত্তা এবং বুদ্ধিমান নথি প্রক্রিয়াকরণের জন্য মেশিন লার্নিং।

অঞ্জন বিশ্বাস AI/ML এবং ডেটা বিশ্লেষণের উপর ফোকাস সহ একজন সিনিয়র এআই সার্ভিসেস সলিউশন আর্কিটেক্ট। অঞ্জন বিশ্বব্যাপী AI পরিষেবা দলের অংশ এবং গ্রাহকদের AI এবং ML-এর সাথে ব্যবসায়িক সমস্যাগুলি বুঝতে এবং সমাধান করতে সহায়তা করার জন্য তাদের সাথে কাজ করে। অঞ্জনের গ্লোবাল সাপ্লাই চেইন, ম্যানুফ্যাকচারিং এবং খুচরা সংস্থাগুলির সাথে কাজ করার 14 বছরেরও বেশি অভিজ্ঞতা রয়েছে এবং গ্রাহকদের AWS AI পরিষেবাগুলি শুরু করতে এবং স্কেল করতে সক্রিয়ভাবে সাহায্য করছে৷

চিন্ময়ী রানে অ্যামাজন ওয়েব সার্ভিসেসের একজন এআই/এমএল বিশেষজ্ঞ সলিউশন আর্কিটেক্ট। তিনি ফলিত গণিত এবং মেশিন লার্নিং সম্পর্কে উত্সাহী। তিনি AWS গ্রাহকদের জন্য বুদ্ধিমান ডকুমেন্ট প্রসেসিং সমাধান ডিজাইন করার উপর ফোকাস করেন। কাজের বাইরে, তিনি সালসা এবং বাছাটা নাচ উপভোগ করেন।

সময় স্ট্যাম্প: আগস্ট 15, 2022আগস্ট 16, 2022

সময় স্ট্যাম্প: জানুয়ারী 13, 2023

AWS AI পরিষেবাগুলির সাথে বুদ্ধিমান নথি প্রক্রিয়াকরণ: পার্ট 1

প্লেটো দ্বারা প্রকাশিত

সমাধান ওভারভিউ

ডেটা ক্যাপচার ফেজ

শ্রেণিবিন্যাস পর্ব

প্রশিক্ষণ তথ্য প্রস্তুত

একটি কাস্টম ক্লাসিফায়ার প্রশিক্ষণ

একটি রিয়েল-টাইম এন্ডপয়েন্ট স্থাপন করুন

রিয়েল-টাইম এন্ডপয়েন্ট সহ নথি শ্রেণীবদ্ধ করুন

নিষ্কাশন পর্ব

স্ট্রাকচার্ড ডেটা এক্সট্রাকশন

আধা-কাঠামোগত তথ্য নিষ্কাশন

অসংগঠিত তথ্য নিষ্কাশন

চালান এবং রসিদ

পরিচয় নথি

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

Amazon SageMaker ব্যবহার করে সর্বোচ্চ লাভের জন্য সর্বোত্তম মূল্য

Amazon Forecast এর সাথে পূর্বাভাস দেওয়ার জন্য নির্দিষ্ট টাইমসিরিজ বেছে নিন

AWS Amplify এবং Amazon Recognition নমুনা বাস্তবায়ন ব্যবহার করে আপনার পরিচয় যাচাইকরণ প্রকল্পগুলিকে ত্বরান্বিত করুন

Amazon SageMaker মডেলের সমান্তরাল লাইব্রেরি এখন PyTorch FSDP কাজের চাপকে 20% পর্যন্ত ত্বরান্বিত করে | আমাজন ওয়েব সার্ভিসেস

ব্যয়-দক্ষ, উচ্চ-পারফরম্যান্স AI অনুমানের জন্য Amazon EC2 DL2q উদাহরণ এখন সাধারণভাবে উপলব্ধ | আমাজন ওয়েব সার্ভিসেস

Amazon S3 অবজেক্ট Lambda এর সাথে ML প্রিপ্রসেসিং এর খরচ এবং জটিলতা হ্রাস করুন

Amazon SageMaker-এর সাথে AWS Graviton-ভিত্তিক উদাহরণে মেশিন লার্নিং ইনফারেন্স ওয়ার্কলোড চালান

Amazon Recognition এবং অন্যান্য বিষয়বস্তু সংযম পরিষেবাগুলিতে বিষয়বস্তু সংযম মূল্যায়নের জন্য মেট্রিক্স৷

AWS DeepRacer এর সাথে Parsons-এ কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং ব্যবহার করা

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব