AWS AI পরিষেবার সাথে ইন্টেলিজেন্ট ডকুমেন্ট প্রসেসিং: পার্ট 2

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

Amazon এর বুদ্ধিমান ডকুমেন্ট প্রসেসিং (IDP) আপনাকে আপনার ব্যবসায়িক সিদ্ধান্তের চক্রের গতি বাড়াতে এবং খরচ কমাতে সাহায্য করে। একাধিক শিল্প জুড়ে, গ্রাহকদের তাদের ব্যবসার সময় প্রতি বছর লক্ষ লক্ষ নথি প্রক্রিয়া করতে হবে। যে গ্রাহকরা লক্ষ লক্ষ নথি প্রক্রিয়া করেন, তাদের জন্য এটি শেষ-ব্যবহারকারীর অভিজ্ঞতার জন্য একটি গুরুত্বপূর্ণ দিক এবং একটি শীর্ষ ডিজিটাল রূপান্তর অগ্রাধিকার। বৈচিত্র্যময় ফর্ম্যাটের কারণে, বেশিরভাগ সংস্থাগুলি ম্যানুয়ালি ডকুমেন্ট যেমন W2s, দাবি, আইডি নথি, চালান এবং আইনি চুক্তিগুলি প্রক্রিয়া করে, অথবা উত্তরাধিকারী OCR (অপটিক্যাল চরিত্র স্বীকৃতি) সমাধানগুলি ব্যবহার করে যা সময়সাপেক্ষ, ত্রুটি-প্রবণ এবং ব্যয়বহুল। AWS AI পরিষেবাগুলির সাথে একটি IDP পাইপলাইন আপনাকে আরও নির্ভুল এবং বহুমুখী তথ্য নিষ্কাশন, নথিগুলি দ্রুত প্রক্রিয়াকরণ, অর্থ সাশ্রয় এবং উচ্চ মূল্যের কাজগুলিতে সংস্থানগুলি স্থানান্তর করার সাথে OCR এর বাইরে যাওয়ার ক্ষমতা দেয়৷

এই সিরিজে, আমরা IDP পাইপলাইনের একটি ওভারভিউ দিই যাতে একটি ডকুমেন্ট ইনজেস্ট করতে এবং ডাউনস্ট্রিম সিস্টেমে মূল তথ্য পেতে যে পরিমাণ সময় এবং প্রচেষ্টা লাগে তা কমাতে। নিম্নলিখিত চিত্রটি এমন পর্যায়গুলি দেখায় যা সাধারণত একটি IDP কর্মপ্রবাহের অংশ।

এই দুই-অংশের সিরিজে, আমরা আলোচনা করব কিভাবে আপনি AWS AI পরিষেবাগুলি ব্যবহার করে স্কেলে নথিগুলিকে স্বয়ংক্রিয় এবং বুদ্ধিমানের সাথে প্রক্রিয়া করতে পারেন। ভিতরে অংশ 1, আমরা IDP কর্মপ্রবাহের প্রথম তিনটি পর্যায় নিয়ে আলোচনা করেছি। এই পোস্টে, আমরা বাকি ওয়ার্কফ্লো পর্যায়গুলি নিয়ে আলোচনা করি।

সমাধান ওভারভিউ

নিম্নলিখিত রেফারেন্স আর্কিটেকচার দেখায় যে আপনি কীভাবে AWS AI পরিষেবাগুলি ব্যবহার করতে পারেন অ্যামাজন টেক্সট্র্যাক এবং অ্যামাজন সমঝোতাIDP কর্মপ্রবাহ বাস্তবায়নের জন্য অন্যান্য AWS পরিষেবার সাথে। অংশ 1-এ, আমরা ডেটা ক্যাপচার এবং নথির শ্রেণীবিভাগের পর্যায়গুলি বর্ণনা করেছি, যেখানে আমরা ব্যাঙ্ক স্টেটমেন্ট, ইনভয়েস এবং রসিদ নথিগুলির মতো নথিগুলিকে শ্রেণীবদ্ধ এবং ট্যাগ করেছি৷ আমরা নিষ্কাশন পর্যায়েও আলোচনা করেছি, যেখানে আপনি আপনার নথি থেকে অর্থপূর্ণ ব্যবসার তথ্য বের করতে পারেন। এই পোস্টে, আমরা নিষ্কাশন পর্বে অ্যামাজন কম্প্রিহেন্ড ডিফল্ট এবং কাস্টম সত্তাগুলি দেখে, নথি সমৃদ্ধকরণ সম্পাদন করে এবং সংক্ষিপ্তভাবে এর ক্ষমতাগুলি দেখে আইডিপি পাইপলাইন প্রসারিত করি অ্যামাজন অগমেন্টেড এআই (Amazon A2I) পর্যালোচনা এবং বৈধতা পর্যায়ে একটি মানব পর্যালোচনা কর্মশক্তি অন্তর্ভুক্ত করতে।

আমরাও ব্যবহার করি অ্যামাজন সমঝোতা মেডিকেল এই সমাধানের অংশ হিসাবে, যা একটি পরিষেবা যা অসংগঠিত মেডিকেল টেক্সট থেকে সঠিকভাবে এবং দ্রুত তথ্য সংগ্রহ করা এবং এক্সট্রাক্ট করা স্বাস্থ্য তথ্যের মধ্যে সম্পর্ক সনাক্ত করা এবং ICD-10-CM, RxNorm, এবং SNOMED CT এর মতো মেডিকেল অনটোলজিগুলির সাথে লিঙ্ক করা।

Amazon A2I হল একটি মেশিন লার্নিং (ML) পরিষেবা যা মানুষের পর্যালোচনার জন্য প্রয়োজনীয় কর্মপ্রবাহ তৈরি করা সহজ করে তোলে। Amazon A2I সমস্ত ডেভেলপারদের কাছে মানব পর্যালোচনা নিয়ে আসে, মানব পর্যালোচনা সিস্টেম তৈরির সাথে সম্পর্কিত অপ্রত্যাশিত ভারী উত্তোলনগুলিকে সরিয়ে দেয় বা এটি AWS-এ চলে বা না চলুক এমন বিপুল সংখ্যক মানব পর্যালোচক পরিচালনা করে। Amazon A2I এর সাথে একীভূত হয় অ্যামাজন টেক্সট্র্যাক এবং অ্যামাজন সমঝোতা আপনাকে আপনার IDP কর্মপ্রবাহের মধ্যে মানব পর্যালোচনা পদক্ষেপগুলি প্রবর্তন করার ক্ষমতা প্রদান করতে।

পূর্বশর্ত

আপনি শুরু করার আগে, পড়ুন অংশ 1 IDP-এর একটি উচ্চ-স্তরের ওভারভিউ এবং ডেটা ক্যাপচার, শ্রেণীবিভাগ, এবং নিষ্কাশন পর্যায়ের বিশদ বিবরণের জন্য।

নিষ্কাশন পর্ব

এই সিরিজের 1 অংশে, আমরা আলোচনা করেছি কিভাবে আমরা যেকোনো ধরনের নথির জন্য সঠিক ডেটা নিষ্কাশনের জন্য Amazon Textract বৈশিষ্ট্য ব্যবহার করতে পারি। এই পর্বটি প্রসারিত করতে, আমরা আরও নথি উত্তোলনের জন্য Amazon Comprehend প্রাক-প্রশিক্ষিত সত্তা এবং একটি Amazon Comprehend কাস্টম সত্তা স্বীকৃতিকারী ব্যবহার করি। কাস্টম সত্তা শনাক্তকারীর উদ্দেশ্য হল নির্দিষ্ট সত্তাকে শনাক্ত করা এবং CSV বা মানুষের পঠনযোগ্য বিন্যাসে আমাদের নথি সংক্রান্ত কাস্টম মেটাডেটা তৈরি করা যা পরবর্তীতে ব্যবসায়িক ব্যবহারকারীদের দ্বারা বিশ্লেষণ করা হবে।

নামকৃত সত্তার স্বীকৃতি

নামযুক্ত সত্তা স্বীকৃতি (এনইআর) হল একটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (এনএলপি) সাব-টাস্ক যা বিশেষ্য বাক্যাংশগুলি সনাক্ত করতে পাঠ্য ডেটার মাধ্যমে sifting জড়িত, নামযুক্ত সত্তা বলা হয় এবং প্রতিটিকে একটি লেবেল দিয়ে শ্রেণীবদ্ধ করা, যেমন ব্র্যান্ড, তারিখ, ঘটনা, অবস্থান, সংস্থা , ব্যক্তি, পরিমাণ, বা শিরোনাম। উদাহরণস্বরূপ, "আমি সম্প্রতি অ্যামাজন প্রাইমে সাবস্ক্রাইব করেছি" বিবৃতিতে অ্যামাজন প্রাইম নামক সত্তা এবং এটি একটি ব্র্যান্ড হিসাবে শ্রেণীবদ্ধ করা যেতে পারে।

Amazon Comprehend আপনাকে আপনার নথিতে এই ধরনের কাস্টম সত্তা সনাক্ত করতে সক্ষম করে। প্রতিটি সত্তার একটি আত্মবিশ্বাসের স্তরের স্কোর রয়েছে যা Amazon Comprehend প্রতিটি এন্টিটির প্রকারের জন্য প্রদান করে। নিম্নলিখিত চিত্রটি সত্তার স্বীকৃতির প্রক্রিয়াটি চিত্রিত করে।

অ্যামাজন কম্প্রেহেন্ডের সাথে নামকৃত সত্তার স্বীকৃতি

টেক্সট নথি থেকে সত্তা পেতে, আমরা কল comprehend.detect_entities() পদ্ধতি এবং ইনপুট পরামিতি হিসাবে ভাষা কোড এবং পাঠ্য কনফিগার করুন:

def get_entities(text):
    try:
        #detect entities
        entities = comprehend.detect_entities(LanguageCode="en", Text=text)  
        df = pd.DataFrame(entities["Entities"], columns = ['Text', 'Type'])
        display(HTML(df.to_html(index=False)))
    except Exception as e:
        print(e)

আমরা চালান get_entities() ব্যাঙ্ক নথিতে পদ্ধতি এবং ফলাফলে সত্তা তালিকা প্রাপ্ত।

Comprehend থেকে get_entities পদ্ধতির প্রতিক্রিয়া।

যদিও সত্তা নিষ্কাশন ব্যাঙ্কের নথিতে থাকা সমস্ত কিছুর জন্য ডিফল্ট সত্তার ধরনগুলি সনাক্ত করতে মোটামুটি ভাল কাজ করেছে, আমরা চাই যে নির্দিষ্ট সত্তা আমাদের ব্যবহারের ক্ষেত্রে স্বীকৃত হোক৷ আরও সুনির্দিষ্টভাবে, আমাদের ব্যাঙ্ক স্টেটমেন্টে গ্রাহকের সেভিংস এবং চেকিং অ্যাকাউন্ট নম্বর সনাক্ত করতে হবে। আমরা Amazon Comprehend কাস্টম সত্তা স্বীকৃতি ব্যবহার করে এই মূল ব্যবসার পদগুলি বের করতে পারি।

একটি Amazon Comprehend কাস্টম সত্তা শনাক্তকরণ মডেলকে প্রশিক্ষণ দিন

গ্রাহকের ব্যাঙ্ক স্টেটমেন্ট থেকে আমরা আগ্রহী এমন নির্দিষ্ট সত্তা সনাক্ত করতে, আমরা দুটি কাস্টম সত্তার সাথে একটি কাস্টম সত্তা শনাক্তকারীকে প্রশিক্ষণ দিই: SAVINGS_AC এবং CHECKING_AC.

তারপর আমরা একটি কাস্টম সত্তা স্বীকৃতি মডেল প্রশিক্ষণ. আমরা Amazon Comprehend-এ ডেটা প্রদানের দুটি উপায়ের মধ্যে একটি বেছে নিতে পারি: টীকা বা সত্তা তালিকা।

টীকা পদ্ধতিটি প্রায়শই চিত্র ফাইল, পিডিএফ, বা ওয়ার্ড নথিগুলির জন্য আরও পরিমার্জিত ফলাফলের দিকে নিয়ে যেতে পারে কারণ আপনি আপনার নথির সাথে টীকা হিসাবে আরও সঠিক প্রসঙ্গ জমা দিয়ে একটি মডেলকে প্রশিক্ষণ দেন। যাইহোক, টীকা পদ্ধতি সময়সাপেক্ষ এবং কাজ-নিবিড় হতে পারে। এই ব্লগ পোস্টের সরলতার জন্য, আমরা সত্তা তালিকা পদ্ধতি ব্যবহার করি, যা আপনি শুধুমাত্র সাধারণ পাঠ্য নথির জন্য ব্যবহার করতে পারেন। এই পদ্ধতিটি আমাদের একটি CSV ফাইল দেয় যাতে প্লেইন টেক্সট এবং এর সংশ্লিষ্ট সত্তার ধরন থাকা উচিত, যেমনটি পূর্ববর্তী উদাহরণে দেখানো হয়েছে। এই ফাইলের সত্তাগুলি আমাদের ব্যবসার প্রয়োজনের জন্য নির্দিষ্ট হতে চলেছে (সঞ্চয় এবং অ্যাকাউন্ট নম্বর পরীক্ষা করা)।

টীকা বা সত্তা তালিকা পদ্ধতি ব্যবহার করে বিভিন্ন ব্যবহারের ক্ষেত্রে প্রশিক্ষণের ডেটা কীভাবে প্রস্তুত করা যায় সে সম্পর্কে আরও বিশদ বিবরণের জন্য, দেখুন প্রশিক্ষণের তথ্য প্রস্তুত করা হচ্ছে.

নিম্নলিখিত স্ক্রিনশটটি আমাদের সত্তা তালিকার একটি উদাহরণ দেখায়।

সত্তা তালিকার একটি স্ন্যাপশট।

একটি Amazon Comprehend কাস্টম NER রিয়েল-টাইম এন্ডপয়েন্ট তৈরি করুন

এরপরে, আমরা যে মডেলটি প্রশিক্ষণ দিয়েছি তা ব্যবহার করে আমরা একটি কাস্টম সত্তা শনাক্তকারী রিয়েল-টাইম এন্ডপয়েন্ট তৈরি করি। আমরা ব্যবহার করি এন্ডপয়েন্ট তৈরি করুন API এর মাধ্যমে comprehend.create_endpoint() রিয়েল-টাইম এন্ডপয়েন্ট তৈরি করার পদ্ধতি:

#create comprehend endpoint
model_arn = entity_recognizer_arn
ep_name = 'idp-er-endpoint'

try:
    endpoint_response = comprehend.create_endpoint(
        EndpointName=ep_name,
        ModelArn=model_arn,
        DesiredInferenceUnits=1,    
        DataAccessRoleArn=role
    )
    ER_ENDPOINT_ARN=endpoint_response['EndpointArn']
    print(f'Endpoint created with ARN: {ER_ENDPOINT_ARN}')
    %store ER_ENDPOINT_ARN
except Exception as error:
    if error.response['Error']['Code'] == 'ResourceInUseException':
        print(f'An endpoint with the name "{ep_name}" already exists.')
        ER_ENDPOINT_ARN = f'arn:aws:comprehend:{region}:{account_id}:entity-recognizer-endpoint/{ep_name}'
        print(f'The classifier endpoint ARN is: "{ER_ENDPOINT_ARN}"')
        %store ER_ENDPOINT_ARN
    else:
        print(error)

আমরা একটি কাস্টম সত্তা শনাক্তকারীকে প্রশিক্ষণ দেওয়ার পরে, আমরা নথি থেকে কিছু সমৃদ্ধ তথ্য বের করার জন্য কাস্টম রিয়েল-টাইম এন্ডপয়েন্ট ব্যবহার করি এবং তারপর Amazon Comprehend দ্বারা স্বীকৃত কাস্টম সত্তার সাহায্যে এবং Amazon Textract থেকে বাউন্ডিং বক্স তথ্যের সাহায্যে নথি সংশোধন করি৷

সমৃদ্ধি পর্যায়

নথি সমৃদ্ধকরণ পর্যায়ে, আমরা ব্যক্তিগতভাবে শনাক্তযোগ্য তথ্য (PII) ডেটা, কাস্টম ব্যবসায়িক শব্দ নিষ্কাশন এবং আরও অনেক কিছু সংশোধন করে নথি সমৃদ্ধকরণ করতে পারি। আমাদের আগের নমুনা নথিতে (একটি ব্যাঙ্ক স্টেটমেন্ট) গ্রাহকদের সেভিংস এবং চেকিং অ্যাকাউন্ট নম্বর রয়েছে, যা আমরা সংশোধন করতে চাই। যেহেতু আমরা ইতিমধ্যেই আমাদের Amazon Comprehend কাস্টম NER মডেলের মাধ্যমে এই কাস্টম সত্তাগুলিকে জানি, তাই আমরা সহজেই Amazon Textract জ্যামিতি ডেটা টাইপ ব্যবহার করতে পারি যাতে এই PII সত্তাগুলি নথিতে যেখানেই দেখা যায় সেগুলিকে সংশোধন করতে। নিম্নলিখিত আর্কিটেকচারে, আমরা ব্যাঙ্ক স্টেটমেন্ট ডকুমেন্ট থেকে মূল ব্যবসায়িক শর্তাদি (সঞ্চয় এবং চেকিং অ্যাকাউন্ট) সংশোধন করি।

নথি সমৃদ্ধকরণ পর্ব।

আপনি নিম্নলিখিত উদাহরণে দেখতে পাচ্ছেন, চেকিং এবং সেভিংস অ্যাকাউন্ট নম্বরগুলি এখন ব্যাঙ্ক স্টেটমেন্টে লুকানো আছে।

সংশোধিত ব্যাঙ্ক স্টেটমেন্টের নমুনা।

প্রথাগত ওসিআর সমাধানগুলি এই নথিগুলির একাধিক সংস্করণ এবং বিন্যাস জুড়ে ডেটা কীভাবে সাজানো হয় তার উল্লেখযোগ্য বৈচিত্র্যের কারণে বেশিরভাগ অসংগঠিত এবং আধা-কাঠামোগত নথিগুলি থেকে সঠিকভাবে ডেটা বের করতে লড়াই করে। তারপরে আপনাকে কাস্টম প্রিপ্রসেসিং লজিক প্রয়োগ করতে হতে পারে বা এমনকি ম্যানুয়ালি এই নথিগুলি থেকে তথ্য বের করতে হবে। এই ক্ষেত্রে, IDP পাইপলাইন দুটি বৈশিষ্ট্য সমর্থন করে যা আপনি ব্যবহার করতে পারেন: Amazon Comprehend custom NER এবং Amazon Textract প্রশ্ন। এই উভয় পরিষেবাই নথির বিষয়বস্তু সম্পর্কে অন্তর্দৃষ্টি বের করতে NLP ব্যবহার করে।

অ্যামাজন টেক্সট্র্যাক্ট প্রশ্নের সাথে নিষ্কাশন

অ্যামাজন টেক্সট্র্যাক্টের সাথে একটি নথি প্রক্রিয়া করার সময়, আপনার কী তথ্য প্রয়োজন তা নির্দিষ্ট করতে আপনি আপনার বিশ্লেষণে নতুন প্রশ্ন বৈশিষ্ট্য যোগ করতে পারেন। এতে একটি NLP প্রশ্ন পাস করা জড়িত, যেমন "গ্রাহকের সামাজিক নিরাপত্তা নম্বর কী?" অ্যামাজন টেক্সট্র্যাক্টে। Amazon Textract সেই প্রশ্নের জন্য নথিতে তথ্য খুঁজে পায় এবং নথির বাকি তথ্য থেকে আলাদা একটি প্রতিক্রিয়া কাঠামোতে ফেরত দেয়। ক্যোয়ারী একা প্রক্রিয়া করা যেতে পারে, বা অন্য কোন সঙ্গে সমন্বয় FeatureType, যেমন Tables or Forms.

অ্যামাজন টেক্সট্র্যাক্ট ব্যবহার করে কোয়েরি ভিত্তিক নিষ্কাশন।

আমাজন টেক্সট্র্যাক্ট ক্যোয়ারীগুলির সাহায্যে, আপনি নথির কাঠামো, যেমন ফর্ম, টেবিল এবং চেকবক্সের মতো, বা নথিতে নেস্টেড বিভাগের মধ্যে রাখা তথ্য নির্বিশেষে উচ্চ নির্ভুলতার সাথে তথ্য বের করতে পারেন।

কোয়েরি বৈশিষ্ট্য প্রদর্শন করতে, আমরা একটি COVID-19 টিকাকরণ কার্ডের মতো নথি থেকে রোগীর নাম এবং শেষ নাম, ডোজ প্রস্তুতকারক এবং আরও অনেক কিছুর মতো মূল্যবান তথ্য সংগ্রহ করি।

একটি নমুনা টিকা কার্ড।

আমরা ব্যবহার করি textract.analyze_document() ফাংশন এবং নির্দিষ্ট করুন FeatureType as QUERIES সেইসাথে প্রাকৃতিক ভাষার প্রশ্ন আকারে প্রশ্ন যোগ করুন QueriesConfig.

নিচের কোডটি সরলীকরণের উদ্দেশ্যে ছোট করা হয়েছে। সম্পূর্ণ কোডের জন্য, GitHub পড়ুন কোডের উদাহরণ উন্নত analyze_document().

response = None
with open(image_filename, 'rb') as document:
    imageBytes = bytearray(document.read())

# Call Textract
response = textract.analyze_document(
    Document={'Bytes': imageBytes},
    FeatureTypes=["QUERIES"],
    QueriesConfig={
            "Queries": [{
                "Text": "What is the date for the 1st dose covid-19?",
                "Alias": "COVID_VACCINATION_FIRST_DOSE_DATE"
            },
# code trimmed down for simplification
#..
]
})

প্রশ্ন বৈশিষ্ট্য জন্য, textract.analyze_document() ফাংশন JSON-এ সমস্ত OCR শব্দ এবং লাইন, জ্যামিতি তথ্য এবং আত্মবিশ্বাসের স্কোর আউটপুট করে। যাইহোক, আমরা যে তথ্যের জন্য জিজ্ঞাসা করেছি তা প্রিন্ট করতে পারি।

Document API থেকে JSON প্রতিক্রিয়া পার্স করতে সাহায্য করার জন্য ব্যবহৃত একটি মোড়ক ফাংশন। এটি একটি উচ্চ-স্তরের বিমূর্ততা প্রদান করে এবং API আউটপুটকে পুনরাবৃত্তিযোগ্য করে তোলে এবং তথ্য বের করা সহজ করে তোলে। আরো তথ্যের জন্য, পড়ুন টেক্সট্র্যাক্ট রেসপন্স পার্সার এবং টেক্সট্র্যাক্টর GitHub repos. আমরা প্রতিক্রিয়া প্রক্রিয়া করার পরে, আমরা স্ক্রিনশটে দেখানো হিসাবে নিম্নলিখিত তথ্য পাই।

import trp.trp2 as t2
from tabulate import tabulate

d = t2.TDocumentSchema().load(response)
page = d.pages[0]

query_answers = d.get_query_answers(page=page)

print(tabulate(query_answers, tablefmt="github"))

প্রশ্ন নিষ্কাশন থেকে প্রতিক্রিয়া.

পর্যালোচনা এবং বৈধতা পর্যায়

এটি আমাদের IDP পাইপলাইনের চূড়ান্ত পর্যায়। এই পর্যায়ে, আমরা একটি নথির সম্পূর্ণতা পরীক্ষা করতে আমাদের ব্যবসার নিয়মগুলি ব্যবহার করতে পারি। উদাহরণস্বরূপ, একটি বীমা দাবির নথি থেকে, দাবি আইডিটি সঠিকভাবে এবং সফলভাবে বের করা হয়। আমরা AWS সার্ভারহীন প্রযুক্তি যেমন ব্যবহার করতে পারি এডাব্লুএস ল্যাম্বদা এই ব্যবসার নিয়মের আরও স্বয়ংক্রিয়তার জন্য। অধিকন্তু, ভবিষ্যদ্বাণীগুলি সঠিক কিনা তা নিশ্চিত করতে আমরা নথি পর্যালোচনার জন্য একটি মানব কর্মীকে অন্তর্ভুক্ত করতে পারি। Amazon A2I ML পূর্বাভাসের জন্য মানুষের পর্যালোচনার জন্য প্রয়োজনীয় বিল্ডিং ওয়ার্কফ্লোকে ত্বরান্বিত করে।

Amazon A2I-এর সাহায্যে, আপনি যখন কোনো মডেল উচ্চ আত্মবিশ্বাসের ভবিষ্যদ্বাণী করতে বা চলমান ভিত্তিতে তার ভবিষ্যদ্বাণীগুলি অডিট করতে অক্ষম হয় তখন আপনি মানব পর্যালোচকদের পদক্ষেপ নেওয়ার অনুমতি দিতে পারেন। IDP পাইপলাইনের লক্ষ্য হল আপনার সিদ্ধান্ত সিস্টেমে সঠিক তথ্য পেতে প্রয়োজনীয় মানব ইনপুটের পরিমাণ হ্রাস করা। IDP-এর মাধ্যমে, আপনি আপনার নথি প্রক্রিয়ার জন্য মানব ইনপুটের পরিমাণ এবং সেইসাথে নথি প্রক্রিয়াকরণের মোট খরচ কমাতে পারেন।

আপনার কাছে নথি থেকে সমস্ত সঠিক তথ্য বের করার পরে, আপনি Lambda ফাংশনগুলি ব্যবহার করে ব্যবসা-নির্দিষ্ট নিয়মগুলি যোগ করতে পারেন এবং অবশেষে ডাউনস্ট্রিম ডাটাবেস বা অ্যাপ্লিকেশনগুলির সাথে সমাধানটিকে একীভূত করতে পারেন।

মানুষের পর্যালোচনা এবং যাচাই পর্ব।

কিভাবে একটি Amazon A2I ওয়ার্কফ্লো তৈরি করবেন সে সম্পর্কে আরও তথ্যের জন্য, থেকে নির্দেশাবলী অনুসরণ করুন৷ মডিউল 4 এর জন্য প্রস্তুতি এর শেষে ধাপ 03-idp-document-enrichment.ipynb আমাদের মাঝে গিটহুব রেপো.

পরিষ্কার কর

আপনার AWS অ্যাকাউন্টে ভবিষ্যত চার্জ রোধ করতে, রিপোজিটরি সেটআপে আমরা যে সংস্থানগুলি সরবরাহ করেছি সেগুলি মুছে ফেলুন পরিচ্ছন্নতা বিভাগ আমাদের রেপোতে।

উপসংহার

এই দুই-অংশের পোস্টে, আমরা দেখেছি কিভাবে সামান্য বা কোন ML অভিজ্ঞতা ছাড়াই একটি এন্ড-টু-এন্ড IDP পাইপলাইন তৈরি করা যায়। আমরা পাইপলাইনের বিভিন্ন পর্যায় এবং শিল্প-নির্দিষ্ট ব্যবহারের ক্ষেত্রে ডিজাইন এবং নির্মাণের জন্য AWS AI পরিষেবা যেমন Amazon Textract, Amazon Comprehend, Amazon Comprehend Medical, এবং Amazon A2I-এর সাথে একটি হ্যান্ডস-অন সমাধান নিয়ে আলোচনা করেছি। মধ্যে প্রথম পোস্ট সিরিজের, আমরা দেখিয়েছি কিভাবে Amazon Textract এবং Amazon Comprehend ব্যবহার করতে হয় বিভিন্ন নথি থেকে তথ্য বের করতে। এই পোস্টে, আমরা আমাদের ডকুমেন্টগুলি থেকে কাস্টম সত্তা বের করতে একটি Amazon Comprehend কাস্টম সত্তা সনাক্তকারীকে কীভাবে প্রশিক্ষণ দিতে হয় সে সম্পর্কে গভীরভাবে ডুব দিয়েছি। আমরা অ্যামাজন টেক্সট্র্যাক্টের পাশাপাশি অ্যামাজন কম্প্রেহেন্ড থেকে সত্তা তালিকা ব্যবহার করে রিডাকশনের মতো নথি সমৃদ্ধকরণ কৌশলগুলিও সম্পাদন করেছি। অবশেষে, আমরা দেখেছি কিভাবে আপনি একটি ব্যক্তিগত কাজের দলকে অন্তর্ভুক্ত করে Amazon Textract-এর জন্য একটি Amazon A2I মানব পর্যালোচনা কর্মপ্রবাহ ব্যবহার করতে পারেন।

এই পোস্টে সম্পূর্ণ কোড নমুনা সম্পর্কে আরও তথ্যের জন্য, পড়ুন গিটহুব রেপো.

আমরা আপনাকে এর নিরাপত্তা বিভাগ পর্যালোচনা করার পরামর্শ দিচ্ছি অ্যামাজন টেক্সট্র্যাক, অ্যামাজন সমঝোতা, এবং আমাজন A2I ডকুমেন্টেশন এবং প্রদত্ত নির্দেশিকা অনুসরণ করুন। এছাড়াও, মূল্য নির্ধারণের পর্যালোচনা এবং বুঝতে কিছুক্ষণ সময় নিন অ্যামাজন টেক্সট্র্যাক, অ্যামাজন সমঝোতা, এবং আমাজন A2I.

লেখক সম্পর্কে

চিন রানে অ্যামাজন ওয়েব সার্ভিসেসের একজন এআই/এমএল বিশেষজ্ঞ সলিউশন আর্কিটেক্ট। তিনি ফলিত গণিত এবং মেশিন লার্নিং সম্পর্কে উত্সাহী। তিনি AWS গ্রাহকদের জন্য বুদ্ধিমান ডকুমেন্ট প্রসেসিং সমাধান ডিজাইন করার উপর ফোকাস করেন। কাজের বাইরে, তিনি সালসা এবং বাছাটা নাচ উপভোগ করেন।

সোনালী সাহু আমাজন ওয়েব সার্ভিসে ইন্টেলিজেন্ট ডকুমেন্ট প্রসেসিং এআই/এমএল সলিউশন আর্কিটেক্ট টিমের নেতৃত্ব দিচ্ছে। তিনি একজন উত্সাহী টেকনোফাইল এবং উদ্ভাবন ব্যবহার করে জটিল সমস্যা সমাধানের জন্য গ্রাহকদের সাথে কাজ করা উপভোগ করেন। তার ফোকাসের মূল ক্ষেত্রগুলি হল কৃত্রিম বুদ্ধিমত্তা এবং বুদ্ধিমান নথি প্রক্রিয়াকরণের জন্য মেশিন লার্নিং।

অঞ্জন বিশ্বাস একজন এআই/এমএল বিশেষজ্ঞ সিনিয়র সলিউশন আর্কিটেক্ট। অঞ্জন এন্টারপ্রাইজ গ্রাহকদের সাথে কাজ করে এবং AI/ML, ডেটা অ্যানালিটিক্স এবং বড় ডেটা সমাধানগুলি বিকাশ, স্থাপন এবং ব্যাখ্যা করার বিষয়ে উত্সাহী৷ অঞ্জনের গ্লোবাল সাপ্লাই চেইন, ম্যানুফ্যাকচারিং এবং খুচরা প্রতিষ্ঠানের সাথে কাজ করার 14 বছরেরও বেশি অভিজ্ঞতা রয়েছে এবং গ্রাহকদের AWS শুরু করতে এবং স্কেল করতে সক্রিয়ভাবে সাহায্য করছে।

সুপ্রকাশ দত্ত অ্যামাজন ওয়েব সার্ভিসের একজন সলিউশন আর্কিটেক্ট। তিনি ডিজিটাল রূপান্তর কৌশল, অ্যাপ্লিকেশন আধুনিকীকরণ এবং স্থানান্তর, ডেটা বিশ্লেষণ এবং মেশিন লার্নিং এর উপর ফোকাস করেন। তিনি AWS-এ AI/ML সম্প্রদায়ের অংশ এবং বুদ্ধিমান নথি প্রক্রিয়াকরণ সমাধানগুলি ডিজাইন করেন।