Introducing One-step Classification And Entity Recognition With Amazon Comprehend For Intelligent Document Processing

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

“বুদ্ধিমান ডকুমেন্ট প্রসেসিং (IDP) সমাধানগুলি উচ্চ-ভলিউম, পুনরাবৃত্তিমূলক নথি প্রক্রিয়াকরণ কাজগুলির স্বয়ংক্রিয়তা এবং বিশ্লেষণ এবং অন্তর্দৃষ্টির জন্য ডেটা বের করে। IDP স্বয়ংক্রিয়তা এবং পরিবর্ধনকে সমর্থন করার জন্য কাঠামোগত এবং অসংগঠিত বিষয়বস্তু, বিশেষত নথি থেকে ডেটা বের করতে প্রাকৃতিক ভাষা প্রযুক্তি এবং কম্পিউটার দৃষ্টি ব্যবহার করে।" - গার্টনার

Amazon এর ইন্টেলিজেন্ট ডকুমেন্ট প্রসেসিং (IDP) এর লক্ষ্য হল মেশিন লার্নিং (ML) ব্যবহার করে প্রচুর পরিমাণে নথির প্রক্রিয়াকরণ স্বয়ংক্রিয়ভাবে করা যাতে উৎপাদনশীলতা বৃদ্ধি করা যায়, মানুষের শ্রমের সাথে যুক্ত খরচ কমানো যায় এবং ব্যবহারকারীর একটি বিরামহীন অভিজ্ঞতা প্রদান করা যায়। গ্রাহকরা নথিগুলি সনাক্ত করতে এবং বিভিন্ন ব্যবহারের ক্ষেত্রে তাদের থেকে গুরুত্বপূর্ণ তথ্য বের করতে উল্লেখযোগ্য পরিমাণ সময় এবং প্রচেষ্টা ব্যয় করে। আজ, অ্যামাজন সমঝোতা প্লেইন টেক্সট ডকুমেন্টের জন্য শ্রেণীবিভাগ সমর্থন করে, যার জন্য আপনাকে আধা-কাঠামোগত বিন্যাসে (স্ক্যান করা, ডিজিটাল পিডিএফ বা ছবি যেমন PNG, JPG, TIFF) নথিগুলিকে প্রিপ্রসেস করতে হবে এবং তারপরে আপনার অনুমান চালানোর জন্য প্লেইন টেক্সট আউটপুট ব্যবহার করতে হবে। কাস্টম শ্রেণীবিভাগ মডেল. একইভাবে, জন্য কাস্টম সত্তা স্বীকৃতি রিয়েল টাইমে, পিডিএফ এবং ইমেজ ফাইলের মতো সেমি-স্ট্রাকচার্ড ডকুমেন্টের জন্য টেক্সট এক্সট্রাক্ট করার জন্য প্রি-প্রসেসিং প্রয়োজন। এই দ্বি-পদক্ষেপ প্রক্রিয়া ডকুমেন্ট প্রসেসিং ওয়ার্কফ্লোতে জটিলতার পরিচয় দেয়।

গত বছর, আমরা নেটিভ ডকুমেন্ট ফরম্যাটের জন্য সমর্থন ঘোষণা করেছে কাস্টম নামের সত্তা স্বীকৃতি (NER) সহ অ্যাসিঙ্ক্রোনাস কাজ. আজ, আমরা Amazon Comprehend ব্যবহার করে নেটিভ ফরম্যাটে (PDF, TIFF, JPG, PNG) আধা-গঠিত নথিগুলির জন্য NER-এর জন্য এক-পদক্ষেপের নথির শ্রেণীবিভাগ এবং রিয়েল-টাইম বিশ্লেষণ ঘোষণা করতে পেরে আনন্দিত। বিশেষভাবে, আমরা নিম্নলিখিত ক্ষমতা ঘোষণা করছি:

কাস্টম শ্রেণিবিন্যাস রিয়েল-টাইম বিশ্লেষণ এবং অ্যাসিঙ্ক্রোনাস কাজের জন্য নেটিভ ফরম্যাটে নথিগুলির জন্য সমর্থন
কাস্টম সত্তা স্বীকৃতি রিয়েল-টাইম বিশ্লেষণের জন্য নেটিভ ফরম্যাটে নথিগুলির জন্য সমর্থন

এই নতুন রিলিজের সাথে, Amazon Comprehend কাস্টম ক্লাসিফিকেশন এবং কাস্টম সত্তা স্বীকৃতি (NER) PDF, TIFF, PNG, এবং JPEG-এর মতো ফর্ম্যাটে নথিগুলিকে সরাসরি সমর্থন করে, তাদের থেকে UTF8 এনকোড করা প্লেইন টেক্সট বের করার প্রয়োজন ছাড়াই। নিম্নলিখিত চিত্রটি পূর্ববর্তী প্রক্রিয়াটিকে নতুন পদ্ধতি এবং সমর্থনের সাথে তুলনা করে।

এই বৈশিষ্ট্যটি ডকুমেন্ট থেকে প্লেইন টেক্সট বের করার জন্য প্রয়োজনীয় যেকোন প্রিপ্রসেসিং ধাপগুলিকে বাদ দিয়ে ডকুমেন্ট প্রসেসিং ওয়ার্কফ্লোকে সহজ করে এবং সেগুলি প্রক্রিয়া করার জন্য প্রয়োজনীয় সামগ্রিক সময় কমিয়ে দেয়।

এই পোস্টে, আমরা একটি উচ্চ-স্তরের IDP ওয়ার্কফ্লো সলিউশন ডিজাইন, কিছু শিল্প ব্যবহারের ক্ষেত্রে, Amazon Comprehend-এর নতুন বৈশিষ্ট্য এবং কীভাবে সেগুলি ব্যবহার করতে হয় সেগুলি নিয়ে আলোচনা করেছি।

সমাধান ওভারভিউ

আসুন বীমা শিল্পে একটি সাধারণ ব্যবহারের ক্ষেত্রে অন্বেষণ করে শুরু করি। একটি সাধারণ বীমা দাবি প্রক্রিয়ায় একটি দাবি প্যাকেজ জড়িত থাকে যাতে একাধিক নথি থাকতে পারে। যখন একটি বীমা দাবি দায়ের করা হয়, এতে বীমা দাবির ফর্ম, ঘটনার প্রতিবেদন, পরিচয় নথি এবং তৃতীয় পক্ষের দাবির নথির মতো নথি অন্তর্ভুক্ত থাকে। একটি বীমা দাবি প্রক্রিয়াকরণ এবং বিচার করার জন্য নথির পরিমাণ শত শত এমনকি হাজার হাজার পৃষ্ঠা পর্যন্ত চলতে পারে দাবির ধরন এবং জড়িত ব্যবসায়িক প্রক্রিয়াগুলির উপর নির্ভর করে। বীমা দাবি প্রতিনিধি এবং বিচারকারীরা সাধারণত শত শত বা এমনকি হাজার হাজার দাবি ফাইলিং থেকে ম্যানুয়ালি সিফটিং, বাছাই এবং তথ্য বের করতে শত শত ঘন্টা ব্যয় করে।

বীমা শিল্প ব্যবহারের ক্ষেত্রে অনুরূপ, অর্থপ্রদান শিল্পও আন্তঃসীমান্ত অর্থপ্রদান চুক্তি, চালান এবং ফরেক্স স্টেটমেন্টের জন্য প্রচুর পরিমাণে আধা-কাঠামোগত নথি প্রক্রিয়া করে। ব্যবসায়িক ব্যবহারকারীরা তাদের বেশিরভাগ সময় ম্যানুয়াল ক্রিয়াকলাপে ব্যয় করে যেমন সনাক্তকরণ, সংগঠিত করা, যাচাইকরণ, নিষ্কাশন করা এবং প্রয়োজনীয় তথ্য ডাউনস্ট্রিম অ্যাপ্লিকেশনগুলিতে প্রেরণ করা। এই ম্যানুয়াল প্রক্রিয়াটি ক্লান্তিকর, পুনরাবৃত্তিমূলক, ত্রুটি প্রবণ, ব্যয়বহুল এবং স্কেল করা কঠিন। অন্যান্য শিল্প যা একই ধরনের চ্যালেঞ্জের মুখোমুখি হয় তার মধ্যে রয়েছে বন্ধকী এবং ঋণ, স্বাস্থ্যসেবা এবং জীবন বিজ্ঞান, আইনি, অ্যাকাউন্টিং এবং ট্যাক্স ব্যবস্থাপনা। উচ্চ স্তরের নির্ভুলতা এবং নামমাত্র ম্যানুয়াল প্রচেষ্টার সাথে সময়মত এত বড় পরিমাণের নথি প্রক্রিয়া করা ব্যবসাগুলির জন্য অত্যন্ত গুরুত্বপূর্ণ।

Amazon Comprehend একটি স্কেলযোগ্য এবং সাশ্রয়ী উপায়ে উচ্চ নির্ভুলতার সাথে নথির বৃহৎ ভলিউম থেকে নথির শ্রেণীবিভাগ এবং তথ্য নিষ্কাশন স্বয়ংক্রিয় করার মূল ক্ষমতা প্রদান করে। নিম্নলিখিত চিত্রটি Amazon Comprehend-এর সাথে একটি IDP লজিক্যাল ওয়ার্কফ্লো দেখায়। কর্মপ্রবাহের মূল অংশে রয়েছে ডকুমেন্ট শ্রেণীবিভাগ এবং আমাজন কম্প্রেহেন্ড কাস্টম মডেলগুলির সাথে NER ব্যবহার করে তথ্য নিষ্কাশন। নথি এবং ব্যবসায়িক প্রক্রিয়াগুলি বিকশিত হওয়ার সাথে সাথে উচ্চ নির্ভুলতা প্রদানের জন্য কাস্টম মডেলগুলিকে কীভাবে ক্রমাগত উন্নত করা যেতে পারে তাও চিত্রটি দেখায়।

কাস্টম নথি শ্রেণীবিভাগ

Amazon Comprehend কাস্টম শ্রেণীবিভাগের সাহায্যে, আপনি আপনার নথিগুলিকে পূর্বনির্ধারিত বিভাগগুলিতে (ক্লাস) সংগঠিত করতে পারেন। একটি উচ্চ স্তরে, একটি কাস্টম ডকুমেন্ট ক্লাসিফায়ার সেট আপ করার এবং নথি শ্রেণীবিভাগ সম্পাদন করার জন্য নিম্নলিখিত পদক্ষেপগুলি রয়েছে:

একটি কাস্টম ডকুমেন্ট ক্লাসিফায়ার প্রশিক্ষণের জন্য প্রশিক্ষণ ডেটা প্রস্তুত করুন।
প্রশিক্ষণ ডেটা সহ একটি গ্রাহক নথি শ্রেণিবদ্ধকারীকে প্রশিক্ষণ দিন।
মডেল প্রশিক্ষিত হওয়ার পরে, ঐচ্ছিকভাবে একটি রিয়েল-টাইম এন্ডপয়েন্ট স্থাপন করুন।
একটি অ্যাসিঙ্ক্রোনাস কাজের সাথে অথবা শেষ পয়েন্ট ব্যবহার করে রিয়েল টাইমে নথির শ্রেণিবিন্যাস সম্পাদন করুন।

ধাপ 1 এবং 2 সাধারণত একটি IDP প্রকল্পের শুরুতে ব্যবসায়িক প্রক্রিয়ার সাথে প্রাসঙ্গিক নথি শ্রেণী চিহ্নিত করার পরে করা হয়। একটি কাস্টম ক্লাসিফায়ার মডেলকে পর্যায়ক্রমে সঠিকতা উন্নত করতে এবং নতুন নথি ক্লাস প্রবর্তনের জন্য পুনরায় প্রশিক্ষণ দেওয়া যেতে পারে। আপনি হয় একটি কাস্টম শ্রেণীবিভাগ মডেল প্রশিক্ষণ দিতে পারেন মাল্টি-ক্লাস মোড or মাল্টি-লেবেল মোড. প্রতিটির জন্য দুটি উপায়ে প্রশিক্ষণ দেওয়া যেতে পারে: একটি CSV ফাইল ব্যবহার করে, অথবা একটি অগমেন্টেড ম্যানিফেস্ট ফাইল ব্যবহার করে৷ নির্দেশ করে প্রশিক্ষণ তথ্য প্রস্তুত করা হচ্ছে একটি কাস্টম শ্রেণীবিভাগ মডেল প্রশিক্ষণের আরো বিস্তারিত জানার জন্য. একটি কাস্টম ক্লাসিফায়ার মডেল প্রশিক্ষিত হওয়ার পরে, একটি নথি ব্যবহার করে শ্রেণীবদ্ধ করা যেতে পারে রিয়েল-টাইম বিশ্লেষণ বা একটি অ্যাসিঙ্ক্রোনাস কাজ. রিয়েল-টাইম বিশ্লেষণ একটি প্রয়োজন শেষ বিন্দু স্থাপন করা হবে প্রশিক্ষিত মডেল সহ এবং ব্যবহারের ক্ষেত্রে নির্ভর করে ছোট নথিগুলির জন্য সবচেয়ে উপযুক্ত। বিপুল সংখ্যক নথির জন্য, একটি অ্যাসিঙ্ক্রোনাস শ্রেণীবিভাগের কাজ সবচেয়ে উপযুক্ত।

একটি কাস্টম নথি শ্রেণীবিভাগ মডেল প্রশিক্ষণ

নতুন বৈশিষ্ট্য প্রদর্শনের জন্য, আমরা মাল্টি-লেবেল মোডে একটি কাস্টম শ্রেণীবিভাগ মডেল প্রশিক্ষিত করেছি, যা বীমা নথিকে সাতটি ভিন্ন শ্রেণীর একটিতে শ্রেণীবদ্ধ করতে পারে। ক্লাস হয় INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARY, এবং CMS1500. আমরা নমুনা নথিগুলিকে নেটিভ PDF, PNG, এবং JPEG ফর্ম্যাটে শ্রেণীবদ্ধ করতে চাই, একটিতে সংরক্ষিত আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) বালতি, শ্রেণীবিভাগ মডেল ব্যবহার করে। একটি অ্যাসিঙ্ক্রোনাস শ্রেণীবিভাগের কাজ শুরু করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

Amazon Comprehend কনসোলে, নির্বাচন করুন বিশ্লেষণ কাজ নেভিগেশন ফলকে।
বেছে নিন চাকরি তৈরি করুন.
জন্য নাম, আপনার শ্রেণীবিভাগের কাজের জন্য একটি নাম লিখুন।
জন্য বিশ্লেষণের ধরণপছন্দ করা কাস্টম শ্রেণীবিভাগ.
জন্য ক্লাসিফায়ার মডেল, উপযুক্ত প্রশিক্ষিত শ্রেণীবিভাগ মডেল নির্বাচন করুন.
জন্য সংস্করণ, উপযুক্ত মডেল সংস্করণ নির্বাচন করুন.

মধ্যে তথ্য অন্তর্ভুক্তী বিভাগে, আমরা সেই অবস্থান প্রদান করি যেখানে আমাদের নথি সংরক্ষণ করা হয়।

জন্য ছক পূরণ করানির্বাচন ফাইল প্রতি একটি নথি.
জন্য নথি পড়ার মোডপছন্দ করা ডকুমেন্ট রিড অ্যাকশন জোর করে.
জন্য ডকুমেন্ট রিড অ্যাকশননির্বাচন টেক্সট্র্যাক্ট ডকুমেন্ট টেক্সট সনাক্ত করুন.

এটি অ্যামাজন কম্প্রেহেন্ডকে ব্যবহার করতে সক্ষম করে অ্যামাজন টেক্সট্র্যাক DetectDocumentText শ্রেণীবিভাগ চালানোর আগে নথি পড়ার জন্য API। দ্য DetectDocumentText API নথি থেকে পাঠ্যের লাইন এবং শব্দ বের করতে সহায়ক। আপনিও বেছে নিতে পারেন টেক্সট্রাক্ট বিশ্লেষণ নথি উন্নত ডকুমেন্ট রিড অ্যাকশন, যে ক্ষেত্রে Amazon Comprehend Amazon Textract ব্যবহার করে ডকুমেন্ট বিশ্লেষণ করুন নথি পড়ার জন্য API। সঙ্গে AnalyzeDocument API, আপনি নিষ্কাশন চয়ন করতে পারেন টেবিল, ফরম, অথবা উভয়. দ্য নথি পড়ার মোড অপশনটি অ্যামাজন কম্প্রিহেন্ডকে পর্দার পিছনের নথি থেকে পাঠ্য বের করতে সক্ষম করে, যা নথি থেকে পাঠ্য নিষ্কাশনের অতিরিক্ত ধাপ কমাতে সাহায্য করে, যা আমাদের নথি প্রক্রিয়াকরণ কর্মপ্রবাহে প্রয়োজনীয়।

Amazon Comprehend কাস্টম ক্লাসিফায়ার দ্বারা জেনারেট করা কাঁচা JSON প্রতিক্রিয়াগুলিও প্রক্রিয়া করতে পারে৷ DetectDocumentText এবং AnalyzeDocument এপিআই, কোনো পরিবর্তন বা প্রিপ্রসেসিং ছাড়াই। এটি বিদ্যমান ওয়ার্কফ্লোগুলির জন্য দরকারী যেখানে Amazon Textract ইতিমধ্যে নথি থেকে পাঠ্য বের করার সাথে জড়িত। এই ক্ষেত্রে, Amazon Textract থেকে JSON আউটপুট সরাসরি Amazon Comprehend নথির শ্রেণীবিভাগ API-এ খাওয়ানো যেতে পারে।

মধ্যে আউটপুট ডেটা বিভাগ, জন্য S3 অবস্থান, একটি Amazon S3 অবস্থান নির্দিষ্ট করুন যেখানে আপনি অনুমানের ফলাফল লিখতে অ্যাসিঙ্ক্রোনাস কাজ চান৷
ডিফল্ট হিসাবে অবশিষ্ট বিকল্পগুলি ছেড়ে দিন।
বেছে নিন চাকরি তৈরি করুন কাজ শুরু করতে

আপনি কাজের অবস্থা দেখতে পারেন বিশ্লেষণ কাজ পাতা.

কাজটি সম্পূর্ণ হলে, আমরা বিশ্লেষণ কাজের আউটপুট দেখতে পারি, যা চাকরির কনফিগারেশনের সময় দেওয়া Amazon S3 অবস্থানে সংরক্ষণ করা হয়। আমাদের একক-পৃষ্ঠা পিডিএফ নমুনা CMS1500 নথির জন্য শ্রেণিবিন্যাস আউটপুট নিম্নরূপ। আউটপুট হল JSON লাইন ফরম্যাটে একটি ফাইল, যা পঠনযোগ্যতা উন্নত করতে ফরম্যাট করা হয়েছে।

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

পূর্ববর্তী নমুনাটি একটি একক পৃষ্ঠার PDF নথি; যাইহোক, কাস্টম শ্রেণীবিভাগ মাল্টি-পেজ পিডিএফ ডকুমেন্টও পরিচালনা করতে পারে। বহু-পৃষ্ঠার নথির ক্ষেত্রে, আউটপুটে একাধিক JSON লাইন থাকে, যেখানে প্রতিটি লাইন একটি নথির প্রতিটি পৃষ্ঠার শ্রেণিবিন্যাসের ফলাফল। নিম্নলিখিত একটি নমুনা বহু-পৃষ্ঠা শ্রেণীবিভাগ আউটপুট:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

কাস্টম সত্তা স্বীকৃতি

একটি Amazon Comprehend কাস্টম সত্তা শনাক্তকারীর সাহায্যে, আপনি নথি বিশ্লেষণ করতে পারেন এবং পণ্য কোড বা ব্যবসা-নির্দিষ্ট সত্তার মতো সত্তাগুলি বের করতে পারেন যা আপনার নির্দিষ্ট প্রয়োজনের সাথে খাপ খায়। একটি উচ্চ স্তরে, একটি কাস্টম সত্তা শনাক্তকারী সেট আপ করার এবং সত্তা সনাক্তকরণ সম্পাদন করার জন্য নিম্নলিখিত পদক্ষেপগুলি রয়েছে:

একটি কাস্টম সত্তা শনাক্তকারী প্রশিক্ষণের জন্য প্রশিক্ষণ ডেটা প্রস্তুত করুন৷
প্রশিক্ষণ ডেটা সহ একটি কাস্টম সত্তা শনাক্তকারীকে প্রশিক্ষণ দিন।
মডেল প্রশিক্ষিত হওয়ার পরে, ঐচ্ছিকভাবে একটি রিয়েল-টাইম এন্ডপয়েন্ট স্থাপন করুন।
একটি অ্যাসিঙ্ক্রোনাস কাজের সাথে বা রিয়েল টাইমে এন্ডপয়েন্ট ব্যবহার করে সত্তা সনাক্তকরণ সম্পাদন করুন।

একটি কাস্টম সত্তা শনাক্তকারী মডেলকে পর্যায়ক্রমে সঠিকতা উন্নত করতে এবং নতুন সত্তার ধরন প্রবর্তনের জন্য পুনরায় প্রশিক্ষণ দেওয়া যেতে পারে। আপনি উভয়ের সাথে একটি কাস্টম সত্তা শনাক্তকারী মডেলকে প্রশিক্ষণ দিতে পারেন সত্তা তালিকা or টীকা. উভয় ক্ষেত্রেই, Amazon Comprehend নথির ধরন এবং প্রেক্ষাপট সম্পর্কে শিখে যেখানে সত্তা একটি সত্তা শনাক্তকারী মডেল তৈরি করতে হয় যা নতুন সত্তা সনাক্ত করতে সাধারণীকরণ করতে পারে। নির্দেশ করে প্রশিক্ষণের তথ্য প্রস্তুত করা হচ্ছে কাস্টম সত্তা শনাক্তকারীর জন্য প্রশিক্ষণ ডেটা প্রস্তুত করার বিষয়ে আরও জানতে।

একটি কাস্টম সত্তা শনাক্তকারী মডেল প্রশিক্ষিত হওয়ার পরে, সত্তা সনাক্তকরণ হয় ব্যবহার করে করা যেতে পারে রিয়েল-টাইম বিশ্লেষণ বা একটি অ্যাসিঙ্ক্রোনাস কাজ. রিয়েল-টাইম বিশ্লেষণ একটি প্রয়োজন শেষ বিন্দু স্থাপন করা হবে প্রশিক্ষিত মডেল সহ এবং ব্যবহারের ক্ষেত্রে নির্ভর করে ছোট নথিগুলির জন্য সবচেয়ে উপযুক্ত। বিপুল সংখ্যক নথির জন্য, একটি অ্যাসিঙ্ক্রোনাস শ্রেণীবিভাগের কাজ সবচেয়ে উপযুক্ত।

একটি কাস্টম সত্তা স্বীকৃতি মডেল প্রশিক্ষণ

রিয়েল টাইমে সত্তা সনাক্তকরণ প্রদর্শন করতে, আমরা কাস্টম টীকা ব্যবহার করে বীমা নথি এবং অগমেন্টেড ম্যানিফেস্ট ফাইল সহ একটি কাস্টম সত্তা শনাক্তকারী মডেলকে প্রশিক্ষণ দিয়েছি এবং প্রশিক্ষিত মডেল ব্যবহার করে শেষ পয়েন্ট স্থাপন করেছি। সত্তার ধরনগুলো হল Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Action, এবং Sender. আমরা শনাক্তকারী মডেল ব্যবহার করে একটি S3 বালতিতে সংরক্ষিত নেটিভ PDF, PNG, এবং JPEG ফর্ম্যাটে নমুনা নথি থেকে সত্তা সনাক্ত করতে চাই।

মনে রাখবেন যে আপনি একটি কাস্টম সত্তা স্বীকৃতি মডেল ব্যবহার করতে পারেন যা PDF, TIFF, চিত্র, শব্দ এবং প্লেইন টেক্সট ডকুমেন্ট থেকে কাস্টম সত্তা বের করতে PDF নথির সাথে প্রশিক্ষিত। যদি আপনার মডেল পাঠ্য নথি এবং একটি সত্তা তালিকা ব্যবহার করে প্রশিক্ষিত হয়, তাহলে আপনি সত্তাগুলিকে বের করার জন্য শুধুমাত্র সাধারণ পাঠ্য নথি ব্যবহার করতে পারেন৷

আমাদের সনাক্তকারী মডেল ব্যবহার করে যেকোনো নেটিভ PDF, PNG, এবং JPEG ফর্ম্যাটে একটি নমুনা নথি থেকে সত্তা সনাক্ত করতে হবে। একটি সিঙ্ক্রোনাস সত্তা সনাক্তকরণ কাজ শুরু করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

Amazon Comprehend কনসোলে, নির্বাচন করুন রিয়েল-টাইম বিশ্লেষণ নেভিগেশন ফলকে।
অধীনে বিশ্লেষণের ধরণ, নির্বাচন করুন প্রথা.
জন্য কাস্টম সত্তা স্বীকৃতি, কাস্টম মডেল টাইপ নির্বাচন করুন.
জন্য শেষপ্রান্ত, আপনার সত্তা শনাক্তকারী মডেলের জন্য আপনি যে রিয়েল-টাইম এন্ডপয়েন্ট তৈরি করেছেন তা বেছে নিন।
নির্বাচন করা ফাইল আপলোড করুন এবং নির্বাচন করুন ফাইল পছন্দ কর অনুমানের জন্য পিডিএফ বা ইমেজ ফাইল আপলোড করতে।
বিস্তৃত করা উন্নত নথি ইনপুট বিভাগ এবং জন্য নথি পড়ার মোডনির্বাচন পরিষেবা ডিফল্ট.
জন্য ডকুমেন্ট রিড অ্যাকশননির্বাচন টেক্সট্র্যাক্ট ডকুমেন্ট টেক্সট সনাক্ত করুন.
বেছে নিন বিশ্লেষণ করা বাস্তব সময়ে নথি বিশ্লেষণ করতে.

স্বীকৃত সত্ত্বা তালিকাভুক্ত করা হয় অন্তর্দৃষ্টিগুলির অধ্যায়. প্রতিটি সত্তার মধ্যে সত্তা মান (টেক্সট), প্রশিক্ষণের সময় আপনার দ্বারা সংজ্ঞায়িত সত্তার ধরন এবং সংশ্লিষ্ট আত্মবিশ্বাসের স্কোর থাকে।

আরও বিশদ বিবরণের জন্য এবং একটি কাস্টম সত্তা শনাক্তকারী মডেলকে কীভাবে প্রশিক্ষণ দেওয়া যায় এবং অ্যাসিঙ্ক্রোনাস বিশ্লেষণের কাজগুলি ব্যবহার করে অ্যাসিঙ্ক্রোনাস ইনফারেন্স সম্পাদন করতে এটি ব্যবহার করার জন্য একটি সম্পূর্ণ ওয়াকথ্রু দেখুন, দেখুন Amazon Comprehend-এর সাহায্যে নথিগুলি থেকে তাদের নেটিভ ফরম্যাটে কাস্টম সত্তা বের করুন.

উপসংহার

এই পোস্টটি দেখিয়েছে কিভাবে আপনি আধা-কাঠামোগত নথিগুলিকে তাদের স্থানীয় বিন্যাসে শ্রেণীবদ্ধ এবং শ্রেণীবদ্ধ করতে পারেন এবং Amazon Comprehend ব্যবহার করে তাদের থেকে ব্যবসা-নির্দিষ্ট সত্তা সনাক্ত করতে পারেন। আপনি কম লেটেন্সি ব্যবহারের ক্ষেত্রে রিয়েল-টাইম API ব্যবহার করতে পারেন, বা বাল্ক ডকুমেন্ট প্রসেসিংয়ের জন্য অ্যাসিঙ্ক্রোনাস অ্যানালাইসিস কাজগুলি ব্যবহার করতে পারেন।

পরবর্তী পদক্ষেপ হিসাবে, আমরা আপনাকে Amazon Comprehend পরিদর্শন করতে উত্সাহিত করি GitHub সংগ্রহস্থল এই নতুন বৈশিষ্ট্যগুলি চেষ্টা করার জন্য সম্পূর্ণ কোড নমুনার জন্য। এছাড়াও আপনি পরিদর্শন করতে পারেন অ্যামাজন কম্প্রিহেন্ড ডেভেলপার গাইড এবং আমাজন বিকাশকারী সংস্থানগুলিকে বোঝা ভিডিও, টিউটোরিয়াল, ব্লগ এবং আরও অনেক কিছুর জন্য।

লেখক সম্পর্কে

রিক তালুকদার আমাজন কম্প্রেহেন্ড সার্ভিস টিমের একজন সিনিয়র আর্কিটেক্ট। তিনি এডব্লিউএস গ্রাহকদের সাথে কাজ করেন যাতে তারা বড় আকারে মেশিন লার্নিং গ্রহণ করে। কাজের বাইরে, তিনি পড়া এবং ফটোগ্রাফি উপভোগ করেন।

অঞ্জন বিশ্বাস এআই/এমএল এবং ডেটা অ্যানালিটিক্সের উপর ফোকাস সহ একজন সিনিয়র এআই সার্ভিসেস সলিউশন আর্কিটেক্ট। অঞ্জন বিশ্বব্যাপী AI পরিষেবা দলের অংশ এবং গ্রাহকদের AI এবং ML-এর সাথে ব্যবসায়িক সমস্যার সমাধান বুঝতে এবং তাদের সমাধান করতে সাহায্য করার জন্য তাদের সাথে কাজ করে। অঞ্জনের গ্লোবাল সাপ্লাই চেইন, ম্যানুফ্যাকচারিং এবং খুচরা সংস্থাগুলির সাথে কাজ করার 14 বছরেরও বেশি অভিজ্ঞতা রয়েছে এবং গ্রাহকদের AWS AI পরিষেবাগুলি শুরু করতে এবং স্কেল করতে সক্রিয়ভাবে সাহায্য করছে৷

গডউইন সহায়রাজ ভিনসেন্ট AWS-এর একজন এন্টারপ্রাইজ সলিউশন আর্কিটেক্ট যিনি মেশিন লার্নিং সম্পর্কে উত্সাহী এবং গ্রাহকদের তাদের AWS কাজের চাপ এবং স্থাপত্য ডিজাইন, স্থাপন এবং পরিচালনা করার জন্য নির্দেশিকা প্রদান করেন। অবসর সময়ে, তিনি তার বন্ধুদের সাথে ক্রিকেট এবং তার তিন সন্তানের সাথে টেনিস খেলতে পছন্দ করেন।

সময় স্ট্যাম্প: ডিসেম্বর 2, 2022ডিসেম্বর 2, 2022

থেকে আরো এডাব্লুএস মেশিন লার্নিং

অ্যামাজন সেজমেকার ফিচার স্টোর এখন ক্রস-অ্যাকাউন্ট শেয়ারিং, আবিষ্কার এবং অ্যাক্সেস সমর্থন করে আমাজন ওয়েব সার্ভিসেস

উত্স ক্লাস্টার:

এডাব্লুএস মেশিন লার্নিং

উত্স নোড: 1947390

সময় স্ট্যাম্প: ফেব্রুয়ারী 13, 2024

একটি বড় গেমিং কোম্পানির জন্য বিষাক্ত বক্তৃতাকে শ্রেণীবদ্ধ করতে AWS একটি বৃহৎ ভাষা মডেল (LLM) এর উপর সূক্ষ্ম টিউনিং করে | আমাজন ওয়েব সার্ভিসেস

এডাব্লুএস মেশিন লার্নিং

উত্স নোড: 1822975

সময় স্ট্যাম্প: এপ্রিল 7, 2023

বুদ্ধিমান নথি প্রক্রিয়াকরণের জন্য Amazon Comprehend-এর সাথে এক-ধাপে শ্রেণীবিভাগ এবং সত্তার স্বীকৃতির প্রবর্তন

প্লেটো দ্বারা প্রকাশিত

সমাধান ওভারভিউ

কাস্টম নথি শ্রেণীবিভাগ

একটি কাস্টম নথি শ্রেণীবিভাগ মডেল প্রশিক্ষণ

কাস্টম সত্তা স্বীকৃতি

একটি কাস্টম সত্তা স্বীকৃতি মডেল প্রশিক্ষণ

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

AWS অ্যাক্সিলারেটর জুড়ে স্টার্টআপগুলি মিশন-সমালোচনামূলক গ্রাহক চ্যালেঞ্জগুলি সমাধান করতে AI এবং ML ব্যবহার করে

Amazon Recognition কাস্টম লেবেল দিয়ে কৃষি ফলন পরিমাপ করতে কম্পিউটার দৃষ্টি ব্যবহার করুন

AutoGluon-TimeSeries সহ সহজ এবং সঠিক পূর্বাভাস

Amazon SageMaker ব্যবহার করে একটি ইমেল স্প্যাম ডিটেক্টর তৈরি করুন | আমাজন ওয়েব সার্ভিসেস

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব