অনেক শিল্পে, সময়মত নথি থেকে কাস্টম সত্তাগুলি বের করা গুরুত্বপূর্ণ। এই চ্যালেঞ্জিং হতে পারে. বীমা দাবি, উদাহরণস্বরূপ, প্রায়শই কয়েক ডজন গুরুত্বপূর্ণ বৈশিষ্ট্য (যেমন তারিখ, নাম, অবস্থান এবং প্রতিবেদন) দীর্ঘ এবং ঘন নথিতে ছিটিয়ে থাকে। ম্যানুয়ালি স্ক্যান করা এবং এই ধরনের তথ্য বের করা ত্রুটি-প্রবণ এবং সময়সাপেক্ষ হতে পারে। নিয়ম-ভিত্তিক সফ্টওয়্যার সাহায্য করতে পারে, কিন্তু শেষ পর্যন্ত অনেকগুলি বিভিন্ন নথির ধরন এবং বিন্যাসের সাথে খাপ খাইয়ে নেওয়ার জন্য খুব কঠোর।
এই প্রক্রিয়াটিকে স্বয়ংক্রিয় এবং গতি বাড়ানোর জন্য, আপনি ব্যবহার করতে পারেন অ্যামাজন সমঝোতা মেশিন লার্নিং (ML) ব্যবহার করে দ্রুত এবং নির্ভুলভাবে কাস্টম সত্তা সনাক্ত করতে। এই পদ্ধতিটি নমনীয় এবং সঠিক, কারণ সিস্টেমটি অতীতে যা শিখেছে তা ব্যবহার করে নতুন নথিতে মানিয়ে নিতে পারে। যদিও সম্প্রতি অবধি, এই ক্ষমতাটি শুধুমাত্র প্লেইন টেক্সট নথিতে প্রয়োগ করা যেতে পারে, যার অর্থ নথিগুলিকে তাদের স্থানীয় বিন্যাস থেকে রূপান্তর করার সময় অবস্থানগত তথ্য হারিয়ে গেছে। এই মোকাবেলা করার জন্য, এটা ছিল সম্প্রতি ঘোষণা করেছে যে Amazon Comprehend পিডিএফ, ছবি এবং ওয়ার্ড ফাইল ফরম্যাটে কাস্টম সত্তা বের করতে পারে।
এই পোস্টে, আমরা বীমা শিল্প থেকে একটি সুনির্দিষ্ট উদাহরণ দিয়ে চলেছি যে আপনি কীভাবে পিডিএফ টীকা ব্যবহার করে একটি কাস্টম শনাক্তকারী তৈরি করতে পারেন।
সমাধান ওভারভিউ
আমরা আপনাকে নিম্নোক্ত উচ্চ-স্তরের পদক্ষেপের মধ্য দিয়ে চলেছি:
- পিডিএফ টীকা তৈরি করুন।
- Python API ব্যবহার করে একটি কাস্টম মডেলকে প্রশিক্ষণ দিতে PDF টীকা ব্যবহার করুন।
- প্রশিক্ষিত মডেল থেকে মূল্যায়ন মেট্রিক্স প্রাপ্ত.
- একটি অদেখা নথিতে অনুমান সম্পাদন করুন।
এই পোস্টের শেষে, আমরা আমাদের প্রশিক্ষিত মডেলে একটি কাঁচা PDF নথি পাঠাতে সক্ষম হতে চাই, এবং এটিকে আমাদের আগ্রহের লেবেল সম্পর্কে তথ্য সহ একটি কাঠামোগত ফাইল আউটপুট করতে চাই। বিশেষ করে, আমরা আমাদের মডেলকে নিম্নলিখিত পাঁচটি সত্ত্বা সনাক্ত করতে প্রশিক্ষণ দিই যেগুলি বীমা দাবির প্রাসঙ্গিকতার কারণে আমরা বেছে নিয়েছি: DateOfForm
, DateOfLoss
, NameOfInsured
, LocationOfLoss
, এবং InsuredMailingAddress
. কাঠামোগত আউটপুট পড়ার পরে, আমরা নীচের চিত্রের মতো সরাসরি PDF নথিতে লেবেল তথ্যটি কল্পনা করতে পারি।
এই পোস্টের সাথে একটি জুপিটার নোটবুক রয়েছে যাতে একই ধাপ রয়েছে। যে ধাপগুলি চালানোর সময় বরাবর অনুসরণ করতে নির্দ্বিধায় নোটবই. মনে রাখবেন যে আপনাকে সেট আপ করতে হবে আমাজন সেজমেকার অ্যামাজন কম্প্রেহেন্ড থেকে পড়ার জন্য পরিবেশ আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) নোটবুকের শীর্ষে বর্ণিত হিসাবে।
পিডিএফ টীকা তৈরি করুন
PDF নথিগুলির জন্য টীকা তৈরি করতে, আপনি ব্যবহার করতে পারেন আমাজন সেজমেকার গ্রাউন্ড ট্রুথ, একটি সম্পূর্ণরূপে পরিচালিত ডেটা লেবেলিং পরিষেবা যা ML-এর জন্য অত্যন্ত নির্ভুল প্রশিক্ষণ ডেটাসেট তৈরি করা সহজ করে তোলে।
এই টিউটোরিয়ালের জন্য, আমরা ইতিমধ্যেই গ্রাউন্ড ট্রুথ ব্যবহার করে পিডিএফগুলিকে তাদের স্থানীয় আকারে (প্লেন টেক্সটে রূপান্তর না করে) টীকা করেছি। গ্রাউন্ড ট্রুথ কাজ আমাদের কাস্টম অ্যামাজন কম্প্রিহেন্ড মডেলের প্রশিক্ষণের জন্য তিনটি পথ তৈরি করে:
- সোর্স - ইনপুট পিডিএফের পথ।
- টীকা - লেবেলযুক্ত সত্তা তথ্য ধারণকারী টীকা JSON ফাইলের পথ।
- স্পষ্ট - যে ফাইলটি টীকা এবং উৎস PDF এর অবস্থান নির্দেশ করে। এই ফাইলটি একটি Amazon Comprehend কাস্টম সত্তা স্বীকৃতি প্রশিক্ষণ কাজ তৈরি করতে এবং একটি কাস্টম মডেলকে প্রশিক্ষণ দিতে ব্যবহৃত হয়।
নিম্নলিখিত স্ক্রিনশট একটি নমুনা টীকা দেখায়.
কাস্টম গ্রাউন্ড ট্রুথ জব একটি পিডিএফ টীকা তৈরি করে যা সত্তা সম্পর্কে ব্লক-লেভেল তথ্য ক্যাপচার করে। এই ধরনের ব্লক-স্তরের তথ্য সত্তার সুনির্দিষ্ট অবস্থানগত স্থানাঙ্ক প্রদান করে (সত্তা ব্লকের মধ্যে প্রতিটি শব্দের প্রতিনিধিত্বকারী শিশু ব্লকের সাথে)। এটি একটি স্ট্যান্ডার্ড গ্রাউন্ড ট্রুথ কাজের থেকে আলাদা যেখানে পিডিএফ-এর ডেটা পাঠ্য বিন্যাসে সমতল করা হয় এবং শুধুমাত্র অফসেট তথ্য-কিন্তু সুনির্দিষ্ট স্থানাঙ্ক তথ্য নয়-টি টীকা দেওয়ার সময় ক্যাপচার করা হয়। এই কাস্টম টীকা দৃষ্টান্তের মাধ্যমে আমরা যে সমৃদ্ধ অবস্থানগত তথ্য পাই তা আমাদেরকে আরও সঠিক মডেল প্রশিক্ষণের অনুমতি দেয়।
এই ধরনের কাজ থেকে যে ম্যানিফেস্ট তৈরি হয় তাকে একটি বর্ধিত ম্যানিফেস্ট বলা হয়, একটি CSV এর বিপরীতে যা স্ট্যান্ডার্ড টীকাগুলির জন্য ব্যবহৃত হয়। আরও তথ্যের জন্য, দেখুন টীকা.
Python API ব্যবহার করে একটি কাস্টম মডেলকে প্রশিক্ষণ দিতে PDF টীকা ব্যবহার করুন
একটি অগমেন্টেড ম্যানিফেস্ট ফাইল অবশ্যই JSON লাইন ফরম্যাটে ফরম্যাট করতে হবে। JSON লাইন ফরম্যাটে, ফাইলের প্রতিটি লাইন একটি সম্পূর্ণ JSON অবজেক্ট এবং একটি নতুন লাইন বিভাজক অনুসরণ করে।
নিম্নলিখিত কোডটি এই অগমেন্টেড ম্যানিফেস্ট ফাইলের মধ্যে একটি এন্ট্রি।
কয়েকটি বিষয় লক্ষণীয়:
- পাঁচ ধরনের লেবেল এই কাজের সাথে যুক্ত:
DateOfForm
,DateOfLoss
,NameOfInsured
,LocationOfLoss
, এবংInsuredMailingAddress
. - ম্যানিফেস্ট ফাইলটি উৎস PDF অবস্থান এবং টীকা অবস্থান উভয়ই উল্লেখ করে।
- টীকা কাজের (যেমন সৃষ্টির তারিখ) সম্পর্কে মেটাডেটা ক্যাপচার করা হয়।
Use-textract-only
তৈরিFalse
, মানে টীকা টুল পিডিএফ প্লাম্বার (একটি নেটিভ পিডিএফের জন্য) ব্যবহার করবেন কিনা তা নির্ধারণ করে অ্যামাজন টেক্সট্র্যাক (স্ক্যান করা পিডিএফের জন্য)। যদি সেট করা হয়true
, Amazon Textract উভয় ক্ষেত্রেই ব্যবহার করা হয় (যা আরো ব্যয়বহুল কিন্তু সম্ভাব্য আরো সঠিক)।
এখন আমরা সনাক্তকারীকে প্রশিক্ষণ দিতে পারি, যেমনটি নিম্নলিখিত উদাহরণ কোডে দেখানো হয়েছে।
পাঁচ ধরনের সত্তাকে চিনতে আমরা একটি স্বীকৃতিদাতা তৈরি করি। আমরা পছন্দ করলে এই সত্তাগুলির একটি উপসেট ব্যবহার করতে পারতাম। আপনি 25টি পর্যন্ত সত্ত্বা ব্যবহার করতে পারেন।
প্রতিটি প্যারামিটারের বিশদ বিবরণের জন্য, পড়ুন সৃষ্টি_সত্তা_স্বীকৃতিকারী.
প্রশিক্ষণ সেটের আকারের উপর নির্ভর করে, প্রশিক্ষণের সময় পরিবর্তিত হতে পারে। এই ডেটাসেটের জন্য, প্রশিক্ষণে প্রায় 1 ঘন্টা সময় লাগে। প্রশিক্ষণ কাজের অবস্থা নিরীক্ষণ করতে, আপনি ব্যবহার করতে পারেন describe_entity_recognizer
API- টি।
প্রশিক্ষিত মডেল থেকে মূল্যায়ন মেট্রিক্স প্রাপ্ত
Amazon Comprehend একটি প্রশিক্ষিত মডেলের জন্য মডেল পারফরম্যান্স মেট্রিক্স প্রদান করে, যা নির্দেশ করে যে প্রশিক্ষিত মডেলটি অনুরূপ ইনপুট ব্যবহার করে কতটা ভাল ভবিষ্যদ্বাণী করবে। আমরা গ্লোবাল নির্ভুলতা এবং রিকল মেট্রিক্সের পাশাপাশি প্রতি-সত্তা মেট্রিক্স উভয়ই পেতে পারি। একটি সঠিক মডেলের উচ্চ নির্ভুলতা এবং উচ্চ স্মরণ থাকে। উচ্চ নির্ভুলতা মানে মডেলটি সাধারণত সঠিক হয় যখন এটি একটি নির্দিষ্ট লেবেল নির্দেশ করে; উচ্চ প্রত্যাহার মানে মডেলটি বেশিরভাগ লেবেল খুঁজে পেয়েছে। F1 এই পরিমাপের একটি যৌগিক মেট্রিক (হারমোনিক গড়) এবং তাই যখন উভয় উপাদান উচ্চ হয় তখন উচ্চ হয়। মেট্রিক্সের বিস্তারিত বিবরণের জন্য, দেখুন কাস্টম সত্তা শনাক্তকারী মেট্রিক্স.
যখন আপনি প্রশিক্ষণের কাজে নথি প্রদান করেন, তখন Amazon Comprehend স্বয়ংক্রিয়ভাবে সেগুলিকে একটি ট্রেন এবং পরীক্ষা সেটে আলাদা করে দেয়। যখন মডেল পৌঁছেছে TRAINED
অবস্থা, আপনি ব্যবহার করতে পারেন describe_entity_recognizer
পরীক্ষার সেটে মূল্যায়ন মেট্রিক্স পেতে আবার API।
বিশ্বব্যাপী মেট্রিক্সের একটি উদাহরণ নিচে দেওয়া হল।
নিম্নলিখিতটি প্রতি-সত্তা মেট্রিক্সের একটি উদাহরণ।
উচ্চ স্কোরগুলি নির্দেশ করে যে মডেলটি কীভাবে এই সত্তাগুলি সনাক্ত করতে হয় তা ভালভাবে শিখেছে৷
একটি অদেখা নথিতে অনুমান সম্পাদন করুন
আসুন আমাদের প্রশিক্ষিত মডেলের সাথে একটি নথিতে অনুমান চালাই যা প্রশিক্ষণ পদ্ধতির অংশ ছিল না। আমরা স্ট্যান্ডার্ড বা কাস্টম NER-এর জন্য এই অ্যাসিঙ্ক্রোনাস API ব্যবহার করতে পারি। যদি এটি কাস্টম NER-এর জন্য ব্যবহার করেন (যেমন এই পোস্টে), আমাদের অবশ্যই প্রশিক্ষিত মডেলের ARN পাস করতে হবে।
আমরা প্রতিক্রিয়া প্রিন্ট করে জমা দেওয়া কাজের পর্যালোচনা করতে পারি।
আমরা সনাক্তকরণ কাজের আউটপুটকে পান্ডাসের সাথে একটি টেবিলে ফর্ম্যাট করতে পারি। দ্য Score
মানটি সত্তা সম্পর্কে মডেলটির আত্মবিশ্বাসের স্তর নির্দেশ করে।
অবশেষে, আমরা অদেখা নথিতে ভবিষ্যদ্বাণীগুলিকে ওভারলে করতে পারি, যা এই পোস্টের শীর্ষে দেখানো ফলাফল দেয়।
উপসংহার
এই পোস্টে, আপনি Amazon Comprehend ব্যবহার করে তাদের নেটিভ পিডিএফ ফরম্যাটে কাস্টম সত্তাগুলিকে কীভাবে বের করতে হয় তা দেখেছেন। পরবর্তী পদক্ষেপ হিসাবে, গভীরভাবে ডাইভিং বিবেচনা করুন:
- সাথে থাকা নোটবুক ব্যবহার করে আপনার নিজের শনাক্তকারীকে প্রশিক্ষণ দিন এখানে. ভবিষ্যত চার্জ এড়াতে শেষ হয়ে গেলে কোনো সম্পদ মুছে ফেলতে ভুলবেন না।
- আপনার আগ্রহের সত্তার জন্য PDF টীকা সংগ্রহ করতে আপনার নিজস্ব কাস্টম টীকা কাজ সেট আপ করুন৷ আরো তথ্যের জন্য, পড়ুন Amazon Comprehend ব্যবহার করে নথিতে নামযুক্ত সত্তাগুলি বের করার জন্য কাস্টম নথির টীকা৷.
- Amazon Comprehend কনসোলে একটি কাস্টম NER মডেলকে প্রশিক্ষণ দিন। আরও তথ্যের জন্য, দেখুন Amazon Comprehend-এর সাহায্যে নথিগুলি থেকে তাদের নেটিভ ফরম্যাটে কাস্টম সত্তা বের করুন.
লেখক সম্পর্কে
জোশুয়া লেভি তিনি আমাজন মেশিন লার্নিং সলিউশন ল্যাবে সিনিয়র অ্যাপ্লাইড সায়েন্টিস্ট, যেখানে তিনি গ্রাহকদের মূল ব্যবসায়িক সমস্যা সমাধানের জন্য AI/ML সমাধান ডিজাইন ও তৈরি করতে সাহায্য করেন।
অ্যান্ড্রু অ্যাং তিনি আমাজন মেশিন লার্নিং সলিউশন ল্যাবের একজন মেশিন লার্নিং ইঞ্জিনিয়ার, যেখানে তিনি বিভিন্ন ধরনের শিল্পের গ্রাহকদের তাদের সবচেয়ে গুরুত্বপূর্ণ ব্যবসায়িক সমস্যা সমাধানের জন্য AI/ML সমাধান শনাক্ত করতে এবং তৈরি করতে সাহায্য করেন। কাজের বাইরে তিনি ভ্রমণ এবং খাবারের ভ্লগ দেখতে পছন্দ করেন।
অ্যালেক্স চিরায়াথ অ্যামাজন মেশিন লার্নিং সলিউশন ল্যাবের একজন সফ্টওয়্যার প্রকৌশলী যিনি ব্যবহার কেস-ভিত্তিক সমাধানগুলি তৈরিতে ফোকাস করছেন যা গ্রাহকদের দেখায় কিভাবে বাস্তব বিশ্বের ব্যবসায়িক সমস্যা সমাধানের জন্য AWS AI/ML পরিষেবাগুলির শক্তি আনলক করতে হয়৷
জেনিফার ঝু অ্যামাজন এআই মেশিন লার্নিং সলিউশন ল্যাব থেকে একজন ফলিত বিজ্ঞানী। তিনি AWS এর গ্রাহকদের সাথে তাদের উচ্চ-অগ্রাধিকার ব্যবসায়িক প্রয়োজনের জন্য AI/ML সমাধান তৈরি করে কাজ করেন।
নীহারিকা জয়ন্তী আমাজন মেশিন লার্নিং সলিউশন ল্যাব-এর একজন ফ্রন্ট এন্ড ইঞ্জিনিয়ার - হিউম্যান ইন দ্য লুপ। তিনি অ্যামাজন সেজমেকার গ্রাউন্ড ট্রুথ গ্রাহকদের জন্য ব্যবহারকারীর অভিজ্ঞতা সমাধান তৈরি করতে সহায়তা করেন।
বরিস আরনচিক তিনি আমাজন এআই মেশিন লার্নিং সলিউশন ল্যাবের একজন ম্যানেজার যেখানে তিনি AWS গ্রাহকদের এআই/এমএল সমাধানের ব্যবহার করে ব্যবসায়িক লক্ষ্য অর্জনে সহায়তা করার জন্য এমএল বিজ্ঞানী এবং প্রকৌশলীদের একটি দলকে নেতৃত্ব দেন।
- Coinsmart. ইউরোপের সেরা বিটকয়েন এবং ক্রিপ্টো এক্সচেঞ্জ।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. বিনামূল্যে এক্সেস.
- ক্রিপ্টোহক। Altcoin রাডার। বিনামূল্যে ট্রায়াল.
- সূত্র: https://aws.amazon.com/blogs/machine-learning/build-a-custom-entity-recognizer-for-pdf-documents-using-amazon-comprehend/
- "
- &
- 100
- সম্পর্কে
- সঠিক
- দিয়ে
- ঠিকানা
- AI
- সব
- ইতিমধ্যে
- মর্দানী স্ত্রীলোক
- API
- অভিগমন
- আন্দাজ
- বৈশিষ্ট্যাবলী
- উদ্দীপিত
- স্বয়ংক্রিয় পদ্ধতি প্রয়োগ করা
- ডেস্কটপ AWS
- বাধা
- নির্মাণ করা
- ভবন
- ব্যবসায়
- চ্যালেঞ্জিং
- চার্জ
- শিশু
- দাবি
- কোড
- সংগ্রহ করা
- বিশ্বাস
- কনসোল
- ধারণ
- তুল্য
- পারা
- সৃষ্টি
- সংকটপূর্ণ
- প্রথা
- গ্রাহকদের
- উপাত্ত
- তারিখগুলি
- গভীর
- নকশা
- সনাক্তকরণ
- সরাসরি
- কাগজপত্র
- প্রকৌশলী
- প্রকৌশলী
- সত্ত্বা
- পরিবেশ
- উদাহরণ
- প্রত্যাশিত
- অভিজ্ঞতা
- নমনীয়
- অনুসরণ করা
- অনুসরণ
- খাদ্য
- ফর্ম
- বিন্যাস
- পাওয়া
- বিনামূল্যে
- ভবিষ্যৎ
- বিশ্বব্যাপী
- গোল
- সাহায্য
- সাহায্য
- উচ্চ
- অত্যন্ত
- কিভাবে
- কিভাবে
- HTTPS দ্বারা
- মানবীয়
- সনাক্ত করা
- ভাবমূর্তি
- গুরুত্বপূর্ণ
- শিল্প
- শিল্প
- তথ্য
- ইনপুট
- বীমা
- স্বার্থ
- IT
- কাজ
- চাবি
- গবেষণাগার
- লেবেল
- লেবেলগুলি
- বিশালাকার
- জ্ঞানী
- শিক্ষা
- উচ্চতা
- উপজীব্য
- লাইন
- অবস্থান
- অবস্থানগুলি
- মেশিন
- মেশিন লার্নিং
- তৈরি করে
- পরিচালিত
- পরিচালক
- পদ্ধতি
- ম্যানুয়ালি
- অর্থ
- ছন্দোবিজ্ঞান
- ML
- মডেল
- মনিটর
- অধিক
- সেতু
- নাম
- নোটবই
- অফসেট
- নিজের
- দৃষ্টান্ত
- পিডিএফ
- কর্মক্ষমতা
- ক্ষমতা
- ভবিষ্যতবাণী
- সমস্যা
- প্রক্রিয়া
- প্রদান
- উপলব্ধ
- দ্রুত
- কাঁচা
- পড়া
- বাস্তব জগতে
- সাধা
- চেনা
- প্রতিবেদন
- Resources
- প্রতিক্রিয়া
- এখানে ক্লিক করুন
- চালান
- দৌড়
- স্ক্যানিং
- বিজ্ঞানী
- বিজ্ঞানীরা
- সেবা
- সেবা
- সেট
- অনুরূপ
- সহজ
- আয়তন
- সফটওয়্যার
- সফটওয়্যার ইঞ্জিনিয়ার
- সলিউশন
- সমাধান
- স্পীড
- মান
- অবস্থা
- স্টোরেজ
- কাঠামোবদ্ধ
- পেশ
- পদ্ধতি
- টীম
- পরীক্ষা
- উৎস
- দ্বারা
- সময়
- সময় অপগিত হয় এমন
- টুল
- শীর্ষ
- প্রশিক্ষণ
- ভ্রমণ
- আনলক
- us
- ব্যবহার
- সাধারণত
- মূল্য
- কি
- কিনা
- যখন
- মধ্যে
- ছাড়া
- হয়া যাই ?
- কাজ
- বিশ্ব