মেশিন লার্নিং ব্যবহার করে হাতের লেখার স্বীকৃতি কীভাবে সহজে করা যায়

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

মেশিন লার্নিং ব্যবহার করে কিভাবে সহজে হ্যান্ড রাইটিং রিকগনিশন করা যায়

হাতে লেখা ওসিআর করতে চান? এই ব্লগটি গভীর শিক্ষা ব্যবহার করে হাতের লেখার স্বীকৃতির সর্বশেষ পদ্ধতিগুলির একটি ব্যাপক ওভারভিউ। আমরা সর্বশেষ গবেষণা এবং কাগজপত্র পর্যালোচনা করেছি এবং স্ক্র্যাচ থেকে একটি হস্তাক্ষর পাঠকও তৈরি করেছি।

ন্যানোনেটস ওসিআর এপিআই অনেক আকর্ষণীয় আছে ক্ষেত্রে ব্যবহার করুন। আরও জানতে ন্যানোনেটস এআই বিশেষজ্ঞের সাথে কথা বলুন।

ভূমিকা

অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) বাজারের আকার 13.38 সালের মধ্যে USD 2025 বিলিয়ন হবে বলে আশা করা হচ্ছে প্রতি বছর 13.7% বৃদ্ধির সাথে। এই বৃদ্ধি তাদের শ্রম খরচ কমাতে এবং মূল্যবান মানুষের ঘন্টা বাঁচাতে OCR ব্যবহার করে ব্যবসায়িক প্রক্রিয়াগুলির দ্রুত ডিজিটাইজেশন দ্বারা চালিত হয়। যদিও ওসিআর একটি সমাধানকৃত সমস্যা হিসাবে বিবেচিত হয়েছে তবে এটির একটি মূল উপাদান রয়েছে, হস্তাক্ষর স্বীকৃতি (হ্যান্ডরাইটিং ওসিআর) বা হস্তলিখিত টেক্সট রিকগনিশন (এইচটিআর) যা এখনও একটি চ্যালেঞ্জিং সমস্যা বিবৃতি হিসাবে বিবেচিত হয়। লোকেদের মধ্যে হস্তাক্ষর শৈলীতে উচ্চ বৈচিত্র্য এবং মুদ্রিত পাঠ্যের তুলনায় হাতে লেখা পাঠ্যের নিম্নমানের মানের কারণে এটিকে মেশিনে পাঠযোগ্য পাঠ্যে রূপান্তরিত করার ক্ষেত্রে উল্লেখযোগ্য বাধা রয়েছে। তবুও স্বাস্থ্যসেবা, বীমা এবং ব্যাঙ্কিংয়ের মতো একাধিক শিল্পের জন্য এটি সমাধান করা একটি গুরুত্বপূর্ণ সমস্যা।

মেশিন লার্নিং ব্যবহার করে কিভাবে সহজে হ্যান্ড রাইটিং রিকগনিশন করা যায় — উৎস :- https://www.semanticscholar.org/paper/Handwriting-recognition-on-form-document-using-and-Darmatasia-Fanany/

ট্রান্সফরমার আর্কিটেকচারের আবির্ভাবের মতো ডিপ লার্নিংয়ের সাম্প্রতিক অগ্রগতি হস্তাক্ষর লেখা পাঠ্য স্বীকৃতি ক্র্যাক করার ক্ষেত্রে আমাদের অগ্রগতিটিকে দ্রুত ট্র্যাক করেছে। আইসিআর সমাধানের জন্য প্রয়োজনীয় অ্যালগরিদমগুলি জেনেরিক ওসিআর সমাধানের চেয়ে অনেক বেশি বুদ্ধিমানের প্রয়োজনের কারণে হস্তাক্ষরযুক্ত পাঠ্য সনাক্তকরণকে বুদ্ধিমান চরিত্রের স্বীকৃতি (আইসিআর) বলা হয়।

এই নিবন্ধে আমরা হস্তলিখিত পাঠ্য সনাক্তকরণের কাজ, এটির জটিলতা এবং গভীর শিক্ষার কৌশলগুলি ব্যবহার করে কীভাবে আমরা এটি সমাধান করতে পারি সে সম্পর্কে শিখব।

হাতের লিখিত ফর্মগুলি থেকে ডেটা বের করতে চান? যাও মাথা ন্যানোনেটস এবং বিনামূল্যে হাতের লেখা ওসিআর মডেল তৈরি করা শুরু করুন!

হস্তাক্ষর স্বীকৃতিতে চ্যালেঞ্জগুলি

ব্যক্তি থেকে অন্য ব্যক্তির স্ট্রোকগুলির বিশাল পরিবর্তনশীলতা এবং অস্পষ্টতা
স্বতন্ত্র ব্যক্তির হস্তাক্ষর রচনাও সময়ে সময়ে পরিবর্তিত হয় এবং এটি বেমানান
সময়ের সাথে অবনতির কারণে উত্স নথি / চিত্রের নিম্নমানের
মুদ্রিত নথিগুলিতে পাঠ্যগুলি একটি সরলরেখায় বসে থাকে যেখানে মানুষের সাদা কাগজে একটি সরলরেখায় পাঠ্যের একটি লাইন লেখার প্রয়োজন হয় না
ক্রসইভ হস্তাক্ষর পৃথকীকরণ এবং অক্ষরগুলির স্বীকৃতি চ্যালেঞ্জিং করে
হস্তাক্ষর পাঠ্যের পাঠ্যে ডানদিকে পরিবর্তনশীল ঘূর্ণন থাকতে পারে যা মুদ্রিত পাঠ্যের বিপরীতে যেখানে সমস্ত পাঠ্য সোজাভাবে বসে থাকে
শেখার জন্য একটি ভাল লেবেলযুক্ত ডেটাসেট সংগ্রহ করা সিন্থেটিক ডেটার তুলনায় সস্তা নয়

ব্যবহারের ক্ষেত্রে

স্বাস্থ্যসেবা এবং ওষুধপত্র

রোগীদের প্রেসক্রিপশন ডিজিটাইজেশন স্বাস্থ্যসেবা / ওষুধ শিল্পে একটি প্রধান ব্যথা পয়েন্ট is উদাহরণস্বরূপ রোচে প্রতিদিন কয়েক মিলিয়ন পেটবাইট মেডিকেল পিডিএফ পরিচালনা করছে। হস্তাক্ষরযুক্ত পাঠ্য শনাক্তকরণের মূল প্রভাব রয়েছে এমন আরও একটি ক্ষেত্র হ'ল রোগীর তালিকাভুক্তি এবং ফর্ম ডিজিটাইজেশন। পরিষেবাগুলির তাদের টুলকিটে হস্তাক্ষর স্বীকৃতি যুক্ত করে, হাসপাতাল / ফার্মাসিউটিক্যালস ব্যবহারকারীর অভিজ্ঞতা উল্লেখযোগ্যভাবে উন্নত করতে পারে

বীমা

একটি বৃহত বীমা শিল্পে দিনে 20 মিলিয়নেরও বেশি ডকুমেন্ট পাওয়া যায় এবং দাবিটি প্রক্রিয়াকরণে বিলম্ব করা কোম্পানিকে মারাত্মকভাবে প্রভাবিত করতে পারে। দাবি দস্তাবেজটিতে বিভিন্ন বিভিন্ন হস্তাক্ষর শৈলী থাকতে পারে এবং প্রসেসিং দাবির খাঁটি ম্যানুয়াল অটোমেশনটি পাইপলাইনটিকে পুরোপুরি ধীর করে দিচ্ছে

ব্যাংকিং

লোকেরা নিয়মিতভাবে চেক লেখেন এবং চেকগুলি এখনও বেশিরভাগ নগদ নগদ লেনদেনে মুখ্য ভূমিকা পালন করে। অনেক উন্নয়নশীল দেশগুলিতে, বর্তমান চেক প্রক্রিয়াকরণ পদ্ধতিতে কোনও ব্যাঙ্ক কর্মচারীকে একটি চেকের উপস্থিত তথ্য ম্যানুয়ালি প্রবেশ করাতে হবে এবং স্বাক্ষর এবং তারিখের মতো এন্ট্রিগুলি যাচাই করতে হবে। যেহেতু একটি ব্যাংকে প্রতিদিন প্রচুর সংখ্যক চেকগুলি প্রক্রিয়া করতে হয় একটি হস্তাক্ষর পাঠ্য স্বীকৃতি ব্যবস্থা মানুষের কাজকর্মের সময় এবং ঘন্টাগুলি বাঁচাতে পারে

অনলাইন গ্রন্থাগারগুলি

সমগ্র বিশ্বে অ্যাক্সেসের জন্য চিত্র স্ক্যানগুলি আপলোড করে বিপুল পরিমাণ historicalতিহাসিক জ্ঞান ডিজিটালাইজড করা হচ্ছে। তবে এই প্রচেষ্টাটি ততক্ষণ কার্যকর হয় না যতক্ষণ না ইমেজগুলিতে পাঠ্যটি চিহ্নিত করা যায় যা সূচী, অনুসন্ধান এবং ব্রাউজ করা যায়। হস্তাক্ষর স্বীকৃতি মধ্যযুগীয় এবং বিংশ শতাব্দীর নথি, পোস্টকার্ড, গবেষণা গবেষণা ইত্যাদি জীবন্ত করে তোলার ক্ষেত্রে মূল ভূমিকা পালন করে

পদ্ধতি

হস্তাক্ষর স্বীকৃতি পদ্ধতিগুলি নীচে দুটি ধরণের মধ্যে বিস্তৃতভাবে শ্রেণিবদ্ধ করা যেতে পারে

অনলাইন পদ্ধতি : - অনলাইন পদ্ধতিতে একটি ডিজিটাল কলম / স্টাইলাস জড়িত এবং স্ট্রোকের তথ্য, কলমের অবস্থান অ্যাক্সেস করতে পারে যখন উপরের ডান চিত্রটিতে লেখা হিসাবে লেখা লেখা হচ্ছে। যেহেতু তাদের লেখার পাঠ্য প্রবাহের সাথে প্রচুর তথ্য রয়েছে তাদের এগুলি একটি উচ্চ উচ্চ নির্ভুলতায় শ্রেণিবদ্ধ করা যেতে পারে এবং পাঠ্যের বিভিন্ন বর্ণের মধ্যে সীমাবদ্ধতা আরও স্পষ্ট হয়ে ওঠে becomes
অফলাইন পদ্ধতি :- অফলাইন পদ্ধতিতে পাঠ্যটি লেখা হয়ে গেলে তা শনাক্ত করা জড়িত এবং তাই উৎস থেকে কিছু পটভূমি শব্দের সম্ভাব্য সংযোজন সহ লেখার সময় জড়িত স্ট্রোক/নির্দেশের তথ্য থাকবে না যেমন কাগজ।

বাস্তব জগতে স্ট্রোকের তথ্য ক্যাপচার করার জন্য সেন্সর সহ একটি ডিজিটাল কলম বহন করা সবসময় সম্ভব/স্কেলযোগ্য নয় এবং তাই অফলাইনে পাঠ্য সনাক্ত করার কাজটি অনেক বেশি প্রাসঙ্গিক সমস্যা। সুতরাং, এখন আমরা অফলাইন টেক্সট চেনার সমস্যা সমাধানের বিভিন্ন কৌশল নিয়ে আলোচনা করব।

প্রযুক্তি

হাতের লেখার স্বীকৃতির সমাধানের প্রাথমিক পদ্ধতির মধ্যে রয়েছে মেশিন লার্নিং পদ্ধতি যেমন হিডেন মার্কভ মডেলস(এইচএমএম), এসভিএম ইত্যাদি। প্রাথমিক পাঠ্যটি প্রাক-প্রক্রিয়া হয়ে গেলে, লুপ, ইনফ্লেকশন পয়েন্ট, অ্যাসপেক্ট রেশিও ইত্যাদির মতো গুরুত্বপূর্ণ তথ্য সনাক্ত করতে বৈশিষ্ট্য নিষ্কাশন করা হয়। একটি স্বতন্ত্র চরিত্রের। এই উৎপন্ন বৈশিষ্ট্যগুলি এখন ফলাফল পেতে এইচএমএম বলে একটি শ্রেণিবিন্যাসকারীকে খাওয়ানো হয়। ম্যানুয়াল বৈশিষ্ট্য নিষ্কাশন পর্ব এবং তাদের শেখার সীমিত ক্ষমতার কারণে মেশিন লার্নিং মডেলগুলির কার্যকারিতা বেশ সীমিত। বৈশিষ্ট্য নিষ্কাশন পদক্ষেপ প্রতিটি পৃথক ভাষার জন্য পরিবর্তিত হয় এবং তাই মাপযোগ্য নয়। গভীর শিক্ষার আবির্ভাবের সাথে হাতের লেখার স্বীকৃতির নির্ভুলতার ক্ষেত্রে অসাধারণ উন্নতি হয়েছে। আসুন হাতের লেখার স্বীকৃতির জন্য গভীর শিক্ষার ক্ষেত্রে কিছু বিশিষ্ট গবেষণা নিয়ে আলোচনা করা যাক

বহু-মাত্রিক পুনরাবৃত্ত নিউরাল নেটওয়ার্কসমূহ

আরএনএন/এলএসটিএম যেমন আমরা জানি অস্থায়ী নিদর্শনগুলি সনাক্ত করতে এবং ফলাফল তৈরি করতে অনুক্রমিক ডেটা মোকাবেলা করতে পারে। কিন্তু তারা 1D ডেটা নিয়ে কাজ করার জন্য সীমাবদ্ধ এবং তাই ইমেজ ডেটাতে সরাসরি প্রযোজ্য হবে না। এই সমস্যাটি সমাধান করার জন্য, এই কাগজের লেখকরা একটি বহুমাত্রিক RNN/LSTM কাঠামোর প্রস্তাব করেছেন যা নীচের চিত্রে দেখা যায়

নিম্নলিখিতটি একটি সাধারণ আরএনএন এবং একটি বহুমাত্রিক আরএনএন এর মধ্যে পার্থক্য is একটি সাধারণ আরএনএন-তে, লুকানো স্তরটি বলে আমি সময়কালে আই -1 এর আগের কোনও লুকানো স্তর থেকে রাজ্যটি পাই। মাল্টি-ডাইমেনশনাল আরএনএন উদাহরণস্বরূপ বলুন একটি ২ টি মাত্রিক আরএনএন, লুকানো স্তর (i, j) একাধিক পূর্ববর্তী লুকানো স্তরগুলি (i-2, j) এবং (i, j-1) থেকে রাজ্যগুলি গ্রহণ করে এবং এইভাবে উভয়ের থেকে প্রসঙ্গটি ক্যাপচার করে কোনও চিত্রের উচ্চতা এবং প্রস্থ যা কোনও নেটওয়ার্কের মাধ্যমে স্থানীয় অঞ্চলের সুস্পষ্ট বোঝার জন্য গুরুত্বপূর্ণ। এটি কেবল পূর্ববর্তী স্তরগুলি থেকে নয় ভবিষ্যতে স্তরগুলি থেকে কীভাবে বিআই-এলএসটিএম টি -1 এবং টি + 1 থেকে তথ্য গ্রহণ করে তার অনুরূপ তথ্য পেতে আরও প্রসারিত হয়। একইভাবে একটি 1 ডি এমডিআরএনএন লুকানো স্তর আমি এখন তথ্য (আই -2, জে), (আই, জে -1), (আই + 1, জে), (আই, জে + 1) পেতে পারি এইভাবে সমস্ত দিকের প্রসঙ্গ ক্যাপচার করে

উপরে পুরো নেটওয়ার্ক কাঠামোটি দেখানো হয়েছে। এমডিএলএসটিএম ব্যবহৃত হয় যা আরডিএনএন ব্লককে এমডিআরএনএন এর উপরের আলোচনা থেকে একটি এলএসটিএম ব্লক প্রতিস্থাপন করা ছাড়া কিছুই নয়। ইনপুটটি 3 size 4 আকারের ব্লকগুলিতে বিভক্ত যা এখন MDSTM স্তরগুলিতে খাওয়ানো হয়। নেটওয়ার্কটিতে এমডিএলএসটিএম স্তরগুলির একটি শ্রেণিবদ্ধ কাঠামো রয়েছে এবং তারপরে ফিড-ফরোয়ার্ড (এএনএন) এর সাথে তাল মিলবে। তারপরে চূড়ান্ত আউটপুটটি 1 ডি ভেক্টরে রূপান্তরিত হয় এবং আউটপুট উত্পন্ন করার জন্য সিটিসি ফাংশনে দেওয়া হয়

সংযোগবাদী টেম্পোরাল শ্রেণিবিন্যাস (সিটিসি) স্পিচ রিকগনিশন, হ্যান্ডরাইটিং রিকগনিশন ইত্যাদির মতো কাজগুলি মোকাবেলা করার জন্য ব্যবহৃত একটি অ্যালগরিদম একটি নির্দিষ্ট অক্ষরের সাথে সারিবদ্ধ করা হয়। প্রতিটি অক্ষরকে একই এলাকা দেওয়ার মতো সহজ হিউরিস্টিকগুলি কাজ করবে না কারণ প্রতিটি অক্ষর যে পরিমাণ স্থান নেয় তা ব্যক্তি থেকে ব্যক্তি এবং সময়ে সময়ে হাতের লেখায় পরিবর্তিত হয়।

আমাদের হস্তাক্ষর স্বীকৃতি ব্যবহারের ক্ষেত্রে নির্দিষ্ট বাক্যটির জন্য ইনপুট চিত্র অঞ্চলগুলিকে ইনপুট হিসাবে বিবেচনা করুন X=[x1,x১,২,…,x ** টি] যখন প্রত্যাশিত আউটপুট হিসাবে Y=[y1,y১,২,…,y ** ইউ] X দেওয়া হলে আমাদের সঠিক Y খুঁজে বের করার কথা। CTC অ্যালগরিদম X ইনপুট নিয়ে কাজ করে এবং সম্ভাব্য সমস্ত Y এর উপর বিতরণ করে যা ব্যবহার করে আমরা চূড়ান্ত আউটপুটের জন্য একটি ভবিষ্যদ্বাণী করতে পারি।

একটি ইনপুট অঞ্চলে ডুপ্লিকেট অক্ষর এবং পুনরাবৃত্তি অক্ষরের মধ্যে পার্থক্য করার জন্য CTC একটি ভিত্তি অক্ষর ব্যবহার করে। উদাহরণস্বরূপ, একটি নির্দিষ্ট অক্ষর ইনপুটের একাধিক অঞ্চলে বিস্তৃত হতে পারে এবং এইভাবে CTC একই অক্ষরকে ধারাবাহিকভাবে আউটপুট করবে। উদাহরণ:- CTC এর ইনপুট জেমস এবং আউটপুট হল jjaammmees। চূড়ান্ত আউটপুট বারবার আউটপুট ভেঙে ফেলার মাধ্যমে প্রাপ্ত হয় এবং তাই আমরা জেমস পাই। কিন্তু এখন ডুপ্লিকেট অক্ষরগুলিকে হ্যালোতে 'l' বলার জন্য, আমাদের জায়গায় একটি বিচ্ছেদ থাকতে হবে এবং এইভাবে সমস্ত আউটপুট হাইফেন(-) দ্বারা পৃথক করা হবে। এখন hello-এর আউটপুট h-ee-ll-lll-oo হতে পারে যা ভেঙে গেলে hello হয়ে যাবে এবং helo নয়। CTC কিভাবে কাজ করে সে সম্পর্কে আরও তথ্য এখানে দেখা যাবে ব্যবহার করুন CTC-.

প্রতিটি অবস্থানের জন্য সর্বোচ্চ সম্ভাব্যতার সহজ হিউরিস্টিকের উপর ভিত্তি করে CTC-এর আউটপুট ডিকোড করার সময়, আমরা এমন ফলাফল পেতে পারি যা বাস্তব জগতে কোন অর্থবহ নাও হতে পারে। এটি সমাধান করার জন্য আমরা ফলাফল উন্নত করতে একটি ভিন্ন ডিকোডার নিয়োগ করতে পারি। বিভিন্ন ধরনের ডিকোডিং নিয়ে আলোচনা করা যাক

সেরা-পথের ডিকোডিং : - এটি আমরা এখন পর্যন্ত আলোচনা করেছি জেনেরিক ডিকোডিং। প্রতিটি পজিশনে আমরা মডেলের আউটপুট নিয়ে থাকি এবং সর্বোচ্চ সম্ভাবনার সাথে ফলাফলটি পাই।
মরীচি অনুসন্ধানের ডিকোডিং : - প্রতিবার নেটওয়ার্ক থেকে একক আউটপুট নেওয়ার পরিবর্তে রশ্মি অনুসন্ধানটি প্রতিটি সম্ভাব্যতার সাথে একাধিক আউটপুট পাথ রাখার পরামর্শ দেয় এবং বিমের আকারটি অবিচ্ছিন্ন রাখার জন্য কম আউটপুট সহ নতুন আউটপুট এবং ড্রপিং পাথগুলি দিয়ে চেইনটি প্রসারিত করে। এই পদ্ধতির মাধ্যমে প্রাপ্ত ফলাফলগুলি লোভী পদ্ধতির ব্যবহারের চেয়ে বেশি সঠিক
ভাষা মডেলের সাথে মরীচি অনুসন্ধান :- বীম অনুসন্ধান গ্রিড অনুসন্ধানের চেয়ে আরও সঠিক ফলাফল সরবরাহ করে তবে তবুও এটি অর্থপূর্ণ ফলাফল পাওয়ার সমস্যার সমাধান করবে না। এটি সমাধান করার জন্য আমরা চূড়ান্ত ফলাফল তৈরি করতে মডেল এবং ভাষা মডেল উভয়ের সম্ভাব্যতা ব্যবহার করে বিম অনুসন্ধানের সাথে একটি ভাষা মডেল ব্যবহার করতে পারি।

সঠিক ডিকোডিংয়ের ফলাফল উত্পন্ন করার বিষয়ে আরও বিশদ এর দিকে লক্ষ্য করা যেতে পারে প্রবন্ধ

এনকোডার-ডিকোডার এবং মনোযোগ নেটওয়ার্ক

এনকোডার-ডিকোডার নেটওয়ার্ক সম্বলিত Seq2Seq মডেলগুলি সম্প্রতি স্পিচ রিকগনিশন, মেশিন ট্রান্সলেশন ইত্যাদি কাজগুলি সমাধানের জন্য জনপ্রিয় হয়েছে এবং এইভাবে একটি অতিরিক্ত মনোযোগ ব্যবস্থা স্থাপনের মাধ্যমে হস্তাক্ষর স্বীকৃতির ব্যবহার-কেস সমাধানের জন্য প্রসারিত করা হয়েছে। আসুন এই ক্ষেত্রে কিছু মৌলিক গবেষণা আলোচনা করা যাক

স্ক্যান, উপস্থিত এবং পড়ুন

এই চূড়ান্ত কাজটিতে স্ক্যান, অংশ নিন এবং পড়ুন (এসএআর) লেখকরা শেষ থেকে শেষ হস্তাক্ষর স্বীকৃতির জন্য মনোযোগ ভিত্তিক মডেলটির ব্যবহারের প্রস্তাব দেয়। গবেষণার মূল অবদান হ'ল প্রাক-প্রক্রিয়াজাতকরণ পদক্ষেপ হিসাবে লাইনগুলিতে বিভক্ত না হয়ে পাঠ্যের স্বয়ংক্রিয় প্রতিলিপি এবং এটি একটি সম্পূর্ণ পৃষ্ঠা স্ক্যান করে ফলাফল দিতে পারে।

চূড়ান্ত স্তরের একটি ছোট পরিবর্তনের সাথে SAR MDLSTM ভিত্তিক আর্কিটেকচার ব্যবহার করে যা আমরা উপরে আলোচনা করেছি। উপরের চিত্রটিতে শেষ রৈখিক স্তর অর্থাৎ চূড়ান্ত সমষ্টি ব্লকের পরে, বৈশিষ্ট্য মানচিত্রগুলি উল্লম্ব মাত্রায় সঙ্কুচিত হয় এবং ফলাফলগুলি পেতে একটি চূড়ান্ত সফটম্যাক্স ফাংশন প্রয়োগ করা হয়।

এসএআর আর্কিটেকচারে একটি MDLSTM আর্কিটেকচার থাকে যা বৈশিষ্ট্য নিষ্কর্ষক হিসাবে কাজ করে। একটি সফটম্যাক্স আউটপুট এবং সিটিসি লোকসানের সাথে চূড়ান্ত সঙ্কুচিত মডিউলটি মনোযোগ মডিউল এবং একটি এলএসটিএম ডিকোডার দ্বারা প্রতিস্থাপিত হয়েছে। মনোযোগের মডেলটি ব্যবহৃত বিষয়বস্তু ভিত্তিক মনোযোগ এবং অবস্থান ভিত্তিক মনোযোগের একটি হাইব্রিড সংমিশ্রণ যা পরবর্তী কাগজে আরও বিশদে ব্যাখ্যা করা হয়েছে। ডিকোডার এলএসটিএম মডিউলগুলি পূর্ববর্তী অবস্থা, পূর্বের মনোযোগ মানচিত্র এবং এনকোডার বৈশিষ্ট্যগুলি চূড়ান্ত আউটপুট অক্ষর এবং পরবর্তী ভবিষ্যদ্বাণীটির জন্য রাষ্ট্র ভেক্টর তৈরি করতে নেয়।

কনভলভ করুন, উপস্থিত থাকুন এবং বানান করুন

এই কাগজটি হস্তাক্ষর শব্দের স্বীকৃতির জন্য মনোযোগ ভিত্তিক সিকোয়েন্স-টু-সিকোয়েন্সন মডেল প্রস্তাব করে। প্রস্তাবিত আর্কিটেকচারের তিনটি প্রধান অংশ রয়েছে: একটি এনকোডার, একটি সিএনএন এবং দ্বি-দিকনির্দেশক জিআরইউ সমন্বিত, প্রাসঙ্গিক বৈশিষ্ট্যগুলিতে মনোনিবেশ করার জন্য উত্সর্গীকৃত একটি মনোযোগ ব্যবস্থা এবং এক-দিকনির্দেশক জিআরইউ দ্বারা গঠিত একটি ডিকোডার, যা সংশ্লিষ্ট শব্দটির বানান করতে সক্ষম, চরিত্র দ্বারা চরিত্র।

এনকোডারটি ভিজ্যুয়াল বৈশিষ্ট্যগুলি বের করতে একটি CNN ব্যবহার করে। একটি প্রাক-প্রশিক্ষিত VGG-19-BN আর্কিটেকচার একটি বৈশিষ্ট্য নিষ্কাশনকারী হিসাবে ব্যবহৃত হয়। ইনপুট চিত্রটিকে বৈশিষ্ট্য মানচিত্র X-এ রূপান্তরিত করা হয় যা তারপরে সমস্ত চ্যানেল কলাম অনুসারে বিভক্ত করে এবং অনুক্রমিক তথ্য পেতে সেগুলিকে একত্রিত করে X'-তে পুনরায় আকার দেওয়া হয়। X' আরও একটি দ্বি-দিকনির্দেশক GRU ব্যবহার করে H এ রূপান্তরিত হয়। জিআরইউ হল একটি নিউরাল নেটওয়ার্ক যা প্রকৃতিতে LSTM এর মতো এবং এটি সাময়িক তথ্য ক্যাপচার করতে পারে।

ডিকোডার থেকে আউটপুট পূর্বাভাস দেওয়ার সময় আরও একটি মনোযোগ মডেল নিযুক্ত করা হয়। গবেষণামূলক দুটি মনোযোগ ব্যবস্থা নিয়ে গবেষণামূলকভাবে এই কাগজটি আলোচনা করেছে।

বিষয়বস্তু ভিত্তিক মনোযোগ : - এর পিছনে ধারণাটি হ'ল ডিকোডারের বর্তমান লুকানো অবস্থা এবং এনকোডার থেকে বৈশিষ্ট্য মানচিত্রের মধ্যে সাদৃশ্য খুঁজে পাওয়া। এনকোডারটির বৈশিষ্ট্য মানচিত্রে আমরা সর্বাধিক সম্পর্কযুক্ত বৈশিষ্ট্য ভেক্টর খুঁজে পেতে পারি, যা বর্তমান সময়ের ধাপে বর্তমান চরিত্রটির পূর্বাভাস দিতে ব্যবহার করা যেতে পারে। মনোযোগ ব্যবস্থা কীভাবে কাজ করে তার আরও বিশদটি এখান থেকে দেখা যায় দৃষ্টি আকর্ষণ করছি
অবস্থান-ভিত্তিক মনোযোগ :- বিষয়বস্তু-ভিত্তিক অবস্থান পদ্ধতির প্রধান অসুবিধা হল যে একটি অন্তর্নিহিত অনুমান রয়েছে যে অবস্থানের তথ্য এনকোডারের আউটপুটে এম্বেড করা হয়েছে। অন্যথায় ডিকোডার থেকে পুনরাবৃত্তি করা অক্ষর আউটপুটগুলির মধ্যে পার্থক্য করার কোন উপায় নেই। উদাহরণস্বরূপ একটি শব্দ Charmander বিবেচনা করুন, a অক্ষরটি এতে দুবার পুনরাবৃত্তি হয় এবং অবস্থানের তথ্য ছাড়া ডিকোডার তাদের আলাদা অক্ষর হিসাবে ভবিষ্যদ্বাণী করতে সক্ষম হবে না। এটি উপশম করতে বর্তমান অক্ষর এবং এর প্রান্তিককরণ এনকোডার আউটপুট এবং পূর্ববর্তী প্রান্তিককরণ উভয় ব্যবহার করে পূর্বাভাস দেওয়া হয়। অবস্থান ভিত্তিক উপস্থিতি কীভাবে কাজ করে সে সম্পর্কে আরও বিশদ দেখা যেতে পারে এখানে.

ডিকোডারটি এক দিকনির্দেশক বহু-স্তরযুক্ত জিআরইউ। প্রতিটি সময়ে ধাপে এটি মনোযোগ মডিউল থেকে পূর্ববর্তী সময় ধাপ এবং প্রসঙ্গ ভেক্টর থেকে ইনপুট গ্রহণ করে। বহুজাতিক ডিকোডিং এবং লেবেল স্মুথিং সাধারণকরণের দক্ষতা উন্নত করার প্রশিক্ষণে অন্বেষণ করা হয়।

ট্রান্সফর্মার মডেল

যদিও এনকোডার-ডিকোডার নেটওয়ার্কগুলি হস্তাক্ষর স্বীকৃতির জন্য ফলাফল অর্জনে বেশ ভাল হয়েছে তাদের LSTM স্তর জড়িত থাকার কারণে প্রশিক্ষণে বাধা রয়েছে এবং তাই সমান্তরাল করা যায় না। সম্প্রতি ট্রান্সফরমারগুলি বেশ সফল হয়েছে এবং ভাষা সম্পর্কিত বিভিন্ন কাজ সমাধানে LSTM প্রতিস্থাপিত হয়েছে। আসুন এখন আলোচনা করা যাক কিভাবে ট্রান্সফরমার ভিত্তিক মডেলগুলি হাতের লেখার স্বীকৃতির জন্য প্রয়োগ করা যেতে পারে।

আপনি যা পড়ছেন তাতে মনোযোগ দিন

এই কাজে লেখকগণ ভিজ্যুয়াল এবং পাঠ্য উভয় পর্যায়ে বহু-মাথা মনোযোগ আত্ম-মনোযোগ স্তরগুলি ব্যবহার করে ট্রান্সফর্মার ভিত্তিক আর্কিটেকচারের ব্যবহারের প্রস্তাব করেছিলেন এবং এইভাবে চরিত্রের স্বীকৃতি পাশাপাশি অক্ষর অনুসারে ভাষা-সম্পর্কিত নির্ভরতা উভয়ই শিখতে পারেন। যেহেতু ভাষা জ্ঞানটি নিজেই মডেলটিতে এম্বেড থাকে তাই কোনও ভাষা মডেল ব্যবহার করে কোনও অতিরিক্ত পোস্ট-প্রসেসিং পদক্ষেপের প্রয়োজন হয় না এবং তাই শব্দভাণ্ডারের অংশ নয় এমন ফলাফলগুলি পূর্বাভাস দেওয়ার ক্ষমতা রয়েছে। এই পাঠ্যটি অর্জন করতে এনকোডিংটি অক্ষরের স্তরে ঘটে শব্দের স্তরে নয়। যেহেতু ট্রান্সফর্মার আর্কিটেকচার প্রতিটি অঞ্চল বা চরিত্রের জন্য সমান্তরালভাবে মডেলটিকে প্রশিক্ষণের অনুমতি দেয়, প্রশিক্ষণ প্রক্রিয়াটি আরও সরল করা হয়।

নেটওয়ার্ক আর্কিটেকচারে নিম্নলিখিত উপাদানগুলি থাকে

ভিজ্যুয়াল এনকোডার : - প্রাসঙ্গিক বৈশিষ্ট্যগুলি নিষ্কাশন করতে এবং বিভিন্ন চরিত্রের অবস্থানগুলিতে একাধিক-মাথা ভিজ্যুয়াল স্ব-মনোযোগ প্রয়োগ করতে
পাঠ্য ট্রান্সক্রাইবার : - এটি পাঠ্য ইনপুট নেওয়া, এটি এনকোড করা, বহু-মাথাযুক্ত ভাষার স্ব-মনোযোগ প্রয়োগ করা এবং ভিজ্যুয়াল এবং পাঠ্য উভয় বৈশিষ্ট্যেই পারস্পরিক মনোযোগ প্রয়োগ করার কাজ করে।

ভিজ্যুয়াল এনকোডার

Resnet50 ব্যাকবোন অতিরিক্ত বৈশিষ্ট্যগুলি ব্যবহার করতে হবে যা উপরের চিত্রে দেখা যায়। Resnet3 Fc থেকে 50 ডাইমেনশনাল ফিচার ম্যাপ আউটপুটটি টেম্পোরাল এনকোডিং মডিউলে পাঠানো হয় যা একই প্রস্থ রেখে 2d তে পুনরায় আকার দেয় এবং তাই (f x h, w) এর আকৃতি। আকৃতিকে (f, w) কমাতে এটি একটি সম্পূর্ণ সংযুক্ত স্তরে খাওয়ানো হয় এবং ফলস্বরূপ আউটপুট হয় Fc'। উপরন্তু ভাসওয়ানির ট্রান্সফরমার পেপারে উল্লিখিত অবস্থানের তথ্য ধরে রাখতে Fc'-এ একটি অবস্থানগত এনকোডিং TE যোগ করা হয়েছে। ট্রান্সফরমার আর্কিটেকচার কিভাবে ডিজাইন করা হয়েছে তার আরও তথ্য দেখা যাবে এখানে। আকৃতির (চ, ডাব্লু) সাথে চূড়ান্ত বৈশিষ্ট্য মানচিত্রটি পাওয়ার জন্য আউটপুট সম্পূর্ণ সংযুক্ত স্তরের মধ্য দিয়ে যায়। চাক্ষুষ সমৃদ্ধ বৈশিষ্ট্য মানচিত্রটি পেতে 8 টি মাথা সহ একাধিক-প্রধান মনোযোগ মডিউলটির মধ্য দিয়ে চূড়ান্ত আউটপুটটি পাস হবে

পাঠ্য ট্রান্সক্রাইবার

ইনপুট পাঠ্যটি একটি এনকোডার দিয়ে যায় যা অক্ষর স্তর এম্বেডিংগুলি উত্পন্ন করে। এই এম্বেডিংগুলি টেম্পোরাল এনকোডার মডিউলটি ব্যবহার করে ভিজ্যুয়াল এনকোডারের মতো সাময়িক অবস্থানের সাথে মিলিত হয়। এর পরে এই ফলাফলটি একটি বহু-প্রধান ভাষার স্ব-মনোযোগ মডিউলে যায় যা ভিজুয়াল এনকোডারটিতে মনোযোগ মডিউলের অনুরূপ। ভিজ্যুয়াল এনকোডার থেকে ভিজ্যুয়াল বৈশিষ্ট্যগুলি সহ উত্পন্ন পাঠ্য বৈশিষ্ট্যগুলি একটি পারস্পরিক মনোযোগ মডিউলকে দেওয়া হয়েছে যার কাজটি চিত্র এবং পাঠ্য ইনপুট উভয় থেকে শিখে নেওয়া বৈশিষ্ট্যগুলি সারিবদ্ধ এবং একত্রিত করা। চূড়ান্ত ফলাফল পেতে আউটপুটটি একটি সফটম্যাক্স ফাংশনটির মধ্য দিয়ে যায়।

পরীক্ষার ডেটাতে মূল্যায়ন করার সময়, প্রতিলিপিগুলি পাওয়া যায় না। সুতরাং কেবল সূচনা টোকেন <এস> ইনপুট হিসাবে পাস হয় এবং প্রথম পূর্বাভাসিত অক্ষরটিকে সিস্টেমে ফিরিয়ে দেওয়া হয়, যা দ্বিতীয় পূর্বাভাসিত অক্ষরকে আউটপুট করে। সিকোয়েন্স প্রতীক <ই> উত্পাদিত না হওয়া বা সর্বাধিক আউটপুট দৈর্ঘ্য এন পৌঁছানোর আগ পর্যন্ত এই অনুমান প্রক্রিয়াটি একটি লুপে পুনরাবৃত্তি হয়।

হস্তাক্ষর পাঠ্য জেনারেশন

হস্তাক্ষর টেক্সট জেনারেশন হল বাস্তব চেহারার হাতে লেখা টেক্সট তৈরি করা এবং এইভাবে বিদ্যমান ডেটাসেটগুলিকে বাড়ানোর জন্য ব্যবহার করা যেতে পারে। যেমনটি আমরা জানি যে গভীর শিক্ষার জন্য প্রশিক্ষণের জন্য প্রচুর ডেটার প্রয়োজন হয় যখন বিভিন্ন ভাষার জন্য লেবেলযুক্ত হস্তাক্ষর চিত্রের বিশাল কর্পাস প্রাপ্ত করা একটি কষ্টকর কাজ। এটি সমাধান করার জন্য আমরা প্রশিক্ষণের ডেটা তৈরি করতে জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক ব্যবহার করতে পারি। এখানে এমন একটি স্থাপত্য নিয়ে আলোচনা করা যাক

স্ক্র্যাবলগ্যান

স্ক্র্যাবলগ্যান হস্তাক্ষর লিখিত চিত্রগুলিকে সংশ্লেষিত করতে একটি আধা তত্ত্বাবধানের পদ্ধতি অনুসরণ করে যা স্টাইল এবং অভিধানে উভয়ই বহুমুখী। এতে বিভিন্ন দৈর্ঘ্যের চিত্র উত্পন্ন করার ক্ষমতা রয়েছে। জেনারেটর ফলস্বরূপ পাঠ্য শৈলীটিও হেরফের করতে পারে যা আমাদের সিদ্ধান্ত নিতে দেয় যে পাঠ্যটি অনুগ্রহ করে কিনা বা পেন / স্ট্রোকটি কত পুরু হতে হবে তা বলতে পারি

আর্কিটেকচারে বিগজিএএন-এর উপর ভিত্তি করে একটি সম্পূর্ণ সমঝোতা জেনারেটর রয়েছে। ইনপুটটির প্রতিটি চরিত্রের জন্য সংশ্লিষ্ট ফিল্টারটি বেছে নেওয়া হয় এবং সমস্ত মান একসাথে সংমিশ্রিত হয় যা পরে শয়েজ ভেক্টর z দ্বারা গুণিত হয় যা উত্পন্ন পাঠ্য শৈলী নিয়ন্ত্রণ করে। উপরে যেমন দেখা যায়, প্রতিটি স্বতন্ত্র চরিত্রের জন্য উত্পন্ন অঞ্চলগুলি এইভাবে সংযুক্ত পুনরাবৃত্তির পাঠ্য তৈরি করতে সহায়তা করে পাশাপাশি বিভিন্ন অক্ষরের আকারের নমনীয়তাটিকে সহায়তা করে। উদাহরণস্বরূপ এম স্থান অনেকাংশ নেয় এবং ই এবং টি সীমিত অঞ্চল নেয়। পুরো শব্দ বা বাক্যগুলির জন্য একই শৈলী ধরে রাখতে, শৈলীর ভেক্টর z সকল অক্ষরের জন্য স্থির রাখা হয়।

BigGAN আর্কিটেকচারের উপর ভিত্তি করে একটি কনভোল্যুশনাল ডিসক্রিমিনেটর ব্যবহার করা হয় শ্রেণীবদ্ধ করার জন্য যদি ইমেজের জেনারেট স্টাইলটি নকল বা আসল দেখায়। বৈষম্যকারী অক্ষর স্তরের টীকাগুলির উপর নির্ভর করে না এবং তাই একটি শ্রেণি শর্তাধীন GAN এর উপর ভিত্তি করে নয়। এর সুবিধা হল লেবেলযুক্ত ডেটার কোনও প্রয়োজন নেই এবং তাই অদেখা সংস্থার ডেটা যা প্রশিক্ষণ ডেটার অংশ নয় তা প্রশিক্ষণ বৈষম্যকারীর জন্য ব্যবহার করা যেতে পারে। বৈষম্যকারীর সাথে সাথে একজন পাঠ্য শনাক্তকারী R কে শ্রেণীবদ্ধ করার জন্য প্রশিক্ষিত করা হয় যে তৈরি করা পাঠ্যটি বাস্তব জগতের অর্থবোধ করে বা এটি অবাস্তব। শনাক্তকারীটি CRNN আর্কিটেকচারের উপর ভিত্তি করে তৈরি করা হয়েছে যার সাথে রিকারেন্ট হেড সরানো হয়েছে যাতে শনাক্তকারীকে একটু দুর্বল করে দেওয়া হয় এবং পাঠ্যটি অস্পষ্ট হলেও শনাক্ত করা যায় না। R-এর আউটপুটে উত্পন্ন পাঠ্যকে জেনারেটরকে দেওয়া ইনপুট পাঠ্যের সাথে তুলনা করা হয় এবং ক্ষতি ফাংশনে একটি সংশ্লিষ্ট শাস্তি যোগ করা হয়।

স্ক্র্যাবলগ্যান দ্বারা উত্পাদিত আউটপুটগুলি নীচে দেখানো হয়েছে

ডাটাসেটস: -

আমি : - আইএএম ডেটাসেটে 100 টি বিভিন্ন লেখকের লেখা ইংরেজি ভাষার শব্দগুলির প্রায় 657k শব্দের চিত্র রয়েছে। ট্রেন, পরীক্ষা এবং বৈধতা সেটটিতে পারস্পরিক একচেটিয়া লেখকদের লিখিত শব্দগুলি রয়েছে: লিংক: - http://www.fki.inf.unibe.ch/databases/iam-handwriting-database
CVL : - সিভিএল ডেটাসেটটিতে প্রায় ৩১০ জন অংশগ্রহণকারী দ্বারা লেখা সাতটি হস্তাক্ষর দলিল রয়েছে, যার ফলস্বরূপ ট্রেন এবং পরীক্ষার সেটে বিভক্ত প্রায় 310 ক শব্দ শস্যের লিঙ্ক: - https://cvl.tuwien.ac.at/research/cvl-databases/an-off-line-database-for-writer-retrieval-writer-identification-and-word-spotting/
রিমস : - প্রায় 60 কে চিত্রের ফ্রেঞ্চ ভাষা থেকে শব্দ এবং 1300 জন লেখক দ্বারা লিখিত প্রতিটি ব্যক্তির প্রায় 5 টি মেল সম্পর্কিত লিঙ্ক রয়েছে: লিংক: - http://www.a2ialab.com/doku.php?id=rimes_database:start

মেট্রিক্স: -

চরিত্রের ত্রুটির হার : - এটি লেভেনস্টাইন দূরত্ব হিসাবে গণনা করা হয় যা অক্ষরের বিকল্প (স্ক), সন্নিবেশ (আইসি) এবং মুছে ফেলা (ডিসি) এর যোগফল যা একটি স্ট্রিংকে অন্যে রূপান্তর করতে প্রয়োজন, মোট অক্ষরের সংখ্যা দ্বারা বিভক্ত গ্রাউন্ডথ্রথ (এনসি)

শব্দ ত্রুটি হার : - এটি শব্দ প্রতিস্থাপন (ডাব্লু), সন্নিবেশ (আইডাব্লু) এবং মুছে ফেলা (ডিডাব্লু) এর সমষ্টি হিসাবে গণনা করা হয় যা গ্রাউন্ডথ্রুথ (এনডাব্লু) এর মোট শব্দের দ্বারা বিভক্ত হয়ে একটি স্ট্রিংকে অন্য স্ট্রিংয়ে রূপান্তর করতে হয় are

আপনার নিজের হাতের লেখার স্বীকৃতি মডেলকে প্রশিক্ষণ দিন

এখন দেখা যাক কিভাবে আমরা আমাদের নিজের হাতে লেখা টেক্সট রিকগনিশন মডেলকে প্রশিক্ষণ দিতে পারি। আমরা আইএএম ডেটাসেটের প্রশিক্ষণ নেব তবে আপনি নিজের ডেটাসেটে মডেলটিকেও প্রশিক্ষণ দিতে পারেন। এর সেট আপ জড়িত পদক্ষেপ আলোচনা করা যাক

উপাত্ত

থেকে আইএএম ডেটাসেট রেজিস্টার ডাউনলোড করতে এখানে। একবার নিবন্ধিত ডাউনলোড words.tgz থেকে এখানে। এটিতে হাতে লেখা শব্দের চিত্রগুলির একটি ডেটাসেট রয়েছে। এছাড়াও টীকাগুলির ফাইল words.txt থেকে ডাউনলোড করুন এখানে.

আপনি যদি নিজের নিজস্ব ডেটাसेट ব্যবহার করতে চান তবে আপনাকে আইএএম ডেটাসেটের ডেটা স্ট্রাকচারিং অনুসরণ করতে হবে।

উপরের AIM ডেটাসেট ফোল্ডারের কাঠামো কেমন দেখায় তা দেখায়। এখানে a01, a02 ইত্যাদি প্যারেন্ট ফোল্ডারের প্রতিনিধিত্ব করে যার প্রতিটিতে ডেটার সাব-ফোল্ডার রয়েছে। প্রতিটি সাব-ফোল্ডারে ফাইলের নামের সাথে একটি উপসর্গ হিসাবে ফোল্ডারের নাম যুক্ত ছবির একটি সেট থাকে।

ইমেজ ফাইলগুলির সাথে সম্পর্কিত পাথ এবং সংশ্লিষ্ট ট্রান্সক্রিপশনগুলি উল্লেখ করার জন্য আমাদের পাশাপাশি একটি টীকা ফাইলের দরকার। উদাহরণস্বরূপ উপরোক্ত চিত্রটি পাঠ্য মনোনয়নের সাথে বিবেচনা করুন, নীচে এনটোটেশন ফাইল words.txt এ উপস্থাপনা হবে

a01-000u-01-00 ঠিক আছে 156 395 932 441 100 ভিবিজি মনোনীত

a01-000u-01-00 -> a01-000u আকারে একটি লাইনের জন্য শব্দ আইডি
ঠিক আছে / ত্রুটি -> বিভাজন আউটপুট মানের মানের সূচক
156 -> ধূসর স্তরটি এই শব্দটি সমেত লাইনটিকে দ্বির্মুখী করতে
395 932 441 100 -> x, y, w, h ফর্ম্যাটে এই শব্দটির চারপাশে বাউন্ডিং বক্স box
ভিবিজি -> এই শব্দের জন্য ব্যাকরণগত ট্যাগ। এখানে এটি ভার্ব গেরুন্ড
মনোনীত -> এই শব্দের প্রতিলিপি

আর্কিটেকচার: -

আমরা সিটিসি লোকসানের সাথে সিআরএনএন ভিত্তিক আর্কিটেকচার প্রশিক্ষণ দেব। একটি সিএনএন ভিজ্যুয়াল বৈশিষ্ট্যগুলি নিষ্কাশনের জন্য ব্যবহার করা হয় যা কোনও আরএনএনকে দেওয়া হয় এবং আউটপুট পেতে লোভী ডিকোডার দিয়ে একটি সিটিসি ক্ষতি শেষ করে প্রয়োগ করা হয়।

প্রশিক্ষণ

আমরা সিআরএনএন কোড ব্যবহার করব এখানে আমাদের মডেল প্রশিক্ষণ। ডেটা প্রস্তুত করতে নীচ থেকে পদক্ষেপগুলি অনুসরণ করুন

python checkDirs.py

কমান্ডের উপরে রান করুন এবং আপনার নীচের মত একটি আউটপুট দেখতে হবে

[ঠিক আছে] শব্দ /
[ঠিক আছে] শব্দ / a01 / a01-000u /
[ঠিক আছে] words.txt
[ঠিক আছে] test.png
[OK] words/a01/a01-000u/a01-000u-00-00.png

এখন আপনি প্রশিক্ষণ শুরু করতে প্রস্তুত।

রুট ডিরেক্টরিতে যান এবং সম্পাদন করুন

python main.py --train

ফলাফল

প্রায় 50 যুগের জন্য প্রশিক্ষণের পরে অক্ষর ত্রুটি হার (সিইআর) 10.72% হয় যখন ওয়ার্ড ত্রুটি হার (ডব্লিউইআর) 26.45% এবং সুতরাং শব্দটির যথার্থতা 73.55%। কিছু ভবিষ্যদ্বাণী নীচের চিত্রটিতে দেখা যাবে।

মডেল চরিত্রগুলিকে অনেকাংশে নির্ভুলভাবে ভবিষ্যদ্বাণী করতে সক্ষম হয় তবে এটি কয়েকটি ক্ষেত্রে ভোগে যেমন ভয়াবহভাবে ভবিষ্যদ্বাণী করা হয়, গল্পগুলি স্টারিজ হিসাবে পূর্বাভাস দেওয়া হয়। এই সমস্যাগুলি ডিকোডার সহ একটি পোস্ট প্রসেসিং পদক্ষেপ হিসাবে একটি ভাষা মডেল নিয়োগের মাধ্যমে সমাধান করা যেতে পারে যা অর্থপূর্ণ শব্দ উত্পন্ন করতে পারে এবং সহজ ভুলগুলি সংশোধন করতে পারে।

সারাংশ

যদিও প্রযুক্তির ক্ষেত্রে উল্লেখযোগ্য উন্নয়ন হয়েছে যা হস্তাক্ষর পাঠ্যের আরও ভাল স্বীকৃতি দিতে সহায়তা করে, এইচটিআর ওসিআরের তুলনায় একটি সমাধান করা সমস্যা থেকে অনেক দূরে এবং তাই এখনও শিল্পে ব্যাপকভাবে নিযুক্ত হয় নি। তবুও প্রযুক্তির বিবর্তনের গতি এবং ট্রান্সফর্মারগুলির মতো মডেলগুলির প্রবর্তনের সাথে সাথে আমরা আশা করতে পারি যে এইচটিআর মডেলগুলি শীঘ্রই একটি সাধারণ জায়গা হয়ে উঠবে।

এই বিষয়ে আরও গবেষণা ধরতে আপনি এখান থেকে শুরু করতে পারেন এখানে

আরও পড়া

সময় স্ট্যাম্প: মার্চ 9, 2022

সময় স্ট্যাম্প: ডিসেম্বর 18, 2023