مشین لرننگ کا استعمال کرتے ہوئے ہینڈ رائٹنگ کی شناخت آسانی سے کیسے کریں۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

مشین لرننگ کا استعمال کرتے ہوئے ہینڈ رائٹنگ ریکگنیشن آسانی سے کیسے کریں۔

ہاتھ سے لکھا ہوا OCR کرنا چاہتے ہیں؟ یہ بلاگ گہری سیکھنے کا استعمال کرتے ہوئے ہینڈ رائٹنگ کی شناخت کے جدید ترین طریقوں کا ایک جامع جائزہ ہے۔ ہم نے تازہ ترین تحقیق اور کاغذات کا جائزہ لیا ہے اور شروع سے ہینڈ رائٹنگ ریڈر بھی بنایا ہے۔

نانونٹس OCR API بہت سے دلچسپ ہیں مقدمات کا استعمال کریں. مزید جاننے کے لیے Nanonets AI ماہر سے بات کریں۔

تعارف

آپٹیکل کریکٹر ریکگنیشن (OCR) کی مارکیٹ کا حجم 13.38 تک 2025 بلین امریکی ڈالر ہونے کی توقع ہے جس میں سال بہ سال 13.7 فیصد اضافہ ہوگا۔ یہ ترقی OCR کا استعمال کرتے ہوئے کاروباری عملوں کی تیزی سے ڈیجیٹائزیشن سے ہوتی ہے تاکہ مزدوری کی لاگت کو کم کیا جا سکے اور قیمتی انسانی گھنٹوں کو بچایا جا سکے۔ اگرچہ OCR کو ایک حل شدہ مسئلہ سمجھا جاتا ہے لیکن اس کا ایک اہم جز ہے، ہینڈ رائٹنگ ریکگنیشن (ہینڈ رائٹنگ OCR) یا ہاتھ سے لکھے ہوئے ٹیکسٹ ریکگنیشن (HTR) جسے اب بھی ایک چیلنجنگ مسئلہ بیان سمجھا جاتا ہے۔ لوگوں کے درمیان ہینڈ رائٹنگ کے انداز میں زیادہ فرق اور پرنٹ شدہ ٹیکسٹ کے مقابلے ہاتھ سے لکھے ہوئے متن کی خراب کوالٹی اسے مشین پڑھنے کے قابل متن میں تبدیل کرنے میں اہم رکاوٹیں کھڑی کرتی ہے۔ اس کے باوجود صحت کی دیکھ بھال، انشورنس اور بینکنگ جیسی متعدد صنعتوں کے لیے حل کرنا ایک اہم مسئلہ ہے۔

مشین لرننگ کا استعمال کرتے ہوئے ہینڈ رائٹنگ ریکگنیشن آسانی سے کیسے کریں۔ — ذریعہ :- https://www.semanticscholar.org/paper/Handwriting-recognition-on-form-document-using-and-Darmatasia-Fanany/

ڈیپ لرننگ میں حالیہ پیشرفت جیسے کہ ٹرانسفارمر آرکیٹیکچرز کی آمد نے ہاتھ سے لکھے ہوئے متن کی شناخت کو کریک کرنے میں ہماری پیشرفت کو تیزی سے ٹریک کیا ہے۔ ہاتھ سے لکھے ہوئے متن کو پہچاننے کو انٹیلیجنٹ کریکٹر ریکگنیشن (ICR) کہا جاتا ہے اس حقیقت کی وجہ سے کہ ICR کو حل کرنے کے لیے درکار الگورتھم کو عام OCR کو حل کرنے سے کہیں زیادہ ذہانت کی ضرورت ہوتی ہے۔

اس مضمون میں ہم ہاتھ سے لکھے ہوئے متن کی شناخت کے کام کے بارے میں سیکھیں گے، اس کی پیچیدگیاں ہیں اور ہم اسے سیکھنے کی گہری تکنیکوں کا استعمال کرتے ہوئے کیسے حل کر سکتے ہیں۔

ہاتھ سے لکھے ہوئے فارم سے ڈیٹا نکالنا چاہتے ہیں؟ کی طرف بڑھیں۔ نانونٹس اور مفت میں ہینڈ رائٹنگ OCR ماڈل بنانا شروع کریں!

ہینڈ رائٹنگ کی شناخت میں چیلنجز

ایک شخص سے دوسرے شخص میں اسٹروک کی بہت بڑی تبدیلی اور ابہام
ایک فرد کے ہاتھ سے لکھنے کا انداز بھی وقتاً فوقتاً مختلف ہوتا ہے اور متضاد ہوتا ہے۔
وقت کے ساتھ انحطاط کی وجہ سے ماخذ دستاویز/تصویر کا خراب معیار
پرنٹ شدہ دستاویزات میں متن سیدھی لکیر میں بیٹھتا ہے جبکہ انسانوں کو سفید کاغذ پر سیدھی لکیر میں متن کی لکیر لکھنے کی ضرورت نہیں ہوتی۔
کرسیو ہینڈ رائٹنگ کرداروں کی علیحدگی اور پہچان کو مشکل بناتی ہے۔
ہینڈ رائٹنگ میں متن کی دائیں طرف متغیر گردش ہو سکتی ہے جو پرنٹ شدہ متن کے برعکس ہے جہاں تمام متن سیدھا بیٹھا ہوتا ہے۔
سیکھنے کے لیے ایک اچھا لیبل لگا ڈیٹاسیٹ اکٹھا کرنا مصنوعی ڈیٹا کے مقابلے سستا نہیں ہے۔

استعمال کے مقدمات

صحت کی دیکھ بھال اور دواسازی

صحت کی دیکھ بھال/دواسازی کی صنعت میں مریضوں کے نسخے کی ڈیجیٹائزیشن ایک بڑا دردناک نقطہ ہے۔ مثال کے طور پر Roche روزانہ لاکھوں پیٹا بائٹس میڈیکل پی ڈی ایف کو ہینڈل کر رہا ہے۔ ایک اور شعبہ جہاں ہاتھ سے لکھے ہوئے متن کا پتہ لگانے کا کلیدی اثر ہوتا ہے وہ ہے مریض کا اندراج اور فارم ڈیجیٹائزیشن۔ اپنی خدمات کے ٹول کٹ میں ہینڈ رائٹنگ کی شناخت شامل کرنے سے، ہسپتال/دواسازی صارف کے تجربے کو نمایاں طور پر بہتر بنا سکتے ہیں۔

انشورنس

انشورنس کی ایک بڑی صنعت کو ایک دن میں 20 ملین سے زیادہ دستاویزات موصول ہوتی ہیں اور دعوے پر کارروائی میں تاخیر کمپنی کو بری طرح متاثر کر سکتی ہے۔ دعوے کی دستاویز میں لکھاوٹ کے مختلف انداز شامل ہو سکتے ہیں اور دعووں کی پروسیسنگ کی خالص دستی آٹومیشن پائپ لائن کو مکمل طور پر سست کر دے گی۔

بینکنگ

لوگ مستقل بنیادوں پر چیک لکھتے ہیں اور زیادہ تر غیر نقد لین دین میں چیک اب بھی اہم کردار ادا کرتے ہیں۔ بہت سے ترقی پذیر ممالک میں، چیک پراسیسنگ کے موجودہ طریقہ کار کے تحت بینک کے ملازم کو چیک پر موجود معلومات کو پڑھنے اور دستی طور پر درج کرنے اور دستخط اور تاریخ جیسے اندراجات کی تصدیق کرنے کی ضرورت ہوتی ہے۔ چونکہ بینک میں ہر روز بڑی تعداد میں چیکوں پر کارروائی کی جانی ہوتی ہے ایک ہینڈ رائٹنگ ٹیکسٹ ریکگنیشن سسٹم انسانی کام کے اخراجات اور گھنٹوں کو بچا سکتا ہے۔

آن لائن لائبریریاں

پوری دنیا تک رسائی کے لیے تصویری اسکینوں کو اپ لوڈ کرکے تاریخی علم کی بڑی مقدار کو ڈیجیٹل کیا جا رہا ہے۔ لیکن یہ کوشش اس وقت تک زیادہ کارآمد نہیں ہے جب تک کہ تصاویر میں موجود متن کی نشاندہی نہ کی جائے جس کو ترتیب، استفسار اور براؤز کیا جا سکتا ہے۔ ہینڈ رائٹنگ کی پہچان قرون وسطیٰ اور 20ویں صدی کی دستاویزات، پوسٹ کارڈز، تحقیقی مطالعات وغیرہ کو زندہ کرنے میں کلیدی کردار ادا کرتی ہے۔

طریقے

ہینڈ رائٹنگ کی شناخت کے طریقوں کو وسیع طور پر درج ذیل دو اقسام میں تقسیم کیا جا سکتا ہے۔

آن لائن طریقوں :- آن لائن طریقوں میں ڈیجیٹل قلم/اسٹائلس شامل ہوتا ہے اور فالج کی معلومات، قلم کی جگہ تک رسائی حاصل ہوتی ہے جب کہ متن لکھا جا رہا ہو جیسا کہ اوپر دائیں تصویر میں دیکھا گیا ہے۔ چونکہ متن کے لکھے جانے کے حوالے سے ان کے پاس بہت زیادہ معلومات ہوتی ہیں ان کی درجہ بندی بہت زیادہ درستگی کے ساتھ کی جا سکتی ہے اور متن میں مختلف حروف کے درمیان حد بندی زیادہ واضح ہو جاتی ہے۔
آف لائن طریقے :- آف لائن طریقوں میں متن کو ایک بار لکھنے کے بعد پہچاننا شامل ہے اور اس وجہ سے ماخذ یعنی کاغذ سے کچھ پس منظر کے شور کے ممکنہ اضافے کے ساتھ لکھنے کے دوران شامل اسٹروک/ڈائریکشن کی معلومات نہیں ہوگی۔

حقیقی دنیا میں فالج کی معلومات کو حاصل کرنے کے لیے سینسر کے ساتھ ڈیجیٹل قلم اٹھانا ہمیشہ ممکن/اسکیل ایبل نہیں ہوتا ہے اور اس لیے ٹیکسٹ آف لائن کو پہچاننے کا کام بہت زیادہ متعلقہ مسئلہ ہے۔ اس طرح، اب ہم آف لائن متن کو پہچاننے کے مسئلے کو حل کرنے کے لیے مختلف تکنیکوں پر بات کریں گے۔

تراکیب

ہینڈ رائٹنگ کی شناخت کو حل کرنے کے ابتدائی طریقوں میں مشین لرننگ کے طریقے شامل ہوتے ہیں جیسے پوشیدہ مارکوف ماڈلز (HMM)، SVM وغیرہ۔ ایک بار جب ابتدائی متن پہلے سے پروسیس ہو جاتا ہے، تو کلیدی معلومات جیسے لوپس، انفلیکشن پوائنٹس، اسپیکٹ ریشو وغیرہ کی شناخت کے لیے فیچر نکالا جاتا ہے۔ ایک انفرادی کردار کا۔ یہ تیار کردہ خصوصیات اب ایک درجہ بندی کرنے والے کو فیڈ کی جاتی ہیں جو کہ نتائج حاصل کرنے کے لیے HMM کہتے ہیں۔ مشین لرننگ ماڈلز کی کارکردگی دستی فیچر نکالنے کے مرحلے اور ان کی سیکھنے کی محدود صلاحیت کی وجہ سے کافی محدود ہے۔ فیچر نکالنے کا مرحلہ ہر انفرادی زبان کے لیے مختلف ہوتا ہے اور اس لیے یہ قابل توسیع نہیں ہے۔ گہری سیکھنے کی آمد کے ساتھ ہینڈ رائٹنگ کی درستگی میں زبردست بہتری آئی۔ آئیے ہینڈ رائٹنگ کی شناخت کے لیے گہری سیکھنے کے شعبے میں چند نمایاں تحقیقوں پر بات کرتے ہیں۔

کثیر جہتی ریکرنٹ نیورل نیٹ ورکس

RNN/LSTM جیسا کہ ہم جانتے ہیں دنیاوی نمونوں کی شناخت اور نتائج پیدا کرنے کے لیے ترتیب وار ڈیٹا سے نمٹ سکتا ہے۔ لیکن وہ 1D ڈیٹا سے نمٹنے تک محدود ہیں اور اس لیے تصویری ڈیٹا پر براہ راست لاگو نہیں ہوں گے۔ اس مسئلے کو حل کرنے کے لیے، اس مقالے کے مصنفین نے ایک کثیر جہتی RNN/LSTM ڈھانچہ تجویز کیا جیسا کہ ذیل کی تصویر میں دیکھا جا سکتا ہے۔

عام RNN اور کثیر جہتی RNN کے درمیان فرق درج ذیل ہے۔ ایک عام RNN میں، پوشیدہ پرت کہتی ہے کہ i-1 وقت میں پچھلی پوشیدہ پرت سے اسٹیٹ حاصل کرتا ہے۔ کثیر جہتی RNN میں مثال کے طور پر 2 جہتی RNN کہتے ہیں، پوشیدہ پرت (i، j) متعدد پچھلی پوشیدہ پرتوں یعنی (i-1, j) اور (i, j-1) سے ریاستیں حاصل کرتی ہے اور اس طرح دونوں سے سیاق و سباق حاصل کرتی ہے۔ ایک تصویر میں اونچائی اور چوڑائی جو کہ نیٹ ورک کے ذریعے مقامی علاقے کی واضح تفہیم حاصل کرنے کے لیے اہم ہے۔ نہ صرف پچھلی پرتوں سے بلکہ مستقبل کی پرتوں سے بھی معلومات حاصل کرنے کے لیے اس میں مزید توسیع کی گئی ہے جیسا کہ BI-LSTM t-1 اور t+1 سے معلومات حاصل کرتا ہے۔ اسی طرح ایک 2D MDRNN پوشیدہ پرت میں اب معلومات حاصل کر سکتا ہوں (i-1, j), (i, j-1), (i+1, j), (i, j+1) اس طرح تمام سمتوں میں سیاق و سباق کی گرفت کرتا ہے۔

پورے نیٹ ورک کا ڈھانچہ اوپر دکھایا گیا ہے۔ MDLSTM استعمال کیا جاتا ہے جو MDRNN کی مذکورہ بالا بحث سے RNN بلاک کو LSTM بلاک سے تبدیل کرنے کے سوا کچھ نہیں ہے۔ ان پٹ کو 3×4 سائز کے بلاکس میں تقسیم کیا گیا ہے جسے اب MDSTM تہوں میں فیڈ کیا گیا ہے۔ نیٹ ورک میں MDLSTM تہوں کا درجہ بندی کا ڈھانچہ ہے جس کے بعد فیڈ فارورڈ (ANN) تہوں کے ساتھ مل کر ہے۔ پھر فائنل آؤٹ پٹ کو 1D ویکٹر میں تبدیل کیا جاتا ہے اور CTC فنکشن کو آؤٹ پٹ پیدا کرنے کے لیے دیا جاتا ہے۔

کنکشنسٹ عارضی درجہ بندی (CTC) ایک الگورتھم ہے جو اسپیچ ریکگنیشن، ہینڈ رائٹنگ ریکگنیشن وغیرہ جیسے کاموں سے نمٹنے کے لیے استعمال کیا جاتا ہے جہاں صرف ان پٹ ڈیٹا اور آؤٹ پٹ ٹرانسکرپشن دستیاب ہے لیکن کوئی سیدھ کی تفصیلات فراہم نہیں کی گئی ہیں یعنی تقریر کے لیے آڈیو میں ایک مخصوص علاقہ یا ہینڈ رائٹنگ کے لیے تصاویر میں مخصوص خطہ ایک مخصوص کردار سے منسلک ہے۔ ہر کردار کو ایک ہی جگہ دینے جیسی آسان تحقیق کام نہیں کرے گی کیونکہ ہر کردار کی جگہ کی مقدار انسان سے دوسرے شخص اور وقتاً فوقتاً مختلف ہوتی ہے۔

ہمارے ہینڈ رائٹنگ کی شناخت کے استعمال کے کیس کے لیے کسی خاص جملے کے لیے ان پٹ امیج ریجنز پر غور کریں بطور ان پٹ X=[x1,x2،…،x**T] جبکہ متوقع آؤٹ پٹ بطور Y=[y1,y2،…،y**U] X کو دیکھتے ہوئے ہمیں درست Y تلاش کرنا چاہیے۔ CTC الگورتھم ان پٹ X لے کر اور تمام ممکنہ Y پر تقسیم دے کر کام کرتا ہے جس کا استعمال کرتے ہوئے ہم حتمی آؤٹ پٹ کے لیے پیشین گوئی کر سکتے ہیں۔

ان پٹ ریجن میں ڈپلیکیٹ حروف اور دہرائے جانے والے حروف کے درمیان فرق کرنے کے لیے CTC ایک بنیادی کردار کا استعمال کرتا ہے۔ مثال کے طور پر ایک خاص کریکٹر ان پٹ کے متعدد خطوں کو پھیلا سکتا ہے اور اس طرح CTC ایک ہی کردار کو لگاتار آؤٹ پٹ کرے گا۔ مثال:- ان پٹ جیمز اور CTC کا آؤٹ پٹ jjaammmees ہے۔ آخری آؤٹ پٹ بار بار آنے والے آؤٹ پٹ کو ختم کرکے اخذ کیا جاتا ہے اور اس وجہ سے ہمیں جیمز ملتا ہے۔ لیکن اب ڈپلیکیٹ حروف کو پیش کرنے کے لیے 'l' کو ہیلو میں کہتے ہیں، ہمیں جگہ پر علیحدگی کی ضرورت ہوتی ہے اور اس طرح تمام آؤٹ پٹ ہائفن (-) سے الگ ہوجاتے ہیں۔ اب ہیلو کے لیے آؤٹ پٹ h-ee-ll-llll-oo ہو سکتا ہے جو کہ اگر ٹوٹ جاتا ہے تو ہیلو ہو جائے گا نہ کہ ہیلو۔ CTC کیسے کام کرتا ہے اس بارے میں مزید معلومات یہاں دیکھی جا سکتی ہیں۔ CTC.

CTC کے آؤٹ پٹ کو ہر پوزیشن کے لیے سب سے زیادہ امکان کے سادہ تخمینے کی بنیاد پر ڈی کوڈ کرتے ہوئے، ہمیں ایسے نتائج مل سکتے ہیں جو حقیقی دنیا میں کوئی معنی نہیں رکھتے۔ اس کو حل کرنے کے لیے ہم نتائج کو بہتر بنانے کے لیے ایک مختلف ڈیکوڈر استعمال کر سکتے ہیں۔ آئیے ڈی کوڈنگ کی مختلف اقسام پر بات کرتے ہیں۔

بہترین راستے کی ضابطہ کشائی :- یہ وہ عام ضابطہ کشائی ہے جس پر ہم نے اب تک بات کی ہے۔ ہر پوزیشن پر ہم ماڈل کا آؤٹ پٹ لیتے ہیں اور سب سے زیادہ امکان کے ساتھ نتیجہ تلاش کرتے ہیں۔
بیم سرچ ڈی کوڈنگ :- ہر بار نیٹ ورک سے ایک ہی آؤٹ پٹ لینے کے بجائے بیم کی تلاش میں ایک سے زیادہ آؤٹ پٹ پاتھ کو ہر امکان کے ساتھ رکھنے کا مشورہ دیا جاتا ہے اور بیم کے سائز کو مستقل رکھنے کے لیے کم امکانات والے نئے آؤٹ پٹ اور ڈراپنگ پاتھ کے ساتھ سلسلہ کو وسعت دیتے ہیں۔ اس نقطہ نظر کے ذریعے حاصل کردہ نتائج لالچی نقطہ نظر کو استعمال کرنے سے زیادہ درست ہیں۔
زبان کے ماڈل کے ساتھ بیم تلاش کریں۔ :- بیم سرچ گرڈ سرچ سے زیادہ درست نتائج فراہم کرتی ہے لیکن پھر بھی یہ بامعنی نتائج حاصل کرنے کا مسئلہ حل نہیں کرے گی۔ اس کو حل کرنے کے لیے ہم حتمی نتائج پیدا کرنے کے لیے ماڈل اور لینگویج ماڈل دونوں کے امکانات کا استعمال کرتے ہوئے بیم سرچ کے ساتھ لینگویج ماڈل کا استعمال کر سکتے ہیں۔

درست ضابطہ کشائی کے نتائج پیدا کرنے میں مزید تفصیلات اس میں دیکھی جا سکتی ہیں۔ مضمون

انکوڈر-ڈیکوڈر اور توجہ کے نیٹ ورکس

انکوڈر-ڈیکوڈر نیٹ ورکس کے حامل Seq2Seq ماڈل حال ہی میں تقریر کی شناخت، مشینی ترجمہ وغیرہ کے کاموں کو حل کرنے کے لیے مقبول ہوئے ہیں اور اس طرح ایک اضافی توجہ کا طریقہ کار تعینات کرکے ہینڈ رائٹنگ کی شناخت کے استعمال کے معاملے کو حل کرنے کے لیے بڑھا دیا گیا ہے۔ آئیے اس علاقے میں کچھ بنیادی تحقیق پر بات کرتے ہیں۔

اسکین کریں، شرکت کریں اور پڑھیں

اسکین، اٹینڈ اینڈ ریڈ (SAR) کے اس بنیادی کام میں مصنفین آخر سے آخر تک ہینڈ رائٹنگ کی شناخت کے لیے توجہ پر مبنی ماڈل کے استعمال کی تجویز پیش کرتے ہیں۔ تحقیق کا بنیادی حصہ لکیروں میں تقسیم کیے بغیر متن کا خودکار ٹرانسکرپشن ہے جیسا کہ ایک پری پروسیسنگ مرحلہ ہے اور اس طرح پورے صفحے کو اسکین کر کے نتائج دے سکتے ہیں۔

SAR MDLSTM پر مبنی فن تعمیر کا استعمال کرتا ہے جیسا کہ ہم نے اوپر بحث کی آخری پرت میں ایک چھوٹی تبدیلی کے ساتھ۔ آخری لکیری پرت کے بعد یعنی اوپر کے اعداد و شمار میں حتمی سم بلاک کے بعد، خصوصیت کے نقشے عمودی جہت میں منہدم ہو جاتے ہیں اور آؤٹ پٹ حاصل کرنے کے لیے ایک حتمی سافٹ میکس فنکشن لاگو کیا جاتا ہے۔

SAR فن تعمیر ایک MDLSTM فن تعمیر پر مشتمل ہے جو فیچر ایکسٹریکٹر کے طور پر کام کرتا ہے۔ سوفٹ میکس آؤٹ پٹ اور CTC نقصان کے ساتھ آخری ٹوٹنے والے ماڈیول کو توجہ کے ماڈیول اور LSTM ڈیکوڈر سے بدل دیا گیا ہے۔ توجہ کا ماڈل استعمال کیا گیا مواد پر مبنی توجہ اور مقام پر مبنی توجہ کا ایک ہائبرڈ امتزاج ہے جس کی مزید تفصیل اگلے مقالے میں بیان کی گئی ہے۔ ڈیکوڈر LSTM ماڈیول پچھلی حالت، پچھلی توجہ کا نقشہ اور انکوڈر کی خصوصیات کو لے کر اگلی پیشین گوئی کے لیے حتمی آؤٹ پٹ کریکٹر اور اسٹیٹ ویکٹر تیار کرتے ہیں۔

Convolve، شرکت اور ہجے

یہ کاغذ ہاتھ سے لکھے ہوئے لفظ کی شناخت کے لیے توجہ پر مبنی ترتیب سے ترتیب ماڈل تجویز کرتا ہے۔ مجوزہ فن تعمیر کے تین اہم حصے ہیں: ایک انکوڈر، جس میں ایک CNN اور ایک دو جہتی GRU پر مشتمل ہوتا ہے، متعلقہ خصوصیات پر توجہ مرکوز کرنے کے لیے ایک توجہ کا طریقہ کار اور ایک جہتی GRU کے ذریعے تشکیل دیا جانے والا ڈیکوڈر، متعلقہ لفظ کو ہجے کرنے کے قابل، کردار کی طرف سے کردار.

انکوڈر بصری خصوصیات کو نکالنے کے لیے CNN کا استعمال کرتا ہے۔ پہلے سے تربیت یافتہ VGG-19-BN فن تعمیر کو فیچر ایکسٹریکٹر کے طور پر استعمال کیا جاتا ہے۔ ان پٹ امیج کو فیچر میپ X میں تبدیل کیا جاتا ہے جس کے بعد تمام چینلز کو کالم کے مطابق تقسیم کرکے اور ترتیب وار معلومات حاصل کرنے کے لیے ان کو ملا کر X' میں تبدیل کیا جاتا ہے۔ X' کو مزید دو طرفہ GRU استعمال کرکے H میں تبدیل کیا جاتا ہے۔ GRU فطرت میں LSTM کی طرح ایک نیورل نیٹ ورک ہے اور وقتی معلومات حاصل کر سکتا ہے۔

مزید برآں ڈیکوڈر سے آؤٹ پٹ کی پیشن گوئی کرتے وقت توجہ کا ماڈل استعمال کیا جاتا ہے۔ اس مقالے میں دو مختلف قسم کے توجہ کے طریقہ کار پر بحث کی گئی ہے۔

مواد پر مبنی توجہ :- اس کے پیچھے خیال ڈیکوڈر کی موجودہ پوشیدہ حالت اور انکوڈر سے فیچر میپ کے درمیان مماثلت تلاش کرنا ہے۔ ہم انکوڈر کے فیچر میپ میں سب سے زیادہ مربوط فیچر ویکٹرز تلاش کر سکتے ہیں، جن کا استعمال موجودہ وقت کے مرحلے پر موجودہ کردار کی پیشن گوئی کرنے کے لیے کیا جا سکتا ہے۔ توجہ کا طریقہ کار کس طرح کام کرتا ہے اس کی مزید تفصیلات یہاں سے دیکھی جا سکتی ہیں۔ توجہ
مقام پر مبنی توجہ :- مواد پر مبنی لوکیشن میکانزم کا بنیادی نقصان یہ ہے کہ ایک واضح مفروضہ ہے کہ مقام کی معلومات انکوڈر کے آؤٹ پٹ میں شامل ہے۔ بصورت دیگر کریکٹر آؤٹ پٹ کے درمیان فرق کرنے کا کوئی طریقہ نہیں ہے جو ڈیکوڈر سے دہرائے جاتے ہیں۔ مثال کے طور پر ایک لفظ Charmander پر غور کریں، اس میں کردار a کو دو بار دہرایا گیا ہے اور مقام کی معلومات کے بغیر ڈیکوڈر ان کی الگ الگ حروف کے طور پر پیشین گوئی نہیں کر سکے گا۔ اس کو کم کرنے کے لیے موجودہ کریکٹر اور اس کی سیدھ میں انکوڈر آؤٹ پٹ اور پچھلی سیدھ دونوں کا استعمال کرکے پیش گوئی کی جاتی ہے۔ مقام کی بنیاد پر حاضری کے کاموں کے بارے میں مزید تفصیلات دیکھی جا سکتی ہیں۔ یہاں.

ڈیکوڈر ایک جہتی کثیر پرتوں والا GRU ہے۔ ہر بار اسٹیپ ٹی پر یہ پچھلے وقت کے اسٹیپ سے ان پٹ اور توجہ کے ماڈیول سے سیاق و سباق ویکٹر وصول کرتا ہے۔ تربیت میں ملٹی نامی ڈیکوڈنگ اور لیبل اسموتھنگ کو عام کرنے کی صلاحیت کو بہتر بنانے کے لیے تلاش کیا جاتا ہے۔

ٹرانسفارمر ماڈلز

اگرچہ انکوڈر-ڈیکوڈر نیٹ ورک ہینڈ رائٹنگ کی شناخت کے نتائج حاصل کرنے میں کافی اچھے رہے ہیں ان میں LSTM پرتوں کی وجہ سے تربیت میں رکاوٹ ہے اور اس وجہ سے متوازی نہیں ہو سکتے۔ حال ہی میں ٹرانسفارمرز کافی کامیاب رہے ہیں اور زبان سے متعلق مختلف کاموں کو حل کرنے میں LSTM کی جگہ لے لی ہے۔ آئیے اب بات کرتے ہیں کہ کس طرح ٹرانسفارمر پر مبنی ماڈلز کو ہینڈ رائٹنگ کی شناخت کے لیے لاگو کیا جا سکتا ہے۔

آپ جو پڑھتے ہیں اس پر توجہ دیں۔

اس کام میں مصنفین نے ایک ٹرانسفارمر پر مبنی فن تعمیر کے استعمال کی تجویز پیش کی ہے جس میں بصری اور متن دونوں مرحلوں پر متعدد سروں والی توجہ خود دھیان کی تہوں کا استعمال کیا جائے گا اور اس طرح وہ کردار کی شناخت کے ساتھ ساتھ زبان سے متعلقہ انحصار کو بھی سیکھ سکتے ہیں جنہیں ڈی کوڈ کیا جانا ہے۔ چونکہ زبان کا علم خود ماڈل میں سرایت کرتا ہے، اس لیے زبان کے ماڈل کا استعمال کرتے ہوئے کسی اضافی پوسٹ پروسیسنگ مرحلے کی ضرورت نہیں ہے اور اس لیے اس میں یہ صلاحیت ہے کہ وہ نتائج کی پیش گوئی کر سکے جو الفاظ کا حصہ نہیں ہیں۔ اس متن کو حاصل کرنے کے لیے انکوڈنگ حرف کی سطح پر ہوتی ہے نہ کہ الفاظ کی سطح پر۔ جیسا کہ ٹرانسفارمر فن تعمیر ہر علاقے یا کردار کے لیے ماڈل کو متوازی تربیت دینے کی اجازت دیتا ہے، تربیت کا عمل بہت آسان ہے۔

نیٹ ورک کا فن تعمیر درج ذیل اجزاء پر مشتمل ہے۔

بصری انکوڈر :- متعلقہ خصوصیات کو نکالنے اور مختلف کرداروں کے مقامات پر کثیر سر بصری خود توجہ کا اطلاق کرنے کے لیے
ٹیکسٹ ٹرانسکرائبر :- یہ ٹیکسٹ ان پٹ لینے، اسے انکوڈنگ کرنے، کثیر سر والی زبان کو خود توجہ دینے اور بصری اور متن دونوں خصوصیات پر باہمی توجہ کا اطلاق کرنے کا کام کرتا ہے۔

بصری انکوڈر

Resnet50 بیک بون کو اضافی خصوصیات کے لیے استعمال کرنا ہے جیسا کہ اوپر کی تصویر میں دیکھا جا سکتا ہے۔ Resnet3 Fc سے 50 جہتی فیچر میپ آؤٹ پٹ کو Temporal Encoding ماڈیول میں منتقل کیا جاتا ہے جو ایک ہی چوڑائی کو برقرار رکھتے ہوئے 2d کی شکل بدلتا ہے اور اس وجہ سے (fxh, w) کی شکل۔ شکل کو (f، w) تک کم کرنے کے لیے اسے ایک مکمل طور پر منسلک پرت میں کھلایا جاتا ہے اور اس کا نتیجہ Fc' ہے۔ اس کے علاوہ پوزیشن کی معلومات کو برقرار رکھنے کے لیے ایف سی میں ایک پوزیشنل انکوڈنگ TE شامل کیا گیا ہے جیسا کہ واسوانی کے ٹرانسفارمر پیپر میں بتایا گیا ہے۔ ٹرانسفارمر فن تعمیر کو کس طرح ڈیزائن کیا گیا ہے اس کے بارے میں مزید معلومات دیکھی جا سکتی ہیں۔ یہاں. شکل (f، w) کے ساتھ حتمی خصوصیت کا نقشہ حاصل کرنے کے لیے آؤٹ پٹ کو مکمل طور پر منسلک پرت سے گزرا جاتا ہے۔ حتمی آؤٹ پٹ کو 8 ہیڈز کے ساتھ ایک کثیر سر والے توجہ کے ماڈیول سے گزارا جاتا ہے تاکہ بصری بھرپور خصوصیت کا نقشہ حاصل کیا جا سکے۔

ٹیکسٹ ٹرانسکرائبر

ان پٹ ٹیکسٹ کو ایک انکوڈر سے گزارا جاتا ہے جو کریکٹر لیول ایمبیڈنگز تیار کرتا ہے۔ ان ایمبیڈنگز کو دنیاوی مقام کے ساتھ ملایا جاتا ہے جیسا کہ بصری انکوڈر میں ایک Temporal Encoder ماڈیول کا استعمال کرتے ہوئے کیا جاتا ہے۔ اس کے بعد یہ نتیجہ ایک ملٹی ہیڈ لینگویج سیلف اٹینشن ماڈیول کو دیا جاتا ہے جو بصری انکوڈر میں توجہ کے ماڈیول کی طرح ہے۔ بصری انکوڈر سے بصری خصوصیات کے ساتھ پیدا ہونے والی متن کی خصوصیات کو ایک باہمی توجہ کے ماڈیول میں منتقل کیا جاتا ہے جس کا کام امیجز اور ٹیکسٹ ان پٹ دونوں سے سیکھی ہوئی خصوصیات کو سیدھ میں لانا اور یکجا کرنا ہے۔ حتمی نتیجہ حاصل کرنے کے لیے آؤٹ پٹ کو سافٹ میکس فنکشن سے گزارا جاتا ہے۔

ٹیسٹ ڈیٹا پر تشخیص کرتے وقت، نقلیں دستیاب نہیں ہوتی ہیں۔ اس طرح صرف اسٹارٹ ٹوکن < S > کو ان پٹ کے طور پر پاس کیا جاتا ہے اور پہلے پیشین گوئی شدہ کیریکٹر کو سسٹم میں فیڈ کیا جاتا ہے، جو دوسرے پیشین گوئی کریکٹر کو آؤٹ پٹ کرتا ہے۔ اس تخمینے کے عمل کو ایک لوپ میں اس وقت تک دہرایا جاتا ہے جب تک کہ ترتیب کی علامت < E > تیار نہ ہو جائے یا جب زیادہ سے زیادہ آؤٹ پٹ لمبائی N تک نہ پہنچ جائے۔

ہینڈ رائٹنگ ٹیکسٹ جنریشن

ہینڈ رائٹنگ ٹیکسٹ جنریشن اصلی نظر آنے والے ہاتھ سے لکھے ہوئے متن کو تیار کرنے کا کام ہے اور اس طرح موجودہ ڈیٹا سیٹس کو بڑھانے کے لیے استعمال کیا جا سکتا ہے۔ جیسا کہ ہم جانتے ہیں کہ گہری تعلیم کو تربیت دینے کے لیے بہت سارے ڈیٹا کی ضرورت ہوتی ہے جبکہ مختلف زبانوں کے لیے لیبل والی ہینڈ رائٹنگ امیجز کا بہت بڑا کارپس حاصل کرنا ایک بوجھل کام ہے۔ اس کو حل کرنے کے لیے ہم جنریٹیو ایڈورسریل نیٹ ورکس کو تربیتی ڈیٹا تیار کرنے کے لیے استعمال کر سکتے ہیں۔ آئیے یہاں ایسے ہی ایک فن تعمیر پر بات کرتے ہیں۔

ScrabbleGAN

ScrabbleGAN ہاتھ سے لکھے ہوئے متن کی تصاویر کی ترکیب کے لیے ایک نیم زیر نگرانی نقطہ نظر کی پیروی کرتا ہے جو طرز اور لغت دونوں میں ورسٹائل ہیں۔ اس میں مختلف لمبائی کی تصاویر بنانے کی صلاحیت ہے۔ جنریٹر نتیجے میں آنے والے متن کے انداز میں بھی ہیرا پھیری کرسکتا ہے جس سے ہمیں یہ فیصلہ کرنے کی اجازت ملتی ہے کہ آیا متن کو کرسیو ہونا ہے یا یہ کہنا ہے کہ قلم کا اسٹروک کتنا موٹا/ پتلا ہونا چاہیے۔

فن تعمیر BigGAN پر مبنی مکمل طور پر کنولوشنل جنریٹر پر مشتمل ہے۔ ان پٹ میں ہر ایک کریکٹر کے لیے ایک متعلقہ فلٹر کا انتخاب کیا جاتا ہے اور تمام اقدار کو ایک ساتھ جوڑ دیا جاتا ہے جسے پھر ایک شور ویکٹر z سے ضرب دیا جاتا ہے جو کہ تیار کردہ ٹیکسٹ اسٹائل کو کنٹرول کرتا ہے۔ جیسا کہ اوپر دیکھا جا سکتا ہے، ہر انفرادی کریکٹر کے لیے پیدا ہونے والے علاقے اوورلیپ ہو جاتے ہیں اس طرح منسلک ریکرسیو ٹیکسٹ بنانے کے ساتھ ساتھ مختلف حروف کے سائز میں لچک پیدا کرنے میں مدد کرتے ہیں۔ مثال کے طور پر m زیادہ جگہ لیتا ہے جب کہ e اور t محدود جگہ لیتا ہے۔ پورے لفظ یا جملے کے لیے ایک ہی انداز رکھنے کے لیے، سٹائل ویکٹر z کو تمام حروف کے لیے مستقل رکھا جاتا ہے۔

BigGAN فن تعمیر پر مبنی ایک متنازعہ امتیازی سلوک کا استعمال اس بات کی درجہ بندی کرنے کے لیے کیا جاتا ہے کہ آیا تصاویر کا جنریٹ اسٹائل جعلی ہے یا اصلی۔ امتیاز کرنے والا کردار کی سطح کی تشریحات پر انحصار نہیں کرتا ہے اور اس وجہ سے کلاس مشروط GAN پر مبنی نہیں ہے۔ اس کا فائدہ یہ ہے کہ لیبل والے ڈیٹا کی ضرورت نہیں ہے اور اس لیے غیر دیکھے ہوئے کارپس کا ڈیٹا جو تربیتی ڈیٹا کا حصہ نہیں ہے، امتیازی تربیت کے لیے استعمال کیا جا سکتا ہے۔ امتیاز کرنے والے کے ساتھ ساتھ ایک متن کی شناخت کرنے والے R کو درجہ بندی کرنے کے لیے تربیت دی جاتی ہے کہ آیا تخلیق کردہ متن حقیقی دنیا کو سمجھتا ہے یا یہ بے ہودہ ہے۔ شناخت کنندہ CRNN آرکیٹیکچرز پر مبنی ہے جس میں بار بار آنے والے سر کو ہٹا دیا جاتا ہے تاکہ شناخت کنندہ کو تھوڑا کمزور بنایا جا سکے اور متن کی شناخت نہ ہو چاہے یہ واضح نہ ہو۔ R کے آؤٹ پٹ میں پیدا ہونے والے ٹیکسٹ کا موازنہ جنریٹر کو دیے گئے ان پٹ ٹیکسٹ سے کیا جاتا ہے اور نقصان کے فنکشن میں اسی طرح کا جرمانہ شامل کیا جاتا ہے۔

ScrabbleGAN کے ذریعہ تیار کردہ آؤٹ پٹ نیچے دکھائے گئے ہیں۔

ڈیٹا سیٹس:-

IAM :- IAM ڈیٹاسیٹ میں انگریزی زبان کے الفاظ کی تقریباً 100k تصاویر ہیں جن کے الفاظ 657 مختلف مصنفین کے لکھے ہوئے ہیں۔ ٹرین، ٹیسٹ اور توثیق کے سیٹ میں ایسے الفاظ شامل ہیں جو باہمی طور پر خصوصی مصنفین کے لکھے ہوئے ہیں:- http://www.fki.inf.unibe.ch/databases/iam-handwriting-database
CVL :- CVL ڈیٹاسیٹ تقریباً 310 شرکاء کے ذریعے لکھی ہوئی سات دستاویزات پر مشتمل ہے، جس کے نتیجے میں تقریباً 83k الفاظ کی فصلیں ہیں، جنہیں ٹرین اور ٹیسٹ سیٹس میں تقسیم کیا گیا ہے:- https://cvl.tuwien.ac.at/research/cvl-databases/an-off-line-database-for-writer-retrieval-writer-identification-and-word-spotting/
رمز :- تقریباً 60 ہزار تصاویر کے فرانسیسی زبان کے الفاظ پر مشتمل ہے اور 1300 مصنفین کے لکھے ہوئے ہیں جو ہر شخص کی طرف سے لکھی گئی تقریباً 5 میلوں کے مطابق ہیں۔ لنک:- http://www.a2ialab.com/doku.php?id=rimes_database:start

میٹرکس:-

کریکٹر ایرر ریٹ :- اس کا حساب لیونشٹین فاصلہ کے طور پر کیا جاتا ہے جو کریکٹر متبادل (Sc)، انسرشنز (Ic) اور ڈیلیٹشنز (Dc) کا مجموعہ ہے جو ایک تار کو دوسرے میں تبدیل کرنے کے لیے درکار ہوتے ہیں، اس میں حروف کی کل تعداد سے تقسیم کیا جاتا ہے۔ زمینی سچائی (Nc)

لفظ کی خرابی کی شرح :- یہ لفظ متبادل (Sw)، داخل (Iw) اور حذف (Dw) کے مجموعے کے طور پر شمار کیا جاتا ہے جو ایک تار کو دوسرے میں تبدیل کرنے کے لیے درکار ہوتے ہیں، زمینی حقائق (Nw) میں الفاظ کی کل تعداد سے تقسیم کیا جاتا ہے۔

اپنے ہینڈ رائٹنگ ریکگنیشن ماڈل کو تربیت دیں۔

اب دیکھتے ہیں کہ ہم اپنے ہاتھ سے لکھے ہوئے ٹیکسٹ ریکگنیشن ماڈل کو کس طرح تربیت دے سکتے ہیں۔ ہم IAM ڈیٹاسیٹ پر ٹریننگ کریں گے لیکن آپ ماڈل کو اپنے ڈیٹاسیٹ پر بھی تربیت دے سکتے ہیں۔ آئیے اس کو ترتیب دینے میں شامل اقدامات پر تبادلہ خیال کریں۔

ڈیٹا

IAM ڈیٹاسیٹ ڈاؤن لوڈ کرنے کے لیے یہاں سے رجسٹر ہوں۔ یہاں. رجسٹر ہونے کے بعد Words.tgz سے ڈاؤن لوڈ کریں۔ یہاں. اس میں ہاتھ سے لکھے گئے الفاظ کی تصاویر کا ڈیٹا سیٹ ہے۔ یہاں سے تشریحی فائل words.txt بھی ڈاؤن لوڈ کریں۔ یہاں.

اگر آپ اپنا ڈیٹا سیٹ استعمال کرنا چاہتے ہیں تو آپ کو IAM ڈیٹاسیٹ کی ڈیٹا سٹرکچرنگ پر عمل کرنے کی ضرورت ہے۔

مندرجہ بالا دکھاتا ہے کہ AIM ڈیٹاسیٹ فولڈر کا ڈھانچہ کیسا لگتا ہے۔ یہاں a01, a02 وغیرہ پیرنٹ فولڈرز کی نمائندگی کرتے ہیں جن میں سے ہر ایک کو ڈیٹا کے ذیلی فولڈر ہوتے ہیں۔ ہر ذیلی فولڈر میں تصاویر کا ایک سیٹ ہوتا ہے جس میں فولڈر کا نام اس کے فائل کے نام کے ساتھ سابقہ کے طور پر شامل کیا جاتا ہے۔

اس کے علاوہ ہمیں تصویری فائلوں کے راستوں اور متعلقہ نقلوں کا ذکر کرنے کے لیے ایک تشریحی فائل کی ضرورت ہے۔ مثال کے طور پر متن کی نامزدگی کے ساتھ مندرجہ بالا تصویر پر غور کریں، ذیل میں تشریح فائل words.txt میں نمائندگی ہوگی۔

a01-000u-01-00 ٹھیک ہے 156 395 932 441 100 VBG نامزد کرنا

a01-000u-01-00 -> a01-000u فارم میں ایک لائن کے لئے لفظ کی شناخت
ok/err -> سیگمنٹیشن آؤٹ پٹ کے معیار کا اشارے
اس لفظ پر مشتمل لائن کو بائنرائز کرنے کے لیے 156 -> گرے لیول
395 932 441 100 -> x,y,w,h فارمیٹ میں اس لفظ کے ارد گرد باؤنڈنگ باکس
VBG -> اس لفظ کے لیے گرائمیکل ٹیگ۔ یہاں یہ فعل Gerund ہے۔
نامزد کرنا -> اس لفظ کی نقل

فن تعمیر:-

ہم CTC نقصان کے ساتھ CRNN پر مبنی فن تعمیر کی تربیت دیں گے۔ ایک CNN کا استعمال بصری خصوصیات کو نکالنے کے لیے کیا جاتا ہے جو RNN کو بھیجی جاتی ہیں اور آؤٹ پٹ حاصل کرنے کے لیے لالچی ڈیکوڈر کے ساتھ آخر میں CTC نقصان کا اطلاق ہوتا ہے۔

ٹریننگ

ہم سے CRNN کوڈ استعمال کریں گے۔ یہاں ہمارے ماڈل کو تربیت دینے کے لیے۔ ڈیٹا تیار کرنے کے لیے نیچے دیے گئے مراحل پر عمل کریں۔

python checkDirs.py

اوپر کی کمانڈ چلائیں اور آپ کو نیچے کی طرح آؤٹ پٹ نظر آنا چاہئے۔

[ٹھیک ہے] الفاظ/
[ٹھیک ہے] الفاظ/a01/a01-000u/
[OK] words.txt
[OK] test.png
[OK] words/a01/a01-000u/a01-000u-00-00.png

اب آپ تربیت شروع کرنے کے لیے تیار ہیں۔

روٹ ڈائرکٹری پر جائیں اور عمل کریں۔

python main.py --train

نتائج کی نمائش

تقریباً 50 دوروں کی تربیت کے بعد کریکٹر ایرر ریٹ (سی ای آر) 10.72 فیصد ہے جبکہ ورڈ ایرر ریٹ (ڈبلیو ای آر) 26.45 فیصد ہے اور اس وجہ سے لفظ کی درستگی 73.55 فیصد ہے۔ کچھ پیشین گوئیاں نیچے دی گئی تصویر میں دیکھی جا سکتی ہیں۔

ماڈل کافی حد تک کرداروں کی درست پیشین گوئی کرنے کے قابل ہے لیکن اسے کچھ معاملات میں نقصان اٹھانا پڑتا ہے جیسے کہ خوفناک طور پر پیش گوئی کی جاتی ہے جیسا کہ مکمل طور پر، کہانیوں کی پیش گوئی ستاروں کے طور پر کی جاتی ہے۔ ان مسائل کو ڈیکوڈر کے ساتھ پوسٹ پروسیسنگ مرحلے کے طور پر زبان کے ماڈل کو استعمال کرکے حل کیا جاسکتا ہے جو معنی خیز الفاظ پیدا کرسکتا ہے اور آسان غلطیوں کو درست کرسکتا ہے۔

خلاصہ

اگرچہ ٹکنالوجی میں اہم پیشرفت ہوئی ہے جو ہاتھ سے لکھے ہوئے متن کی بہتر شناخت میں مدد کرتی ہے، لیکن OCR کے مقابلے HTR ایک حل شدہ مسئلہ سے بہت دور ہے اور اس وجہ سے صنعت میں ابھی تک وسیع پیمانے پر کام نہیں کیا گیا ہے۔ اس کے باوجود ٹیکنالوجی کے ارتقاء کی رفتار اور ٹرانسفارمرز جیسے ماڈلز کے متعارف ہونے کے ساتھ، ہم امید کر سکتے ہیں کہ HTR ماڈل جلد ہی عام ہو جائیں گے۔

اس موضوع پر مزید تحقیق حاصل کرنے کے لیے آپ یہاں سے شروع کر سکتے ہیں۔ یہاں

مزید پڑھنا

ٹائم اسٹیمپ: مارچ 9، 2022

ٹائم اسٹیمپ: اگست 7، 2022