فارم ڈیٹا نکالنا

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

فارم ڈیٹا نکالنا

پرنٹ یا ہاتھ سے لکھے ہوئے فارم سے ڈیٹا نکالنا چاہتے ہیں؟ اس کو دیکھو نانونٹس™ فارم ڈیٹا ایکسٹریکٹر مفت میں اور کسی بھی شکل سے معلومات کی برآمد کو خودکار!

فارم ہر جگہ ہیں؛ ان کی تعریف ایسی دستاویزات کے طور پر کی جاتی ہے جو معلومات اکٹھا کرنے کے لیے بنائی گئی ہیں اور شرکاء سے مخصوص فارمیٹ میں درکار معلومات کو پُر کرنے کے لیے کہا جاتا ہے۔ وہ مختصر وقت میں بہت زیادہ ڈیٹا اکٹھا کرنے کی صلاحیت کی وجہ سے مددگار ثابت ہوتے ہیں۔ تاہم، تمام فارمز میں ڈیٹا اکٹھا کرنے کی یکساں صلاحیت نہیں ہوتی ہے اور اکثر بعد میں دستی کام کی ضرورت ہوتی ہے۔ لہذا، ہم فارم ڈیٹا نکالنے کے عمل کو ذہانت سے خودکار کرنے کے لیے ٹولز اور الگورتھم پر انحصار کرتے ہیں۔ یہ بلاگ پوسٹ OCR اور ڈیپ لرننگ کا استعمال کرتے ہوئے فارموں سے ڈیٹا نکالنے کے لیے مختلف منظرناموں اور تکنیکوں میں گہرا غوطہ لگائے گی۔

فارم ڈیٹا نکالنا کیا ہے؟
کیا چیز مسئلہ کو چیلنج کرتی ہے؟
فارم نکالنے کے مسئلے کی گہرائی
فارم ڈیٹا نکالنے کے حل کیسے تیار ہوئے ہیں؟
OCRs کا استعمال کرتے ہوئے ڈیٹا نکالنا فارم کریں۔
ڈیپ لرننگ کا استعمال کرتے ہوئے فارم ڈیٹا نکالنا حل کرنا
Nanonets درج کریں۔

فارم ڈیٹا نکالنا کیا ہے؟

فارم ڈیٹا ایکسٹریکشن فارم سے ڈیٹا نکالنے کا عمل ہے – آن لائن اور آف لائن دونوں۔ یہ ڈیٹا کسی بھی شکل میں پایا جا سکتا ہے، عام طور پر متعلقہ معلومات کے ساتھ ایک فارم پر مشتمل ہوتا ہے۔ تاہم، اس ڈیٹا کو نکالنا ہمیشہ آسان کام نہیں ہوتا ہے کیونکہ بہت سے لے آؤٹ اور ڈیزائن متن کو آسانی سے منتخب کرنے کی اجازت نہیں دیتے ہیں۔ ان سے ڈیٹا کاپی کرنے کا کوئی مقامی طریقہ نہیں ہے۔ لہذا، ہم ان فارموں سے ڈیٹا نکالنے میں مدد کے لیے خودکار تکنیکوں پر انحصار کرتے ہیں جو زیادہ موثر اور کم غلطی کا شکار ہیں۔

فارم ڈیٹا نکالنا کیا ہے؟

مثال کے طور پر، آج بہت سے صارفین رابطے کی معلومات جمع کرنے کے لیے پی ڈی ایف پر مبنی فارمز پر انحصار کرتے ہیں۔ یہ معلومات اکٹھا کرنے کا ایک انتہائی موثر طریقہ ہے کیونکہ اس میں بھیجنے والے اور وصول کنندہ کو ان پٹ فراہم کرنے کی ضرورت نہیں ہوتی ہے۔ لیکن پی ڈی ایف فارم سے اس ڈیٹا کو نکالنا مشکل اور مہنگا ہو سکتا ہے۔

یہاں، فارم ڈیٹا نکالنے سے پی ڈی ایف فارم سے ڈیٹا نکالنے میں مدد مل سکتی ہے، جیسے کہ نام، ای میل ایڈریس، فون نمبر، وغیرہ۔ اسے کسی اور ایپلیکیشن جیسے Excel، Sheets، یا کسی دوسرے سٹرکچرڈ فارمیٹ میں درآمد کیا جا سکتا ہے۔ اس کے کام کرنے کا طریقہ یہ ہے کہ نکالنے والے ٹولز پی ڈی ایف فائل پر پڑھے جاتے ہیں، خود بخود اس کی ضرورت کو نکال لیتے ہیں، اور اسے پڑھنے میں آسان فارمیٹ میں ترتیب دیتے ہیں۔ اس ڈیٹا کو دوسرے فارمیٹس جیسے Excel، CSV، JSON، اور دیگر اچھی ساخت والے ڈیٹا فارمیٹس میں ایکسپورٹ کیا جا سکتا ہے۔ اگلے حصے میں، آئیے ڈیٹا نکالنے کے الگورتھم کی تشکیل کے دوران اکثر سامنے آنے والے چند چیلنجوں کو دیکھیں۔

پرنٹ یا ہاتھ سے لکھے ہوئے فارم سے ڈیٹا نکالنا چاہتے ہیں؟ Nanonets چیک کریں۔™ فارم ڈیٹا ایکسٹریکٹر مفت میں اور کسی بھی شکل سے معلومات کی برآمد کو خودکار بنائیں!

فارم ڈیٹا نکالنے کو کیا مشکل بناتا ہے؟

مختلف وجوہات کی بنا پر ڈیٹا نکالنا ایک دلچسپ مسئلہ ہے۔ ایک تو یہ تصویر کی شناخت کا مسئلہ ہے، لیکن اس میں اس متن پر بھی غور کرنا پڑتا ہے جو تصویر میں موجود ہو سکتا ہے اور فارم کی ترتیب، جو الگورتھم کی تعمیر کو مزید پیچیدہ بناتی ہے۔ یہ سیکشن کچھ عام چیلنجوں پر بحث کرتا ہے جن کا سامنا لوگوں کو ڈیٹا نکالنے کے الگورتھم بناتے وقت ہوتا ہے۔

ڈیٹا کی کمی: ڈیٹا نکالنے کے الگورتھم عام طور پر طاقتور گہری سیکھنے اور کمپیوٹر ویژن پر مبنی الگورتھم کا استعمال کرتے ہوئے بنائے جاتے ہیں۔ یہ عام طور پر جدید ترین کارکردگی کو حاصل کرنے کے لیے ڈیٹا کی وسیع مقدار پر انحصار کرتے ہیں۔ اس طرح، ایک مستقل اور قابل اعتماد ڈیٹاسیٹ تلاش کرنا اور ان پر کارروائی کرنا ڈیٹا نکالنے کے آلے یا سافٹ ویئر کی کسی بھی شکل کے لیے بہت ضروری ہے۔ مثال کے طور پر، کہتے ہیں کہ ہمارے پاس متعدد ٹیمپلیٹس والے فارم ہیں، پھر یہ الگورتھم فارموں کی ایک وسیع رینج کو سمجھنے کے قابل ہونے چاہئیں؛ اس لیے انہیں ایک مضبوط ڈیٹاسیٹ پر تربیت دینا زیادہ درست کارکردگی کا حامل ہوگا۔
فونٹس، زبانیں اور لے آؤٹ کو سنبھالنا: مختلف قسم کے فارم ڈیٹا کے لیے مختلف قسم کے چہرے، ڈیزائن، اور ٹیمپلیٹس دستیاب ہیں۔ وہ مکمل طور پر مختلف درجہ بندیوں میں پڑ سکتے ہیں، جس کی وجہ سے درست شناخت کو یقینی بنانا مشکل ہو جاتا ہے جب مختلف کرداروں کی اقسام کو مدنظر رکھا جائے۔ اس لیے یہ ضروری ہے کہ فونٹ جمع کرنے کو کسی خاص زبان اور ٹائپ تک محدود رکھا جائے کیونکہ یہ بہت سے ایسے عمل کو تخلیق کرے گا جو آپ کے پاس ان دستاویزات کو مناسب طریقے سے پروسیس کرنے کے بعد آسانی سے چلتے ہیں۔ کثیر لسانی معاملات میں، ایک سے زیادہ زبانوں کے حروف کے درمیان جھگڑے کے لیے تیار رہنے کی ضرورت ہے اور پیچیدہ نوع ٹائپ کا بھی خیال رکھنا چاہیے۔

تصویر کے ماخذ: درمیانہ

واقفیت اور ترچھا (گھومنا): ڈیٹا کیوریشن کے دوران، ہم اکثر ان پٹ ڈیٹا اکٹھا کرنے کے لیے الگورتھم کو تربیت دینے کے لیے تصاویر کو اسکین کرتے ہیں۔ اگر آپ نے کبھی اسکینر یا ڈیجیٹل کیمرہ استعمال کیا ہے، تو آپ نے محسوس کیا ہوگا کہ جس زاویے سے آپ دستاویزات کی تصاویر کھینچتے ہیں وہ بعض اوقات انہیں ترچھا ظاہر کر سکتا ہے۔ یہ skewness کے طور پر جانا جاتا ہے جو زاویہ کی ڈگری سے مراد ہے. یہ ترچھا ماڈل کی درستگی کو کم کر سکتا ہے۔ خوش قسمتی سے، اس مسئلے کو حل کرنے کے لیے مختلف تکنیکوں کا استعمال صرف اس میں ترمیم کر کے کیا جا سکتا ہے کہ ہمارا سافٹ ویئر تصویر کے مخصوص علاقوں میں خصوصیات کا کیسے پتہ لگاتا ہے۔ ایسی تکنیک کی ایک مثال پروجیکشن پروفائل کے طریقے یا فوئیر ٹرانسفارمیشن کے طریقے ہیں، جو شکل، طول و عرض اور ساخت کی شناخت میں زیادہ صاف ستھرا نتائج کی اجازت دیتے ہیں! اگرچہ واقفیت اور ترچھی سادہ غلطیاں ہو سکتی ہیں، لیکن یہ بڑی تعداد میں ماڈل کی درستگی کو متاثر کر سکتی ہیں۔

تصویر کے ماخذ: pyimagesearch

ڈیٹا کی حفاظت: اگر آپ ڈیٹا اکٹھا کرنے کے لیے مختلف ذرائع سے ڈیٹا نکال رہے ہیں، تو اس کے لیے موجود حفاظتی اقدامات سے آگاہ ہونا ضروری ہے۔ بصورت دیگر، آپ کو منتقل کی جا رہی معلومات سے سمجھوتہ کرنے کا خطرہ ہے۔ یہ ایسے حالات کا باعث بن سکتا ہے جہاں ذاتی معلومات کی خلاف ورزی ہوتی ہے یا API کو بھیجی گئی معلومات محفوظ نہیں ہوتی ہیں۔ لہذا، ڈیٹا نکالنے کے لیے ETL اسکرپٹس اور آن لائن APIs کے ساتھ کام کرتے ہوئے، ڈیٹا سیکیورٹی کے مسائل سے بھی آگاہ ہونا چاہیے۔
ٹیبل نکالنا: کبھی کبھی، ہم جدولوں کے اندر فارم ڈیٹا دیکھتے ہیں۔ ایک مضبوط الگورتھم بنانا جو فارم نکالنے اور ٹیبل نکالنے دونوں کو سنبھال سکتا ہے۔ معمول کا طریقہ یہ ہے کہ ان الگورتھم کو آزادانہ طور پر بنایا جائے اور انہیں ڈیٹا پر لاگو کیا جائے، لیکن اس سے زیادہ کمپیوٹیشن پاور کا استعمال ہوگا جس سے لاگت میں اضافہ ہوگا۔ لہذا، ایک مثالی فارم نکالنے کے قابل ہونا چاہیے کہ وہ فارم ڈیٹا کے ساتھ ساتھ دی گئی دستاویز سے ڈیٹا بھی نکال سکے۔

تصویر کے ماخذ: GCNs

پوسٹ پروسیسنگ / ایکسپورٹ آؤٹ پٹ: کسی بھی ڈیٹا نکالنے سے آؤٹ پٹ ڈیٹا سیدھا نہیں ہوتا ہے۔ اس لیے، ڈویلپرز نتائج کو زیادہ منظم شکل میں فلٹر کرنے کے لیے پوسٹ پروسیسنگ تکنیک پر انحصار کرتے ہیں۔ ڈیٹا کو پروسیس کرنے کے بعد، اسے ایک زیادہ سٹرکچرڈ فارمیٹ جیسے CSV، Excel، یا ڈیٹا بیس میں ایکسپورٹ کیا جاتا ہے۔ تنظیمیں تیسرے فریق کے انضمام پر انحصار کرتی ہیں یا اس عمل کو خودکار بنانے کے لیے APIs تیار کرتی ہیں، جو کہ دوبارہ وقت طلب ہے۔ لہذا، مثالی ڈیٹا نکالنے والے الگورتھم لچکدار اور بیرونی ڈیٹا ذرائع کے ساتھ بات چیت کرنے میں آسان ہونے چاہئیں۔

فارم ڈیٹا نکالنے میں پوسٹ پروسیسنگ

مختلف منظرناموں کے ساتھ فارم نکالنے کی گہرائی کو سمجھنا

اب تک، ہم نے فارم ڈیٹا نکالنے کے بنیادی اصولوں اور چیلنجوں پر تبادلہ خیال کیا ہے۔ اس حصے میں، ہم مختلف منظرناموں میں گہرائی میں جائیں گے اور فارم ڈیٹا نکالنے کی گہرائی کو سمجھیں گے۔ ہم یہ بھی دیکھیں گے کہ ہم ان مخصوص منظرناموں کے لیے نکالنے کے عمل کو کس طرح خودکار کر سکتے ہیں۔

منظر نامہ #1: آف لائن فارمز کے لیے ہاتھ سے لکھی پہچان

آف لائن فارمز کا سامنا عام طور پر روزمرہ کی زندگی میں ہوتا ہے۔ فارموں کو بھرنے اور جمع کروانے میں آسان ہونا ضروری ہے۔ آف لائن فارمز کو دستی طور پر ڈیجیٹل کرنا ایک مشکل اور مہنگا کام ہوسکتا ہے، اسی لیے گہری سیکھنے کے الگورتھم کی ضرورت ہے۔ ہاتھ سے لکھے ہوئے حروف کی پیچیدگی کی وجہ سے ہاتھ سے لکھے ہوئے دستاویزات سے ڈیٹا نکالنا ایک بڑا چیلنج ہے۔ لہذا، ڈیٹا کی شناخت کے الگورتھم بہت زیادہ استعمال کیے جاتے ہیں جس کے ذریعے مشین ہاتھ سے لکھے ہوئے متن کو پڑھنا اور اس کی تشریح کرنا سیکھتی ہے۔ اس عمل میں ہاتھ سے لکھے ہوئے الفاظ کی تصاویر کو اسکین کرنا اور انہیں ڈیٹا میں تبدیل کرنا شامل ہے جس پر الگورتھم کے ذریعے کارروائی اور تجزیہ کیا جا سکتا ہے۔ الگورتھم پھر اسٹروک کی بنیاد پر ایک کریکٹر میپ بناتا ہے اور متن کو نکالنے کے لیے متعلقہ حروف کو پہچانتا ہے۔

تصویر کے ماخذ: NSIT ڈیٹاسیٹ

منظر نامہ #2: فارم پر چیک باکس کی شناخت

چیک باکس فارمز ڈیٹا ان پٹ کی ایک شکل ہے جو ان پٹ فیلڈ میں صارف سے معلومات اکٹھی کرنے کے لیے استعمال ہوتی ہے۔ اس قسم کا ڈیٹا عام طور پر فہرستوں اور جدولوں میں پایا جاتا ہے جس میں صارف کو ایک یا زیادہ آئٹمز منتخب کرنے کی ضرورت ہوتی ہے، جیسے وہ آئٹمز جن سے وہ رابطہ کرنا چاہتے ہیں۔ یہ کسی بھی جگہ پر پایا جا سکتا ہے- آن لائن فارم، سوالنامے اور سروے وغیرہ۔ آج، کچھ الگورتھم چیک باکسز سے بھی ڈیٹا نکالنے کے عمل کو خودکار کر سکتے ہیں۔ اس الگورتھم کا بنیادی مقصد کمپیوٹر ویژن تکنیک کا استعمال کرتے ہوئے ان پٹ علاقوں کی شناخت کرنا ہے۔ ان میں لائنوں کی شناخت (افقی اور عمودی)، فلٹرز، شکلیں لگانا اور تصاویر پر کناروں کا پتہ لگانا شامل ہے۔ ان پٹ ریجن کی شناخت کے بعد، چیک باکس کے مواد کو نکالنا آسان ہے جو یا تو نشان زد یا غیر نشان زد ہیں۔

فارم ڈیٹا نکالنے میں چیک باکس کی شناخت

منظر نامہ #3: وقت وقت پر فارم کی لے آؤٹ تبدیلیاں

جب فارم بھرنے کی بات آتی ہے تو عام طور پر دو مختلف قسم کے اختیارات ہوتے ہیں۔ کچھ فارمز کے لیے، ہمیں تمام متعلقہ فیلڈز میں لکھ کر اپنی معلومات فراہم کرنے کی ضرورت ہوتی ہے، جب کہ دوسروں کے لیے، ہم چند چیک باکسز میں سے انتخاب کر کے معلومات فراہم کر سکتے ہیں۔ فارم کی قسم اور اس کے سیاق و سباق کے لحاظ سے فارم کی ترتیب بھی بدل جاتی ہے۔ لہذا، ایک الگورتھم بنانا ضروری ہے جو متعدد غیر ساختہ دستاویزات کو سنبھال سکے اور فارم لیبلز کے لحاظ سے ذہانت سے مواد نکال سکے۔ دستاویز کی ترتیب کو سنبھالنے کے لیے گہری سیکھنے کے فن تعمیر کی ایک مقبول تکنیک گراف CNNs ہے۔ گراف کنولوشنل نیٹ ورکس (GCNs) کے پیچھے خیال یہ ہے کہ اس بات کو یقینی بنایا جائے کہ نیوران ایکٹیویشن ڈیٹا پر مبنی ہیں۔ وہ گرافس پر کام کرنے کے لیے بنائے گئے ہیں، جو نوڈس اور کناروں پر مشتمل ہیں۔ ایک گراف کنوولیشنل پرت ٹاسک مخصوص ٹریننگ سگنل کی عدم موجودگی میں پیٹرن کو پہچاننے کے قابل ہے۔ لہذا، یہ موزوں ہیں جب ڈیٹا مضبوط ہو۔

منظر نامہ #4: ٹیبل سیل کا پتہ لگانا

کچھ معاملات میں، کاروبار ٹیبل سیلز پر مشتمل خاص قسم کی شکلوں میں آتے ہیں۔ ٹیبل سیلز ٹیبل کے اندر مستطیل حصے ہوتے ہیں جہاں ڈیٹا محفوظ ہوتا ہے۔ انہیں ہیڈر، قطار یا کالم کے طور پر درجہ بندی کیا جا سکتا ہے۔ ایک مثالی الگورتھم کو ان تمام قسم کے خلیات اور ان سے ڈیٹا نکالنے کے لیے ان کی حدود کی شناخت کرنی چاہیے۔ ٹیبل نکالنے کی کچھ مشہور تکنیکوں میں اسٹریم اور جالی شامل ہیں۔ یہ الگورتھم ہیں جو امیجز پر سادہ آئسومورفک آپریشنز کا استعمال کرکے لائنوں، شکلوں، کثیر الاضلاع کا پتہ لگانے میں مدد کر سکتے ہیں۔

فارم ڈیٹا نکالنے کے حل کیسے تیار ہوئے ہیں؟

فارم ڈیٹا نکالنے کی ابتدا کمپیوٹر سے پہلے کے دنوں میں ہوتی ہے جب لوگ کاغذی فارم ہینڈل کرتے تھے۔ کمپیوٹنگ کی آمد کے ساتھ، یہ ممکن ہو گیا کہ ڈیٹا کو الیکٹرانک طور پر ذخیرہ کیا جا سکے. کمپیوٹر پروگرام ڈیٹا کو رپورٹس بنانے کے لیے استعمال کر سکتے ہیں، جیسے سیلز کے اعدادوشمار۔ یہ سافٹ ویئر میلنگ لیبل پرنٹ کرنے کے لیے بھی استعمال کیا جا سکتا ہے، جیسے کہ گاہک کا نام اور پتہ، اور رسیدیں پرنٹ کرنے کے لیے، جیسے کہ واجب الادا رقم اور پتہ جس پر اسے بھیجا جانا چاہیے۔ تاہم، آج ہم فارم ڈیٹا نکالنے والے سافٹ ویئر کا ایک مختلف ورژن دیکھتے ہیں۔ یہ انتہائی درست، تیز، اور انتہائی منظم اور منظم انداز میں ڈیٹا فراہم کرتے ہیں۔ اب، آئیے مختلف قسم کے فارم ڈیٹا نکالنے کی تکنیکوں پر مختصراً گفتگو کرتے ہیں۔

ڈیٹا نکالنے سے اصول پر مبنی: اصول پر مبنی نکالنے کی ایک تکنیک ہے جو خود بخود کسی خاص ٹیمپلیٹ فارم سے ڈیٹا نکالتی ہے۔ یہ بغیر کسی انسانی مداخلت کے ڈیٹا نکال سکتا ہے۔ وہ صفحہ پر مختلف فیلڈز کا جائزہ لے کر اور ارد گرد کے متن، لیبلز، اور دیگر متعلقہ اشارے کی بنیاد پر یہ فیصلہ کرتے ہوئے کام کرتے ہیں کہ کن کو نکالنا ہے۔ یہ الگورتھم عام طور پر ETL اسکرپٹس یا ویب سکریپنگ کا استعمال کرتے ہوئے تیار اور خودکار ہوتے ہیں۔ تاہم، جب ان کو نادیدہ ڈیٹا پر آزمایا جاتا ہے، تو وہ مکمل طور پر ناکام ہو جاتے ہیں۔
OCR کا استعمال کرتے ہوئے ڈیٹا نکالنا فارم کریں۔: OCR ڈیٹا نکالنے کے کسی بھی مسئلے کا حل ہے۔ تاہم، درست کارکردگی حاصل کرنے کے لیے کسی کو اضافی اسکرپٹ اور پروگرام لکھنے چاہئیں۔ OCR کے کام کرنے کے لیے، اس پر متن کے ساتھ ایک تصویر کا ان پٹ درکار ہوتا ہے۔ سافٹ ویئر پھر ہر پکسل کو پڑھتا ہے اور ہر پکسل کا اس کے متعلقہ خط سے موازنہ کرتا ہے۔ اگر یہ مماثل ہے، تو یہ اس خط کو آؤٹ پٹ کرے گا اور کوئی بھی نمبر یا علامت خط کے کافی قریب ہے۔ OCR کے ساتھ سب سے بڑا چیلنج یہ معلوم کرنا ہے کہ حروف کو کیسے الگ کیا جائے۔ مثال کے طور پر، جب نوٹ ایک دوسرے کے قریب ہوتے ہیں یا اوورلیپ ہوتے ہیں، جیسے کہ "a" اور "e"۔ لہذا، جب ہم آف لائن فارم نکال رہے ہوں تو یہ کام نہیں کر سکتے۔
فارم ڈیٹا نکالنے کے لیے NER: نام شدہ ہستی کی شناخت قدرتی زبان کے متن میں پہلے سے طے شدہ ہستیوں کی شناخت اور درجہ بندی کا کام ہے۔ اس کا استعمال اکثر فارموں سے معلومات نکالنے کے لیے کیا جاتا ہے، جہاں لوگ نام، پتے، تبصرے وغیرہ ٹائپ کرتے ہیں۔ وہی حقیقی دنیا کی ہستیاں۔ آج جدید پروگرامنگ ٹولز اور فریم ورک کے ساتھ، ہم معلومات نکالنے کے کاموں کے لیے NER پر مبنی ماڈلز بنانے کے لیے پہلے سے تربیت یافتہ ماڈلز کا فائدہ اٹھا سکتے ہیں۔

تصویر کے ماخذ: درمیانہ

فارم ڈیٹا نکالنے کے لیے ڈیپ لرننگ کا استعمال: گہرائی سے سیکھنا کوئی نئی بات نہیں ہے، یہ دہائیوں سے چلی آ رہی ہے، لیکن گہری سیکھنے کے فن تعمیر اور کمپیوٹنگ کی طاقت میں حالیہ پیش رفت نے شاندار نتائج حاصل کیے ہیں۔ ڈیپ لرننگ کا استعمال کرتے ہوئے فارم ڈیٹا نکالنے نے تقریباً کسی بھی فارمیٹ میں جدید ترین کارکردگی حاصل کی، چاہے وہ ڈیجیٹل ہو یا ہاتھ سے لکھی ہو۔ یہ عمل ڈیپ نیورل نیٹ ورک (DNN) ہزاروں یا لاکھوں مختلف مثالوں کو کھلانے سے شروع ہوتا ہے جن پر لیبل لگا ہوا ہے کہ وہ کیا ہیں۔ مثال کے طور پر، نام، ای میل، آئی ڈی وغیرہ کے ساتھ تصویری شکل کے لیبل۔ DNN ان تمام معلومات پر کارروائی کرتا ہے اور خود ہی سیکھتا ہے کہ یہ ٹکڑے کیسے جڑے ہیں۔ تاہم، ایک انتہائی درست ماڈل بنانے کے لیے بہت زیادہ مہارت اور تجربہ درکار ہوتا ہے۔

فارم ڈیٹا نکالنے کے لیے گہری تعلیم

OCRs کا استعمال کرتے ہوئے ڈیٹا نکالنا فارم کریں۔

فارم سے ڈیٹا نکالنے کے لیے بہت سی مختلف لائبریریاں دستیاب ہیں۔ لیکن اگر آپ کسی فارم کی تصویر سے ڈیٹا نکالنا چاہتے ہیں تو کیا ہوگا؟ یہیں سے Tesseract OCR (آپٹیکل کریکٹر ریکگنیشن) آتا ہے۔ ٹیسریکٹ ایک اوپن سورس OCR (آپٹیکل کریکٹر ریکگنیشن) انجن ہے جسے HP نے تیار کیا ہے۔ Tesseract OCR کا استعمال کرتے ہوئے، سکین شدہ دستاویزات جیسے کاغذی رسیدیں، رسیدیں، اور چیک کو قابل تلاش، قابل تدوین ڈیجیٹل فائلوں میں تبدیل کرنا ممکن ہے۔ یہ متعدد زبانوں میں دستیاب ہے اور مختلف امیج فارمیٹس میں حروف کو پہچان سکتا ہے۔ Tesseract کو عام طور پر دوسری لائبریریوں کے ساتھ مل کر متن کو نکالنے کے لیے تصاویر پر کارروائی کرنے کے لیے استعمال کیا جاتا ہے۔

اس کو جانچنے کے لیے، یقینی بنائیں کہ آپ نے اپنی مقامی مشین پر ٹیسریکٹ انسٹال کر لیا ہے۔ آپ OCR چلانے کے لیے یا تو Tesseract CLI یا Python بائنڈنگ استعمال کر سکتے ہیں۔ Python-tesseract گوگل کے Tesseract-OCR انجن کے لیے ایک ریپر ہے۔ اس کا استعمال تکیہ اور لیپٹونیکا امیجنگ لائبریریوں بشمول jpeg، png، gif، bmp، tiff اور دیگر کے ذریعے تعاون یافتہ تصویری اقسام کو پڑھنے کے لیے کیا جا سکتا ہے۔ اگر ضرورت ہو تو آپ اسے ٹیسریکٹ کرنے کے لیے اسٹینڈ اکیلے انووکیشن اسکرپٹ کے طور پر آسانی سے استعمال کر سکتے ہیں۔

اب، آئیے فارم ڈیٹا پر مشتمل ایک رسید لیں اور کمپیوٹر ویژن اور ٹیسریکٹ کا استعمال کرتے ہوئے متن کے مقام کی شناخت کرنے کی کوشش کریں۔

import pytesseract
from pytesseract import Output
import cv2 img = cv2.imread('receipt.jpg')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes): (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i]) img = cv2.rectangle(img, (x, y), (x + w, y + h), (0, 0, 255), 2) cv2.imshow(img,'img')

OCRs کا استعمال کرتے ہوئے ڈیٹا نکالنا فارم کریں۔

یہاں، آؤٹ پٹ میں، جیسا کہ ہم دیکھ سکتے ہیں، پروگرام فارم کے اندر موجود تمام متن کی شناخت کرنے کے قابل تھا۔ اب، تمام معلومات کو نکالنے کے لیے اس پر OCR لگائیں۔ ہم صرف کا استعمال کرکے یہ کر سکتے ہیں۔ image_to_string Python میں فنکشن۔

extracted_text = pytesseract.image_to_string(img, lang = 'deu')

: پیداوار

Berghotel
Grosse Scheidegg
3818 Grindelwald
Familie R.Müller Rech.Nr. 4572 30.07.2007/13:29: 17
Bar Tisch 7/01
2xLatte Macchiato &ä 4.50 CHF 9,00
1xGloki a 5.00 CH 5.00
1xSchweinschnitzel ä 22.00 CHF 22.00
IxChässpätz 1 a 18.50 CHF 18.50 Total: CHF 54.50 Incl. 7.6% MwSt 54.50 CHF: 3.85 Entspricht in Euro 36.33 EUR
Es bediente Sie: Ursula MwSt Nr. : 430 234
Tel.: 033 853 67 16
Fax.: 033 853 67 19
E-mail: grossescheidegs@b luewin. Ch

یہاں ہم فارم سے تمام معلومات نکالنے کے قابل ہیں۔ تاہم، زیادہ تر معاملات میں، صرف OCR استعمال کرنے سے کوئی فائدہ نہیں ہوگا کیونکہ نکالا گیا ڈیٹا مکمل طور پر غیر ساختہ ہوگا۔ لہذا، صارفین فارموں پر کلیدی قدر کے جوڑے نکالنے پر انحصار کرتے ہیں، جو صرف مخصوص اداروں جیسے کہ ID، تاریخیں، ٹیکس کی رقم وغیرہ کی شناخت کر سکتے ہیں۔ یہ صرف گہری سیکھنے سے ہی ممکن ہے۔ اگلے حصے میں، آئیے دیکھتے ہیں کہ معلومات نکالنے کے الگورتھم بنانے کے لیے ہم کس طرح مختلف گہری سیکھنے کی تکنیکوں سے فائدہ اٹھا سکتے ہیں۔

ڈیپ لرننگ کا استعمال کرتے ہوئے فارم ڈیٹا نکالنا حل کرنا

بصری طور پر بھرپور دستاویزات سے ملٹی موڈل معلومات کے اخراج کے لیے گراف کنولوشن

گراف کنولوشنل نیٹ ورکس (گراف CNNs) ڈیپ کنوولیشنل نیورل نیٹ ورکس (CNNs) کا ایک طبقہ ہے جو نوڈ اور ایج سٹرکچر کو محفوظ رکھتے ہوئے گراف ڈیٹا ڈھانچے میں انتہائی غیر لکیری خصوصیات کو مؤثر طریقے سے سیکھنے کے قابل ہے۔ وہ گراف ڈیٹا ڈھانچے کو بطور ان پٹ لے سکتے ہیں اور نوڈس اور کناروں کے لیے 'فیچر میپس' تیار کر سکتے ہیں۔ نتیجے میں آنے والی خصوصیات کو گراف کی درجہ بندی، کلسٹرنگ، یا کمیونٹی کا پتہ لگانے کے لیے استعمال کیا جا سکتا ہے۔ GCNs بڑی، ضعف سے بھرپور دستاویزات جیسے انوائسز اور رسیدوں سے معلومات نکالنے کا ایک طاقتور حل فراہم کرتے ہیں۔ ان پر کارروائی کرنے کے لیے، ہر تصویر کو نوڈس اور کناروں پر مشتمل گراف میں تبدیل ہونا چاہیے۔ تصویر پر کوئی بھی لفظ اس کے اپنے نوڈ سے ظاہر ہوتا ہے۔ بقیہ ڈیٹا کا تصور نوڈ کے فیچر ویکٹر میں انکوڈ کیا جاتا ہے۔

دستاویز کا گراف۔ گراف میں ہر نوڈ مکمل طور پر ایک دوسرے سے جڑا ہوا ہے۔(ایسآرسی)

یہ ماڈل سب سے پہلے دستاویز میں ہر ٹیکسٹ سیگمنٹ کو گراف ایمبیڈنگ میں انکوڈ کرتا ہے۔ ایسا کرنے سے ہر متنی عنصر کے ارد گرد موجود بصری اور متنی سیاق و سباق، متن کے ایک بلاک میں اس کی پوزیشن یا مقام کے ساتھ ساتھ۔ اس کے بعد یہ ان گرافس کو ٹیکسٹ ایمبیڈنگ کے ساتھ جوڑتا ہے تاکہ دستاویز کے ڈھانچے اور اس کے اندر جو کچھ لکھا گیا ہے اس کی مجموعی نمائندگی کر سکے۔ ماڈل نصوص پر زیادہ وزن تفویض کرنا سیکھتا ہے جو ممکنہ طور پر ایک دوسرے کے نسبت ان کے مقامات اور اس سیاق و سباق کی بنیاد پر ہیں جس میں وہ قارئین کے ایک بڑے بلاک میں ظاہر ہوتے ہیں۔ آخر میں، یہ ہستی نکالنے کے لیے ایک معیاری BiLSTM-CRF ماڈل کا اطلاق کرتا ہے۔ نتائج سے پتہ چلتا ہے کہ یہ الگورتھم وسیع مارجن پر بیس لائن ماڈل (BiLSTM-CRF) کو پیچھے چھوڑ دیتا ہے۔

لے آؤٹ ایل ایم: دستاویز کی تصویری تفہیم کے لیے متن اور لے آؤٹ کی پہلے سے تربیت

لے آؤٹ ایل ایم ماڈل کا فن تعمیر بہت زیادہ BERT سے متاثر ہے اور تیز تر R-CNN سے امیج ایمبیڈنگز کو شامل کرتا ہے۔ لے آؤٹ ایل ایم ان پٹ ایمبیڈنگز ٹیکسٹ اور پوزیشن ایمبیڈنگز کے امتزاج کے طور پر تیار کی جاتی ہیں، پھر تیز R-CNN ماڈل کے ذریعے تیار کردہ امیج ایمبیڈنگز کے ساتھ مل جاتی ہیں۔ ماسکڈ بصری زبان کے ماڈلز اور ملٹی لیبل دستاویز کی درجہ بندی بنیادی طور پر لے آؤٹ ایل ایم کے لیے پہلے سے تربیتی کاموں کے طور پر استعمال ہوتی ہے۔ لے آؤٹ ایل ایم ماڈل قیمتی، متحرک، اور کسی بھی کام کے لیے کافی مضبوط ہے جس کے لیے لے آؤٹ کو سمجھنا ضروری ہے، جیسے کہ فارم/رسید نکالنا، دستاویز کی تصویر کی درجہ بندی، یا یہاں تک کہ بصری سوالوں کا جواب بھی اس تربیتی ماڈل کے ساتھ انجام دیا جا سکتا ہے۔

تصویر کے ماخذ: لے آؤٹ ایم ایل

لے آؤٹ ایل ایم ماڈل کو IIT-CDIP ٹیسٹ کلیکشن 1.0 پر تربیت دی گئی تھی، جس میں 6 ملین سے زیادہ دستاویزات اور 11 ملین سے زیادہ سکین شدہ دستاویز کی تصاویر شامل ہیں جن کا کل 12GB سے زیادہ ڈیٹا ہے۔ اس ماڈل نے فارم کی سمجھ، رسید کی تفہیم، اور اسکین شدہ دستاویز کی تصویر کی درجہ بندی کے کاموں میں SOTA کے پہلے سے تربیت یافتہ ماڈلز کو کافی حد تک پیچھے چھوڑ دیا تھا۔

Form2Seq: ہائر آرڈر فارم سٹرکچر نکالنے کے لیے ایک فریم ورک

Form2Seq ایک ایسا فریم ورک ہے جو پوزیشنل سیکوینس کا استعمال کرتے ہوئے ان پٹ ٹیکسٹ سے ڈھانچے کو نکالنے پر فوکس کرتا ہے۔ روایتی seq2seq فریم ورک کے برعکس، Form2Seq ڈھانچے کی ترتیب کے بجائے متعلقہ مقامی پوزیشنوں کا فائدہ اٹھاتا ہے۔

اس طریقہ میں، سب سے پہلے، ہم نچلے درجے کے عناصر کی درجہ بندی کرتے ہیں جو بہتر پروسیسنگ اور تنظیم کی اجازت دیتے ہیں۔ فارم کی 10 قسمیں ہیں، جیسے فیلڈ کیپشن، فہرست اشیاء وغیرہ۔ اس کے بعد، ہم نچلے درجے کے عناصر، جیسے کہ ٹیکسٹ فیلڈز اور چوائس فیلڈز کو چوائس گروپس کہلانے والی اعلیٰ ترتیب والی تعمیرات میں گروپ کرتے ہیں۔ یہ معلومات جمع کرنے کے طریقہ کار کے طور پر استعمال کیے جاتے ہیں تاکہ صارف کے بہتر تجربے کو نچلے درجے کے عناصر کو اعلیٰ ترتیب کی تعمیرات میں حاصل کیا جا سکے، جیسے کہ ٹیکسٹ فیلڈز، چوائس فیلڈز اور چوائس گروپس، فارم میں معلومات جمع کرنے کے طریقہ کار کے طور پر استعمال ہوتے ہیں۔ یہ اجزاء کے عناصر کو قدرتی پڑھنے کی ترتیب میں ایک لکیری ترتیب میں ترتیب دینے اور ان کی مقامی اور متنی نمائندگی کو Seq2Seq فریم ورک میں کھلانے سے ممکن ہے۔ Seq2Seq فریم ورک ترتیب وار سیاق و سباق کے لحاظ سے جملے کے ہر عنصر کے لیے پیشین گوئیاں کرتا ہے۔ یہ اسے مزید معلومات پر کارروائی کرنے اور ہاتھ میں کام کی بہتر تفہیم تک پہنچنے کی اجازت دیتا ہے۔

عنصر کی قسم کی درجہ بندی کے لیے Form2seq ماڈل آرکیٹیکچر۔ مختلف مراحل حروف کے ساتھ بیان کیے گئے ہیں (ایسآرسی).

ماڈل نے درجہ بندی کے کام پر 90% کی درستگی حاصل کی، جو کہ سیگمنٹیشن پر مبنی بیس لائن ماڈلز سے زیادہ تھی۔ ٹیکسٹ بلاکس، ٹیکسٹ فیلڈز اور چوائس فیلڈز پر F1 بالترتیب 86.01%، 61.63% تھے۔ اس فریم ورک نے ٹیبل کی ساخت کی شناخت کے لیے ICDAR ڈیٹاسیٹ پر نتائج کی حالت حاصل کی۔

کیوں Nanonets AI-based OCR بہترین آپشن ہے۔

اگرچہ OCR سافٹ ویئر ٹیکسٹ کی اسکین شدہ تصاویر کو فارمیٹ شدہ ڈیجیٹل فائلوں جیسے PDFs، DOCs، اور PPTs میں تبدیل کر سکتا ہے، لیکن یہ ہمیشہ درست نہیں ہوتا ہے۔ آج کے معروف سافٹ ویئر جیسے Nanonets AI پر مبنی OCR ڈیپ لرننگ سسٹم نے بہت سے چیلنجوں پر قابو پا لیا ہے جن کا روایتی OCR سسٹمز کو سکین شدہ دستاویز سے قابل تدوین فائل بناتے وقت سامنا کرنا پڑا ہے۔ یہ ڈیٹا نکالنے کا بہترین آپشن بن گیا ہے کیونکہ یہ شور، گرافیکل عناصر، اور فارمیٹنگ کی تبدیلیوں کے لیے اعلی درستگی کی شرح اور اعلی رواداری کی سطح فراہم کر سکتا ہے۔ اب، آئیے چند نکات پر بات کرتے ہیں کہ کس طرح AI پر مبنی OCR بہترین آپشن ہے۔

Nanonets - فارم ڈیٹا نکالنا

OCR، جیسا کہ زیر بحث آیا، ڈیٹا نکالنے کی ایک سیدھی سی تکنیک ہے۔ تاہم، جب ان دیکھے/نئے ڈیٹا پر ڈالا جائے گا تو وہ مستقل طور پر کام نہیں کریں گے۔ تاہم، AI پر مبنی OCR اس طرح کے حالات کو سنبھال سکتا ہے، کیونکہ وہ ڈیٹا کی ایک وسیع رینج پر تربیت دیتے ہیں۔
عام OCRs فارم ڈیٹا نکالنے کے لیے پیچیدہ ترتیب کو نہیں سنبھال سکتے۔ لہذا، جب ڈیپ لرننگ یا AI کے ساتھ طاقت حاصل کی جاتی ہے، تو وہ ڈیٹا کی ترتیب، متن اور سیاق و سباق کو سمجھ کر بہترین نتائج دیتے ہیں۔
جب ڈیٹا میں شور ہوتا ہے تو OCR کم کارکردگی کا مظاہرہ کر سکتا ہے، جیسے کہ ترچھی پن، کم روشنی والی اسکین شدہ تصاویر وغیرہ، جبکہ گہری سیکھنے کے ماڈل ایسے حالات کو سنبھال سکتے ہیں اور پھر بھی انتہائی درست نتائج دیتے ہیں۔
AI پر مبنی OCRs روایتی OCRs کے مقابلے میں انتہائی حسب ضرورت اور لچکدار ہیں۔ غیر ساختہ ڈیٹا کو کسی بھی سٹرکچرڈ فارمیٹ میں تبدیل کرنے کے لیے انہیں مختلف قسم کے ڈیٹا پر بنایا جا سکتا ہے۔
AI پر مبنی OCR سے پوسٹ پروسیسنگ آؤٹ پٹ سادہ OCR کے مقابلے میں قابل رسائی ہیں۔ وہ کسی بھی ڈیٹا فارمیٹس جیسے JSON، CSV، Excel Sheets، یا یہاں تک کہ پوسٹگریس جیسے ڈیٹا بیس میں براہ راست ماڈل سے برآمد کیے جا سکتے ہیں۔
AI-based OCR کو پہلے سے تربیت یافتہ ماڈلز کا استعمال کرتے ہوئے ایک سادہ API کے طور پر برآمد کیا جا سکتا ہے۔ یہ اب بھی دوسرے روایتی طریقوں میں ممکن ہے، لیکن ماڈلز کو بروقت بنیادوں پر مستقل طور پر بہتر کرنا مشکل ہو سکتا ہے۔ AI پر مبنی OCR پر ہوتے ہوئے، یہ خود بخود غلطیوں سے ٹیون ہو سکتا ہے۔
براہ راست OCR کا استعمال کرتے ہوئے ٹیبل نکالنا انتہائی ناممکن ہے۔ تاہم، یہ AI/DL کی طاقت سے آسانی کے ساتھ کیا جا سکتا ہے۔ آج، AI پر مبنی OCRs دستاویزات کے اندر میز پر مبنی فارمز کو مثبت طور پر اشارہ کر سکتے ہیں اور معلومات نکال سکتے ہیں۔
اگر دستاویزات میں کوئی مالی یا خفیہ ڈیٹا موجود ہے تو، AI ماڈلز بھی فراڈ چیک کر سکتے ہیں۔ یہ بنیادی طور پر اسکین شدہ دستاویزات سے ترمیم شدہ/دھندلا ہوا متن تلاش کرتا ہے اور منتظمین کو مطلع کرتا ہے۔ ان ماڈلز کے ذریعے ڈپلیکیٹ دستاویزات یا معلومات کی بھی شناخت کی جا سکتی ہے۔ جبکہ او سی آر ایسے معاملات میں صرف ناکام ہوجاتا ہے۔

ٹائم اسٹیمپ: مارچ 6، 2022

ٹائم اسٹیمپ: فروری 28، 2024

فارم ڈیٹا نکالنا

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فارم ڈیٹا نکالنا کیا ہے؟

فارم ڈیٹا نکالنے کو کیا مشکل بناتا ہے؟

مختلف منظرناموں کے ساتھ فارم نکالنے کی گہرائی کو سمجھنا

منظر نامہ #1: آف لائن فارمز کے لیے ہاتھ سے لکھی پہچان

منظر نامہ #2: فارم پر چیک باکس کی شناخت

منظر نامہ #3: وقت وقت پر فارم کی لے آؤٹ تبدیلیاں

منظر نامہ #4: ٹیبل سیل کا پتہ لگانا

فارم ڈیٹا نکالنے کے حل کیسے تیار ہوئے ہیں؟

OCRs کا استعمال کرتے ہوئے ڈیٹا نکالنا فارم کریں۔

ڈیپ لرننگ کا استعمال کرتے ہوئے فارم ڈیٹا نکالنا حل کرنا

کیوں Nanonets AI-based OCR بہترین آپشن ہے۔

سے زیادہ اے آئی اور مشین لرننگ

او سی آر اور ڈیپ لرننگ کے ساتھ خودکار رسید ڈیجیٹائزیشن

اکاؤنٹس کی وصولی سائیکل کیا ہے؟

پی او فلپس کیا ہیں اور وہ آپ کے کاروبار کو کیسے بہتر بنا سکتے ہیں؟

سیلز فورس ڈیٹا بیس کیا ہے؟

RFQ کیا ہے اور یہ RFP سے کیسے مختلف ہے؟

10 میں AP کے عمل کو بہتر بنانے کے لیے قابل ادائیگی کے بہترین 2024 اکاؤنٹس

10 میں 2024 بہترین مینوفیکچرنگ OCR سافٹ ویئر (مفت اور ادا شدہ ٹولز)

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ