ٹیبلر ڈیٹا نکالیں۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

نکالنا چاہتے ہیں۔ ٹیبلر ڈیٹا رسیدوں، رسیدوں یا کسی اور قسم کی دستاویز سے؟ اس کو دیکھو نانونٹس' AI پر مبنی OCR نکالنے کے لیے ٹیبلر ڈیٹا.

تعارف

اس کی سادگی کی بنیاد پر، ایکسل ٹیبل کسی بھی ساختی ڈیٹا کو ڈیجیٹل طور پر ذخیرہ کرنے کا سب سے اہم طریقہ رہا ہے۔ بظاہر سادہ اسپریڈشیٹ درحقیقت بڑی کارپوریشنز اور تنظیموں کے روزانہ ڈیٹا پروسیسنگ سے جڑی ہوئی ہیں۔ چند کلکس میں، کمپنیاں اب کاموں کو مختلف کارکنوں میں تقسیم کر سکتی ہیں، متعدد کیش فلو سے بجٹ پر نظر رکھ سکتی ہیں، اور ماضی کے ڈیٹا سے درست پیشین گوئیاں بھی کر سکتی ہیں۔

تاہم، جب کہ تمام ڈیٹا کو درست طریقے سے Excel میں درآمد کرنے پر ہم بہت سارے کام آسانی سے حاصل کر سکتے ہیں، پہلے سے موجود ٹیبلز، اسکینز، یا یہاں تک کہ تصاویر سے ڈیٹا نکالنے کا عمل آسان نہیں ہے۔ چونکہ عام اسپریڈشیٹ کی نمائندگی اب ڈیٹا پروسیسنگ اور ویژولائزیشن میں بہت سے فوائد لاتی ہے، اس لیے کمپیوٹر ویژن، امیج پروسیسنگ، اور گہری سیکھنے کے طریقوں کے ذریعے ڈیٹا نکالنے کا کام آج کی ریسرچ کمیونٹی میں ایک گرما گرم موضوع بن کر ابھرا ہے۔ ایسا لگتا ہے کہ ڈیٹا نکالنا کچھ اتنا قریب ہے لیکن حاصل کرنا اتنا مشکل ہے۔

اس مضمون میں اس کام سے نمٹنے کے اعلیٰ سطحی اقدامات کا تعارف کرایا گیا ہے، اس کے بعد ڈیٹا نکالنے کے طریقوں اور اس طرح کے کاموں کو دستی طور پر اور خود بخود حاصل کرنے کے لیے ٹیوٹوریلز پر تازہ ترین پیشرفت، اور آخر میں ان کاموں کو پورا کرنے کے لیے مارکیٹ میں موجودہ حل پر ایک مختصر روشنی ڈالی گئی ہے۔

مسئلہ کا گلنا

ٹیبلولر ڈیٹا نکالنے کے کام کو دو ذیلی مسائل میں تقسیم کیا جا سکتا ہے: 1) اسکین/تصاویر/پی ڈی ایف دستاویزات سے ٹیبل نکالنا جہاں فارمیٹ مشینوں کے ذریعے پہچانا نہیں جا سکتا اور 2) ٹیبل سیلز کے اندر موجود الفاظ کو سمجھنا/ان کی تشریح کرنا تاکہ یہ ہو سکے۔ اسپریڈشیٹ کے لیے CSV فائلوں میں مناسب طریقے سے درآمد کیا گیا۔

ٹیبلر ڈیٹا نکالنے کے کیسز کا استعمال کریں۔

بزنس کیش فلو ٹریکنگ

اگر آپ کی کمپنی کے خرید و فروخت کے ذرائع ایک ہی ذریعہ سے ہیں، تو آپ آسانی سے باخبر رہنے کے لیے رسیدوں کا دستی طور پر موازنہ کر سکتے ہیں۔ تاہم، یہ اکثر خاص طور پر بڑی کارپوریشنوں کے لیے نہیں ہوتا ہے۔ فنڈز مختلف ذرائع سے کمپنی میں آ سکتے ہیں اور باہر جا سکتے ہیں اور اکثر ان کی رسید اور رسید کی شکلیں مختلف ہوتی ہیں۔ سرمایہ کار، خریدار، اور بیچنے والے سبھی الگ الگ ہوسکتے ہیں اور مختلف مقامات یا حتیٰ کہ ممالک سے بھی آسکتے ہیں۔ جب دوسری زبانوں میں ادائیگیاں کی جاتی ہیں تو مسئلہ بڑھ جاتا ہے۔

سال بہ سال، ان بظاہر آسان لیکن غلطی کا شکار کاموں کو مکمل کرنے کے لیے ملازمین کی خدمات حاصل کرنے کے لیے وسیع پیمانے پر وسائل کی ضرورت ہوتی ہے۔ ٹیبلولر ڈیٹا کو اسکین کرنے اور نکالنے کا ایک خودکار طریقہ ان کمپنیوں کو پیسے، وقت اور وسائل کی بچت میں ڈرامائی طور پر مدد کرے گا۔ مزید برآں، ایک اچھی طرح سے دستاویزی اسپریڈشیٹ ڈیٹا کے تجزیہ کے لیے پوسٹ پروسیسنگ کو بہت آسان بنا سکتی ہے۔ کمپنیاں ایک سے زیادہ منظم ایکسل شیٹس سے ڈیٹا نکال کر مشین لرننگ الگورتھم کے ذریعے آسانی سے بجٹ اور مالی تخمینہ لگا سکتی ہیں۔

کراس بزنس ریکارڈ کی منتقلی

جب نئے مقامات، قوموں میں منتقل ہوتے ہیں، یا مختلف خدمات کا انتخاب کرتے ہیں، تو صارفین کو پہلے کے سسٹمز سے ایک جیسا ڈیٹا نئے سروس فراہم کنندہ کو منتقل کرنا ہوتا ہے۔ اس طرح کے ڈیٹا میں میڈیکل ڈیٹا، بینک اسٹیٹمنٹس وغیرہ شامل ہوسکتے ہیں لیکن ان تک محدود نہیں ہیں۔

ڈیٹا کو ایک سروس سے دوسری سروس میں سمجھنے اور اس کا ترجمہ کرنے کے نظام کو شامل کرنے سے، کمپنیاں لاگت میں کمی کے ساتھ بہت فائدہ اٹھا سکتی ہیں۔

اکاؤنٹنگ فرمز

اکاؤنٹنگ فرموں کو ایک جڑواں مسئلہ درپیش ہے: اس کی ہر ایک کسٹمر کمپنی کے لیے مشکل کیش فلو مفاہمت اور متعدد ممالک کی فرموں میں مختلف ٹیبلر اور ڈیٹا اسٹوریج فارمیٹس۔ مصروف ٹیکس رپورٹنگ سیزن کے دوران جب وقت سب سے زیادہ اہمیت رکھتا ہے، کم از کم غلطی کی شرح کے ساتھ ایک خودکار ڈیٹا نکالنے کا حل اس لیے بھاری دستی مشقت کو کم کرنے میں مددگار ثابت ہوگا۔

یہ کس طرح کام کرتا ہے؟

اگرچہ تقریباً سبھی جانتے ہیں کہ مشین لرننگ اس آٹومیشن کو سہولت فراہم کرنے میں مدد کر سکتی ہے، لیکن حقیقت میں بہت کم لوگ اس کے پیچھے موجود تصورات کو جانتے ہیں۔

درحقیقت، ہم اس معاملے میں جو استعمال کرتے ہیں وہ ایک تصور ہے جسے ڈیپ لرننگ کہا جاتا ہے، جو مشین لرننگ کی ایک ذیلی شاخ ہے: ان پٹ اور آؤٹ پٹس کے ایک سیٹ کے درمیان انٹرمیڈیٹ سسٹم/فنکشن کو سمجھنے/سیکھنے کی ایک عمومی شاخ، اس طرح کہ ہم مستقبل کی پیش گوئیاں کرنے کے لیے فنکشن کا استعمال کریں۔ مختصراً، گہرائی سے سیکھنے سے فنکشن کی تقلید ایک طاقتور ٹول کے ذریعے ہوتی ہے جس کا نام نیورل نیٹ ورکس ہے، جو کہ حیاتیاتی نیورل نیٹ ورکس کی نقل ہے۔ ہم اپنی پیشین گوئی اور اصل زمینی سچائی کے درمیان فرق کو کم سے کم کرکے مناسب وزن اور نیوران سیکھتے ہیں۔

اس نیٹ ورک کو کیسے بنایا جا سکتا ہے اس میں بہت سی تبدیلیاں ہیں۔ ذیل میں ہم ٹیبلولر ڈیٹا کو نکالنے کے لیے درکار ضروری مختلف حالتوں کی وضاحت کرتے ہیں۔

سی این این

Convolutional Neural Networks (CNNs) سیکھنے کے قابل وزن اور تعصبات کے ساتھ نیورونز پر مشتمل ہوتے ہیں، جو کہ نیورل نیٹ ورکس کی طرح ہیں۔ بنیادی فرق یہ ہے کہ ہم فرض کرتے ہیں کہ ان پٹس CNNs کے لیے تصویریں ہیں، جس سے ہمیں کرنلز نامی فن تعمیر میں مخصوص صفات کو سرایت کرنے کی اجازت ملتی ہے، جو کہ ایک سلائیڈنگ ونڈو ہے جو پڑوسی خصوصیات کو اگلی پرت میں فیڈ کرنے کے لیے وزنی رقم کے طور پر اکٹھا کرتی ہے۔ نتیجے کے طور پر، فارورڈ فنکشن لاگو کرنے کے لیے زیادہ موثر ہے اور کافی حد تک بہتر ہوتا ہے۔ CNN اس وقت کام آتے ہیں جب ہم کسی تصویر کے اندر کچھ اشیاء تلاش کرنا چاہتے ہیں، اور اس صورت میں، ایک میز۔

آر این این۔

دوسری طرف ریکرنٹ نیورل نیٹ ورکس (RNNs)، نیٹ ورکس کی ایک کلاس ہیں جو اگلی پیشین گوئی کے لیے پچھلے آؤٹ پٹ کو بطور ان پٹ استعمال کرنے کی اجازت دیتے ہیں۔ یہ خاص طور پر اس وقت مددگار ہوتا ہے جب پیشین گوئی پچھلی بار کے نتائج پر منحصر ہو (مثال کے طور پر، موسم کی پیشن گوئی میں، یہ سوال کہ آیا آج بارش ہوگی اس بات پر بہت زیادہ انحصار کرتا ہے کہ آیا اس سے پہلے بارش ہوئی تھی)۔ اس قسم کا فن تعمیر اس وقت مددگار ثابت ہوتا ہے جب کسی جملے کے معنی کو سمجھنے کی کوشش کی جائے جہاں پچھلے الفاظ اس بات پر اثر انداز ہو سکتے ہیں کہ موجودہ لفظ کیا ہو سکتا ہے/مطلب۔

تصورات کو ایک ساتھ رکھنا

مناسب ڈیٹاسیٹس پر تربیت دے کر، اب ہم درج ذیل طریقہ کار کے ذریعے ٹیبلر ڈیٹا نکال سکتے ہیں۔

دستاویز کی قسم کی درجہ بندی کرنے کے لیے CNN کا استعمال ایک تصویر کے اندر ہے۔ یہ ہمیں مختلف تربیت یافتہ ٹیبل ڈیٹیکٹرز کا انتخاب کرتے وقت زیادہ مخصوص ہونے کی اجازت دیتا ہے جو ممکنہ طور پر مختلف منظرناموں میں بہتر کام کر سکتے ہیں (مثال کے طور پر، ایک انوائس کے لیے اور ایک بینک اسٹیٹمنٹ کے لیے)
میزوں، قطاروں اور کالموں کا مزید پتہ لگانے کے لیے CNN کا استعمال۔
آپٹیکل کریکٹر ریکگنیشن کو انجام دینے کے لیے CNNs اور RNNs کو یکجا کرنا، جو ہمیں یہ سمجھنے کی اجازت دیتا ہے کہ ہر ٹیبل، قطار، یا کالم میں بالکل کیا ذخیرہ ہے۔ "زبان" کو سمجھنا ہمیں اپنے نکالے گئے ڈیٹا کو نامزد فارمیٹس (جیسے، CSV یا JSON) میں ڈالنے کی اجازت دے سکتا ہے جہاں ہم شماریاتی تجزیوں اور کراس موازنہ کے لیے مزید اپنا سکتے ہیں۔

ٹیوٹوریل

پی ڈی ایف کو امیجز میں تبدیل کرنا

کمپیوٹر وژن کا استعمال کرتے ہوئے ٹیبلر ڈیٹا کو نکالنے کا بالآخر مطلب یہ ہے کہ اگر ڈیٹا پہلے سے موجود نہیں ہے تو اسے امیج فارمیٹس میں پہلے سے پروسیس کیا جانا چاہیے۔ سب سے عام دستاویز کی قسم جسے تبدیل کرنے کی ضرورت ہے وہ پی ڈی ایف ہے، اور اس طرح ہمارا پہلا قدم پی ڈی ایف فائلوں کو مزید پروسیسنگ کے لیے تصویری فائلوں میں تبدیل کرنا ہوگا۔ ایسا کرنے کے لیے، ہمیں pdf2image لائبریری کی ضرورت ہوگی جسے درج ذیل کے طور پر محفوظ کیا جاسکتا ہے۔

pip install pdf2image

اس کے بعد، ہم پی ڈی ایف فائلوں کو پری پروسیس کرنے کے لیے درج ذیل لکھ سکتے ہیں۔

from pdf2image import convert_from_path, convert_from_bytes
from pdf2image.exceptions import ( PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError
) images = convert_from_path('example.pdf')
images = convert_from_bytes(open('example.pdf','rb').read())

پیش کردہ کوڈ بائٹس اور راستے سے دونوں فراہم کرتا ہے۔ اپنی ضروریات کے لیے موزوں ایک کا انتخاب کریں۔

میزیں تلاش کرنا

کسی تصویر کے اندر ٹیبل تلاش کرنے کے لیے، ایک سادہ طریقہ یہ ہوگا کہ ٹیبل کی طرح نظر آنے والی لائنوں اور حدود کا پتہ لگائیں۔ اوپن سی وی کے ذریعے کمپیوٹر ویژن کے روایتی طریقے استعمال کرنے کا آسان ترین طریقہ ہے (بہت سارے ٹیوٹوریل یہاں مل سکتے ہیں۔ سرکاری ویب سائٹ)۔ اسے استعمال کرنے کے لیے اسے صرف اس کے ساتھ انسٹال کریں:

pip install opencv-python

تاہم، اگر آپ کی کمپنی کے پاس اس بات کا وافر ڈیٹا ہے کہ آپ کے فائلوں کے ڈیٹا بیس میں عام ٹیبلز کس طرح کی نظر آتی ہیں، تو آپ میزیں تلاش کرنے کے لیے آبجیکٹ کا پتہ لگانے کے طریقوں پر بھی عمل کر سکتے ہیں۔ کچھ قابل ذکر طریقوں میں Faster RCNN اور YOLO شامل ہیں۔ نوٹ کریں کہ اس کے لیے اپنے ماڈل کو تربیت دے کر، تاہم، آپ کو تربیت کے دوران کمپیوٹیشنل وسائل جیسے GPUs کی ضرورت ہوگی، اس کے ساتھ ساتھ ہر قسم کے منظرناموں سے لے کر کافی مقدار میں ڈیٹا کی ضرورت ہوگی جس میں تصویر/ اسکین شدہ پی ڈی ایف کیپچر کی گئی ہے۔

گوگل ویژن API کے ذریعے مواد نکالنا

آخر میں، ٹیبل سیلز کے باؤنڈنگ باکس کے قائم ہونے کے ساتھ، اب ہم OCR کی طرف بڑھ سکتے ہیں، جسے OCR بازیافت کے لیے Google Vision API بہترین اختیارات میں سے ایک لگتا ہے۔ Google وژن API اپنے وسیع کسٹمر بیس کی وجہ سے بڑے پیمانے پر کراؤڈ سورسنگ پر تربیت یافتہ ہیں۔ لہذا، اپنے ذاتی OCR کو تربیت دینے کے بجائے، ان کی خدمات کو استعمال کرنے میں بہت زیادہ درستگی ہو سکتی ہے۔

پورا گوگل ویژن API سیٹ اپ کرنا آسان ہے۔ کوئی اس کی سرکاری رہنمائی کا حوالہ دے سکتا ہے۔ https://cloud.google.com/vision/docs/quickstart-client-libraries تفصیلی سیٹ اپ کے طریقہ کار کے لیے۔

OCR بازیافت کا کوڈ درج ذیل ہے:

def detect_document(path): """Detects document features in an image.""" from google.cloud import vision import io client = vision.ImageAnnotatorClient() with io.open(path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) response = client.document_text_detection(image=image) for page in response.full_text_annotation.pages: for block in page.blocks: print('nBlock confidence: {}n'.format(block.confidence)) for paragraph in block.paragraphs: print('Paragraph confidence: {}'.format( paragraph.confidence)) for word in paragraph.words: word_text = ''.join([ symbol.text for symbol in word.symbols ]) print('Word text: {} (confidence: {})'.format( word_text, word.confidence)) for symbol in word.symbols: print('tSymbol: {} (confidence: {})'.format( symbol.text, symbol.confidence)) if response.error.message: raise Exception( '{}nFor more info on error messages, check: ' 'https://cloud.google.com/apis/design/errors'.format( response.error.message))

اگر آپ گوگل کلاؤڈز سے ریموٹ امیجز استعمال کر رہے ہیں، تو آپ اس کے بجائے درج ذیل کوڈ استعمال کر سکتے ہیں:

def detect_text_uri(uri): """Detects text in the file located in Google Cloud Storage or on the Web. """    from google.cloud import vision client = vision.ImageAnnotatorClient() image = vision.Image() image.source.image_uri = uri response = client.text_detection(image=image) texts = response.text_annotations    print('Texts:') for text in texts: print('n"{}"'.format(text.description)) vertices = (['({},{})'.format(vertex.x, vertex.y)                  for vertex in text.bounding_poly.vertices])        print('bounds: {}'.format(','.join(vertices))) if response.error.message: raise Exception( '{}nFor more info on error messages, check: '            'https://cloud.google.com/apis/design/errors'.format(                response.error.message))

گوگل کا API اس لحاظ سے بہت لچکدار ہے کہ ان کا مشین لرننگ ماڈل بہت مضبوط اور بہت سارے چیلنجنگ منظرناموں کے لیے مضبوط ہے۔ اس بات سے آگاہ رہیں کہ فنکشن document_text_detection خاص طور پر تربیت یافتہ اور انتہائی کنڈینسڈ ٹیکسٹس میں مہارت رکھتا ہے جو زیادہ تر پی ڈی ایف میں ظاہر ہوتا ہے۔ اگرچہ یہ بہت سے لوگوں کی ضرورت کے مطابق ہے، اگر آپ کی پی ڈی ایف میں الفاظ کچھ زیادہ ہی کم ہیں، تو بہتر ہوگا کہ ان کے دوسرے ٹیکسٹ ڈیٹیکشن فنکشن کو استعمال کریں جو جنگلی تصاویر پر زیادہ توجہ مرکوز کرتا ہے۔

گوگل API کے استعمال سے متعلق مزید کوڈز یہاں سے حاصل کیے جا سکتے ہیں: https://cloud.google.com/vision; اگر آپ ان سے زیادہ واقف ہیں تو آپ دوسری زبانوں (مثلاً جاوا یا گو) کے کوڈز کا بھی حوالہ دے سکتے ہیں۔

ایمیزون اور مائیکروسافٹ سے دیگر OCR سروسز/APIs بھی ہیں، اور آپ ہمیشہ استعمال کر سکتے ہیں۔ PyTesseract مخصوص مقاصد کے لیے آپ کے ماڈل کی تربیت کے لیے لائبریری۔

کوڈنگ نہیں جانتے؟ Nanonets آزمائیں!

اگر آپ کمپیوٹر سائنس کے پس منظر کے حامل فرد ہیں یا آپ کے کاروبار کو ایسی صلاحیت کی ضرورت ہے تو، Nanonets ایک بہترین ٹیبل نکالنے والی ٹیکنالوجی پیش کرتا ہے جو ایک واحد ڈیٹا کی قسم سے آگے اچھی کارکردگی کا مظاہرہ کر سکتی ہے۔ اسے استعمال کرنے کا طریقہ یہاں ایک مختصر ٹیوٹوریل ہے:

1 مرحلہ.

nanonets.com پر جائیں اور رجسٹر/لاگ ان کریں۔

ٹیبلر ڈیٹا PlatoBlockchain ڈیٹا انٹیلی جنس نکالیں۔ عمودی تلاش۔ عی — ٹیبلر ڈیٹا نکالیں - نانونٹس

2 مرحلہ.

رجسٹریشن کے بعد، "شروع کرنے کا انتخاب کریں" کے علاقے میں جائیں، جہاں پہلے سے بنائے گئے تمام ایکسٹریکٹر بنائے گئے ہیں اور ٹیبلر ڈیٹا نکالنے کے لیے ڈیزائن کیے گئے ایکسٹریکٹر کے لیے "ٹیبلز" ٹیب پر کلک کریں۔

3 مرحلہ.

چند سیکنڈ کے بعد، ڈیٹا کا نچوڑ کا صفحہ یہ کہہ کر پاپ اپ ہو جائے گا کہ یہ تیار ہے۔ نکالنے کے لیے فائل اپ لوڈ کریں۔

4 مرحلہ.

پروسیسنگ کے بعد، Nanonets تمام ٹیبلر معلومات کو درست طریقے سے نکالتا ہے، یہاں تک کہ خالی جگہوں کو چھوڑ کر! ڈیٹا کو JSON میں ڈاؤن لوڈ کرنے اور مزید کمپیوٹنگ کے لیے بھی ڈالا جا سکتا ہے۔

نتیجہ

اور وہاں آپ کے پاس ہے! ٹیبلولر ڈیٹا کو نکالنے میں تکنیک کی ترقی اور اسے اپنے کاروبار میں آسانی سے شامل کرنے کے بارے میں ایک مختصر تاریخ۔ امید ہے کہ اس سے آپ کی بہت زیادہ محنت کی بچت ہو گی جو پہلے ڈیٹا کی کینگ اور ڈبل چیکنگ میں درکار تھی۔

ٹائم اسٹیمپ: 21 فروری 2022

ٹائم اسٹیمپ: اپریل 6، 2023