پی ڈی ایف ڈیٹا کو ڈیٹا بیس انٹریز پلیٹو بلاکچین ڈیٹا انٹیلی جنس میں تبدیل کریں۔ عمودی تلاش۔ عی

پی ڈی ایف ڈیٹا کو ڈیٹا بیس اندراجات میں تبدیل کریں۔

کئی تنظیمیں اور کاروبار اہم دستاویزات جیسے کہ رسیدیں، پے سلپس، مالیات، ورک آرڈرز، رسیدیں، اور بہت کچھ شیئر کرنے کے لیے PDF دستاویزات پر انحصار کرتے ہیں۔ تاہم، پی ڈی ایف تاریخی ڈیٹا کو ذخیرہ کرنے کے لیے جانے والے فارمیٹس نہیں ہیں کیونکہ انہیں آسانی سے برآمد اور ورک فلو میں منظم نہیں کیا جا سکتا۔ لہذا لوگ پی ڈی ایف اور اسکین شدہ دستاویزات کو JSON، CSV، Tables یا Excel جیسے ساختی فارمیٹس میں ڈیجیٹائز کرنے کے لیے معلومات نکالنے کے الگورتھم کا استعمال کرتے ہیں جنہیں آسانی سے دوسرے تنظیمی ورک فلو میں تبدیل کیا جا سکتا ہے۔

کچھ معاملات میں، پی ڈی ایف میں ضروری معلومات ہوتی ہیں جن پر مختلف ERPs، CMS، اور دیگر ڈیٹا بیس سے چلنے والے سسٹمز میں کارروائی کی جاتی ہے۔ بدقسمتی سے، پی ڈی ایف دستاویزات میں ڈیٹا بیس فنکشن کے لیے آسان پی ڈی ایف نہیں ہے، اور اسکرپٹ لکھنا یا اس کام کے ارد گرد ورک فلو بنانا قدرے پیچیدہ ہے۔ یہ وہ جگہ ہے جہاں OCR اور ڈیپ لرننگ (DL) الگورتھم ان پی ڈی ایف فارمیٹس سے ڈیٹا نکالنے اور اسے ڈیٹا بیس میں ایکسپورٹ کرنے کے لیے تصویر میں آتے ہیں۔ اس بلاگ پوسٹ میں، ہم مختلف طریقے دیکھیں گے کہ آپ DL ٹیکنالوجیز کے ساتھ ساتھ مارکیٹ میں کچھ مشہور APIs کا استعمال کرکے اسے کیسے پورا کرسکتے ہیں۔

پی ڈی ایف سے ڈیٹا بیس کی تبدیلی کیا ہے؟

پی ڈی ایف ٹو ڈیٹا بیس کنورژن پی ڈی ایف سے ڈیٹا کو ڈیٹا بیس جیسے پوسٹگریس، مونگو، مائی ایس کیو ایل وغیرہ میں ایکسپورٹ کرنے کا کام ہے۔

فرض کریں کہ ہمیں ایک ویب ایپلیکیشن یا ایک ERP سسٹم بنانا ہے جو مختلف ذرائع سے انوائس کی معلومات رکھتا ہے اور اسے برقرار رکھتا ہے۔ تاریخی رسیدوں کو دستی طور پر ڈیٹا بیس میں شامل کرنا ایک مشکل کام ہے اور یہ بہت زیادہ غلطی کا شکار ہے۔ دوسری طرف، ایک سادہ OCR استعمال کرنے سے انوائسز سے میزیں درست طریقے سے نہیں نکالی جا سکتی ہیں۔

یہ وہ جگہ ہے جہاں AI سے چلنے والی جدید پی ڈی ایف سے ڈیٹا بیس کی تبدیلی کام آتی ہے!

کیا یہ اے آئی سے چلنے والی پی ڈی ایف سے ڈیٹا بیس کی تبدیلی کے عمل کو خودکار کیا جا سکتا ہے؟ - جی ہاں.

ذیل کے حصوں میں، ہم سکین شدہ دستاویزات سے ٹیبل ریجنز کا پتہ لگانے کے لیے کمپیوٹر ویژن اور ڈیپ لرننگ کا استعمال کرتے ہیں۔ یہ جدولیں مزید ایک مخصوص ڈیٹا فارمیٹ جیسے CSV یا ایکسل میں محفوظ کی جاتی ہیں اور انہیں براہ راست ڈیٹا بیس میں دھکیل دیا جائے گا۔

ان پر بات کرنے سے پہلے، آئیے استعمال کے کچھ معاملات کو سمجھیں جہاں PDF سے ڈیٹا بیس کا پتہ لگانے تک مفید ہو سکتا ہے۔

پی ڈی ایف سے ڈیٹا بیس کے استعمال کے مختلف کیسز

ڈیٹا بیس کلاؤڈ اور مقامی اسٹوریج دونوں پر معلومات کو ذخیرہ کرنے کے بہترین طریقے ہیں۔ وہ ہمیں آسان سوالات کا استعمال کرتے ہوئے مختلف آپریشنز اور ہیرا پھیری کرنے کی اجازت دیتے ہیں۔ یہاں کچھ استعمال کے معاملات ہیں جو ڈیٹا بیس کے تبادلوں کے ورک فلو میں ایک خودکار پی ڈی ایف کے ساتھ بہت زیادہ بہتر ہوسکتے ہیں:

  1. ویب پر انوائس مینجمنٹ: کاروبار اور تنظیمیں ہر روز کئی رسیدوں سے نمٹتی ہیں۔ اور ان کے لیے دستی طور پر ہر رسید پر کارروائی کرنا مشکل ہے۔ اس کے علاوہ، بعض اوقات، وہ غیر ڈیجیٹل فارمیٹ میں رسیدیں بڑھاتے اور وصول کرتے ہیں، جس سے انہیں ٹریک کرنا مشکل ہو جاتا ہے۔ لہذا، وہ ویب پر مبنی ایپلی کیشنز پر انحصار کرتے ہیں جو ان کے تمام رسیدیں ایک جگہ پر محفوظ کر سکتی ہیں۔ ڈیٹا بیس کنورٹر سے پی ڈی ایف انوائسز سے ویب ایپلیکیشن میں ڈیٹا نکالنے کو خودکار کر سکتا ہے۔ ان کاموں کو موثر طریقے سے خودکار کرنے کے لیے، ہم کرون جابز چلا سکتے ہیں اور انہیں فریق ثالث کی خدمات جیسے کہ n8n اور Zapier کے ساتھ ضم کر سکتے ہیں – جب کوئی نیا انوائس اسکین اور اپ لوڈ کیا جاتا ہے، تو یہ الگورتھم کو چلا سکتا ہے اور اسے خودکار طور پر ٹیبل میں دھکیل سکتا ہے۔
  2. ای کام انوینٹری مینیجمینt: بہت ساری ای کام انوینٹری مینجمنٹ اب بھی پی ڈی ایف اور اسکین شدہ کاپیوں سے پروڈکٹس کے دستی اندراج کے ذریعے چلتی ہے۔ تاہم، انہیں اپنی تمام مصنوعات اور فروخت پر نظر رکھنے کے لیے اپنا تمام ڈیٹا بلنگ مینجمنٹ سوفٹ ویئر میں اپ لوڈ کرنے کی ضرورت ہے۔ لہذا، ٹیبل کو ڈیٹا بیس کنورژن الگورتھم کا استعمال ان کے دستی اندراج کو خودکار کرنے اور وسائل کو بچانے میں مدد کرسکتا ہے۔ اس عمل میں عام طور پر اسکین شدہ دستاویزات سے انوینٹری کی فہرست کو اسکین کرنا اور مختلف کاروباری قواعد و ضوابط کی بنیاد پر مخصوص ڈیٹا بیس ٹیبلز میں برآمد کرنا شامل ہے۔
  3. سروے سے ڈیٹا نکالنا: تاثرات اور دیگر قیمتی معلومات جمع کرنے کے لیے، ہم عام طور پر ایک سروے کرتے ہیں۔ وہ کاروبار اور میڈیا سے لے کر حکومت اور ماہرین تعلیم تک معلوماتی معیشت میں مصروف تقریباً ہر فرد کے لیے ڈیٹا اور بصیرت کا ایک اہم ذریعہ فراہم کرتے ہیں۔ جب یہ آن لائن جمع کیے جاتے ہیں، تو صارف کے جواب کی بنیاد پر ٹیبل ڈیٹا اسٹیٹس کو نکالنا اور اسے ڈیٹا بیس پر اپ لوڈ کرنا آسان ہوتا ہے۔ تاہم، زیادہ تر معاملات میں، سروے کے جوابات کاغذ پر ہیں۔ ایسے معاملات میں، دستی طور پر معلومات اکٹھا کرنا اور ڈیجیٹل فارمیٹ میں ذخیرہ کرنا بہت مشکل ہے۔ اس لیے، ڈیٹا بیس الگورتھم کے لیے ٹیبل پر انحصار کرنے سے وقت کی بچت ہو سکتی ہے اور اضافی اخراجات کو بھی کم کیا جا سکتا ہے۔

پی ڈی ایف سے متعلقہ اور غیر متعلقہ ڈیٹا بیس تک معلومات کیسے نکالیں؟

ایک پی ڈی ایف فائل کو دو مختلف اقسام کے طور پر دیکھا جاتا ہے، الیکٹرانک طور پر تیار کردہ اور غیر الیکٹرانک طور پر تیار کردہ۔

  1. الیکٹرانک پی ڈی ایف: اس اسکین شدہ پی ڈی ایف دستاویز میں تصویر کے پیچھے چھپا ہوا متن ہوسکتا ہے۔ ان کو الیکٹرانک طور پر تیار کردہ PDFs بھی کہا جاتا ہے۔
  2. غیر الیکٹرانک پی ڈی ایف: اس قسم میں، ہم تصویر کے طور پر سخت کوڈ شدہ مزید مواد دیکھتے ہیں۔ یہ اس وقت ہوتا ہے جب آپ کے پاس پی ڈی ایف فائل میں ہارڈ کاپی دستاویز اسکین ہوتی ہے۔

ہم پہلی قسم (الیکٹرانک طور پر تیار کردہ) کے لیے سادہ پروگرامنگ زبانوں اور فریم ورک جیسے ازگر اور جاوا پر انحصار کر سکتے ہیں۔ غیر الیکٹرانک طور پر تیار کردہ PDFs کے لیے، ہمیں OCR اور گہری سیکھنے کے ساتھ کمپیوٹر ویژن تکنیکوں کو استعمال کرنے کی ضرورت ہوگی۔ تاہم، یہ الگورتھم تمام ٹیبل نکالنے والے الگورتھم کے لیے ایک جیسے نہیں ہو سکتے ہیں، اور انھیں زیادہ درستگی حاصل کرنے کے لیے ڈیٹا کی قسم کے لحاظ سے تبدیل کرنے کی ضرورت ہوگی۔ این ایل پی (نیچرل لینگویج پروسیسنگ) کا استعمال میزوں کے اندر موجود ڈیٹا کو سمجھنے اور بعض صورتوں میں انہیں نکالنے کے لیے بھی کیا جاتا ہے۔

دوسری طرف، ڈیٹا بیس کی دو قسمیں ہیں (متعلقہ اور غیر متعلقہ)؛ ان میں سے ہر ایک ڈیٹا بیس کے اپنے فن تعمیر کی بنیاد پر قواعد کے مختلف سیٹ ہوتے ہیں۔ ایک رشتہ دار ڈیٹا بیس کا ڈھانچہ ہے، یعنی ڈیٹا کو ٹیبل میں ترتیب دیا گیا ہے۔ چند مثالوں میں MySQL، Postgres وغیرہ شامل ہیں۔

اس کے برعکس، غیر متعلقہ ڈیٹا بیس دستاویز پر مبنی ہے، یعنی تمام معلومات لانڈری لسٹ کے زیادہ ترتیب میں محفوظ ہو جاتی ہیں۔ ایک کنسٹرکٹر دستاویز کے اندر، آپ کے پاس آپ کا تمام ڈیٹا درج ہوگا - مثال کے طور پر، MongoDB۔

جب دستاویزات الیکٹرانک طور پر تیار کی جاتی ہیں تو ڈیٹا بیس میں پی ڈی ایف

جیسا کہ بحث کی گئی ہے، الیکٹرانک طور پر تیار کردہ پی ڈی ایف کے لیے، میزیں نکالنے کا عمل سیدھا ہے۔ خیال یہ ہے کہ میزیں نکالیں اور پھر ان کو تبدیل کرنے یا انہیں ٹیبل میں شامل کرنے کے لیے سادہ اسکرپٹ کا استعمال کریں۔ پی ڈی ایف سے ٹیبل نکالنے کے لیے، بنیادی طور پر دو تکنیکیں ہیں۔

تکنیک #1 سلسلہ: الگورتھم ٹیبل کے ڈھانچے کی نقالی کرنے کے لیے خلیوں کے درمیان خالی جگہوں پر مبنی جدولوں کے ذریعے تجزیہ کرتا ہے — اس بات کی نشاندہی کرنا کہ متن کہاں موجود نہیں ہے۔ یہ پی ڈی ایف مائنر کی فنکشنلٹی پر بنایا گیا ہے کہ ایک صفحے پر حروف کو حاشیہ کا استعمال کرتے ہوئے الفاظ اور جملوں میں گروپ کیا جائے۔ اس تکنیک میں، سب سے پہلے، کچھ متن کی y-axis پوزیشن (یعنی اونچائی) کی بنیاد پر کھردرا اندازہ لگا کر قطاروں کا پتہ لگایا جاتا ہے۔ ایک ہی لائن پر موجود تمام متن کو ایک ہی قطار کا حصہ سمجھا جاتا ہے۔ اس کے بعد، قاری کو گروپ کیا جاتا ہے اور ٹیبل میں کالموں کی شناخت کے لیے ایک مختلف گروپ کے طور پر ایک ساتھ رکھا جاتا ہے۔ آخر میں، ٹیبل کو پہلے کے مراحل میں پائی جانے والی قطاروں اور کالموں کی بنیاد پر ایک ساتھ سیٹ کیا گیا ہے۔

تکنیک #2 جالی: ندی کے برعکس، Lattice زیادہ متعین ہے۔ مطلب یہ اندازوں پر بھروسہ نہیں کرتا۔ یہ سب سے پہلے ان میزوں کے ذریعے تجزیہ کرتا ہے جس میں خلیوں کے درمیان لائنوں کی وضاحت ہوتی ہے۔ اگلا، یہ ایک صفحہ پر موجود متعدد ٹیبلز کو خود بخود پارس کر سکتا ہے۔ یہ تکنیک بنیادی طور پر کثیرالاضلاع کی شکل کو دیکھ کر اور ٹیبل سیلز کے اندر موجود متن کی شناخت کرکے کام کرتی ہے۔ یہ آسان ہو گا اگر پی ڈی ایف میں ایسی خصوصیت ہو جو کثیر الاضلاع کی شناخت کر سکے۔ اگر یہ ہوتا، تو اس کے اندر کیا ہے اسے پڑھنے کا ممکنہ طور پر ایک طریقہ ہوتا۔ تاہم، ایسا نہیں ہوتا۔ لہذا، ان شکلوں کی شناخت اور میز کے مواد کو نکالنے کے لیے کمپیوٹر وژن کا وسیع پیمانے پر استعمال کیا جاتا ہے۔

نکالی گئی میزیں بنیادی طور پر ڈیٹا فریم فارمیٹ میں محفوظ کی جاتی ہیں۔ یہ مقامی ڈیٹا کی قسموں میں سے ایک ہے جو ایک مشہور Python لائبریری پانڈا کے ذریعہ پیش کی جاتی ہے۔ ڈیٹا فریم میں ٹیبل ڈیٹا کو ذخیرہ کرنے کے کئی فوائد ہیں۔ انہیں آسانی سے ہینڈل، ہیرا پھیری اور مختلف فارمیٹس جیسے JSON، CSV، یا ٹیبلز میں ایکسپورٹ کیا جا سکتا ہے۔ تاہم، اس سے پہلے کہ ہم ان ڈیٹا فریموں کو ٹیبل میں ڈالیں، ہمیں پہلے DB-Client ڈیٹا بیس سے منسلک ہونا چاہیے اور پھر ٹیبل کو منتقل کرنا چاہیے۔ Python جیسی زبانوں کا استعمال کرتے ہوئے، ہم کئی لائبریریاں تلاش کر سکتے ہیں جو ان ڈیٹا ذرائع سے منسلک ہو سکتی ہیں اور ڈیٹا برآمد کر سکتی ہیں۔

جب دستاویزات غیر الیکٹرانک طور پر تیار نہ ہوں تو ڈیٹا بیس میں پی ڈی ایف

ہو سکتا ہے کہ اوپر زیر بحث تکنیک غیر الیکٹرانک طور پر تیار کردہ پی ڈی ایف کے لیے کام نہ کریں، کیونکہ یہاں ڈیٹا کو دستی طور پر کسی مختلف ذریعہ سے اسکین کیا جاتا ہے۔ یہی وجہ ہے کہ ہم اسکین شدہ دستاویزات سے ڈیٹا نکالنے اور ڈیٹا بیس میں ایکسپورٹ کرنے کے لیے OCR اور ڈیپ لرننگ تکنیک استعمال کریں گے۔

مختصراً، آپٹیکل کریکٹر ریکگنیشن، OCR ایک خاص ٹول ہے جو سکین شدہ دستاویزات سے پرنٹ شدہ حروف کو قابل تدوین متن میں تبدیل کرتا ہے۔ دستاویزات سے پی ڈی ایف ٹیبلز کی شناخت کے لیے، پہلے ہمیں ٹیبل کی پوزیشن کی شناخت کرنی ہوگی اور پھر ٹیبل سیل سے ڈیٹا نکالنے کے لیے OCR کا اطلاق کرنا ہوگا۔ اسے حاصل کرنے کے طریقے درج ذیل ہیں:

  1. سب سے پہلے، ہم افقی اور عمودی شکلیں لگا کر لائن سیگمنٹس کا پتہ لگاتے ہیں۔
  2. تمام لائنوں کے پکسلز کی شدت کو دیکھ کر لائنوں کے درمیان لائن چوراہوں کا پتہ لگایا جاتا ہے۔ اگر ایک لائن پکسل میں باقی پکسلز سے زیادہ شدت ہے، تو یہ دو لائنوں کا حصہ ہے اور اس لیے ایک چوراہا ہے۔
  3. ٹیبل کے کناروں کا تعین ایک دوسرے سے منسلک لائنوں کے پکسلز کی شدت کو دیکھ کر کیا جاتا ہے۔ یہاں، ایک لائن کے تمام پکسلز لیے گئے ہیں، اور سب سے زیادہ بیرونی لائنیں میز کی حدود کی نمائندگی کرتی ہیں۔
  4. تصویری تجزیہ کا ترجمہ پی ڈی ایف کوآرڈینیٹ میں کیا جاتا ہے، جہاں خلیات کا تعین کیا جاتا ہے۔ متن اس کے x اور y کوآرڈینیٹ کی بنیاد پر سیل کو تفویض کیا جاتا ہے۔
  5. متن کو نکالنے کے لیے نقاط پر OCR کا اطلاق ہوتا ہے۔
  6. نکالے گئے متن کو ٹیبل کی پوزیشن کی بنیاد پر ڈیٹا فریم میں ایکسپورٹ کیا جاتا ہے۔

اس طرح ہم CV کا استعمال کرتے ہوئے ٹیبلز نکال سکتے ہیں۔ تاہم، یہاں کچھ خرابیاں ہیں۔ یہ الگورتھم مختلف ٹیمپلیٹ طرزوں والی بڑی میزوں اور میزوں کے لیے ناکام ہو جاتے ہیں۔ یہ وہ جگہ ہے جہاں گہری تعلیم حاصل ہوتی ہے۔ وہ ڈیٹا سے سیکھنے اور سیکھنے کی بنیاد پر ملتے جلتے نمونوں کی شناخت کے لیے ایک خاص قسم کے نیورل نیٹ ورک فریم ورک کا استعمال کرتے ہیں۔ پچھلی دہائی کے دوران، انہوں نے جدید ترین کارکردگی حاصل کی ہے، خاص طور پر معلومات نکالنے جیسے کاموں کے لیے۔ اب، آئیے دیکھتے ہیں کہ گہرے نیورل نیٹ ورک کس طرح ڈیٹا سے سیکھ سکتے ہیں اور کسی بھی دستاویز سے ٹیبل نکال سکتے ہیں۔

گہرے اعصابی نیٹ ورک کی تربیت میں ایک مخصوص ورک فلو شامل ہوتا ہے۔ یہ ورک فلو اکثر ڈیٹا کی قسم اور ان کے ماڈل کی کارکردگی کی بنیاد پر تبدیل ہوتے ہیں۔ ورک فلو کے پہلے مرحلے میں ڈیٹا اکٹھا کرنا اور ہمارے ماڈل کی بنیاد پر ان پر کارروائی کرنا شامل ہے۔ پی ڈی ایف دستاویزات سے میزیں نکالنے کے معاملے میں، ڈیٹاسیٹ میں مثالی طور پر غیر ساختہ دستاویزات ہونی چاہئیں۔ ان دستاویزات کو تصاویر میں تبدیل کیا جاتا ہے، ٹینسر کے طور پر لوڈ کیا جاتا ہے، اور تربیت کے لیے ڈیٹا لوڈر کلاس کے طور پر تیار کیا جاتا ہے۔ اگلا، ہم عام طور پر ان تمام ہائپرپیرامیٹروں کی وضاحت کرتے ہیں جو تربیت کے لیے درکار ہیں۔ ان میں عام طور پر ماڈل کے لیے بیچ کا سائز، نقصان کا فنکشن، آپٹیمائزر ترتیب دینا شامل ہے۔ آخر میں، ایک عصبی نیٹ ورک فن تعمیر کی وضاحت یا پہلے سے طے شدہ ماڈل کے اوپر بنایا گیا ہے۔ اس ماڈل کو اعداد و شمار کے اوپری حصے میں تربیت دی جائے گی اور کارکردگی کے میٹرکس کی بنیاد پر اسے ٹھیک بنایا جائے گا۔

ذیل میں مختلف مراحل کا اسکرین شاٹ دیا گیا ہے جو گہری سیکھنے کے ماڈل کی تربیت میں شامل ہیں:

عام ایم ایل ورک فلو (ماخذ)

پی ڈی ایف سے ڈیٹا نکالنا اور اسے ازگر کا استعمال کرتے ہوئے ایس کیو ایل ڈیٹا بیس میں ایکسپورٹ کرنا

اب تک، ہم نے سیکھا ہے کہ پی ڈی ایف سے ڈیٹا بیس کی تبدیلی کیا ہے اور استعمال کے کچھ معاملات پر تبادلہ خیال کیا ہے جہاں یہ مددگار ہو سکتا ہے۔ یہ سیکشن عملی طور پر کمپیوٹر وژن کا استعمال کرتے ہوئے اس مسئلے سے رجوع کرے گا اور اسکین شدہ پی ڈی ایف میں ٹیبلز کا پتہ لگائے گا اور انہیں ڈیٹا بیس میں ایکسپورٹ کرے گا۔ ساتھ چلنے کے لیے، اپنی مقامی مشین پر ازگر اور اوپن سی وی کو انسٹال کرنا یقینی بنائیں۔ متبادل طور پر، آپ آن لائن Google Collab نوٹ بک استعمال کر سکتے ہیں۔

مرحلہ 1: ٹیبولا اور پانڈاس انسٹال کریں۔

اس مثال میں، ہم ٹیبل کو نکالنے اور ڈیٹا بیس میں دھکیلنے کے لیے Tabula اور Pandas کا استعمال کریں گے۔ آئیے انہیں پائپ کے ذریعے انسٹال کریں اور اپنے پروگرام میں درآمد کریں۔

import tabula
import pandas as pd

مرحلہ 2: ڈیٹا فریم میں میزیں پڑھنا

اب، ہم استعمال کریں گے read_pdf پی ڈی ایف سے ٹیبل پڑھنے کے لیے ٹیبلولا سے فنکشن؛ نوٹ کریں کہ یہ لائبریری صرف پی ڈی ایف دستاویزات پر کام کرتی ہے جو الیکٹرانک طور پر تیار کی گئی ہیں۔ کوڈ کا ٹکڑا درج ذیل ہے:

table = tabula.read_pdf("sample.pdf",pages='all',multiple_tables=False)

df = pd.concat(table)

یہاں، جیسا کہ ہم دیکھ سکتے ہیں، پہلے، ہم پی ڈی ایف فائل کے مواد کو پڑھنے کے لیے استعمال کرتے ہیں، ہم پیرامیٹر سیٹ کرتے ہیں۔ multiple_tables غلط میں، جیسا کہ مثال میں استعمال ہونے والی دستاویز میں صرف ایک ٹیبل ہے۔

اب، ہم اس فہرست کو پانڈا کا استعمال کرتے ہوئے ڈیٹا فریم میں لوڈ کریں گے، اور آپ ٹائپ طریقہ استعمال کرکے ٹیبل کی قسم چیک کر سکتے ہیں۔ یہ ایک مقامی پانڈا ڈیٹا فریم لوٹائے گا۔

مرحلہ 3: ڈیٹا فریم کو پوسٹرس میں منتقل کرنا

اس سے پہلے کہ ہم اپنے ٹیبل کو ڈیٹا بیس میں ڈالیں، سب سے پہلے، ہمیں اپنے پروگرام سے اس سے کنکشن قائم کرنا چاہیے، اور ہم یہ استعمال کر سکتے ہیں sqlalchemy python میں کلائنٹ. اسی طرح، مختلف پروگرامنگ زبانیں اس قسم کے ڈیٹا بیس کلائنٹس کو ہمارے پروگراموں سے براہ راست ڈیٹا بیس کے ساتھ بات چیت کرنے کی پیشکش کرتی ہیں۔

اس پروگرام میں، ہم استعمال کریں گے create_engine وہ طریقہ جو ہمیں ڈیٹا بیس سے منسلک کرنے دیتا ہے۔ اس کام کو حاصل کرنے کے لیے دی گئی سٹرنگ میں ڈیٹا بیس کی اسناد کو تبدیل کرنا یقینی بنائیں۔ اگلا، ہم استعمال کرتے ہیں write_frame ایکسٹریکٹ ٹیبل کو منسلک ڈیٹا بیس میں ایکسپورٹ کرنے کا فنکشن۔

engine = create_engine('postgresql+psycopg2://username:password@host:port/database')

sql.write_frame(df, 'table_name', con, flavor='postgresql')

اور بالکل اسی طرح، ہم پی ڈی ایف سے ٹیبلز کو ڈیٹا بیس میں ایکسپورٹ کرنے کے قابل تھے، یہ کافی سیدھا اور آسان لگتا ہے کیونکہ ہم نے ایک سادہ پروسیس شدہ الیکٹرانک طور پر تیار کردہ پی ڈی ایف کا استعمال کیا ہے۔ غیر الیکٹرانک طور پر تیار کردہ جدولوں سے میزیں نکالنے کے لیے درج ذیل مشہور گہری سیکھنے کی تکنیکیں ہیں جن کا استعمال کیا جا سکتا ہے:

  1. کوڈ کے ساتھ کاغذات - GFTE: گراف پر مبنی مالیاتی جدول نکالنا
  2. کوڈ کے ساتھ کاغذات - PubTables-1M: ٹیبل نکالنے کے ماڈلز کی تربیت اور تشخیص کے لیے ایک عالمگیر ڈیٹاسیٹ اور میٹرکس کی طرف
  3. ٹیبل نیٹ: ڈیپ لرننگ ماڈل برائے آخر تک ٹیبل کا پتہ لگانے اور اسکین شدہ دستاویز کی تصاویر سے ٹیبلر ڈیٹا نکالنے کے لیے

Nanonets درج کریں: PDF Table to Database Conversion کے لیے ایڈوانسڈ OCR

یہ سیکشن اس بات پر غور کرے گا کہ کس طرح Nanonets زیادہ حسب ضرورت اور آسان طریقے سے ڈیٹا بیس میں ٹیبلز کو انجام دینے میں ہماری مدد کر سکتے ہیں۔

Nanonets™ ایک کلاؤڈ پر مبنی OCR ہے جو AI کا استعمال کرتے ہوئے آپ کے دستی ڈیٹا انٹری کو خودکار کرنے میں مدد کر سکتا ہے۔ ہمارے پاس ایک ڈیش بورڈ ہوگا جہاں ہم اپنے ڈیٹا پر اپنے OCR ماڈلز کو تیار/تربیت دے سکتے ہیں اور انہیں JSON/CSV یا کسی بھی مطلوبہ فارمیٹ میں منتقل کر سکتے ہیں۔ پی ڈی ایف دستاویز اسکینر کے طور پر Nanonets کو استعمال کرنے کے کچھ فوائد یہ ہیں۔

Nanonets کی نمایاں خصوصیات میں سے ایک سادگی ہے جو سروس لاتی ہے۔ کوئی بھی پروگرامنگ پس منظر کے بغیر ان خدمات کا انتخاب کرسکتا ہے اور جدید ٹیکنالوجی کے ساتھ آسانی سے پی ڈی ایف ڈیٹا نکال سکتا ہے۔ ذیل میں ایک مختصر خاکہ ہے کہ پی ڈی ایف کو ڈیٹا بیس میں تبدیل کرنا کتنا آسان ہے۔

1 مرحلہ: nanonets.com پر جائیں اور رجسٹر/لاگ ان کریں۔

پی ڈی ایف ڈیٹا کو ڈیٹا بیس انٹریز پلیٹو بلاکچین ڈیٹا انٹیلی جنس میں تبدیل کریں۔ عمودی تلاش۔ عی

2 مرحلہ: رجسٹریشن کے بعد، "شروع کرنے کا انتخاب کریں" کے علاقے میں جائیں، جہاں آپ پہلے سے بنائے گئے ایکسٹریکٹرز کو استعمال کر سکتے ہیں یا اپنے ڈیٹا سیٹ کا استعمال کرتے ہوئے خود ہی ایک بنا سکتے ہیں۔ یہاں، ہم انوائس پری بلٹ انوائس ایکسٹریکٹر استعمال کریں گے۔

پی ڈی ایف ڈیٹا کو ڈیٹا بیس انٹریز پلیٹو بلاکچین ڈیٹا انٹیلی جنس میں تبدیل کریں۔ عمودی تلاش۔ عی

3 مرحلہ: ڈیٹا نکالنے کے لیے تصاویر کی پی ڈی ایف اپ لوڈ کریں اور آٹو ایکسٹریکٹ آپشن کا انتخاب کریں۔

پی ڈی ایف ڈیٹا کو ڈیٹا بیس انٹریز پلیٹو بلاکچین ڈیٹا انٹیلی جنس میں تبدیل کریں۔ عمودی تلاش۔ عی

مرحلہ 4: ڈیٹا بیس میں نکالے گئے ڈیٹا کو ایکسپورٹ کرنے کے لیے ایک نیا انٹیگریشن MySQL انٹیگریشن بنائیں۔ متبادل طور پر، آپ اپنی پسند کے ڈیٹا بیس کی بنیاد پر مختلف اختیارات کا انتخاب کر سکتے ہیں۔

پی ڈی ایف ڈیٹا کو ڈیٹا بیس انٹریز پلیٹو بلاکچین ڈیٹا انٹیلی جنس میں تبدیل کریں۔ عمودی تلاش۔ عی

ڈیٹا کنکشن قائم کریں اور انضمام شامل کریں پر کلک کریں۔ اس کے ساتھ، جب بھی فائلیں اپ لوڈ ہوں گی ڈیٹا نکالا جائے گا اور خود بخود ڈیٹا بیس پر اپ لوڈ ہو جائے گا۔ اگر آپ کو مطلوبہ انضمام نہیں ملتا ہے، تو آپ ہمیشہ Nanonets API استعمال کر سکتے ہیں اور آٹومیشن کو مکمل کرنے کے لیے سادہ اسکرپٹ لکھ سکتے ہیں۔

ٹائم اسٹیمپ:

سے زیادہ اے آئی اور مشین لرننگ