پی ڈی ایف ڈیٹا کو JSON PlatoBlockchain ڈیٹا انٹیلی جنس میں کیسے تبدیل کیا جائے۔ عمودی تلاش۔ عی

پی ڈی ایف ڈیٹا کو JSON میں کیسے تبدیل کریں۔

PDFs کاروباری دستاویزات کے لیے سب سے زیادہ استعمال ہونے والے ڈیٹا فارمیٹس میں سے ایک ہیں۔ بہت سے کاروبار اور تنظیمیں ان PDF دستاویزات کو بنانے اور پڑھنے کے لیے مختلف ٹولز پر انحصار کرتی ہیں۔

تاہم، پی ڈی ایف سے مخصوص/اہم ڈیٹا کو منتخب طور پر نکالنا مشکل ہے۔

یہ وہ جگہ ہے جہاں JSON (جاوا اسکرپٹ آبجیکٹ نوٹیشن) تصویر میں آتا ہے۔

یہ معلومات کے تبادلے کے لیے سب سے زیادہ پسند کردہ ڈیٹا فارمیٹس میں سے ایک ہے۔ خاص طور پر جب ویب ایپلیکیشنز کی بات آتی ہے، تو زیادہ تر ڈیٹا JSON کا استعمال کرتے ہوئے APIs اور ڈی بی کے سوالات.

اس بلاگ پوسٹ میں، ہم دیکھیں گے:

  • Nanonets پیچیدہ کاروباری PDF دستاویزات سے JSON فائلوں میں پیچیدہ ڈیٹا کی تبدیلی کو کیسے خودکار کرتا ہے۔
  • Python، Linux اور Javascript ماڈیولز کا استعمال کرتے ہوئے PDF کو JSON میں تبدیل کرنے کے لیے کچھ مفت اوپن سورس تکنیک۔
    • پی ڈی ایف سے مخصوص/پیچیدہ ڈیٹا کیسے نکالا جائے جیسا کہ ٹیبلز اور ٹیکسٹ کے مخصوص تار۔
    • حسب ضرورت ورک فلو جو PDFs کو JSON میں تبدیل کرنے کے عمل کو خودکار بنانے میں مدد کر سکتے ہیں۔

Nanonets مخصوص پی ڈی ایف ڈیٹا کو JSON آؤٹ پٹس میں تبدیل کر رہا ہے۔

پی ڈی ایف دستاویزات سے مخصوص ڈیٹا نکال کر JSON میں تبدیل کرنا چاہتے ہیں؟ اس کو دیکھو Nanonets API کسی بھی قسم کی تکنیکی دستاویز سے بیچ پی ڈی ایف کو JSON میں تبدیل کرنے کے لیے!


Nanonets خودکار PDF to JSON کنورٹر

  • سائن اپ کریں Nanonets کے مفت پلان کے لیے جو 100 صفحات کا کریڈٹ پیش کرتا ہے۔ کریڈٹ کارڈ کی ضرورت نہیں ہے.
  • اپنی کاروباری PDF فائلوں کا ایک بیچ شامل کریں۔
  • Nanonets دستاویزات کی اقسام کی ایک رینج سے فیلڈز کو خود کار طریقے سے کیپچر کرتا ہے (انوائسز، رسیدیں، ڈرائیور کا لائسنس، پاسپورٹ اور میزیں)
    • آپ Nanonets کی AI کو کسی بھی قسم کی دستاویز سے اپنی دلچسپی کے صرف ڈیٹا فیلڈز کا پتہ لگانے/کیپچر کرنے کی تربیت بھی دے سکتے ہیں!
  • نکالے گئے ڈیٹا کی تصدیق کریں اور JSON آؤٹ پٹ کے بطور برآمد کریں۔
    • آپ ERP سافٹ ویئر کے ایک میزبان کے ساتھ Nanonets کو بھی ضم کر سکتے ہیں۔ کال کا شیڈول بنائیں اپنے استعمال کے کیس کو جانچنے کے لیے ہمارے AI ماہرین کے ساتھ۔
  • دیکھو ہماری OCR API پی ڈی ایف کو JSON ورک فلو کو خودکار کرنے کے لیے
پی ڈی ایف ڈیٹا کو JSON PlatoBlockchain ڈیٹا انٹیلی جنس میں کیسے تبدیل کیا جائے۔ عمودی تلاش۔ عی
Nanonets کے ساتھ PDF سے JSON کی تبدیلی

کرنا چاہتے ہیں ڈیٹا پر قبضہ پی ڈی ایف دستاویزات سے اور JSON، csv یا میں تبدیل کریں۔ ایکسل? معلوم کریں کہ Nanonets کس طرح مدد کر سکتے ہیں۔

پی ڈی ایف ڈیٹا کو JSON PlatoBlockchain ڈیٹا انٹیلی جنس میں کیسے تبدیل کیا جائے۔ عمودی تلاش۔ عی
ایک انتہائی خوش Nanonets صارف


پی ڈی ایف سے JSON کنورژن کی ضرورت

تقریباً ہر کاروبار معلومات کے اشتراک کے لیے دستاویزات پر انحصار کرتا ہے۔ یہ دستاویزات، رسیدیں، ٹیکس فائلنگ، رسیدیں، میڈیکل رپورٹس اور بہت کچھ ہو سکتا ہے۔

یہ دستاویزات اکثر پی ڈی ایف کے بطور شیئر/ موصول ہوتی ہیں۔

لیکن اگر آپ اہم معلومات کو تلاش کرنا چاہتے ہیں یا تمام اہم معلومات کا تجزیہ اور ذخیرہ کرنے کے لیے ڈیش بورڈ بنانا چاہتے ہیں، تو ان PDFs سے دستی طور پر ڈیٹا اکٹھا کرنا ایک مشکل کام ہو سکتا ہے۔

اگر پی ڈی ایف الیکٹرانک طور پر تیار کیے گئے ہیں، تو ہم ڈیٹا کے ذرائع میں معلومات کو کاپی پیسٹ کر سکتے ہیں۔ ورنہ، ہمیں کرنا پڑ سکتا ہے۔ OCR استعمال کریں۔ اور معلومات نکالنے کے لیے مشین لرننگ تکنیک۔

نیز، پی ڈی ایف میں ڈیٹا منظم یا براہ راست مشین سے پڑھنے کے قابل نہیں ہے۔ لہذا، ہمیں معلومات کو دستی طور پر تلاش کرنا پڑ سکتا ہے۔

لیکن جب JSON کی بات آتی ہے تو، سب کچھ کلیدی قدر کے جوڑوں میں ترتیب دیا جاتا ہے۔ یہاں ایک مثال ہے۔

{
  "company_name": "Company Name",
  "Invoice_date": "Date ",
  "Invoice_total":"$0.00",
  "Invoice_line_items: "",
  "Invoice_tax": ""
} 

اگر آپ مندرجہ بالا JSON فارمیٹ کو دیکھ سکتے ہیں، تو ڈیٹا زیادہ منظم ہے، اور آپ اس معلومات کو ویب پر زیادہ آسانی سے شیئر بھی کر سکتے ہیں۔ یہی وجہ ہے کہ پی ڈی ایف سے ڈیٹا کو JSON میں ایکسپورٹ کرنا بہت سی کمپنیوں کے لیے بہت ضروری ہے۔

کاروباری فوائد جو JSON کے ساتھ آتے ہیں۔

JSON ڈیٹا فارمیٹ کے کاروبار کے لیے PDFs کے مقابلے میں بہت سے فوائد ہیں:

  1. JSON تیز تر ہے۔: JSON نحو استعمال کرنا آسان ہے۔ جب بھی آپ کسی بھی JSON ڈیٹا کے ذریعے تجزیہ کرنے کی کوشش کر رہے ہیں، PDFs اور دیگر ڈیٹا فارمیٹس کے مقابلے میں عملدرآمد بہت تیز ہوتا ہے۔ اس کی وجہ یہ ہے کہ نحو ہلکا پھلکا ہے اور جواب کو تیزی سے انجام دیتا ہے۔
  2. مزید پڑھنے کے قابل: JSON ڈیٹا زیادہ پڑھنے کے قابل ہے۔ ہمارے پاس کلیدوں اور اقدار کے ساتھ سیدھی سادی ڈیٹا میپنگ ہوگی۔ لہذا، اگر آپ کچھ تلاش کر رہے ہیں یا پی ڈی ایف سے ڈیٹا کو ترتیب دے رہے ہیں، تو JSON زیادہ آسان ہوگا۔ مزید برآں، JSON ڈیٹا کے گھوںسلا کی حمایت کرتا ہے، اور اس کے ساتھ، میزوں سے ڈیٹا کو زیادہ مؤثر طریقے سے ذخیرہ کیا جا سکتا ہے۔
  3. آسان سکیما: JSON زیادہ تر آپریٹنگ سسٹمز اور پروگرامنگ زبانوں کے لیے عالمگیر ہے۔ لہذا، اگر آپ اپنے کاروبار کو خودکار کرنے کے لیے کوئی سافٹ ویئر یا ویب ایپلیکیشن بنا رہے ہیں، تو JSON صحیح ڈیٹا فارمیٹ ہونا چاہیے۔ نیز، زیادہ تر ویب براؤزر JSON فارمیٹ کو سپورٹ کرتے ہیں۔ اس لیے ہمیں JSON ڈیٹا کے ذریعے پڑھنے کے لیے فریق ثالث سافٹ ویئر استعمال کرنے کے لیے اضافی کوشش کرنے کی ضرورت نہیں ہے۔
  4. آسان شیئرنگ: JSON کسی بھی سائز کے ڈیٹا کو شیئر کرنے کا بہترین ٹول ہے، یہاں تک کہ بڑی میزیں یا ٹیکسٹ وغیرہ۔ ایسا اس لیے ہے کہ JSON ڈیٹا کو صفوں میں محفوظ کرتا ہے، اس لیے ڈیٹا کی منتقلی اسے مزید قابل رسائی بناتی ہے۔ اس وجہ سے، JSON ویب APIs اور ویب ڈویلپمنٹ کے لیے ایک اعلی فائل فارمیٹ ہے۔

اگلے حصے میں، آئیے چند چیلنجوں کو دیکھتے ہیں جن کا ہمیں PDFs کو JSON فارمیٹ میں تبدیل کرتے وقت سامنا کرنا پڑ سکتا ہے۔


Nanonets بہت سے دلچسپ ہیں مقدمات کا استعمال کریں جو آپ کی کاروباری کارکردگی کو بہتر بنا سکتا ہے، اخراجات کو بچا سکتا ہے اور ترقی کو بڑھا سکتا ہے۔ پتہ چلانا Nanonets کے استعمال کے معاملات آپ کی مصنوعات پر کیسے لاگو ہوسکتے ہیں۔


پی ڈی ایف سے JSON میں تبدیل کرنے کے ساتھ چیلنجز

آئیے پی ڈی ایف سے JSON کو برآمد کرنے میں کچھ چیلنجز کو دیکھتے ہیں۔

  1. فونٹس کا پتہ لگانا: لوگ پی ڈی ایف دستاویزات کے اندر مختلف فونٹس، رنگ، اور سیدھ میں استعمال کرتے ہیں۔ لہذا، تجزیہ کاروں کے لیے ان کو پڑھنا واقعی مشکل ہے۔ اس کے علاوہ، اسے ایکسپورٹ کرتے وقت، ہمیں مخصوص اصولوں کی وضاحت کرنی ہوگی تاکہ تجزیہ کار ڈیٹا کو نکالنے کے بعد، تمام معلومات کو JSON فارمیٹ میں درست طریقے سے میپ کیا جائے۔ ایسے معاملات میں، مخصوص متن کو منتخب کرنے اور پھر JSON فارمیٹ میں درست کلید میں برآمد کرنے کے لیے ریگولر ایکسپریشنز کا وسیع پیمانے پر استعمال کیا جاتا ہے۔
  2. اسکین شدہ دستاویزات سے متن کا پتہ لگانا: جیسا کہ بحث کی گئی ہے، جب پی ڈی ایف الیکٹرانک طور پر تیار نہیں ہوتے ہیں، تو ہمیں ایک OCR استعمال کرنا پڑے گا اور OCR کا انتخاب بہت ضروری ہے۔ اگرچہ بہت سارے صارفین ٹیسریکٹ جیسے اوپن سورس ٹولز آزماتے ہیں، لیکن ان کی اپنی حدود ہیں۔ مثال کے طور پر، اگر کیپچر کرتے وقت متن کو غلط طریقے سے کیپچر کیا گیا ہے یا غلط ترتیب دیا گیا ہے، تو ٹیسریکٹ کام نہیں کر سکتا، اور دوسرے ٹولز کا انتخاب کرنا مہنگا پڑ سکتا ہے۔
  1. ٹیبلز کی شناخت: زیادہ تر کاروباری دستاویزات میں ٹیبلر معلومات ہوتی ہیں، اور پی ڈی ایف دستاویزات سے ان جدولوں کا تعین کرنا اور انہیں JSON میں تبدیل کرنا ایک مشکل کام ہے۔ Python اور Java پر مبنی کچھ لائبریریاں ہیں جو الیکٹرانک طور پر تیار کردہ PDF دستاویزات سے ٹیبل نکالنے میں مدد کر سکتی ہیں۔
  2. اسکین شدہ پی ڈی ایف سے ٹیبلز کی شناخت: جب پی ڈی ایف کو اسکین کیا جاتا ہے، تو زیادہ تر پیکجز کام نہیں کرتے ہیں۔ اس صورت میں، اگر ہم ٹیسریکٹ جیسے اوپن سورس OCR کا انتخاب کرتے ہیں، تو یہ متن کو نکال سکتا ہے لیکن تمام ٹیبل فارمیٹنگ کو کھو سکتا ہے۔ لہذا، آؤٹ لائن آئٹمز کو غلط فارمیٹ میں چننا مشکل ہے۔ یہ وہ جگہ ہے جہاں ہمیں مشین لرننگ اور ڈیپ لرننگ پر مبنی الگورتھم استعمال کرنا ہوں گے۔ کچھ مشہور الگورتھم CNNs پر مبنی ہیں، اور ان الگورتھم کو بہتر بنانے کے لیے کافی تحقیق ہو رہی ہے۔

ذیل میں کچھ تحقیقی مقالے ہیں جو دستاویزات سے ٹیبل نکالنے کا مسئلہ حل کرتے ہیں۔

اگلے حصے میں، آئیے دیکھتے ہیں کہ JSON فائلیں بنانے کے لیے PDF سے ڈیٹا کو پارس کرنے کا طریقہ۔

پی ڈی ایف سے ڈیٹا پارس کرنا اور Python اور Linux کا استعمال کرتے ہوئے JSON فائلیں بنانا

اگر آپ کے پاس ڈویلپر کا تجربہ ہے تو پی ڈی ایف کے ذریعے تجزیہ کرنا کوئی پیچیدہ کام نہیں ہے۔

سب سے پہلے، ہمیں یہ چیک کرنا ہوگا کہ آیا ہماری پی ڈی ایف فائلوں میں ٹیکسٹ ڈیٹا ہے یا اسکین شدہ امیجز پر مشتمل ہے۔ ہمیں یہ دیکھنا ہوگا کہ آیا ہم ٹیکسٹ ڈیٹا کو نکال سکتے ہیں یا OCR لائبریری کے ذریعے فائلوں کو پائپ کر سکتے ہیں اگر کوئی ٹیکسٹ واپس نہیں آیا۔

یہ ایک ازگر لائبریری کا استعمال کرتے ہوئے یا کچھ لینکس کمانڈ لائن افادیت پر انحصار کرکے حاصل کیا جاسکتا ہے۔

پی ڈی ایفٹو ٹیکسٹ الیکٹرانک پی ڈی ایف کو پارس کرنے والی سب سے مشہور لائبریریوں میں سے ایک ہے۔ ہم اسے تمام پی ڈی ایف ڈیٹا کو ٹیکسٹ فارمیٹ میں تبدیل کرنے اور پھر اسے JSON فارمیٹ میں دھکیلنے کے لیے استعمال کر سکتے ہیں۔

یہاں کچھ ہدایات ہیں کہ ہم کس طرح استعمال کر سکتے ہیں۔ pdftotext اور لینکس مشین پر پی ڈی ایف کے ذریعے تجزیہ کریں۔

سب سے پہلے، کمانڈ لائن ٹولز انسٹال کریں:

sudo apt-get install poppler-utils

اگلا، استعمال کریں pdftotext کمانڈ کریں اور پی ڈی ایف فائل کا سورس پاتھ اور ڈیسٹینیشن ٹیکسٹ فائل لوکیشن شامل کریں۔

pdftotext {PDF-file} {text-file}

اس کے ساتھ، ہمیں پی ڈی ایف فائلوں سے تمام پڑھنے کے قابل متن کو نکالنے کے قابل ہونا چاہئے۔

JSON فائل بنانے کے لیے، ہمیں اپنے ڈیٹا پر مبنی اسکرپٹ پر دوبارہ کام کرنا پڑے گا جو متن کے ذریعے تجزیہ کر سکے اور انہیں متعلقہ کلیدی قدر کے جوڑوں میں برآمد کر سکے۔

یہاں ایک مثال اسکرپٹ ہے جو ہم نے Python میں لکھا ہے جو ایک سادہ کو تبدیل کرتا ہے۔ .txt JSON فارمیٹ میں فائل کریں۔

import json
  
filename = 'data.txt'
 
dict1 = {}
  
with open(filename) as fh:
  
    for line in fh:
        command, description = line.strip().split(None, 1)
        dict1[command] = description.strip()
  
# creating json file
# the JSON file is named as test1
out_file = open("test1.json", "w")
json.dump(dict1, out_file, indent = 4, sort_keys = False)
out_file.close()

ٹیکسٹ فائل کے اندر موجود ڈیٹا پر غور کریں:

invoice_id #234
invoice_name Invoice from AWS
invoice_total $345

یہاں، ہم نے پہلے ان بلٹ JSON لائبریری کو درآمد کیا۔ اب ہم ٹیکسٹ فائلوں سے کلیدی قدر کے تمام جوڑوں کو ذخیرہ کرنے کے لیے ڈکشنری ڈیٹا کی قسم بناتے ہیں۔ اس کے بعد، ہم فائل کی ہر سطر میں اعادہ کرتے ہیں اور اسے کمانڈ، ڈسکرپشن میں اتارتے ہیں اور اسے تخلیق کردہ ڈکشنری میں رکھتے ہیں۔ آخر میں، ہم ایک نئی JSON فائل بناتے ہیں اور استعمال کرتے ہیں۔ json.dump ایک مخصوص کنفیگریشن کے ساتھ لغت کو JSON فائل میں ڈالنے کا طریقہ جس میں چھانٹنا اور انڈینٹیشن شامل ہے۔

تاہم، پی ڈی ایف سے ہمارا ڈیٹا اتنا منظم نہیں ہوگا جیسا کہ مثال میں دیا گیا ہے۔ لہذا، پیچیدہ ٹیکسٹ فارمیٹنگ سے گزرنے کے لیے ہمیں حسب ضرورت پائپ لائنز اور اسکرپٹس کا استعمال کرنا پڑ سکتا ہے۔ ایسے معاملات میں، اوزار جیسے نانونٹس بہت اچھا انتخاب ہو گا، اور ہم یہ بھی دیکھیں گے کہ کس طرح Nanonets اس مسئلے کو بہت آسان طریقے سے حل کرتا ہے۔

اس سے پہلے، آئیے ایک اور لائبریری کو دیکھتے ہیں جو node.js کا استعمال کرتے ہوئے PDF کو JSON میں تبدیل کرتی ہے۔

pdf2json ہے ایک node.js ماڈیول جو پی ڈی ایف کو بائنری سے JSON فارمیٹ میں پارس اور تبدیل کرتا ہے۔ اس کے ساتھ بنایا گیا ہے pdf.js اور اسے انٹرایکٹو فارم عناصر اور براؤزر کے باہر پارس کرنے والے متنی مواد کے ساتھ بڑھاتا ہے۔

اپنی JSON فائلوں کو پارس کرنے کے لیے اس ماڈیول کو استعمال کرنے کی ایک مثال یہ ہے:

سب سے پہلے، یقینی بنائیں npm انسٹالر اور مندرجہ ذیل کمانڈ کا استعمال کرتے ہوئے ماڈیول انسٹال کریں:

npm install pdf2json

اگلا، آپ کے نوڈ سرور میں، آپ مندرجہ ذیل ٹکڑا استعمال کر سکتے ہیں جو لوڈ کرتا ہے۔ pdf2json اور JSON کو pdf برآمد کرتا ہے:

let fs = require('fs'),
        PDFParser = require("pdf2json");
 
    let pdfParser = new PDFParser();
 
    pdfParser.on("pdfParser_dataError", errData => console.error(errData.parserError) );
    pdfParser.on("pdfParser_dataReady", pdfData => {
        fs.writeFile("./pdf2json/test/F1040EZ.json", JSON.stringify(pdfData));
    });
 
    pdfParser.loadPDF("./pdf2json/test/pdf/fd/form/F1040EZ.pdf");

مندرجہ بالا کوڈ کا ٹکڑا ماڈیول سے ایک مثال JSON فائل کا استعمال کرتا ہے اور اسے JSON فائل میں برآمد کرتا ہے، ہم اسے اس میں چیک کر سکتے ہیں۔ ./test/target/ آپ کے پروجیکٹ میں فولڈر۔ بی

elow، آپ کو ایک اسکرین شاٹ ملے گا کہ ماڈیول کس طرح JSON فائلوں کو برآمد کرتا ہے:

پی ڈی ایف ڈیٹا کو JSON PlatoBlockchain ڈیٹا انٹیلی جنس میں کیسے تبدیل کیا جائے۔ عمودی تلاش۔ عی
JSON برآمد

جدولوں میں پی ڈی ایف کے ذریعے تجزیہ کرنے کے لیے، یہ لائبریریاں شاید کام نہ کریں!


JSON میں ٹیبلر ڈیٹا نکالنے کے لیے آپ کو OCR اور مشین لرننگ الگورتھم کا فائدہ اٹھانا ہوگا۔ نانونٹس ایسا ہی کرتا ہے جیسا کہ آپ نیچے دیکھ سکتے ہیں:

پی ڈی ایف ڈیٹا کو JSON PlatoBlockchain ڈیٹا انٹیلی جنس میں کیسے تبدیل کیا جائے۔ عمودی تلاش۔ عی
Nanonets ڈیٹا کو PDF سے JSON میں تبدیل کر رہا ہے۔ 


پی ڈی ایف سے JSON میں حسب ضرورت ڈیٹا کی تبدیلی

بعض اوقات، کاروباری دستاویزات سے ڈیٹا نکالتے وقت، ہمیں حسب ضرورت بنانے کی ضرورت پڑ سکتی ہے۔ مثال کے طور پر، اگر ہم صرف مخصوص صفحات یا میزیں چاہتے ہیں، تو ہم اسے براہ راست نہیں کر سکتے۔ اس صورت میں، ہمیں تجزیہ کاروں کو اضافی قواعد فراہم کرنے کی ضرورت پڑسکتی ہے، جو کہ دوبارہ وقت طلب ہے۔ لیکن آئیے دیکھتے ہیں کہ ہم کس طرح تخصیص اور اعمال کر سکتے ہیں جن کی زیادہ تر لوگوں کو ضرورت ہے۔

ذیل میں کچھ ایسے اعمال ہیں جو پی ڈی ایف میں JSON کی تبدیلی کے لیے حسب ضرورت بنانے کے لیے درکار ہیں۔

  • پی ڈی ایف سے صرف مخصوص متن یا صفحات نکالیں۔
  • پی ڈی ایف دستاویزات سے تمام میزیں نکالیں۔
  • پی ڈی ایف میں مخصوص جدولوں سے مخصوص کالم نکالیں۔
  • پی ڈی ایف کو JSON میں ایکسپورٹ کرنے سے پہلے ان سے ٹیکسٹ فلٹر کریں۔
  • پی ڈی ایف سے نکالے گئے ڈیٹا کی بنیاد پر نیسٹڈ JSON بنانا
  • ڈیٹا کی بنیاد پر JSON ڈھانچہ فارمیٹ کریں۔
  • نکالنے کے بعد JSON میں کچھ فیلڈز کی قدریں بنائیں، حذف کریں، اپ ڈیٹ کریں۔

یہ کچھ ایسی کارروائیاں ہیں جو اکثر ہمارے ڈیٹا کو مختلف طریقوں سے ذخیرہ کرنے کے لیے درکار ہوتی ہیں، یا یوں کہہ لیں کہ کیا ہم کسی ایپلیکیشن کے لیے APIs بنا رہے ہیں۔ آئیے دیکھتے ہیں کہ ہم ان کو کیسے حاصل کر سکتے ہیں۔

مخصوص متن کو نکالنا: PDFs میں، ہم ریگولر ایکسپریشنز کا استعمال کرتے ہوئے مخصوص متن کو نکال سکتے ہیں۔ مثال کے طور پر، کہیں کہ اگر ہم ریجیکس کا استعمال کرتے ہوئے تمام ای میلز اور فون نمبرز چاہتے ہیں، تو ہم انہیں اٹھا سکتے ہیں۔ اگر پی ڈی ایف اسکین شدہ فارمیٹ میں ہیں، تو ہمیں یا تو انہیں گہری سیکھنے کے الگورتھم پر تربیت دینے کی ضرورت ہے جو پی ڈی ایف کے لے آؤٹ کو سمجھ سکے اور تربیتی ڈیٹا پر بنائے گئے نقاط اور تشریح کی بنیاد پر فیلڈز نکال سکے۔ دستاویز کے لے آؤٹ کو سمجھنے اور متن کو نکالنے کے لیے سب سے مشہور اوپن سورس ریپوزٹریوں میں سے ایک LayoutML ہے، اور یہ اپنی مرضی کے مطابق ٹیکسٹ نکالنے کے لیے BERT ماڈلز پر تربیت دیتا ہے۔ تاہم، متن کو نکالنے میں زیادہ درستگی حاصل کرنے کے لیے ہمارے پاس کافی ڈیٹا ہونا چاہیے۔

ٹیبل حسب ضرورت: جیسا کہ زیر بحث آیا، کیملوٹ اور ٹیبولا پی جیسی لائبریریوں کا استعمال کرتے ہوئے یا OCR اور گہری سیکھنے پر مبنی الگورتھم کا استعمال کرتے ہوئے میزیں نکالی جا سکتی ہیں۔ لیکن حسب ضرورت کے لیے ہمیں پانڈا جیسی لائبریریاں استعمال کرنی ہوں گی۔ یہ ہمیں میزوں سے ڈیٹا بنانے، اپ ڈیٹ کرنے اور سیریلائز کرنے کی اجازت دے گا۔ یہ اپنی مرضی کے مطابق ڈیٹا کی قسم کا استعمال کرتا ہے جسے ڈیٹا فریم کہتے ہیں، جو بڑے پیمانے پر ٹیبل ڈیٹا کو ہیرا پھیری اور اپنی مرضی کے مطابق کرنے کے لیے استعمال ہوتا ہے۔ پانڈا استعمال کرنے کے دیگر فوائد میں حسب ضرورت فنکشن لکھنا شامل ہے جو نکالنے کے عمل کے دوران ریاضی کے کچھ کام انجام دے سکتے ہیں۔

JSON ڈیٹا کی فارمیٹنگ: PDFs کو JSON میں ایکسپورٹ کرنے کے بعد، انہیں فارمیٹ کرنا ایک سیدھا سا کام ہے، کیونکہ ہمارے پاس زیادہ حسب ضرورت ڈیٹا کی قسم ہے جو کہ کلیدی قدر کے جوڑے ہیں۔ ہم یا تو سادہ سکرپٹ تیار کر سکتے ہیں یا ان کلیدی قدر کے جوڑوں کو تلاش کرنے اور انہیں فارمیٹ کرنے کے لیے آن لائن ٹولز استعمال کر سکتے ہیں۔ فارمیٹنگ کے کچھ عام پیرامیٹرز میں انڈینٹیشن، سیپریٹرز، چھانٹنے والی چابیاں، سرکلر چیک، ڈیٹا چیک شامل ہیں۔ اگر JSON ایک API کے طور پر استعمال ہو رہا ہے، تو ہم ڈیٹا کو فارمیٹ کرنے اور APIs کے ساتھ تعامل کرنے کے لیے پوسٹ مین یا کسی بھی براؤزر ایکسٹینشن کا استعمال کر سکتے ہیں۔


پی ڈی ایف دستاویزات سے معلومات نکال کر JSON فارمیٹ میں تبدیل کرنا چاہتے ہیں؟ کسی بھی PDF دستاویز سے JSON میں کسی بھی معلومات کو خودکار طور پر برآمد کرنے کے لیے Nanonets کو چیک کریں۔


ٹائم اسٹیمپ:

سے زیادہ اے آئی اور مشین لرننگ