পিডিএফ ডেটা কীভাবে JSON PlatoBlockchain ডেটা ইন্টেলিজেন্সে রূপান্তর করবেন। উল্লম্ব অনুসন্ধান. আ.

কীভাবে পিডিএফ ডেটা JSON-এ রূপান্তর করবেন

পিডিএফগুলি ব্যবসায়িক নথিগুলির জন্য সর্বাধিক ব্যবহৃত ডেটা ফর্ম্যাটগুলির মধ্যে একটি। অনেক ব্যবসা এবং প্রতিষ্ঠান এই PDF নথিগুলি তৈরি এবং পড়ার জন্য বিভিন্ন সরঞ্জামের উপর নির্ভর করে।

যাইহোক, পিডিএফ থেকে বেছে বেছে নির্দিষ্ট/গুরুত্বপূর্ণ ডেটা বের করা কঠিন।

এখানেই JSON (জাভাস্ক্রিপ্ট অবজেক্ট নোটেশন) ছবিতে আসে।

তথ্য বিনিময়ের জন্য এটি সবচেয়ে প্রিয় ডেটা ফরম্যাটগুলির মধ্যে একটি। বিশেষ করে যখন এটি ওয়েব অ্যাপ্লিকেশনের ক্ষেত্রে আসে, বেশিরভাগ ডেটা এপিআই এর মাধ্যমে JSON ব্যবহার করে যোগাযোগ করা হয় এবং ডিবি প্রশ্ন.

এই ব্লগ পোস্টে, আমরা দেখব:

  • কিভাবে Nanonets জটিল ব্যবসার PDF নথি থেকে কাঠামোগত JSON ফাইলগুলিতে জটিল ডেটা রূপান্তর স্বয়ংক্রিয় করে।
  • পাইথন, লিনাক্স এবং জাভাস্ক্রিপ্ট মডিউল ব্যবহার করে JSON-এ PDF রূপান্তর করার জন্য কিছু বিনামূল্যের ওপেন সোর্স কৌশল।
    • কিভাবে পিডিএফ থেকে নির্দিষ্ট/জটিল ডেটা বের করা যায় যেমন টেবিল এবং নির্দিষ্ট টেক্সট স্ট্রিং।
    • কাস্টম ওয়ার্কফ্লো যেগুলি পিডিএফগুলিকে JSON-এ রূপান্তর করার প্রক্রিয়া স্বয়ংক্রিয়ভাবে সাহায্য করতে পারে৷

ন্যানোনেট নির্দিষ্ট পিডিএফ ডেটা JSON আউটপুটে রূপান্তর করে

পিডিএফ ডকুমেন্ট থেকে নির্দিষ্ট ডেটা বের করে JSON-এ রূপান্তর করতে চান? চেক আউট ন্যানোনেটস এপিআই যেকোনো ধরনের প্রযুক্তিগত নথি থেকে JSON রূপান্তর ব্যাচ পিডিএফ স্বয়ংক্রিয় করতে!


Nanonets স্বয়ংক্রিয় PDF to JSON কনভার্টার

  • নিবন্ধন করুন ন্যানোনেটের বিনামূল্যের পরিকল্পনার জন্য যা 100 পৃষ্ঠার ক্রেডিট অফার করে - কোন ক্রেডিট কার্ড প্রয়োজন.
  • আপনার ব্যবসার পিডিএফ ফাইলগুলির একটি ব্যাচ যোগ করুন
  • ন্যানোনেট বিভিন্ন ধরণের নথি (চালান, রসিদ, ড্রাইভার লাইসেন্স, পাসপোর্ট এবং টেবিল) থেকে ক্ষেত্রগুলি স্বয়ংক্রিয়ভাবে ক্যাপচার করে
    • এছাড়াও আপনি Nanonets' AI কে প্রশিক্ষণ দিতে পারেন যেকোন ধরনের নথি থেকে আপনার আগ্রহের ডেটা ক্ষেত্র সনাক্ত/ক্যাপচার করতে!
  • নিষ্কাশিত ডেটা যাচাই করুন এবং JSON আউটপুট হিসাবে রপ্তানি করুন
    • আপনি ইআরপি সফ্টওয়্যারের হোস্টের সাথে Nanonets সংহত করতে পারেন - একটি কল সময়সূচী আপনার ব্যবহারের ক্ষেত্রে পরীক্ষা-নিরীক্ষা করতে আমাদের এআই বিশেষজ্ঞদের সাথে।
  • চেক আউট আমাদের ওসিআর এপিআই JSON ওয়ার্কফ্লোতে PDF স্বয়ংক্রিয় করতে
পিডিএফ ডেটা কীভাবে JSON PlatoBlockchain ডেটা ইন্টেলিজেন্সে রূপান্তর করবেন। উল্লম্ব অনুসন্ধান. আ.
Nanonets সঙ্গে JSON রূপান্তর PDF

চাই তথ্য ক্যাপচার PDF নথি থেকে এবং JSON, csv বা রূপান্তর করুন সীমা অতিক্রম করা? Nanonets কিভাবে সাহায্য করতে পারে তা খুঁজে বের করুন।

পিডিএফ ডেটা কীভাবে JSON PlatoBlockchain ডেটা ইন্টেলিজেন্সে রূপান্তর করবেন। উল্লম্ব অনুসন্ধান. আ.
একজন অতি-খুশি ন্যানোনেট ব্যবহারকারী


পিএসএফের জেএসএন রূপান্তরের প্রয়োজন

প্রায় প্রতিটি ব্যবসা তথ্য ভাগ করে নেওয়ার জন্য নথির উপর নির্ভর করে। এগুলি ডকুমেন্টেশন, চালান, ট্যাক্স ফাইলিং, রসিদ, মেডিকেল রিপোর্ট এবং আরও অনেক কিছু হতে পারে।

এই নথিগুলি প্রায়শই পিডিএফ হিসাবে ভাগ/প্রাপ্ত হয়।

কিন্তু আপনি যদি গুরুত্বপূর্ণ তথ্য অনুসন্ধান করতে চান বা সমস্ত গুরুত্বপূর্ণ তথ্য বিশ্লেষণ এবং সংরক্ষণ করার জন্য একটি ড্যাশবোর্ড তৈরি করতে চান, তাহলে এই PDF গুলি থেকে ম্যানুয়ালি ডেটা সংগ্রহ করা একটি কঠিন কাজ হতে পারে।

যদি পিডিএফগুলি ইলেকট্রনিকভাবে তৈরি করা হয়, আমরা ডেটা উত্সগুলিতে তথ্য কপি-পেস্ট করতে পারি; অন্যথায়, আমাদের হতে পারে OCR ব্যবহার করুন এবং তথ্য বের করার জন্য মেশিন লার্নিং কৌশল।

এছাড়াও, পিডিএফ-এর ডেটা সংগঠিত বা সরাসরি মেশিন-পাঠযোগ্য নয়। অতএব, আমাদের ম্যানুয়ালি তথ্য অনুসন্ধান করতে হতে পারে।

কিন্তু যখন এটি JSON আসে, সবকিছু কী-মান জোড়ায় সংগঠিত হয়। এখানে একটি উদাহরণ.

{
  "company_name": "Company Name",
  "Invoice_date": "Date ",
  "Invoice_total":"$0.00",
  "Invoice_line_items: "",
  "Invoice_tax": ""
} 

আপনি যদি উপরের JSON ফর্ম্যাটটি দেখতে পান তবে ডেটা আরও সংগঠিত হয় এবং আপনি এই তথ্যটি আরও সুবিধাজনকভাবে ওয়েবে ভাগ করতে পারেন৷ এই কারণেই পিডিএফ থেকে JSON-এ ডেটা রপ্তানি করা অনেক কোম্পানির জন্য অত্যন্ত গুরুত্বপূর্ণ।

JSON এর সাথে আসা ব্যবসায়িক সুবিধা

ব্যবসার জন্য পিডিএফের তুলনায় JSON ডেটা ফর্ম্যাটের অনেক সুবিধা রয়েছে:

  1. জেএসএন দ্রুততর: JSON সিনট্যাক্স ব্যবহার করা সহজ; যখনই আপনি যেকোন JSON ডেটা পার্স করার চেষ্টা করছেন, PDF এবং অন্যান্য ডেটা ফরম্যাটের তুলনায় এক্সিকিউশন অনেক দ্রুত হয়। এর কারণ হল সিনট্যাক্স হালকা এবং দ্রুত প্রতিক্রিয়া কার্যকর করে।
  2. আরও পঠনযোগ্য: জেএসওএন ডেটা আরও পঠনযোগ্য; আমাদের কী এবং মানগুলির সাথে একটি সহজ ডেটা ম্যাপিং করব। অতএব, আপনি যদি কিছু অনুসন্ধান করছেন বা পিডিএফ থেকে ডেটা সংগঠিত করছেন, JSON আরও সুবিধাজনক হবে। অতিরিক্তভাবে, জেএসওন ডেটার বাসা বাঁধাকে সমর্থন করে এবং এর সাথে সারণী থেকে প্রাপ্ত ডেটা আরও দক্ষতার সাথে সংরক্ষণ করা যায়।
  3. সুবিধাজনক স্কিমা: বেশিরভাগ অপারেটিং সিস্টেম এবং প্রোগ্রামিং ভাষার জন্য জেএসএন সর্বজনীন; অতএব, আপনি যদি নিজের ব্যবসাটি স্বয়ংক্রিয় করতে কোনও সফ্টওয়্যার বা ওয়েব অ্যাপ্লিকেশন তৈরি করে থাকেন তবে জেএসএন সঠিক ডেটা ফর্ম্যাট হওয়া উচিত। এছাড়াও, বেশিরভাগ ওয়েব ব্রাউজারগুলি JSON ফর্ম্যাটটিকে সমর্থন করে; অতএব জেএসওএন ডেটা পড়ার জন্য আমাদের তৃতীয় পক্ষের সফ্টওয়্যার ব্যবহার করার জন্য অতিরিক্ত প্রচেষ্টা করতে হবে না।
  4. সহজ শেয়ারিং: জেএসএন হ'ল যে কোনও আকারের ডেটা, এমনকি বড় টেবিল বা পাঠ্য ইত্যাদির ডেটা ভাগ করার জন্য সেরা সরঞ্জাম এটি কারণ জেএসওএন অ্যারেতে ডেটা সঞ্চয় করে, তাই ডেটা স্থানান্তর এটিকে আরও অ্যাক্সেসযোগ্য করে তোলে। এই কারণে, জেএসএন ওয়েব এপিআই এবং ওয়েব বিকাশের জন্য একটি উচ্চতর ফাইল ফর্ম্যাট।

পরবর্তী বিভাগে, আসুন পিডিএফগুলিকে JSON ফর্ম্যাটে রূপান্তর করার সময় আমরা যে চ্যালেঞ্জগুলির মুখোমুখি হতে পারি তার কিছু দেখি।


Nanonets অনেক আকর্ষণীয় আছে ক্ষেত্রে ব্যবহার করুন এটি আপনার ব্যবসায়ের পারফরম্যান্সকে অনুকূল করতে পারে, ব্যয় বাঁচাতে এবং প্রবৃদ্ধি বাড়াতে পারে। খুঁজে বের কর Nanonets- এর ব্যবহারের ক্ষেত্রে কীভাবে আপনার পণ্য প্রয়োগ করতে পারে।


পিডিএফ থেকে জেএসএনে রূপান্তর করার সাথে চ্যালেঞ্জগুলি

আসুন পিডিএফ থেকে JSON-এ রপ্তানি করার কিছু চ্যালেঞ্জ দেখি।

  1. হরফ সনাক্তকরণ: পিডিএফ ডকুমেন্টের মধ্যে লোকেরা বিভিন্ন ফন্ট, রঙ এবং প্রান্তিককরণ ব্যবহার করে। অতএব, পার্সারদের এগুলি পড়া সত্যিই কঠিন। এছাড়াও, এটি রফতান করার সময়, আমাদের নির্দিষ্ট নিয়মগুলি সংজ্ঞায়িত করতে হবে যাতে পার্সার ডেটা বের করার পরে সমস্ত তথ্য JSON ফর্ম্যাটে সঠিকভাবে ম্যাপ করা উচিত। এই জাতীয় ক্ষেত্রে, নিয়মিত ভাবগুলি নির্দিষ্টভাবে পাঠ্য বাছাই করতে এবং তারপরে এটি JSON ফর্ম্যাটে সঠিক কীতে রফতানি করার জন্য ব্যবহৃত হয়।
  2. স্ক্যান করা দস্তাবেজগুলি থেকে পাঠ্য সনাক্ত করা: আলোচিত হিসাবে, যখন পিডিএফগুলি বৈদ্যুতিনভাবে উত্পাদিত হয় না, তখন আমাদের একটি ওসিআর ব্যবহার করতে হবে এবং একটি ওসিআর নির্বাচন করা অত্যন্ত গুরুত্বপূর্ণ। যদিও প্রচুর ব্যবহারকারীর ওপেন-সোর্স সরঞ্জামগুলি পরীক্ষার মতো চেষ্টা করে, তাদের নিজস্ব সীমাবদ্ধতা রয়েছে। উদাহরণস্বরূপ, ক্যাপচার করার সময় যদি পাঠ্যটি ভুলভাবে ক্যাপচার করা হয় বা ভুল পথে চালিত হয় তবে পরীক্ষামূলক কাজটি কার্যকর নাও হতে পারে এবং অন্যান্য সরঞ্জামগুলি বেছে নেওয়া ব্যয়বহুল হতে পারে।
  1. সারণী সনাক্তকরণ: বেশিরভাগ ব্যবসায়িক দলিলগুলিতে সারণী সম্পর্কিত তথ্য থাকে এবং পিডিএফ নথি থেকে এই সারণীগুলি নির্ধারণ করে এগুলিকে জেএসএনে রূপান্তর করা একটি চ্যালেঞ্জিং কাজ। পাইথন এবং জাভা ভিত্তিক কিছু গ্রন্থাগার রয়েছে যা বৈদ্যুতিনভাবে তৈরি পিডিএফ ডকুমেন্টগুলি থেকে টেবিলগুলি বের করতে সহায়তা করতে পারে।
  2. স্ক্যান করা পিডিএফগুলি থেকে টেবিলগুলি সনাক্তকরণ: যখন পিডিএফ স্ক্যান করা হয়, বেশিরভাগ প্যাকেজ কাজ করে না। এই ক্ষেত্রে, যদি আমরা টেসার্যাক্টের মতো একটি ওপেন-সোর্স ওসিআর বেছে নিই, তবে এটি পাঠ্য বের করতে পারে কিন্তু সমস্ত টেবিল বিন্যাস হারাতে পারে। অতএব, একটি ভুল বিন্যাসে আউটলাইন আইটেম বাছাই করা চ্যালেঞ্জিং। এখানেই আমাদের মেশিন লার্নিং এবং ডিপ লার্নিং-ভিত্তিক অ্যালগরিদম ব্যবহার করতে হবে। কিছু জনপ্রিয় অ্যালগরিদম সিএনএন-এর উপর ভিত্তি করে, এবং এই অ্যালগরিদমগুলিকে উন্নত করার জন্য প্রচুর গবেষণা চলছে।

নীচে কয়েকটি গবেষণা পত্র রয়েছে যা ডকুমেন্টগুলি থেকে টেবিল উত্তোলনের সমস্যা সমাধান করে:

পরবর্তী বিভাগে, আসুন জেএসএন ফাইলগুলি তৈরি করতে পিডিএফ থেকে ডেটা পার্স করার পদ্ধতিটি দেখুন।

পিডিএফ থেকে ডেটা পার্স করা এবং পাইথন এবং লিনাক্স ব্যবহার করে JSON ফাইল তৈরি করা

আপনার যদি বিকাশকারীর অভিজ্ঞতা থাকে তবে পিডিএফগুলির মাধ্যমে পার্স করা কোনও জটিল কাজ নয়।

প্রথমত, আমাদের পিডিএফ ফাইলগুলিতে পাঠ্য ডেটা রয়েছে বা স্ক্যান করা ছবি রয়েছে কিনা তা পরীক্ষা করতে হবে। কোনো পাঠ্য ফেরত না আসলে আমরা পাঠ্য ডেটা বের করতে পারি বা OCR লাইব্রেরির মাধ্যমে ফাইলগুলি পাইপ করতে পারি কিনা তা আমাদের পরীক্ষা করতে হবে।

এটি একটি পাইথন লাইব্রেরি ব্যবহার করে বা কিছু লিনাক্স কমান্ড-লাইন ইউটিলিটিগুলির উপর নির্ভর করে অর্জন করা যেতে পারে।

পিডিফোটটেক্সট ইলেকট্রনিক PDF পার্স করার জন্য সবচেয়ে জনপ্রিয় লাইব্রেরিগুলির মধ্যে একটি। আমরা এটি ব্যবহার করে সমস্ত পিডিএফ ডেটাকে টেক্সট ফরম্যাটে রূপান্তর করতে পারি এবং তারপর এটিকে JSON ফর্ম্যাটে পুশ করতে পারি।

আমরা কীভাবে ব্যবহার করতে পারি তার কিছু নির্দেশাবলী এখানে রয়েছে pdftotext এবং লিনাক্স মেশিনে পিডিএফের মাধ্যমে বিশ্লেষণ করুন।

প্রথমে কমান্ড-লাইন সরঞ্জামগুলি ইনস্টল করুন:

sudo apt-get install poppler-utils

পরবর্তী, ব্যবহার করুন pdftotext আদেশ দিন এবং পিডিএফ ফাইলের উত্সের পথ এবং গন্তব্য পাঠ্য ফাইলের অবস্থান যুক্ত করুন।

pdftotext {PDF-file} {text-file}

এটির সাহায্যে আমাদের পিডিএফ ফাইলগুলি থেকে সমস্ত পাঠযোগ্য পাঠ্য বের করতে সক্ষম হওয়া উচিত।

একটি JSON ফাইল তৈরি করতে, আমাদেরকে আবার আমাদের ডেটার উপর ভিত্তি করে একটি স্ক্রিপ্টে কাজ করতে হবে যা পাঠ্যের মাধ্যমে বিশ্লেষণ করতে পারে এবং প্রাসঙ্গিক কী-মান জোড়ায় রপ্তানি করতে পারে।

এখানে একটি উদাহরণ স্ক্রিপ্ট যা আমরা পাইথনে লিখেছি যা একটি সাধারণকে রূপান্তর করে .txt JSON ফর্ম্যাটে ফাইল।

import json
  
filename = 'data.txt'
 
dict1 = {}
  
with open(filename) as fh:
  
    for line in fh:
        command, description = line.strip().split(None, 1)
        dict1[command] = description.strip()
  
# creating json file
# the JSON file is named as test1
out_file = open("test1.json", "w")
json.dump(dict1, out_file, indent = 4, sort_keys = False)
out_file.close()

পাঠ্য ফাইলের ভিতরে থাকা ডেটা বিবেচনা করুন:

invoice_id #234
invoice_name Invoice from AWS
invoice_total $345

এখানে, আমরা প্রথমে ইনবিল্ট জেএসএন লাইব্রেরি আমদানি করেছি। আমরা এখন পাঠ্য ফাইলগুলি থেকে সমস্ত কী-মান জোড় সংরক্ষণ করার জন্য একটি অভিধানের ডেটা টাইপ তৈরি করি। এরপরে, আমরা ফাইলটির প্রতিটি লাইনটি পুনরাবৃত্তি করি এবং এটি কমান্ড, বিবরণে স্ট্রিপ করি এবং এটি তৈরি করা অভিধানে রাখি। সবশেষে, আমরা একটি নতুন JSON ফাইল তৈরি করি এবং এটি ব্যবহার করি json.dump সারণি এবং ইন্ডেন্টেশন অন্তর্ভুক্ত একটি নির্দিষ্ট কনফিগারেশন সহ জেএসওএন ফাইলে অভিধানটি ডাম্প করার পদ্ধতি।

তবে, পিডিএফ থেকে আমাদের ডেটা উদাহরণ হিসাবে দেওয়া হিসাবে সংগঠিত হবে না; অতএব, জটিল পাঠ্য বিন্যাসে যেতে আমাদের কাস্টম পাইপলাইন এবং স্ক্রিপ্টগুলি ব্যবহার করতে হতে পারে। এই জাতীয় ক্ষেত্রে, সরঞ্জামগুলি পছন্দ করে ন্যানোনেটস দুর্দান্ত পছন্দ হবে এবং আমরা নীচের বিভাগগুলিতে ন্যানোনেটস কীভাবে এই সমস্যাটি আরও সহজভাবে সমাধান করে তাও আমরা দেখব।

তার আগে, আসুন আমরা আর একটি লাইব্রেরি দেখি যা নোড.জেএস ব্যবহার করে পিডিএফটিকে জেএসওনে রূপান্তর করে:

pdf2json ইহা একটি Node.js মডিউল যা পিডিএফটিকে বাইনারি থেকে JSON ফর্ম্যাটে রূপান্তরিত করে এবং রূপান্তর করে; এটি দিয়ে নির্মিত pdf.js এবং এটিকে ইন্টারেক্টিভ ফর্ম উপাদানগুলি এবং ব্রাউজারের বাইরে পাঠ্য সামগ্রীর বিশ্লেষণের সাথে প্রসারিত করে।

আপনার JSON ফাইলগুলি বিশ্লেষণ করতে এই মডিউলটি ব্যবহার করার উদাহরণ এখানে রয়েছে:

প্রথমে নিশ্চিত হয়ে নিন npm নিম্নলিখিত কমান্ডটি ব্যবহার করে মডিউলটি ইনস্টল করুন এবং ইনস্টল করুন:

npm install pdf2json

এর পরে, আপনার নোড সার্ভারে, আপনি নিম্নলিখিত স্নিপেট ব্যবহার করতে পারেন যা লোড করে pdf2json এবং পিডিএফ এর জেএসএনে রফতানি করে:

let fs = require('fs'),
        PDFParser = require("pdf2json");
 
    let pdfParser = new PDFParser();
 
    pdfParser.on("pdfParser_dataError", errData => console.error(errData.parserError) );
    pdfParser.on("pdfParser_dataReady", pdfData => {
        fs.writeFile("./pdf2json/test/F1040EZ.json", JSON.stringify(pdfData));
    });
 
    pdfParser.loadPDF("./pdf2json/test/pdf/fd/form/F1040EZ.pdf");

উপরের কোড স্নিপেট মডিউল থেকে JSON ফাইলের উদাহরণ ব্যবহার করে এবং এটি JSON ফাইলে রফতানি করে, আমরা এটিতে এটি পরীক্ষা করে দেখতে পারি ./test/target/ আপনার প্রকল্পে ফোল্ডার। খ

elow, আপনি মডিউলটি কীভাবে JSON ফাইলগুলি রপ্তানি করে তার একটি স্ক্রিনশট পাবেন:

পিডিএফ ডেটা কীভাবে JSON PlatoBlockchain ডেটা ইন্টেলিজেন্সে রূপান্তর করবেন। উল্লম্ব অনুসন্ধান. আ.
JSON রপ্তানি

টেবিলে পিডিএফের মাধ্যমে পার্স করার জন্য, এই লাইব্রেরিগুলি কাজ নাও করতে পারে!


JSON-এ ট্যাবুলার ডেটা বের করতে আপনাকে OCR এবং মেশিন লার্নিং অ্যালগরিদম ব্যবহার করতে হবে। Nanonets ঠিক যেভাবে আপনি নীচে দেখতে পারেন:

পিডিএফ ডেটা কীভাবে JSON PlatoBlockchain ডেটা ইন্টেলিজেন্সে রূপান্তর করবেন। উল্লম্ব অনুসন্ধান. আ.
Nanonets PDF থেকে JSON-এ ডেটা রূপান্তর করছে 


পিডিএফ থেকে জেএসএনে রূপান্তরিত ডেটা রূপান্তর

কখনও কখনও, ব্যবসায়ের নথিগুলি থেকে ডেটা বের করার সময়, আমাদের কাস্টমাইজেশন প্রয়োজন হতে পারে। উদাহরণস্বরূপ, বলুন আমরা যদি কেবলমাত্র নির্দিষ্ট পৃষ্ঠা বা টেবিল চাই, আমরা এটি সরাসরি করতে পারি না। এই ক্ষেত্রে, পার্সারগুলিকে আমাদের অতিরিক্ত নিয়ম সরবরাহের প্রয়োজন হতে পারে যা আবার সময়সাপেক্ষ। তবে আসুন আমরা কীভাবে কাস্টমাইজেশন এবং বেশিরভাগ মানুষের প্রয়োজনীয় ক্রিয়াগুলি দেখতে পারি তা দেখুন।

পিডিএফ থেকে জেএসএন রূপান্তর করতে কাস্টমাইজেশনের জন্য প্রয়োজনীয় কয়েকটি ক্রিয়া নীচে দেওয়া হয়েছে:

  • পিডিএফ থেকে কেবল নির্দিষ্ট পাঠ্য বা পৃষ্ঠাগুলি নিষ্কাশন করুন
  • পিডিএফ ডকুমেন্টগুলি থেকে সমস্ত সারণী বের করুন
  • পিডিএফ-তে নির্দিষ্ট সারণী থেকে নির্দিষ্ট কলামগুলি বের করুন
  • পিডিএফগুলি JSON এ রফতানির পূর্বে ফিল্টার করুন
  • পিডিএফ থেকে নিষ্কাশিত ডেটার ভিত্তিতে নেস্টেড জেএসএন তৈরি করা
  • তথ্য ভিত্তিক JSON কাঠামো ফর্ম্যাট করুন
  • নিষ্কাশনের পরে জেএসএনে নির্দিষ্ট ক্ষেত্রগুলির মানগুলি তৈরি করুন, মুছুন, আপডেট করুন

এগুলি এমন কিছু ক্রিয়া যা প্রায়শই আমাদের উপাত্তকে বিভিন্ন উপায়ে সংরক্ষণের জন্য প্রয়োজন হয়, বা বলুন আমরা কোনও অ্যাপ্লিকেশনের জন্য এপিআই তৈরি করছি কিনা। আসুন দেখুন আমরা কীভাবে এটি অর্জন করতে পারি see

বিশেষ পাঠ্য এক্সট্র্যাক্ট করা হচ্ছে: পিডিএফগুলিতে, আমরা নিয়মিত এক্সপ্রেশন ব্যবহার করে নির্দিষ্ট পাঠটি বের করতে পারি; উদাহরণস্বরূপ, বলুন আমরা যদি রেইগেক্স ব্যবহার করে সমস্ত ইমেল এবং ফোন নম্বর চাই তবে আমরা সেগুলি বেছে নিতে পারি। যদি পিডিএফগুলি স্ক্যান করা ফর্ম্যাটে থাকে তবে আমাদেরকে তাদের গভীর শিক্ষার অ্যালগরিদম প্রশিক্ষণের দরকার যা পিডিএফগুলির লেআউটগুলি বুঝতে পারে এবং প্রশিক্ষণের ডেটাতে করা স্থানাঙ্ক এবং টীকাগুলির ভিত্তিতে ক্ষেত্রগুলি বের করতে পারে। ডকুমেন্ট লেআউটগুলি বোঝার এবং পাঠ্য আহরণের জন্য সর্বাধিক জনপ্রিয় ওপেন-সোর্স সংগ্রহস্থলগুলির একটি হ'ল লেআউটএমএল এবং এটি কাস্টম পাঠ্য নিষ্কাশনের জন্য বিআরটি মডেলগুলিতে প্রশিক্ষণ দেয়। তবে পাঠ্য উত্তোলনের ক্ষেত্রে উচ্চতর নির্ভুলতা অর্জনের জন্য আমাদের পর্যাপ্ত ডেটা থাকা উচিত।

সারণী কাস্টমাইজেশন: আলোচিত হিসাবে, টেবিলগুলি ক্যামেলট এবং ট্যাবুলা পাইয়ের মতো লাইব্রেরি ব্যবহার করে বা ওসিআর এবং গভীর শিখন-ভিত্তিক অ্যালগরিদম ব্যবহার করে বের করা যেতে পারে। তবে কাস্টমাইজেশনের জন্য, আমাদের পান্ডার মতো লাইব্রেরি ব্যবহার করতে হবে; এটি আমাদের সারণী থেকে ডেটা তৈরি করতে, আপডেট করতে এবং সিরিয়ালায়িত করতে অনুমতি দেবে। এটি ডেটা ফ্রেম নামে একটি কাস্টম ডেটা টাইপ ব্যবহার করে যা টেবিলের ডেটা ম্যানিপুলেট এবং কাস্টমাইজ করার জন্য ব্যাপকভাবে ব্যবহৃত হয়। পান্ডা ব্যবহারের অন্যান্য সুবিধার মধ্যে রয়েছে কাস্টম ফাংশনগুলি লেখা যা নিষ্কাশন প্রক্রিয়া চলাকালীন নির্দিষ্ট গণিতের ক্রিয়াকলাপ সম্পাদন করতে পারে।

JSON ডেটা ফর্ম্যাট করা হচ্ছে: পিএসডিগুলি জেএসএনে রফতানি করার পরে সেগুলি ফর্ম্যাট করা সহজ সরল কাজ, কারণ আমাদের কাছে আরও কাস্টমাইজেবল ডেটা টাইপ রয়েছে যা কী-মূল্যের জোড়া। আমরা হয় সরল স্ক্রিপ্টগুলি বিকাশ করতে পারি বা এই কী-ভ্যালু জোড়াটি অনুসন্ধান করতে এবং সেগুলিকে বিন্যাস করতে অনলাইন সরঞ্জামগুলি ব্যবহার করতে পারি। বিন্যাসকরণের জন্য বেশ কয়েকটি সাধারণ পরামিতিগুলির মধ্যে অন্তর্ভুক্তি, বিভাজকগুলি, বাছাই করার কীগুলি, বিজ্ঞপ্তি পরীক্ষাগুলি, ডেটা চেক অন্তর্ভুক্ত রয়েছে। যদি জেএসএন কোনও এপিআই হিসাবে ব্যবহৃত হয়, আমরা ডেটা ফর্ম্যাট করতে এবং এপিআইগুলির সাথে ইন্টারঅ্যাক্ট করতে পোস্টম্যান বা কোনও ব্রাউজার এক্সটেনশন ব্যবহার করতে পারি।


PDF নথি থেকে তথ্য বের করে JSON ফরম্যাটে রূপান্তর করতে চান? JSON-এ যেকোনো PDF নথি থেকে যেকোনো তথ্য স্বয়ংক্রিয়ভাবে রপ্তানি করতে Nanonets দেখুন।


সময় স্ট্যাম্প:

থেকে আরো এআই এবং মেশিন লার্নিং