কিভাবে PDF PlatoBlockchain ডেটা ইন্টেলিজেন্স থেকে টেক্সট রিড বা এক্সট্রাক্ট করবেন। উল্লম্ব অনুসন্ধান. আ.

কিভাবে PDF থেকে টেক্সট রিড বা এক্সট্রাক্ট করবেন

কিভাবে PDF থেকে টেক্সট রিড বা এক্সট্রাক্ট করবেন

যদি আপনার পিডিএফগুলি চালান, রসিদ, পাসপোর্ট বা ড্রাইভারের লাইসেন্স নিয়ে কাজ করে, তাহলে Nanonets দেখুন অনলাইন ওসিআর or পিডিএফ টেক্সট এক্সট্র্যাক্টর PDF নথি থেকে পাঠ্য বের করতে বিনামূল্যে জন্য. সম্পর্কে আরও জানতে নীচে ক্লিক করুন Nanonets পিডিএফ স্ক্র্যাপার.


ব্যবসায়িক প্রক্রিয়াগুলির জন্য আপনাকে প্রায়ই PDF নথি থেকে পাঠ্য টানতে হয়। পিডিএফ হ'ল ট্যাম্পার-প্রুফ, সুরক্ষিত এবং ডেটা এবং তথ্য আদান-প্রদানের জন্য সবচেয়ে পছন্দের ফর্ম্যাট; কিন্তু তারা দুর্ভাগ্যবশত সম্পাদনাযোগ্য নয়।

আপনি যদি ম্যানুয়ালি টেক্সট এক্সট্র্যাক্ট করতে চান বা একটি PDF থেকে ডেটা একটি প্রতিবেদন তৈরি বা একটি উপস্থাপনা করতে ফাইল, এটা অনেক সময় লাগতে পারে! সাধারণ নথি-ভিত্তিক কর্মপ্রবাহের অংশ হিসাবে PDF ফাইলগুলি থেকে পাঠ্য পড়া প্রায়ই প্রয়োজনীয়।

বেশিরভাগ সমাধান যা দক্ষতার সাথে PDF থেকে পাঠ্য পড়তে পারে (এর বাইরে পিডিএফ পার্সার) আজ ওসিআর (অপটিক্যাল ক্যারেক্টার রিকগনিশন) ক্ষমতার সুবিধা নিন। সনাক্ত করতে ওসিআর প্রযুক্তি ব্যবহার করা যেতে পারে এবং ছবি থেকে পাঠ্য বের করুনs, PDF এবং অন্যান্য অ সম্পাদনাযোগ্য ফাইল ফরম্যাট। হাতে থাকা PDF নথির স্কেল এবং জটিলতার উপর নির্ভর করে, আপনার ওসিআর ক্ষমতার বিভিন্ন স্তরের প্রয়োজন হতে পারে; উদাহরণস্বরূপ আপনি এমনকি করতে পারেন পিডিএফ থেকে টেবিল বের করুন নথি।

অনলাইন পিডিএফ কনভার্টার বা পিডিএফ এক্সট্রাকশন টুল সহজ ফরম্যাটিং সহ ছোট পিডিএফ ডকুমেন্ট থেকে টেক্সট বের করতে পারে। কিন্তু যদি আপনার কাছে জটিল বিন্যাস, সারণী, গ্রাফ এবং চিত্র সহ প্রচুর পরিমাণে নথি থাকে, তাহলে আপনার প্রয়োজন হবে একটি উন্নত ওসিআর সফ্টওয়্যার মত ন্যানোনেটস পিডিএফ থেকে প্রাসঙ্গিক পাঠ্য নির্ভুলভাবে বের করতে। (OCR কি or ওসিআর পিডিএফ? - এখানে একটি বিস্তারিত ব্যাখ্যাকারী on OCR সফটওয়্যার কি)

চলুন দেখে নেওয়া যাক বিভিন্ন উপায়ে যার মাধ্যমে আপনি PDF নথি থেকে সহজে, নির্ভুলভাবে এবং স্কেলে পাঠ্য বের করতে Nanonets ব্যবহার করতে পারেন:

সুচিপত্র

কিভাবে PDF থেকে টেক্সট রিড বা এক্সট্রাক্ট করবেন

চাই পিডিএফ থেকে ডেটা স্ক্র্যাপ করুন নথি, রূপান্তর পিডিএফ থেকে এক্সএমএল or স্বয়ংক্রিয় টেবিল নিষ্কাশন? Nanonets' দেখুন পিডিএফ স্ক্র্যাপ or পিডিএফ পার্সার পরিবর্তন করতে ডাটাবেসে পিডিএফ এন্ট্রি


ন্যানোনেট ফ্রি ওসিআর দিয়ে কীভাবে পিডিএফ থেকে পাঠ্য বের করবেন?

ওসিআর টুলস আপনাকে PDF ডকুমেন্ট থেকে সহজেই টেক্সট বের করতে এবং একটি কাঁচা টেক্সট ফাইলে রূপান্তর করার অনুমতি দেয়। এখানে পদক্ষেপগুলি রয়েছে:

  1. Nanonets এর বিনামূল্যের OCR টুলটি এখানে দেখুন - nanonets.com/online-ocr
  2. আপনার পিডিএফ ফাইল আপলোড করুন
  3. Nanonets' OCR স্বয়ংক্রিয়ভাবে আপনার ফাইলের বিষয়বস্তু শনাক্ত করে এবং এটিকে পাঠ্যে রূপান্তর করে
  4. নিষ্কাশিত পাঠ্যটিকে একটি কাঁচা পাঠ্য ফাইল হিসাবে ডাউনলোড করুন

এই পদ্ধতিটি আপনার বেশিরভাগ সাধারণ PDF থেকে টেক্সট ব্যবহারের ক্ষেত্রে উপযুক্ত হবে। এই পদ্ধতিটি আরও জটিল নথি এবং টেবিল কাঠামোর জন্য উপযুক্ত নাও হতে পারে। আরও জটিল PDF পাঠ্য নিষ্কাশন প্রয়োজনীয়তার জন্য নীচের পদ্ধতিগুলি পড়ুন।

Nanonets প্রাক-প্রশিক্ষিত OCR মডেল ব্যবহার করে PDF থেকে কিভাবে পাঠ্য বের করবেন?

ন্যানোনেটস প্রাক-প্রশিক্ষিত রসিদ ওসিআর মডেল কার্যকর

যদি আপনার পিডিএফগুলি নীচে তালিকাভুক্ত যেকোনও নথির প্রকারের অধীনে পড়ে, তাহলে আপনি একটি ঝরঝরে এবং সংগঠিত পদ্ধতিতে অবিলম্বে পাঠ্য বের করতে উপযুক্ত ন্যানোনেট প্রাক-প্রশিক্ষিত মডেল ব্যবহার করতে পারেন:

  • ইনভয়েস বা চালান
  • রসিদ
  • ড্রাইভারের লাইসেন্স (মার্কিন)
  • পাসপোর্ট
  • মেনু কার্ড
  • জীবনবৃত্তান্ত
  • লাইসেন্স প্লেট
  • মিটার রিডিং
  • শিপিং পাত্রে

ধাপ 1 - আপনার ব্যবহারের ক্ষেত্রে একটি প্রাক-প্রশিক্ষিত মডেল নির্বাচন করুন

লগইন Nanonets এ এবং একটি মডেল নির্বাচন করুন যা নথির প্রকারের সাথে মেলে যেখান থেকে আপনি পাঠ্য বের করতে চান। যদি প্রাক-প্রশিক্ষিত OCR মডেলগুলির মধ্যে কোনটিই আপনার নথির বর্ণনা না দেয়, তাহলে এই পদ্ধতিটি এড়িয়ে যান এবং কীভাবে একটি কাস্টম Nanonets OCR মডেল তৈরি করবেন তা খুঁজে বের করতে এগিয়ে যান।

ধাপ 2 - ফাইল যোগ করুন

PDF ফাইল/ডকুমেন্ট যোগ করুন যেখান থেকে আপনি টেক্সট এক্সট্রাক্ট করতে চান। আপনি যত খুশি পিডিএফ যোগ করতে পারেন।

ধাপ 3 - পরীক্ষা করুন এবং যাচাই করুন

মডেলটিকে চালানোর জন্য কয়েক সেকেন্ডের অনুমতি দিন এবং PDF নথি থেকে পাঠ্য বের করুন। একটি টেবিল ভিউ প্রতিটি পিডিএফ ফাইল থেকে বের করা সমস্ত পাঠ্যের একটি তালিকা প্রদর্শন করে। কিছু মিস বা ভুলভাবে বের করা হয়েছে কিনা তা পরীক্ষা করতে নিষ্কাশিত পাঠ্যটি দ্রুত যাচাই করুন। এগিয়ে যেতে "ডেটা যাচাই করুন" এ ক্লিক করুন।

ধাপ 4 - রপ্তানি করুন

একবার সবকিছু যাচাই হয়ে গেলে, আপনি একটি সুন্দরভাবে সংগঠিত হিসাবে সমস্ত নিষ্কাশিত পাঠ্য রপ্তানি করতে পারেন৷ তারা xml, xlsx বা csv ফাইল।


একটি নিখরচায় অনলাইন ওসিআর প্রয়োজন চিত্র থেকে পাঠ্য নিষ্কাশন , পিডিএফ থেকে টেবিল বের করুন, বা পিডিএফ থেকে ডেটা উত্তোলন? Nanonets দেখুন এবং বিনামূল্যে কাস্টম ওসিআর মডেল তৈরি করুন!


একটি কাস্টম ন্যানোনেট ওসিআর মডেল তৈরি করে কীভাবে পিডিএফ থেকে পাঠ্য বের করবেন?

পিডিএফ থেকে পাঠ্য বের করার জন্য একটি কাস্টম ন্যানোনেট ওসিআর মডেল তৈরি করা বেশ সহজবোধ্য। আপনি সাধারণত 25 মিনিটের মধ্যে (মডেলটি প্রশিক্ষণের জন্য ব্যবহৃত ফাইলের সংখ্যার উপর নির্ভর করে) যেকোন ভাষায়, যেকোন নথির প্রকারের জন্য একটি মডেল তৈরি, প্রশিক্ষণ এবং স্থাপন করতে পারেন।

একটি কাস্টম ন্যানোনেট ওসিআর মডেল তৈরি করা

ধাপ 1: একটি কাস্টম OCR মডেল তৈরি করুন

লগইন Nanonets-এ এবং "Create your own OCR মডেল"-এ ক্লিক করুন।

ধাপ 2: প্রশিক্ষণ ফাইল আপলোড করুন

নমুনা পিডিএফ ফাইল আপলোড করুন. এগুলি আপনার প্রয়োজনীয়তা অনুসারে কীভাবে পাঠ্য বের করতে হয় সে সম্পর্কে ওসিআর মডেলের জন্য একটি প্রশিক্ষণ সেট হিসাবে কাজ করবে। আপনার তৈরি করা OCR মডেলের যথার্থতা আপলোড করা PDF ফাইলের গুণমান এবং পরিমাণের উপর নির্ভর করবে।

ধাপ 3: PDF এ পাঠ্য টীকা করুন

একটি উপযুক্ত ক্ষেত্র বা লেবেল সহ পাঠ্যের প্রতিটি টুকরো টীকা করুন। এটি ওসিআর মডেলটিকে পিডিএফ-এ পাঠ্যের প্রাসঙ্গিক অংশ সনাক্ত করতে শেখাবে। আপনি টেক্সট টীকা করার জন্য একটি নতুন লেবেল যোগ করতে পারেন। ন্যানোনেটস নথির টেমপ্লেট দ্বারা আবদ্ধ নয়!

ধাপ 4: কাস্টম OCR মডেলকে প্রশিক্ষণ দিন

একবার টীকা সম্পূর্ণ হলে, "ট্রেন মডেল" এ ক্লিক করুন। প্রশিক্ষণের জন্য সারিবদ্ধ মডেল এবং ফাইলের সংখ্যার উপর নির্ভর করে প্রশিক্ষণে সাধারণত 20 মিনিট-2 ঘন্টা সময় লাগে। দ্রুত ফলাফল পেতে আপনি একটি অর্থপ্রদানের পরিকল্পনায় আপগ্রেড করতে পারেন (20 মিনিটের কম)। ন্যানোনেট বিভিন্ন ওসিআর মডেল তৈরি করতে গভীর শিক্ষা লাভ করে এবং নির্ভুলতার জন্য একে অপরের বিরুদ্ধে পরীক্ষা করে। Nanonets তারপর সবচেয়ে সঠিক OCR মডেল বাছাই করে।

"মডেল মেট্রিক্স" ট্যাবটি বিভিন্ন পরিমাপ এবং তুলনামূলক বিশ্লেষণগুলি দেখায় যা ন্যানোনেটকে তৈরি করা সমস্তগুলির মধ্যে সেরা ওসিআর মডেল বেছে নিতে দেয়৷ উচ্চ স্তরের নির্ভুলতা অর্জনের জন্য আপনি মডেলটিকে পুনরায় প্রশিক্ষণ দিতে পারেন (প্রশিক্ষণের চিত্রগুলির একটি বিস্তৃত পরিসর এবং আরও ভাল টীকা প্রদান করে)।

অথবা, আপনি যদি সন্তুষ্ট হন, তাহলে পিডিএফ-এর একটি নতুন নমুনায় কাস্টম OCR মডেল পরীক্ষা ও যাচাই করতে "পরীক্ষা" এ ক্লিক করুন।

ধাপ 5: ডেটা পরীক্ষা এবং যাচাই করুন

কাস্টম OCR মডেল পরীক্ষা ও যাচাই করতে কয়েকটি নমুনা ছবি যোগ করুন। যদি পাঠ্যটি স্বীকৃত হয়, বের করা হয় এবং যথাযথভাবে উপস্থাপন করা হয় তবে ফাইলটি রপ্তানি করুন।


ন্যানোনেটস অনলাইন ওসিআর এবং ওসিআর এপিআই অনেক আকর্ষণীয় আছে ক্ষেত্রে ব্যবহার করুন tটুপি আপনার ব্যবসায়ের পারফরম্যান্সকে অনুকূল করতে পারে, ব্যয় বাঁচায় এবং বৃদ্ধি বাড়াতে পারে। খুঁজে বের কর ন্যানোনেটের ব্যবহারের ক্ষেত্রে কীভাবে আপনার পণ্যে প্রয়োগ করা যেতে পারে।


Nanonets API ব্যবহার করে পিডিএফ থেকে টেক্সট রূপান্তরের জন্য কাস্টম মডেলগুলিকে কীভাবে প্রশিক্ষণ দেওয়া যায়?

আপনি যদি পিডিএফ থেকে টেক্সট কনভার্টার তৈরি করতে আপনার নিজের ওসিআর মডেলগুলিকে প্রশিক্ষণ দিতে চান তবে দেখুন ন্যানোনেটস এপিআই। মধ্যে ডকুমেন্টেশন, আপনি শেল, রুবি, গোলং, জাভা, সি # এবং পাইথনের কোড নমুনাগুলি, পাশাপাশি বিভিন্ন প্রান্তের জন্য বিশদ এপিআই স্পেকগুলি দেখতে পাবেন।

কেন পিডিএফ থেকে টেক্সট বের করতে Nanonets বেছে নিন?

অন্যান্য PDF থেকে টেক্সট রূপান্তরকারী সফ্টওয়্যারের উপর Nanonets ব্যবহার করার সুবিধাগুলি আরও ভাল নির্ভুলতা এবং স্কেল ছাড়িয়ে যায়। এখানে 7 কারণ অন্যান্য সরঞ্জাম এবং স্বয়ংক্রিয় সফ্টওয়্যারের পরিবর্তে পিডিএফ ডকুমেন্ট থেকে পাঠ্য বের করতে কেন আপনি Nanonets ব্যবহার করার কথা বিবেচনা করবেন।


আপডেট মে 2022: এই পোস্টটি মূলত প্রকাশিত হয়েছিল এপ্রিল 2021 এবং তারপরে আপডেট করা হয়েছে।

এখানে একটি স্লাইড আছে এই নিবন্ধে ফলাফলের সারসংক্ষেপ. এখানে একটি বিকল্প সংস্করণ এই পোস্টের

সময় স্ট্যাম্প:

থেকে আরো এআই এবং মেশিন লার্নিং