PDF ডেটাকে ডেটাবেস এন্ট্রিতে রূপান্তর করুন PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

পিডিএফ ডেটাকে ডাটাবেস এন্ট্রিতে রূপান্তর করুন

চালান, পে-স্লিপ, আর্থিক, কাজের আদেশ, রসিদ এবং আরও অনেক কিছুর মতো গুরুত্বপূর্ণ নথিগুলি ভাগ করার জন্য বেশ কয়েকটি সংস্থা এবং ব্যবসা পিডিএফ নথির উপর নির্ভর করে। যাইহোক, পিডিএফগুলি ঐতিহাসিক ডেটা সংরক্ষণের জন্য গো-টু ফরম্যাট নয় কারণ সেগুলি সহজে রপ্তানি করা যায় না এবং ওয়ার্কফ্লোতে সংগঠিত হয় না। তাই লোকেরা PDF এবং স্ক্যান করা নথিগুলিকে JSON, CSV, টেবিল বা এক্সেলের মতো কাঠামোগত বিন্যাসে ডিজিটাইজ করতে তথ্য নিষ্কাশন অ্যালগরিদম ব্যবহার করে যা সহজেই অন্যান্য সাংগঠনিক কর্মপ্রবাহে রূপান্তরিত হতে পারে।

কিছু ক্ষেত্রে, পিডিএফগুলি বিভিন্ন ইআরপি, সিএমএস এবং অন্যান্য ডাটাবেস-চালিত সিস্টেমে প্রক্রিয়া করার জন্য প্রয়োজনীয় তথ্য ধারণ করে। দুর্ভাগ্যবশত, পিডিএফ ডকুমেন্টে ডেটাবেস ফাংশনের জন্য সহজ পিডিএফ নেই, এবং স্ক্রিপ্ট লেখা বা এই টাস্কের চারপাশে একটি ওয়ার্কফ্লো তৈরি করা কিছুটা জটিল। এখানেই ওসিআর এবং ডিপ লার্নিং (ডিএল) অ্যালগরিদমগুলি এই পিডিএফ ফর্ম্যাটগুলি থেকে ডেটা বের করতে এবং এটি একটি ডাটাবেসে রপ্তানি করতে ছবিতে আসে৷ এই ব্লগ পোস্টে, আমরা DL প্রযুক্তির পাশাপাশি বাজারে কিছু জনপ্রিয় API ব্যবহার করে আপনি কীভাবে এটি সম্পন্ন করতে পারেন তার বিভিন্ন উপায় দেখব।

পিডিএফ থেকে ডাটাবেস রূপান্তর কি?

পিডিএফ টু ডাটাবেস রূপান্তর হল পিডিএফ থেকে ডেটা রপ্তানি করা একটি ডাটাবেসে যেমন পোস্টগ্রেস, মঙ্গো, মাইএসকিউএল ইত্যাদি।

ধরুন আমরা একটি ওয়েব অ্যাপ্লিকেশন বা একটি ইআরপি সিস্টেম তৈরি করব যা বিভিন্ন উত্স থেকে ইনভয়েস তথ্য ধারণ করে এবং বজায় রাখে। একটি ডাটাবেসে ম্যানুয়ালি ঐতিহাসিক চালান যোগ করা একটি কঠিন কাজ এবং এটি অত্যন্ত ত্রুটি-প্রবণ। অন্যদিকে, একটি সাধারণ ওসিআর ব্যবহার করে চালান থেকে সঠিকভাবে সারণী বের নাও হতে পারে।

এখানেই উন্নত এআই-চালিত পিডিএফ থেকে ডেটাবেস রূপান্তর কাজে আসে!

এই এআই-চালিত পিডিএফ থেকে ডাটাবেস রূপান্তর প্রক্রিয়া স্বয়ংক্রিয় হতে পারে? - হ্যাঁ.

নীচের বিভাগগুলিতে, আমরা স্ক্যান করা নথিগুলি থেকে টেবিল অঞ্চলগুলি সনাক্ত করতে কম্পিউটার দৃষ্টি এবং গভীর শিক্ষা ব্যবহার করি। এই টেবিলগুলি আরও একটি নির্দিষ্ট ডেটা ফর্ম্যাটে যেমন CSV বা এক্সেলের মধ্যে সংরক্ষণ করা হয় এবং সরাসরি ডাটাবেসে পুশ করা হবে।

এগুলি নিয়ে আলোচনা করার আগে, আসুন কিছু ব্যবহারের ক্ষেত্রে জেনে নেওয়া যাক যেখানে পিডিএফ থেকে ডাটাবেস সনাক্তকরণ কার্যকর হতে পারে।

পিডিএফ থেকে ডাটাবেসের জন্য বিভিন্ন ব্যবহারের ক্ষেত্রে

ক্লাউড এবং স্থানীয় স্টোরেজ উভয় ক্ষেত্রেই তথ্য সঞ্চয় করার সর্বোত্তম উপায় ডাটাবেস। তারা আমাদের সহজ প্রশ্ন ব্যবহার করে বিভিন্ন অপারেশন এবং ম্যানিপুলেশন সঞ্চালনের অনুমতি দেয়। এখানে কিছু ব্যবহারের ক্ষেত্রে রয়েছে যা ডাটাবেস রূপান্তর কর্মপ্রবাহে একটি স্বয়ংক্রিয় পিডিএফের সাথে ব্যাপকভাবে অপ্টিমাইজ করা যেতে পারে:

  1. ওয়েবে চালান ব্যবস্থাপনা: ব্যবসা এবং সংস্থাগুলি প্রতিদিন বেশ কয়েকটি চালান নিয়ে কাজ করে; এবং প্রতিটি চালান ম্যানুয়ালি প্রক্রিয়া করা তাদের পক্ষে কঠিন। এছাড়াও, কখনও কখনও, তারা একটি নন-ডিজিটাল ফর্ম্যাটে চালান সংগ্রহ করে এবং গ্রহণ করে, যা তাদের ট্র্যাক করা কঠিন করে তোলে। তাই, তারা ওয়েব-ভিত্তিক অ্যাপ্লিকেশনগুলির উপর নির্ভর করে যা তাদের সমস্ত চালান এক জায়গায় সংরক্ষণ করতে পারে। একটি PDF থেকে ডাটাবেস রূপান্তরকারী চালান থেকে ওয়েব অ্যাপ্লিকেশনে ডেটা নিষ্কাশন স্বয়ংক্রিয়ভাবে করতে পারে। এই কাজগুলিকে দক্ষতার সাথে স্বয়ংক্রিয় করার জন্য, আমরা ক্রোন কাজগুলি চালাতে পারি এবং সেগুলিকে তৃতীয় পক্ষের পরিষেবাগুলির সাথে একীভূত করতে পারি যেমন n8n এবং Zapier - যখন একটি নতুন চালান স্ক্যান করা হয় এবং আপলোড করা হয়, তখন এটি অ্যালগরিদম চালাতে পারে এবং স্বয়ংক্রিয়ভাবে এটিকে টেবিলে ঠেলে দিতে পারে৷
  2. ইকম ইনভেন্টরি ম্যানেজারt: প্রচুর ই-কম ইনভেন্টরি ম্যানেজমেন্ট এখনও পিডিএফ এবং স্ক্যান করা কপি থেকে পণ্যের ম্যানুয়াল এন্ট্রির মাধ্যমে চলে। যাইহোক, তাদের সমস্ত পণ্য এবং বিক্রয় ট্র্যাক রাখতে তাদের বিলিং ম্যানেজমেন্ট সফ্টওয়্যারে তাদের সমস্ত ডেটা আপলোড করতে হবে। তাই, ডাটাবেস রূপান্তর অ্যালগরিদম টেবিল ব্যবহার করে তাদের ম্যানুয়াল এন্ট্রি স্বয়ংক্রিয় করতে এবং সম্পদ সংরক্ষণ করতে সাহায্য করতে পারে। এই প্রক্রিয়ায় সাধারণত স্ক্যান করা নথি থেকে ইনভেন্টরি তালিকা স্ক্যান করা এবং বিভিন্ন ব্যবসার নিয়ম ও শর্তের ভিত্তিতে নির্দিষ্ট ডাটাবেস টেবিলে রপ্তানি করা জড়িত।
  3. সমীক্ষা থেকে তথ্য নিষ্কাশন: প্রতিক্রিয়া এবং অন্যান্য মূল্যবান তথ্য সংগ্রহ করতে, আমরা সাধারণত একটি সমীক্ষা পরিচালনা করি। তারা তথ্য অর্থনীতিতে নিযুক্ত প্রায় প্রত্যেকের জন্য তথ্য এবং অন্তর্দৃষ্টির একটি গুরুত্বপূর্ণ উৎস প্রদান করে, ব্যবসা এবং মিডিয়া থেকে শুরু করে সরকার এবং শিক্ষাবিদ। যখন এগুলি অনলাইনে সংগ্রহ করা হয়, তখন ব্যবহারকারীর প্রতিক্রিয়ার উপর ভিত্তি করে টেবিল ডেটা স্ট্যাটাস বের করা এবং এটি একটি ডাটাবেসে আপলোড করা সহজ। যাইহোক, অধিকাংশ ক্ষেত্রে, জরিপ প্রতিক্রিয়া কাগজে কলমে. এই ধরনের ক্ষেত্রে, ম্যানুয়ালি তথ্য সংগ্রহ করা এবং একটি ডিজিটাল বিন্যাসে সংরক্ষণ করা খুবই কঠিন। অতএব, ডাটাবেস অ্যালগরিদমের জন্য টেবিলের উপর নির্ভর করা সময় বাঁচাতে পারে এবং অতিরিক্ত খরচও কমাতে পারে।

কিভাবে পিডিএফ থেকে রিলেশনাল এবং নন-রিলেশনাল ডাটাবেসে তথ্য বের করা যায়?

একটি পিডিএফ ফাইল দুটি ভিন্ন ধরনের হিসাবে দেখা হয়, ইলেকট্রনিকভাবে জেনারেটেড এবং নন-ইলেক্ট্রনিকভাবে জেনারেটেড।

  1. ইলেকট্রনিক পিডিএফ: এই স্ক্যান করা PDF ডকুমেন্টে ছবির পিছনে লুকানো লেখা থাকতে পারে; এগুলিকে ইলেকট্রনিকভাবে জেনারেটেড পিডিএফ হিসাবেও উল্লেখ করা হয়।
  2. নন-ইলেক্ট্রনিক পিডিএফ: এই ধরনের, আমরা ছবি হিসেবে হার্ড-কোড করা আরও কন্টেন্ট দেখতে পাই। আপনার কাছে একটি পিডিএফ ফাইলে একটি হার্ড কপি ডকুমেন্ট স্ক্যান করার ক্ষেত্রে এটি ঘটে।

আমরা প্রথম ধরনের (বৈদ্যুতিনভাবে তৈরি) জন্য পাইথন এবং জাভার মতো সাধারণ প্রোগ্রামিং ভাষা এবং ফ্রেমওয়ার্কের উপর নির্ভর করতে পারি। নন-ইলেক্ট্রনিকভাবে জেনারেট করা পিডিএফ-এর জন্য, আমাদের ওসিআর এবং গভীর শিক্ষার সাথে কম্পিউটার ভিশন কৌশলগুলি ব্যবহার করতে হবে। যাইহোক, এই অ্যালগরিদমগুলি সমস্ত টেবিল নিষ্কাশন অ্যালগরিদমের জন্য একই নাও হতে পারে এবং উচ্চতর নির্ভুলতা অর্জনের জন্য ডেটার ধরণের উপর নির্ভর করে তাদের পরিবর্তন করতে হবে। এনএলপি (প্রাকৃতিক ভাষা প্রক্রিয়াকরণ) টেবিলের ভিতরের ডেটা বুঝতে এবং কিছু ক্ষেত্রে সেগুলি বের করতেও ব্যবহার করা হয়।

অন্যদিকে, দুই ধরনের ডাটাবেস রয়েছে (রিলেশনাল এবং অ-রিলেশনাল); এই ডাটাবেসের প্রতিটিতে তাদের আর্কিটেকচারের উপর ভিত্তি করে আলাদা আলাদা নিয়ম রয়েছে। একটি রিলেশনাল ডাটাবেস গঠন করা হয়, যার অর্থ ডেটা টেবিলে সংগঠিত হয়। কয়েকটি উদাহরণের মধ্যে রয়েছে MySQL, Postgres, ইত্যাদি।

বিপরীতে, নন-রিলেশনাল ডাটাবেসটি ডকুমেন্ট-ভিত্তিক, যার অর্থ সমস্ত তথ্য লন্ড্রি তালিকার ক্রম অনুসারে সংরক্ষণ করা হয়। একটি একক কনস্ট্রাক্টর নথির মধ্যে, আপনার সমস্ত ডেটা তালিকাভুক্ত থাকবে - উদাহরণস্বরূপ, মঙ্গোডিবি।

যখন নথিগুলি ইলেকট্রনিকভাবে তৈরি হয় তখন একটি ডাটাবেসে পিডিএফ

যেমন আলোচনা করা হয়েছে, ইলেকট্রনিকভাবে জেনারেট করা পিডিএফের জন্য, টেবিল বের করার প্রক্রিয়াটি সহজবোধ্য। ধারণাটি হল টেবিলগুলি বের করা এবং তারপর সেগুলিকে রূপান্তর করতে বা টেবিলে যুক্ত করার জন্য সাধারণ স্ক্রিপ্ট ব্যবহার করা। পিডিএফ থেকে টেবিল নিষ্কাশনের জন্য, প্রাথমিকভাবে দুটি কৌশল রয়েছে।

কৌশল #1 স্ট্রীম: অ্যালগরিদম একটি টেবিল গঠন অনুকরণ করতে কোষের মধ্যে সাদা স্থানের উপর ভিত্তি করে টেবিলের মাধ্যমে পার্স করে - যেখানে পাঠ্যটি উপস্থিত নেই তা সনাক্ত করে। এটি মার্জিন ব্যবহার করে একটি পৃষ্ঠায় অক্ষরকে শব্দ এবং বাক্যে গোষ্ঠীবদ্ধ করার PDFMiner-এর কার্যকারিতার উপর নির্মিত। এই কৌশলে, প্রথমে, কিছু পাঠ্যের y-অক্ষ অবস্থানের (যেমন, উচ্চতা) উপর ভিত্তি করে মোটামুটি অনুমান করে সারিগুলি সনাক্ত করা হয়। একই লাইনের সমস্ত পাঠ্য একই সারির অংশ হিসাবে বিবেচিত হয়। এর পরে, পাঠককে গোষ্ঠীভুক্ত করা হয় এবং টেবিলের কলামগুলি সনাক্ত করতে একটি ভিন্ন গোষ্ঠী হিসাবে একত্রিত করা হয়। শেষ পর্যন্ত, পূর্ববর্তী ধাপে শনাক্ত করা সারি এবং কলামের উপর ভিত্তি করে টেবিলটি একসাথে সেট করা হয়েছে।

কৌশল #2 জালি: প্রবাহের বিপরীতে, ল্যাটিস আরও নির্ধারক। মানে এটা অনুমানের উপর নির্ভর করে না; এটি প্রথমে সারণীগুলির মাধ্যমে পার্স করে যেগুলি কোষের মধ্যে রেখাগুলিকে সংজ্ঞায়িত করে৷ এর পরে, এটি একটি পৃষ্ঠায় উপস্থিত একাধিক টেবিল স্বয়ংক্রিয়ভাবে পার্স করতে পারে। এই কৌশলটি মূলত বহুভুজের আকৃতি দেখে এবং টেবিলের ঘরের ভিতরে পাঠ্য সনাক্ত করে কাজ করে। এটি সহজ হবে যদি একটি PDF একটি বৈশিষ্ট্য থাকে যা বহুভুজ সনাক্ত করতে পারে। যদি এটি থাকে তবে এটির ভিতরে কী রয়েছে তা পড়ার জন্য এটির একটি পদ্ধতি রয়েছে। যাইহোক, এটা না. তাই, এই আকারগুলি সনাক্ত করতে এবং টেবিলের বিষয়বস্তু বের করতে কম্পিউটার দৃষ্টি ব্যাপকভাবে ব্যবহার করা হয়।

নিষ্কাশিত টেবিলগুলি প্রাথমিকভাবে একটি ডেটা ফ্রেম বিন্যাসে সংরক্ষণ করা হয়। এটি একটি নেটিভ ডেটা টাইপ যা সবচেয়ে জনপ্রিয় পাইথন লাইব্রেরি পান্ডাদের দ্বারা অফার করা হয়। একটি ডাটা ফ্রেমে টেবিল ডেটা সংরক্ষণের বেশ কিছু সুবিধা রয়েছে। এগুলি সহজেই হ্যান্ডেল করা যায়, ম্যানিপুলেট করা যায় এবং বিভিন্ন ফরম্যাটে যেমন JSON, CSV বা টেবিলে রপ্তানি করা যায়। যাইহোক, আমরা এই ডেটা ফ্রেমগুলিকে টেবিলে পুশ করার আগে, আমাদের প্রথমে DB-ক্লায়েন্ট ডাটাবেসের সাথে সংযোগ স্থাপন করা উচিত এবং তারপরে টেবিলটি স্থানান্তর করা উচিত। পাইথনের মতো ভাষা ব্যবহার করে, আমরা অনেকগুলি লাইব্রেরি খুঁজে পেতে পারি যা এই ডেটা উত্সগুলির সাথে সংযোগ করতে পারে এবং ডেটা রপ্তানি করতে পারে।

যখন নথিগুলি অ-ইলেকট্রনিকভাবে তৈরি হয় তখন ডাটাবেসে পিডিএফ

উপরে আলোচিত কৌশলগুলি নন-ইলেক্ট্রনিকভাবে জেনারেট করা PDFগুলির জন্য কাজ নাও করতে পারে, কারণ এখানে ডেটা ম্যানুয়ালি একটি ভিন্ন উৎসের মাধ্যমে স্ক্যান করা হয়। এই কারণেই আমরা স্ক্যান করা নথিগুলি থেকে ডেটা বের করতে এবং ডেটাবেসে রপ্তানি করতে ওসিআর এবং ডিপ লার্নিং কৌশলগুলি ব্যবহার করব।

সংক্ষেপে, অপটিক্যাল ক্যারেক্টার রিকগনিশন, ওসিআর একটি বিশেষ টুল যা স্ক্যান করা নথি থেকে মুদ্রিত অক্ষরকে সম্পাদনাযোগ্য পাঠ্যে রূপান্তর করে। নথি থেকে পিডিএফ টেবিল সনাক্ত করার জন্য, প্রথমে, আমাদের টেবিলের অবস্থান সনাক্ত করতে হবে এবং তারপর টেবিলের কোষগুলি থেকে ডেটা বের করতে OCR প্রয়োগ করতে হবে। এটি কীভাবে অর্জন করা হয় তার পদক্ষেপগুলি নিম্নরূপ:

  1. প্রথমত, আমরা অনুভূমিক এবং উল্লম্ব কনট্যুর প্রয়োগ করে লাইনের অংশগুলি সনাক্ত করি।
  2. সমস্ত লাইনের পিক্সেলের তীব্রতা দেখে লাইনের মধ্যে লাইন ছেদগুলি সনাক্ত করা হয়। যদি একটি লাইন পিক্সেলের বাকি পিক্সেলের চেয়ে বেশি তীব্রতা থাকে তবে এটি দুটি লাইনের অংশ এবং তাই একটি ছেদ।
  3. ছেদ করা রেখার পিক্সেলের তীব্রতা দেখে টেবিলের প্রান্ত নির্ধারণ করা হয়। এখানে, একটি লাইনের সমস্ত পিক্সেল নেওয়া হয়েছে, এবং সর্বাধিক বাহ্যিক রেখাগুলি টেবিলের সীমানা উপস্থাপন করে।
  4. চিত্র বিশ্লেষণটি PDF স্থানাঙ্কে অনুবাদ করা হয়, যেখানে কোষগুলি নির্ধারণ করা হয়। পাঠ্যটি তার x এবং y স্থানাঙ্কের উপর ভিত্তি করে একটি ঘরে বরাদ্দ করা হয়।
  5. পাঠ্য বের করার জন্য স্থানাঙ্কগুলিতে OCR প্রয়োগ করা হয়
  6. নিষ্কাশিত পাঠ্যটি টেবিলের অবস্থানের উপর ভিত্তি করে একটি ডেটা ফ্রেমে রপ্তানি করা হয়।

এইভাবে আমরা সিভি ব্যবহার করে টেবিল বের করতে পারি। যাইহোক, এখানে কিছু অপূর্ণতা আছে। এই অ্যালগরিদমগুলি বিভিন্ন টেমপ্লেট শৈলী সহ বড় টেবিল এবং টেবিলের জন্য ব্যর্থ হয়। এখানেই গভীর শিক্ষা আসে; তারা ডেটা থেকে শেখার জন্য একটি বিশেষ ধরনের নিউরাল নেটওয়ার্ক ফ্রেমওয়ার্ক ব্যবহার করে এবং শেখার উপর ভিত্তি করে অনুরূপ নিদর্শন সনাক্ত করে। গত এক দশকে, তারা অত্যাধুনিক পারফরম্যান্স অর্জন করেছে, বিশেষ করে তথ্য নিষ্কাশনের মতো কাজের জন্য। এখন, আসুন দেখি কিভাবে গভীর নিউরাল নেটওয়ার্ক ডাটা থেকে শিখতে পারে এবং যেকোনো ডকুমেন্ট থেকে টেবিল বের করতে পারে।

গভীর নিউরাল নেটওয়ার্ক প্রশিক্ষণ একটি নির্দিষ্ট কর্মপ্রবাহ জড়িত; আমরা যে ধরনের ডেটা নিয়ে কাজ করছি এবং তাদের মডেলের পারফরম্যান্সের উপর ভিত্তি করে এই ওয়ার্কফ্লোগুলি প্রায়শই পরিবর্তিত হয়। কর্মপ্রবাহের প্রথম পর্যায়ে ডেটা সংগ্রহ করা এবং আমাদের মডেলের উপর ভিত্তি করে সেগুলি প্রক্রিয়াকরণ জড়িত। আমাদের পিডিএফ ডকুমেন্ট থেকে টেবিল বের করার ক্ষেত্রে, ডেটাসেটে আদর্শভাবে অসংগঠিত নথি থাকা উচিত। এই নথিগুলিকে ছবিতে রূপান্তরিত করা হয়, টেনসর হিসাবে লোড করা হয় এবং প্রশিক্ষণের জন্য ডেটা লোডার ক্লাস হিসাবে প্রস্তুত করা হয়। পরবর্তী, আমরা সাধারণত প্রশিক্ষণের জন্য প্রয়োজনীয় সমস্ত হাইপারপ্যারামিটার সংজ্ঞায়িত করি। এর মধ্যে সাধারণত ব্যাচের আকার, লস ফাংশন, মডেলের জন্য অপ্টিমাইজার সেট আপ করা অন্তর্ভুক্ত। অবশেষে, একটি নিউরাল নেটওয়ার্ক আর্কিটেকচার সংজ্ঞায়িত বা একটি পূর্ব-সংজ্ঞায়িত মডেলের উপরে নির্মিত। এই মডেলটিকে ডেটার উপরে প্রশিক্ষিত করা হবে এবং পারফরম্যান্স মেট্রিক্সের উপর ভিত্তি করে সূক্ষ্ম টিউন করা হবে।

গভীর শিক্ষার মডেল প্রশিক্ষণের সাথে জড়িত বিভিন্ন পদক্ষেপের একটি স্ক্রিনশট নিচে দেওয়া হল:

সাধারণ এমএল কর্মপ্রবাহ (উৎস)

পিডিএফ থেকে ডেটা বের করা এবং পাইথন ব্যবহার করে এসকিউএল ডাটাবেসে রপ্তানি করা

এখন পর্যন্ত, আমরা পিডিএফ থেকে ডাটাবেস রূপান্তর কী তা শিখেছি এবং কিছু ব্যবহারের ক্ষেত্রে আলোচনা করেছি যেখানে এটি সহায়ক হতে পারে। এই বিভাগটি কার্যত কম্পিউটার ভিশন ব্যবহার করে এই সমস্যাটির সাথে যোগাযোগ করবে এবং স্ক্যান করা পিডিএফ-এ টেবিল সনাক্ত করবে এবং ডাটাবেসে রপ্তানি করবে। অনুসরণ করতে, আপনার স্থানীয় মেশিনে পাইথন এবং ওপেনসিভি ইনস্টল করতে ভুলবেন না। বিকল্পভাবে, আপনি একটি অনলাইন Google Collab নোটবুক ব্যবহার করতে পারেন।

ধাপ 1: ট্যাবুলা এবং পান্ডাস ইনস্টল করুন

এই উদাহরণে, আমরা ডাটাবেসে টেবিলগুলিকে নিষ্কাশন করতে এবং পুশ করতে ট্যাবুলা এবং পান্ডাস ব্যবহার করব। পিপ এর মাধ্যমে ইন্সটল করি এবং আমাদের প্রোগ্রামে ইমপোর্ট করি।

import tabula
import pandas as pd

ধাপ 2: ডেটাফ্রেমে টেবিল পড়া

এখন, আমরা ব্যবহার করা হবে read_pdf পিডিএফ থেকে টেবিল পড়ার জন্য ট্যাবুলা থেকে ফাংশন; মনে রাখবেন যে এই লাইব্রেরিটি শুধুমাত্র ইলেকট্রনিকভাবে তৈরি করা PDF নথিতে কাজ করে। নিম্নলিখিত কোড স্নিপেট:

table = tabula.read_pdf("sample.pdf",pages='all',multiple_tables=False)

df = pd.concat(table)

এখানে, আমরা দেখতে পাচ্ছি, প্রথমে, আমরা PDF ফাইলের বিষয়বস্তু পড়ার জন্য ব্যবহার করি, আমরা প্যারামিটার সেট করি multiple_tables মিথ্যা থেকে, উদাহরণে ব্যবহৃত নথিতে শুধুমাত্র একটি টেবিল রয়েছে।

এখন, আমরা এই তালিকাটি পান্ডা ব্যবহার করে একটি ডেটা ফ্রেমে লোড করব, এবং আপনি টাইপ পদ্ধতি ব্যবহার করে টেবিলের ধরন পরীক্ষা করতে পারেন; এটি একটি নেটিভ পান্ডাস ডেটা ফ্রেম ফিরিয়ে দেবে।

ধাপ 3: পোস্টরেসে ডেটাফ্রেম স্থানান্তর করা

আমরা আমাদের টেবিল ডাটাবেসে পুশ করার আগে, প্রথমে আমাদের প্রোগ্রাম থেকে এটির সাথে একটি সংযোগ স্থাপন করা উচিত এবং আমরা এটি ব্যবহার করে এটি করতে পারি sqlalchemy পাইথনে ক্লায়েন্ট। একইভাবে, বিভিন্ন প্রোগ্রামিং ভাষা এই ধরনের ডাটাবেস ক্লায়েন্টদের আমাদের প্রোগ্রাম থেকে সরাসরি ডাটাবেসের সাথে ইন্টারঅ্যাক্ট করার অফার করে।

এই প্রোগ্রামে, আমরা ব্যবহার করা হবে create_engine পদ্ধতি যা আমাদের ডাটাবেসের সাথে সংযোগ করতে দেয়; এই কাজ পেতে প্রদত্ত স্ট্রিং মধ্যে ডাটাবেস শংসাপত্র প্রতিস্থাপন নিশ্চিত করুন. পরবর্তী, আমরা ব্যবহার write_frame সংযুক্ত ডাটাবেসে নিষ্কাশিত টেবিল রপ্তানি করার ফাংশন।

engine = create_engine('postgresql+psycopg2://username:password@host:port/database')

sql.write_frame(df, 'table_name', con, flavor='postgresql')

এবং ঠিক তেমনই, আমরা পিডিএফ থেকে ডাটাবেসে টেবিল রপ্তানি করতে সক্ষম হয়েছি, এটি দেখতে বেশ সোজা এবং সহজ দেখায় কারণ আমরা একটি সাধারণ প্রক্রিয়াকৃত ইলেকট্রনিকভাবে জেনারেট করা PDF ব্যবহার করেছি। নন-ইলেকট্রনিকভাবে জেনারেট করা টেবিল থেকে টেবিল বের করার জন্য নিম্নোক্ত জনপ্রিয় গভীর শিক্ষার কৌশলগুলি ব্যবহার করা যেতে পারে:

  1. কোড সহ কাগজপত্র – GFTE: গ্রাফ-ভিত্তিক আর্থিক সারণী নিষ্কাশন
  2. কোড সহ কাগজপত্র - PubTables-1M: একটি সার্বজনীন ডেটাসেট এবং মেট্রিক্স প্রশিক্ষণ এবং টেবিল নিষ্কাশন মডেলের মূল্যায়নের দিকে
  3. টেবিলনেট: স্ক্যান করা ডকুমেন্ট ইমেজ থেকে এন্ড-টু-এন্ড টেবিল ডিটেকশন এবং ট্যাবুলার ডেটা এক্সট্রাকশনের জন্য ডিপ লার্নিং মডেল

Nanonets লিখুন: পিডিএফ টেবিল থেকে ডেটাবেস রূপান্তরের জন্য উন্নত OCR

এই বিভাগটি দেখবে কিভাবে Nanonets আমাদেরকে আরও কাস্টমাইজযোগ্য এবং সহজ উপায়ে ডাটাবেসের টেবিলগুলি সম্পাদন করতে সাহায্য করতে পারে।

Nanonets™ হল একটি ক্লাউড-ভিত্তিক OCR যা AI ব্যবহার করে আপনার ম্যানুয়াল ডেটা এন্ট্রিকে স্বয়ংক্রিয়ভাবে সাহায্য করতে পারে। আমাদের একটি ড্যাশবোর্ড থাকবে যেখানে আমরা আমাদের ডেটাতে আমাদের OCR মডেলগুলি তৈরি/প্রশিক্ষিত করতে পারি এবং সেগুলিকে JSON/CSV বা যেকোনো পছন্দসই বিন্যাসে পরিবহন করতে পারি। পিডিএফ ডকুমেন্ট স্ক্যানার হিসাবে Nanonets ব্যবহার করার কিছু সুবিধা এখানে রয়েছে।

Nanonets এর একটি হাইলাইট হল পরিষেবাটি নিয়ে আসা সরলতা। কেউ কোনো প্রোগ্রামিং ব্যাকগ্রাউন্ড ছাড়াই এই পরিষেবাগুলি বেছে নিতে পারে এবং অত্যাধুনিক প্রযুক্তির সাহায্যে সহজেই পিডিএফ ডেটা বের করতে পারে। পিডিএফকে ডাটাবেসে রূপান্তর করা কতটা সহজ তার একটি সংক্ষিপ্ত রূপরেখা নিচে দেওয়া হল।

ধাপ 1: Nanonets.com এ যান এবং নিবন্ধন করুন/লগ ইন করুন।

PDF ডেটাকে ডেটাবেস এন্ট্রিতে রূপান্তর করুন PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

ধাপ 2: রেজিস্ট্রেশনের পরে, "শুরু করতে বেছে নিন" এলাকায় যান, যেখানে আপনি পূর্ব-নির্মিত এক্সট্র্যাক্টরগুলি ব্যবহার করতে পারেন বা আপনার ডেটাসেট ব্যবহার করে আমাদের নিজস্ব একটি তৈরি করতে পারেন৷ এখানে, আমরা ইনভয়েস প্রি-বিল্ট ইনভয়েস এক্সট্রাক্টর ব্যবহার করব।

PDF ডেটাকে ডেটাবেস এন্ট্রিতে রূপান্তর করুন PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

ধাপ 3: তথ্য নিষ্কাশন করতে এবং স্বয়ংক্রিয় নিষ্কাশন বিকল্প চয়ন করতে, ছবির PDF আপলোড করুন।

PDF ডেটাকে ডেটাবেস এন্ট্রিতে রূপান্তর করুন PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

ধাপ 4: ডাটাবেসে নিষ্কাশিত ডেটা রপ্তানি করতে একটি নতুন ইন্টিগ্রেশন MySQL ইন্টিগ্রেশন তৈরি করুন। বিকল্পভাবে, আপনি আপনার পছন্দের ডেটাবেসের উপর ভিত্তি করে বিভিন্ন বিকল্প বেছে নিতে পারেন।

PDF ডেটাকে ডেটাবেস এন্ট্রিতে রূপান্তর করুন PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

ডেটা সংযোগ স্থাপন করুন এবং সংযোজন যোগ করুন ক্লিক করুন। এটির সাহায্যে, যখনই ফাইলগুলি আপলোড করা হবে তখন ডেটা নিষ্কাশন করা হবে এবং স্বয়ংক্রিয়ভাবে একটি ডাটাবেসে আপলোড করা হবে। আপনি যদি প্রয়োজনীয় ইন্টিগ্রেশন খুঁজে না পান, আপনি সর্বদা Nanonets API ব্যবহার করতে পারেন এবং অটোমেশন সম্পন্ন করতে সহজ স্ক্রিপ্ট লিখতে পারেন।

সময় স্ট্যাম্প:

থেকে আরো এআই এবং মেশিন লার্নিং