স্ক্যান করা নথি থেকে ডেটা বের করা হচ্ছে

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

স্ক্যান করা নথি থেকে ডেটা বের করা হচ্ছে

স্ক্যান করা নথি থেকে ডেটা বের করতে চাইছেন? চেষ্টা করুন ন্যানোনেটস™ অগ্রসর এআই-ভিত্তিক ওসিআর স্ক্যানার থেকে তথ্য আহরণ এবং সংগঠিত করতে স্ক্যান করা নথি স্বয়ংক্রিয়ভাবে.

ভূমিকা

বিশ্বের সুবিধার জন্য কাগজপত্র এবং হাতের লেখা থেকে ডিজিটাল নথিতে পরিণত হয়েছে, ছবি এবং স্ক্যান করা নথিগুলিকে অর্থপূর্ণ ডেটাতে রূপান্তর করার গুরুত্ব আকাশচুম্বী হয়েছে।

অত্যন্ত নির্ভুল নথি ডেটা নিষ্কাশনের প্রয়োজনীয়তার সাথে তাল মিলিয়ে চলার জন্য, অসংখ্য গবেষণা সুবিধা এবং কর্পোরেশন (যেমন, Google, AWS, Nanonets ইত্যাদি) কম্পিউটার দৃষ্টি এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) ক্ষেত্রের প্রযুক্তিগুলিতে গভীরভাবে মনোনিবেশ করেছে।

ডিপ লার্নিং টেকনোলজির প্রস্ফুটিত ডাটা যে ধরনের এক্সট্র্যাক্ট করা যায় তার মধ্যে একটি বিশাল লাফ নিশ্চিত করেছে; আমরা আর শুধুমাত্র পাঠ্য নিষ্কাশন থেকে সীমাবদ্ধ নই, এছাড়াও অন্যান্য ডেটা স্ট্রাকচার যেমন টেবিল এবং কী-মান জোড়া। অনেক সলিউশন এখন ডকুমেন্ট ডেটা এক্সট্রাকশনে ব্যক্তি এবং ব্যবসার মালিকদের চাহিদা পূরণের জন্য বিভিন্ন পণ্য অফার করে।

এই নিবন্ধটি স্ক্যান করা নথিগুলি থেকে ডেটা নিষ্কাশনের জন্য ব্যবহৃত বর্তমান প্রযুক্তিতে ডুব দেয়, তারপরে পাইথনে একটি ছোট হ্যান্ডস-অন টিউটোরিয়াল। আমরা বর্তমানে বাজারে এই ক্ষেত্রে সেরা অফার প্রদান করে এমন কিছু জনপ্রিয় সমাধানও দেখব।

ডেটা এক্সট্রাকশন কী?

ডেটা নিষ্কাশন হল মানুষের দ্বারা আরও ডেটা প্রক্রিয়াকরণের অনুমতি দেওয়ার জন্য প্রোগ্রামগুলির দ্বারা অসংগঠিত ডেটাকে ব্যাখ্যাযোগ্য তথ্যে রূপান্তর করার প্রক্রিয়া। এখানে আমরা স্ক্যান করা নথিগুলি থেকে বের করা সবচেয়ে সাধারণ ধরণের ডেটার কয়েকটি তালিকা করি৷

টেক্সট ডেটা

স্ক্যান করা নথি থেকে ডেটা নিষ্কাশনের সবচেয়ে সাধারণ এবং সবচেয়ে গুরুত্বপূর্ণ কাজটি পাঠ্য বের করা। এই প্রক্রিয়া, যদিও আপাতদৃষ্টিতে সহজবোধ্য, বাস্তবে খুব কঠিন কারণ স্ক্যান করা নথিগুলি প্রায়শই চিত্রের বিন্যাসে উপস্থাপন করা হয়। উপরন্তু, নিষ্কাশন পদ্ধতি পাঠ্য ধরনের উপর অত্যন্ত নির্ভরশীল. যদিও পাঠ্য বেশিরভাগ সময় ঘন মুদ্রিত বিন্যাসে উপস্থিত থাকে, কম ভালভাবে স্ক্যান করা নথি থেকে বা তীব্রভাবে পরিবর্তিত শৈলী সহ হস্তলিখিত অক্ষর থেকে স্পার্স টেক্সট বের করার ক্ষমতা সমানভাবে গুরুত্বপূর্ণ। এই ধরনের একটি প্রক্রিয়া প্রোগ্রামগুলিকে ছবিগুলিকে মেশিন-এনকোডেড টেক্সটে রূপান্তর করার অনুমতি দেবে, যেখানে আমরা আরও বিশ্লেষণের জন্য অসংগঠিত ডেটা (নির্দিষ্ট বিন্যাস ছাড়াই) থেকে তাদের সংগঠিত করতে পারি।

💡

গভীর শিক্ষার অ্যালগরিদমগুলি বুঝতে চান যা এই ধরনের প্রক্রিয়াগুলিকে শক্তি দেয়? আমাদের যাও লেআউটএলএম ব্যাখ্যা করা ব্লগ

টেবিল

ট্যাবুলার ফর্মগুলি ডেটা স্টোরেজের জন্য সবচেয়ে জনপ্রিয় পদ্ধতি, কারণ বিন্যাসটি মানুষের চোখ দিয়ে সহজেই ব্যাখ্যা করা যায়। স্ক্যান করা নথিগুলি থেকে টেবিল বের করার প্রক্রিয়ার জন্য অক্ষর সনাক্তকরণের বাইরে প্রযুক্তির প্রয়োজন - একটি সঠিক টেবিল নিষ্কাশন সম্পাদন করতে এবং আরও গণনার জন্য সেই তথ্যগুলিকে কাঠামোগত ডেটাতে রূপান্তর করার জন্য আপনাকে অবশ্যই লাইন এবং অন্যান্য চাক্ষুষ বৈশিষ্ট্যগুলি সনাক্ত করতে হবে। কম্পিউটার দৃষ্টি পদ্ধতি (নিম্নলিখিত বিভাগে বিস্তারিতভাবে বর্ণিত) উচ্চ নির্ভুলতা টেবিল নিষ্কাশন অর্জনের জন্য ব্যাপকভাবে ব্যবহৃত হয়।

কী-মান জোড়া

একটি বিকল্প বিন্যাস যা আমরা প্রায়শই ডেটা স্টোরেজের জন্য নথিতে গ্রহণ করি তা হল কী-মান জোড়া (KVPs)।

কেভিপিগুলি মূলত দুটি ডেটা আইটেম - একটি কী এবং একটি মান - একটি হিসাবে একসাথে সংযুক্ত। পুনরুদ্ধার করার মানটির জন্য কীটি একটি অনন্য শনাক্তকারী হিসাবে ব্যবহৃত হয়। একটি ক্লাসিক KVP উদাহরণ হল অভিধান, যেখানে শব্দভাণ্ডারগুলি হল কী এবং সংশ্লিষ্ট সংজ্ঞাগুলি হল মান৷ এই জোড়াগুলি, যদিও সাধারণত অলক্ষিত হয়, আসলে নথিতে খুব ঘন ঘন ব্যবহার করা হচ্ছে: চালানের নাম, বয়স এবং আইটেমের দামের মতো সমীক্ষায় প্রশ্নগুলি সবই নিহিতভাবে KVP।

যাইহোক, টেবিলের বিপরীতে, KVPগুলি প্রায়শই অজানা ফর্ম্যাটে বিদ্যমান এবং কখনও কখনও আংশিকভাবে হাতে লেখাও হয়। উদাহরণস্বরূপ, কীগুলি বাক্সে প্রি-প্রিন্ট করা যেতে পারে এবং ফর্মটি পূরণ করার সময় মানগুলি হাতে লেখা হয়। অতএব, KVP নিষ্কাশন স্বয়ংক্রিয়ভাবে সম্পাদন করার জন্য অন্তর্নিহিত কাঠামোগুলি খুঁজে পাওয়া একটি চলমান গবেষণা প্রক্রিয়া এমনকি সবচেয়ে উন্নত সুবিধা এবং ল্যাবগুলির জন্যও।

পরিসংখ্যান

অবশেষে, এটি নিষ্কাশন করাও খুব গুরুত্বপূর্ণ বা তথ্য ক্যাপচার একটি স্ক্যান করা নথির মধ্যে পরিসংখ্যান থেকে। পাই চার্ট এবং বার চার্টের মতো পরিসংখ্যানগত সূচকগুলি প্রায়ই নথিগুলির জন্য গুরুত্বপূর্ণ তথ্য অন্তর্ভুক্ত করে। একটি ভাল ডেটা নিষ্কাশন প্রক্রিয়া আরও ব্যবহারের জন্য পরিসংখ্যান থেকে আংশিকভাবে ডেটা বের করতে কিংবদন্তি এবং সংখ্যা থেকে অনুমান করতে সক্ষম হওয়া উচিত।

স্ক্যান করা নথি থেকে ডেটা বের করতে চাইছেন? ন্যানোনেট দিন™ উচ্চতর নির্ভুলতা, বৃহত্তর নমনীয়তা, পোস্ট প্রসেসিং এবং একীকরণের বিস্তৃত সেটগুলির জন্য একটি স্পিন!

তথ্য নিষ্কাশন পিছনে প্রযুক্তি

ডেটা নিষ্কাশন দুটি প্রধান প্রক্রিয়ার চারপাশে ঘোরে: অপটিক্যাল ক্যারেক্টার রিকগনিশন (ওসিআর) এর পরে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP).

OCR নিষ্কাশন হল টেক্সট ইমেজকে মেশিনে এনকোডেড টেক্সটে রূপান্তর করার প্রক্রিয়া, যখন শেষেরটি হল অর্থ অনুমান করার জন্য শব্দের বিশ্লেষণ। প্রায়শই ওসিআরের সাথে অন্যান্য কম্পিউটার ভিশন কৌশল যেমন বক্স এবং লাইন সনাক্তকরণ আরও ব্যাপক নিষ্কাশনের জন্য উপরে উল্লিখিত ডেটা প্রকারগুলি যেমন টেবিল এবং কেভিপিগুলি বের করতে পারে।

ডেটা-এক্সট্রাকশন পাইপলাইনের পিছনে মূল উন্নতিগুলি গভীর শিক্ষার অগ্রগতির সাথে শক্তভাবে সংযুক্ত যা কম্পিউটার দৃষ্টি এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণের (এনএলপি) ক্ষেত্রে ব্যাপকভাবে অবদান রাখে।

গভীর শিক্ষা কি?

গভীর শিক্ষা, কৃত্রিম বুদ্ধিমত্তা যুগের প্রচারের পিছনে একটি প্রধান ভূমিকা রয়েছে, এবং অসংখ্য অ্যাপ্লিকেশনগুলিতে ক্রমাগত অগ্রণী হয়ে উঠেছে। ঐতিহ্যগত প্রকৌশলে, আমাদের লক্ষ্য হল একটি সিস্টেম/ফাংশন ডিজাইন করা যা একটি প্রদত্ত ইনপুট থেকে একটি আউটপুট তৈরি করে; গভীর শিক্ষা, অন্যদিকে, মধ্যবর্তী সম্পর্ক খুঁজে পেতে ইনপুট এবং আউটপুটগুলির উপর নির্ভর করে যা তথাকথিত মাধ্যমে নতুন অদেখা ডেটাতে প্রসারিত করা যেতে পারে স্নায়বিক নেটওয়ার্ক.

একটি নিউরাল নেটওয়ার্ক, বা একটি মাল্টি-লেয়ার পারসেপ্ট্রন (এমএলপি), একটি মেশিন লার্নিং আর্কিটেকচার যা মানুষের মস্তিষ্ক কীভাবে শেখে তা দ্বারা অনুপ্রাণিত হয়। নেটওয়ার্কে নিউরন রয়েছে, যা জৈবিক নিউরনের অনুকরণ করে এবং বিভিন্ন তথ্য দেওয়া হলে "সক্রিয়" করে। নিউরনের সেটগুলি স্তর তৈরি করে, এবং একাধিক স্তরগুলিকে একত্রে স্ট্যাক করা হয় যাতে একাধিক ফর্মের পূর্বাভাসের উদ্দেশ্যে (যেমন, চিত্রের শ্রেণীবিভাগ বা অবজেক্ট সনাক্তকরণের জন্য বাউন্ডিং বাক্স) একটি নেটওয়ার্ক তৈরি করা হয়।

কম্পিউটার ভিশনের ক্ষেত্রে, এক ধরনের নিউরাল নেটওয়ার্ক বৈচিত্র ব্যাপকভাবে প্রয়োগ করা হয় - কনভোলিউশনাল নিউরাল নেটওয়ার্ক (সিএনএন). প্রথাগত স্তরগুলির পরিবর্তে, একটি CNN কনভোলিউশনাল কার্নেল গ্রহণ করে যা বৈশিষ্ট্য নিষ্কাশনের জন্য টেনসর (বা উচ্চ-মাত্রিক ভেক্টর) এর মধ্য দিয়ে স্লাইড করে। শেষ পর্যন্ত ঐতিহ্যগত নেটওয়ার্ক স্তরগুলির সাথে, CNNগুলি চিত্র-সম্পর্কিত কাজগুলিতে খুব সফল, এবং আরও OCR নিষ্কাশন এবং অন্যান্য বৈশিষ্ট্য সনাক্তকরণের ভিত্তি তৈরি করেছে।

অন্যদিকে, এনএলপি নেটওয়ার্কের আরেকটি সেটের উপর নির্ভরশীল, যা সময়-সিরিজ ডেটার উপর ফোকাস করে। চিত্রগুলির বিপরীতে, যেখানে একটি চিত্র একে অপরের থেকে স্বাধীন, পাঠ্য ভবিষ্যদ্বাণীটি অনেকাংশে উপকৃত হতে পারে যদি আগে বা পরে শব্দগুলিকেও বিবেচনায় নেওয়া হয়। গত কয়েক বছরে, নেটওয়ার্কের একটি পরিবার, যথা দীর্ঘ স্বল্পমেয়াদী স্মৃতি (LSTMs), যা বর্তমান ফলাফলের পূর্বাভাস দেওয়ার জন্য পূর্ববর্তী ফলাফলগুলিকে ইনপুট হিসাবে নেয়৷ দ্বিপাক্ষিক LSTMগুলিও প্রায়শই ভবিষ্যদ্বাণীর আউটপুট বাড়ানোর জন্য গৃহীত হয়েছিল, যেখানে আগে এবং পরে উভয় ফলাফল বিবেচনা করা হয়েছিল। তবে সাম্প্রতিক বছরগুলিতে, ট্রান্সফরমারগুলির একটি ধারণা যা মনোযোগের প্রক্রিয়া ব্যবহার করে তার উচ্চ নমনীয়তার কারণে বাড়তে শুরু করেছে যা ক্রমিক সময়-সিরিজ পরিচালনাকারী ঐতিহ্যবাহী নেটওয়ার্কগুলির তুলনায় ভাল ফলাফলের দিকে পরিচালিত করে।

তথ্য নিষ্কাশন অ্যাপ্লিকেশন

ডেটা নিষ্কাশনের মূল লক্ষ্য হল অসংগঠিত নথি থেকে স্ট্রাকচার্ড ফর্ম্যাটে ডেটা রূপান্তর করা, যেখানে পাঠ্য, পরিসংখ্যান এবং ডেটা স্ট্রাকচারগুলির একটি অত্যন্ত নির্ভুল পুনরুদ্ধার সংখ্যাগত এবং প্রাসঙ্গিক বিশ্লেষণের জন্য খুব সহায়ক হতে পারে। এই বিশ্লেষণগুলি বিশেষ করে ব্যবসার জন্য খুব সহায়ক হতে পারে:

ব্যবসায়

ব্যবসায়িক কর্পোরেশন এবং বড় সংস্থাগুলি দৈনিক ভিত্তিতে অনুরূপ বিন্যাস সহ হাজার হাজার কাগজপত্রের সাথে লেনদেন করে — বড় ব্যাঙ্কগুলি অসংখ্য অভিন্ন অ্যাপ্লিকেশন পায়, এবং গবেষণা দলগুলিকে পরিসংখ্যানগত বিশ্লেষণ পরিচালনা করতে ফর্মের স্তূপ বিশ্লেষণ করতে হয়। অতএব, নথিগুলি থেকে ডেটা আহরণের প্রাথমিক ধাপের স্বয়ংক্রিয়তা উল্লেখযোগ্যভাবে মানব সম্পদের অপ্রয়োজনীয়তা হ্রাস করে এবং কর্মীদের তথ্য বিশ্লেষণের পরিবর্তে তথ্য বিশ্লেষণ এবং অ্যাপ্লিকেশন পর্যালোচনা করার উপর ফোকাস করার অনুমতি দেয়।

আবেদনপত্র যাচাই করা হচ্ছে — কোম্পানিগুলি হাতে লেখা বা শুধুমাত্র আবেদনপত্রের মাধ্যমে প্রচুর আবেদন গ্রহণ করে৷ বেশিরভাগ সময়ে, যাচাইকরণের উদ্দেশ্যে এই অ্যাপ্লিকেশনগুলির সাথে ব্যক্তিগত আইডি থাকতে পারে। আইডিগুলির স্ক্যান করা নথি যেমন পাসপোর্ট বা কার্ডগুলি সাধারণত একই বিন্যাসের সাথে ব্যাচে আসে। অতএব, একটি সুলিখিত ডেটা এক্সট্র্যাক্টর দ্রুত ডেটা (টেক্সট, টেবিল, ফিগার, কেভিপি) কে মেশিনে বোধগম্য টেক্সটে রূপান্তর করতে পারে, যা এই কাজগুলির কাজের সময়কে যথেষ্ট পরিমাণে কমিয়ে দিতে পারে এবং নিষ্কাশনের পরিবর্তে অ্যাপ্লিকেশন নির্বাচনের উপর ফোকাস করতে পারে।
পেমেন্ট পুনর্মিলন — অর্থপ্রদান পুনর্মিলন হল অ্যাকাউন্টগুলির মধ্যে সংখ্যার মিল নিশ্চিত করার জন্য ব্যাঙ্ক স্টেটমেন্টের তুলনা করার প্রক্রিয়া, যা নথি থেকে ডেটা নিষ্কাশনের চারপাশে প্রবলভাবে ঘোরে — যথেষ্ট আকার এবং আয়ের বিভিন্ন উত্স সহ একটি কোম্পানির জন্য একটি চ্যালেঞ্জিং সমস্যা। ডেটা নিষ্কাশন এই প্রক্রিয়াটিকে সহজ করতে পারে এবং কর্মচারীদের ত্রুটিপূর্ণ ডেটাতে ফোকাস করতে এবং নগদ প্রবাহ সম্পর্কে সম্ভাব্য প্রতারণামূলক ঘটনাগুলি অন্বেষণ করতে দেয়।
পরিসংখ্যান সংক্রান্ত বিশ্লেষণ — গ্রাহক বা পরীক্ষায় অংশগ্রহণকারীদের কাছ থেকে প্রতিক্রিয়া কর্পোরেশন এবং সংস্থাগুলি তাদের পণ্য এবং পরিষেবার উন্নতি করতে ব্যবহার করে এবং একটি ব্যাপক প্রতিক্রিয়া মূল্যায়নের জন্য সাধারণত একটি পরিসংখ্যান বিশ্লেষণের প্রয়োজন হয়৷ যাইহোক, সমীক্ষার তথ্য অনেক ফরম্যাটে থাকতে পারে বা বিভিন্ন ফরম্যাট সহ পাঠ্যের মধ্যে লুকিয়ে থাকতে পারে। ডেটা নিষ্কাশন ব্যাচগুলিতে নথি থেকে সুস্পষ্ট ডেটা নির্দেশ করে প্রক্রিয়াটিকে সহজ করতে পারে, দরকারী প্রক্রিয়াগুলি খুঁজে পাওয়ার প্রক্রিয়াটিকে সহজ করে এবং শেষ পর্যন্ত দক্ষতা বাড়াতে পারে।
অতীতের রেকর্ড শেয়ার করা — স্বাস্থ্যসেবা থেকে শুরু করে ব্যাঙ্ক পরিষেবা পাল্টানো পর্যন্ত, বড় শিল্পগুলিতে প্রায়ই নতুন গ্রাহক তথ্যের প্রয়োজন হয় যা ইতিমধ্যেই অন্য কোথাও বিদ্যমান থাকতে পারে। উদাহরণ স্বরূপ, একজন রোগীর স্থানান্তরিত হওয়ার কারণে হাসপাতালের পরিবর্তনের পূর্বে বিদ্যমান মেডিকেল রেকর্ড থাকতে পারে যা নতুন হাসপাতালে সহায়ক হতে পারে। এই ধরনের ক্ষেত্রে, একটি ভাল ডেটা নিষ্কাশন সফ্টওয়্যারটি কাজে আসে কারণ সমস্ত তথ্য স্বয়ংক্রিয়ভাবে পূরণ করার জন্য ব্যক্তিকে নতুন হাসপাতালে রেকর্ডের একটি স্ক্যান করা ইতিহাস আনতে হবে। এটি কেবল সুবিধাজনক হবে না, এটি বিশেষত স্বাস্থ্যসেবা শিল্পে গুরুত্বপূর্ণ রোগীর রেকর্ডগুলি উপেক্ষা করা ব্যাপক ঝুঁকিগুলি এড়াতে পারে।

টিউটোরিয়াল

কীভাবে ডেটা নিষ্কাশন করতে হয় তার একটি পরিষ্কার দৃষ্টিভঙ্গি প্রদান করার জন্য, আমরা স্ক্যানিং নথি থেকে ডেটা নিষ্কাশন করার পদ্ধতির দুটি সেট দেখাই।

স্ক্র্যাচ থেকে বিল্ডিং

নিম্নলিখিত হিসাবে PyTesseract ইঞ্জিনের মাধ্যমে OCR ইঞ্জিন নিষ্কাশন করা একটি সাধারণ ডেটা তৈরি করা যেতে পারে:

try: from PIL import Image
except ImportError: import Image
import pytesseract # If you don't have tesseract executable in your PATH, include the following:
pytesseract.pytesseract.tesseract_cmd = r'<full_path_to_your_tesseract_executable>'
# Example tesseract_cmd = r'C:Program Files (x86)Tesseract-OCRtesseract' # Simple image to string
print(pytesseract.image_to_string(Image.open('test.png'))) # List of available languages
print(pytesseract.get_languages(config='')) # French text image to string
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='fra')) # In order to bypass the image conversions of pytesseract, just use relative or absolute image path
# NOTE: In this case you should provide tesseract supported images or tesseract will return error
print(pytesseract.image_to_string('test.png')) # Batch processing with a single file containing the list of multiple image file paths
print(pytesseract.image_to_string('images.txt')) # Timeout/terminate the tesseract job after a period of time
try: print(pytesseract.image_to_string('test.jpg', timeout=2)) # Timeout after 2 seconds print(pytesseract.image_to_string('test.jpg', timeout=0.5)) # Timeout after half a second
except RuntimeError as timeout_error: # Tesseract processing is terminated pass # Get bounding box estimates
print(pytesseract.image_to_boxes(Image.open('test.png'))) # Get verbose data including boxes, confidences, line and page numbers
print(pytesseract.image_to_data(Image.open('test.png'))) # Get information about orientation and script detection
print(pytesseract.image_to_osd(Image.open('test.png'))) # Get a searchable PDF
pdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')
with open('test.pdf', 'w+b') as f: f.write(pdf) # pdf type is bytes by default # Get HOCR output
hocr = pytesseract.image_to_pdf_or_hocr('test.png', extension='hocr') # Get ALTO XML output
xml = pytesseract.image_to_alto_xml('test.png')

কোড সম্পর্কিত আরও তথ্যের জন্য, আপনি তাদের অফিসিয়াল চেকআউট করতে পারেন ডকুমেন্টেশন।

সহজ কথায়, কোডটি প্রদত্ত চিত্র থেকে পাঠ্য এবং বাউন্ডিং বাক্সের মতো ডেটা বের করে। মোটামুটি উপযোগী হলেও, প্রশিক্ষণের জন্য যথেষ্ট কম্পিউটেশনাল শক্তির কারণে ইঞ্জিনটি উন্নত সমাধান দ্বারা প্রদত্ত ইঞ্জিনের মতো শক্তিশালী নয়।

Google ডকুমেন্ট API ব্যবহার করে

 def async_detect_document(gcs_source_uri, gcs_destination_uri):
"""OCR with PDF/TIFF as source files on GCS""" import json import re from google.cloud import vision from google.cloud import storage # Supported mime_types are: 'application/pdf' and 'image/tiff' mime_type = 'application/pdf' # How many pages should be grouped into each json output file. batch_size = 2 client = vision.ImageAnnotatorClient() feature = vision.Feature( type_=vision.Feature.Type.DOCUMENT_TEXT_DETECTION) gcs_source = vision.GcsSource(uri=gcs_source_uri) input_config = vision.InputConfig( gcs_source=gcs_source, mime_type=mime_type) gcs_destination = vision.GcsDestination(uri=gcs_destination_uri) output_config = vision.OutputConfig( gcs_destination=gcs_destination, batch_size=batch_size) async_request = vision.AsyncAnnotateFileRequest( features=[feature], input_config=input_config, output_config=output_config) operation = client.async_batch_annotate_files( requests=[async_request]) print('Waiting for the operation to finish.') operation.result(timeout=420) # Once the request has completed and the output has been # written to GCS, we can list all the output files. storage_client = storage.Client() match = re.match(r'gs://([^/]+)/(.+)', gcs_destination_uri) bucket_name = match.group(1) prefix = match.group(2) bucket = storage_client.get_bucket(bucket_name) # List objects with the given prefix. blob_list = list(bucket.list_blobs(prefix=prefix)) print('Output files:') for blob in blob_list: print(blob.name) # Process the first output file from GCS. # Since we specified batch_size=2, the first response contains # the first two pages of the input file. output = blob_list[0] json_string = output.download_as_string() response = json.loads(json_string) # The actual response for the first page of the input file. first_page_response = response['responses'][0] annotation = first_page_response['fullTextAnnotation'] # Here we print the full text from the first page. # The response contains more information: # annotation/pages/blocks/paragraphs/words/symbols # including confidence scores and bounding boxes print('Full text:n') print(annotation['text'])

শেষ পর্যন্ত, Google-এর নথি AI আপনাকে উচ্চ নির্ভুলতার সাথে নথি থেকে অসংখ্য তথ্য বের করতে দেয়। এছাড়াও, পরিষেবাটি নির্দিষ্ট ব্যবহারের জন্যও অফার করা হয়, যার মধ্যে সাধারণ এবং বন্য চিত্র উভয়ের জন্য পাঠ্য নিষ্কাশন সহ।

পড়ুন দয়া করে এখানে আরো বেশী.

বর্তমান সমাধান তথ্য নিষ্কাশন প্রস্তাব

নথি ডেটা নিষ্কাশনের জন্য API সহ বড় কর্পোরেশনগুলি ছাড়াও, বেশ কিছু সমাধান রয়েছে যা অত্যন্ত নির্ভুল প্রদান করে পিডিএফ ওসিআর সেবা. আমরা পিডিএফ ওসিআর-এর বেশ কয়েকটি বিকল্প উপস্থাপন করি যা বিভিন্ন দিকগুলিতে বিশেষায়িত, সেইসাথে কিছু সাম্প্রতিক গবেষণার প্রোটোটাইপ যা আশাব্যঞ্জক ফলাফল প্রদান করে বলে মনে হয়*:

*পার্শ্ব দ্রষ্টব্য: একাধিক ওসিআর পরিষেবা রয়েছে যা ইমেজ-ইন-দ্য ওয়াইল্ডের মতো কাজের দিকে লক্ষ্য করা হয়। আমরা সেই পরিষেবাগুলি বাদ দিয়েছি কারণ আমরা বর্তমানে শুধুমাত্র PDF নথি পড়ার উপর ফোকাস করছি৷

গুগল এপিআই — অন্যতম বৃহত্তম অনলাইন পরিষেবা প্রদানকারী হিসাবে, Google তাদের অগ্রগামী কম্পিউটার ভিশন প্রযুক্তির সাহায্যে নথি উত্তোলনে অত্যাশ্চর্য ফলাফল অফার করে৷ যদি ব্যবহার খুব কম হয় তবে কেউ তাদের পরিষেবাগুলি বিনামূল্যে ব্যবহার করতে পারে, তবে API কল বৃদ্ধির সাথে সাথে দাম বেড়ে যায়।
গভীর পাঠক — ডিপ রিডার হল ACCV কনফারেন্স 2019-এ প্রকাশিত একটি গবেষণামূলক কাজ। এতে একাধিক অত্যাধুনিক নেটওয়ার্ক আর্কিটেকচার অন্তর্ভুক্ত করা হয়েছে যেমন কাজগুলি সম্পাদন করার জন্য নথির মিল, টেক্সট পুনরুদ্ধার, এবং denoising ইমেজ. টেবিল এবং কী-মান-জোড়া নিষ্কাশনের মতো অতিরিক্ত বৈশিষ্ট্য রয়েছে যা একটি সংগঠিত পদ্ধতিতে ডেটা পুনরুদ্ধার এবং সংরক্ষণ করার অনুমতি দেয়।
ন্যানোনেটস ™ — একটি অত্যন্ত দক্ষ ডিপ লার্নিং টিমের সাথে, Nanonets™ PDF OCR সম্পূর্ণরূপে টেমপ্লেট এবং নিয়ম স্বাধীন। অতএব, Nanonets™ শুধুমাত্র নির্দিষ্ট ধরনের PDF-এ কাজ করতে পারে না, এটি টেক্সট পুনরুদ্ধারের জন্য যেকোনো নথির ধরনেও প্রয়োগ করা যেতে পারে।

উপসংহার

উপসংহারে, এই নিবন্ধটি স্ক্যান করা নথিগুলি থেকে ডেটা নিষ্কাশনের প্রতি একটি পুঙ্খানুপুঙ্খ ব্যাখ্যা উপস্থাপন করে, এর পিছনের চ্যালেঞ্জগুলি এবং এই প্রক্রিয়াটির জন্য প্রয়োজনীয় প্রযুক্তি সহ।

বিভিন্ন পদ্ধতির দুটি টিউটোরিয়াল উপস্থাপন করা হয়েছে, এবং বর্তমান সমাধানগুলি যা এটিকে বাক্সের বাইরে অফার করে তাও রেফারেন্সের জন্য উপস্থাপন করা হয়েছে।

সময় স্ট্যাম্প: 17 পারে, 2022

থেকে আরো এআই এবং মেশিন লার্নিং

ব্যবসায়িক প্রক্রিয়া অটোমেশন কি? | বিপিএ গাইড

উত্স ক্লাস্টার:

এআই এবং মেশিন লার্নিং

উত্স নোড: 1863964

সময় স্ট্যাম্প: জুলাই 21, 2023

ইন্টিগ্রেশন সহ সুপারচার্জ সেজ ইনট্যাক্ট

এআই এবং মেশিন লার্নিং

উত্স নোড: 1901058

সময় স্ট্যাম্প: অক্টোবর 11, 2023

স্ক্যান করা নথি থেকে ডেটা বের করা হচ্ছে

প্লেটো দ্বারা প্রকাশিত

ভূমিকা

ডেটা এক্সট্রাকশন কী?

টেক্সট ডেটা

টেবিল

কী-মান জোড়া

পরিসংখ্যান

তথ্য নিষ্কাশন পিছনে প্রযুক্তি

গভীর শিক্ষা কি?

তথ্য নিষ্কাশন অ্যাপ্লিকেশন

ব্যবসায়

টিউটোরিয়াল

স্ক্র্যাচ থেকে বিল্ডিং

Google ডকুমেন্ট API ব্যবহার করে

বর্তমান সমাধান তথ্য নিষ্কাশন প্রস্তাব

উপসংহার

থেকে আরো এআই এবং মেশিন লার্নিং

ইন্টিগ্রেশন সহ সুপারচার্জ সেজ ইনট্যাক্ট

সহজ রসিদ ব্যবস্থাপনার জন্য শীর্ষ 10টি রসিদ স্ক্যানার অ্যাপ

কিভাবে এক্সেলে টেক্সট ফাইল কনভার্ট করবেন

ইন্স্যুরেন্স অটোমেশন: সুবিধা, ব্যবহারের ক্ষেত্রে এবং আরও অনেক কিছু

ব্যাংক রেমিট্যান্স: এটি কীভাবে কাজ করে এবং কী বিবেচনা করবেন?

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব