পিডিএফ ডকুমেন্ট অ্যামাজন টেক্সট্র্যাক্টের সাথে প্রি-প্রসেসিং: ভিজ্যুয়াল ডিটেকশন এবং অপসারণ প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

পিডিএফ ডকুমেন্ট অ্যামাজন টেক্সট্র্যাক্টের সাথে প্রি-প্রসেসিং: ভিজ্যুয়াল সনাক্তকরণ এবং অপসারণ

অ্যামাজন টেক্সট্র্যাক একটি সম্পূর্ণরূপে পরিচালিত মেশিন লার্নিং (ML) পরিষেবা যা স্বয়ংক্রিয়ভাবে স্ক্যান করা নথিগুলি থেকে মুদ্রিত পাঠ্য, হাতের লেখা এবং অন্যান্য ডেটা বের করে যা ফর্ম এবং টেবিল থেকে ডেটা সনাক্ত করতে, বুঝতে এবং বের করতে সহজ অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) এর বাইরে যায়৷ অ্যামাজন টেক্সট্র্যাক্ট আর্থিক প্রতিবেদন, মেডিকেল রেকর্ড এবং ট্যাক্স ফর্ম সহ বিভিন্ন নথিতে পাঠ্য সনাক্ত করতে পারে।

পিডিএফ ডকুমেন্ট অ্যামাজন টেক্সট্র্যাক্টের সাথে প্রি-প্রসেসিং: ভিজ্যুয়াল ডিটেকশন এবং অপসারণ প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

অনেক ব্যবহারের ক্ষেত্রে, আপনাকে লোগো, ফটো এবং চার্টের মতো বিভিন্ন ভিজ্যুয়াল সহ নথিগুলি বের করতে এবং বিশ্লেষণ করতে হবে। এই ভিজ্যুয়ালগুলিতে এমবেডেড টেক্সট রয়েছে যা অ্যামাজন টেক্সট্র্যাক্ট আউটপুটকে বিভ্রান্ত করে বা আপনার ডাউনস্ট্রিম প্রক্রিয়ার জন্য প্রয়োজন হয় না। উদাহরণস্বরূপ, অনেক রিয়েল এস্টেট মূল্যায়ন ফর্ম বা নথিতে বাড়িগুলির ছবি বা ঐতিহাসিক মূল্যের প্রবণতা রয়েছে। ডাউনস্ট্রিম প্রসেসে এই তথ্যের প্রয়োজন নেই, এবং ডকুমেন্ট বিশ্লেষণ করতে অ্যামাজন টেক্সট্র্যাক্ট ব্যবহার করার আগে আপনাকে এটি সরিয়ে ফেলতে হবে। এই পোস্টে, আমরা আপনার প্রিপ্রসেসিংয়ের অংশ হিসাবে এই ভিজ্যুয়ালগুলি সরানোর জন্য দুটি কার্যকর পদ্ধতির চিত্র তুলে ধরছি।

সমাধান ওভারভিউ

এই পোস্টের জন্য, আমরা একটি পিডিএফ ব্যবহার করি যাতে একটি লোগো এবং একটি উদাহরণ হিসাবে একটি চার্ট রয়েছে। আমরা এই ভিজ্যুয়ালগুলিকে রূপান্তর করতে এবং সনাক্ত করতে দুটি ভিন্ন ধরণের প্রক্রিয়া ব্যবহার করি, তারপরে সেগুলিকে সংশোধন করি।

প্রথম পদ্ধতিতে, আমরা ভিজ্যুয়ালের প্রান্ত সনাক্ত করতে OpenCV লাইব্রেরি ক্যানি এজ ডিটেক্টর ব্যবহার করি। দ্বিতীয় পদ্ধতির জন্য, আমরা এই ভিজ্যুয়ালগুলির অবস্থান সনাক্ত করতে একটি কাস্টম পিক্সেল ঘনত্ব বিশ্লেষক লিখি।

আপনি আরও প্রক্রিয়াকরণের জন্য এই ভিজ্যুয়ালগুলি বের করতে পারেন এবং আপনার ব্যবহারের ক্ষেত্রে উপযুক্ত করার জন্য কোডটি সহজেই পরিবর্তন করতে পারেন।

পিডিএফ ডকুমেন্ট অ্যামাজন টেক্সট্র্যাক্টের সাথে প্রি-প্রসেসিং: ভিজ্যুয়াল ডিটেকশন এবং অপসারণ প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

অনুসন্ধানযোগ্য পিডিএফগুলি হল নেটিভ পিডিএফ ফাইলগুলি সাধারণত অন্যান্য অ্যাপ্লিকেশন, যেমন টেক্সট প্রসেসর, ভার্চুয়াল পিডিএফ প্রিন্টার এবং নেটিভ এডিটর দ্বারা তৈরি করা হয়। এই ধরনের PDF নথির ভিতরে মেটাডেটা, টেক্সট এবং ইমেজ তথ্য ধরে রাখে। আপনি সহজেই লাইব্রেরি ব্যবহার করতে পারেন PyMuPDF/fitz PDF স্ট্রাকচার নেভিগেট করতে এবং ইমেজ এবং টেক্সট সনাক্ত করতে। এই পোস্টে, আমরা অ-অনুসন্ধানযোগ্য বা চিত্র-ভিত্তিক নথিগুলিতে ফোকাস করি।

বিকল্প 1: OpenCV এজ ডিটেক্টর দিয়ে ভিজ্যুয়াল সনাক্ত করা

এই পদ্ধতিতে, আমরা পিডিএফকে পিএনজি ফরম্যাটে রূপান্তর করি, তারপর ডকুমেন্টটিকে গ্রেস্কেল করে দেই OpenCV-পাইথন লাইব্রেরি এবং চাক্ষুষ অবস্থান সনাক্ত করতে Canny এজ ডিটেক্টর ব্যবহার করুন। আপনি নিম্নলিখিত বিশদ পদক্ষেপগুলি অনুসরণ করতে পারেন নোটবই.

পিডিএফ ডকুমেন্ট অ্যামাজন টেক্সট্র্যাক্টের সাথে প্রি-প্রসেসিং: ভিজ্যুয়াল ডিটেকশন এবং অপসারণ প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

  1. নথিটিকে গ্রেস্কেলে রূপান্তর করুন।

পিডিএফ ডকুমেন্ট অ্যামাজন টেক্সট্র্যাক্টের সাথে প্রি-প্রসেসিং: ভিজ্যুয়াল ডিটেকশন এবং অপসারণ প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

  1. Canny-Edged নথিতে কনট্যুর সনাক্ত করতে Canny Edge অ্যালগরিদম প্রয়োগ করুন।
  2. প্রাসঙ্গিক মাত্রা সহ আয়তক্ষেত্রাকার কনট্যুরগুলি সনাক্ত করুন।

পিডিএফ ডকুমেন্ট অ্যামাজন টেক্সট্র্যাক্টের সাথে প্রি-প্রসেসিং: ভিজ্যুয়াল ডিটেকশন এবং অপসারণ প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

আপনার ব্যবহারের ক্ষেত্রে নির্ভর করে সনাক্তকরণের নির্ভুলতা বাড়ানোর জন্য আপনি কয়েকটি পরামিতি আরও টিউন এবং অপ্টিমাইজ করতে পারেন:

  • ন্যূনতম উচ্চতা এবং প্রস্থ - এই পরামিতিগুলি চাক্ষুষ সনাক্তকরণের জন্য ন্যূনতম উচ্চতা এবং প্রস্থ থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে৷ এটি পৃষ্ঠার আকারের শতাংশে প্রকাশ করা হয়।
  • প্যাডিং – যখন একটি আয়তক্ষেত্রের কনট্যুর শনাক্ত করা হয়, তখন আমরা পৃষ্ঠার মোট এলাকায় কিছুটা নমনীয়তার জন্য অতিরিক্ত প্যাডিং এলাকা সংজ্ঞায়িত করি। এটি এমন ক্ষেত্রে সহায়ক যেখানে ভিজ্যুয়ালগুলির পাঠ্যগুলি স্পষ্টভাবে সীমাবদ্ধ আয়তক্ষেত্রাকার অঞ্চলগুলির ভিতরে নেই৷

সুবিধাগুলি এবং অসুবিধাগুলি

এই পদ্ধতির নিম্নলিখিত সুবিধা রয়েছে:

  • এটি বেশিরভাগ ব্যবহারের ক্ষেত্রে সন্তুষ্ট করে
  • এটি বাস্তবায়ন করা সহজ, এবং দ্রুত উঠা এবং চালানো
  • এর সর্বোত্তম পরামিতিগুলি ভাল ফলাফল দেয়

যাইহোক, পদ্ধতির নিম্নলিখিত অসুবিধা আছে:

  • বাউন্ডিং বাক্স বা পার্শ্ববর্তী প্রান্ত ছাড়া ভিজ্যুয়ালগুলির জন্য, কর্মক্ষমতা ভিজ্যুয়ালের ধরণের উপর নির্ভর করে পরিবর্তিত হতে পারে
  • পাঠ্যের একটি ব্লক বড় বাউন্ডিং বাক্সের ভিতরে থাকলে, পুরো পাঠ্য ব্লকটিকে একটি ভিজ্যুয়াল হিসাবে বিবেচনা করা যেতে পারে এবং এই যুক্তি ব্যবহার করে সরানো হতে পারে।

বিকল্প 2: পিক্সেল ঘনত্ব বিশ্লেষণ

আমরা ইমেজ পিক্সেল বিশ্লেষণ করে আমাদের দ্বিতীয় পদ্ধতি বাস্তবায়ন করি। সাধারণ পাঠ্য অনুচ্ছেদগুলি এর লাইনগুলিতে একটি ঘনত্ব স্বাক্ষর বজায় রাখে। আমরা পিক্সেল ঘনত্ব পরিমাপ এবং বিশ্লেষণ করতে পারি পিক্সেল ঘনত্বের সাথে এমন এলাকা চিহ্নিত করতে যা নথির বাকি অংশের মতো নয়। আপনি নিম্নলিখিত বিশদ পদক্ষেপগুলি অনুসরণ করতে পারেন নোটবই.

পিডিএফ ডকুমেন্ট অ্যামাজন টেক্সট্র্যাক্টের সাথে প্রি-প্রসেসিং: ভিজ্যুয়াল ডিটেকশন এবং অপসারণ প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

  1. নথিটিকে গ্রেস্কেলে রূপান্তর করুন।
  2. ধূসর এলাকাকে সাদাতে রূপান্তর করুন।
  3. কালো পিক্সেলের ঘনত্ব গণনা করতে অনুভূমিকভাবে পিক্সেলগুলিকে সঙ্কুচিত করুন৷
  4. নথিটিকে অনুভূমিক স্ট্রাইপ বা সেগমেন্টে বিভক্ত করুন যেগুলি সম্পূর্ণ পাঠ্য নয় (সমস্ত পৃষ্ঠা জুড়ে প্রসারিত) চিহ্নিত করতে।

পিডিএফ ডকুমেন্ট অ্যামাজন টেক্সট্র্যাক্টের সাথে প্রি-প্রসেসিং: ভিজ্যুয়াল ডিটেকশন এবং অপসারণ প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

  1. সম্পূর্ণ পাঠ্য নয় এমন সমস্ত অনুভূমিক অংশগুলির জন্য, পাঠ্য বনাম চিত্রগুলির অঞ্চলগুলি চিহ্নিত করুন৷ এটি সর্বনিম্ন এবং সর্বাধিক কালো পিক্সেল ঘনত্ব থ্রেশহোল্ড ব্যবহার করে বিভাগগুলি ফিল্টার করে করা হয়।
  2. অ-পূর্ণ পাঠ্য হিসাবে চিহ্নিত এলাকাগুলি সরান৷

পিডিএফ ডকুমেন্ট অ্যামাজন টেক্সট্র্যাক্টের সাথে প্রি-প্রসেসিং: ভিজ্যুয়াল ডিটেকশন এবং অপসারণ প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

অ-পাঠ্য এলাকা সনাক্তকরণের নির্ভুলতা অপ্টিমাইজ করতে আপনি নিম্নলিখিত পরামিতিগুলি টিউন করতে পারেন:

  • নন-টেক্সট অনুভূমিক সেগমেন্ট থ্রেশহোল্ড - পৃষ্ঠায় অ-পাঠ্য অনুভূমিক অংশগুলি সনাক্ত করতে ব্যবহৃত সর্বনিম্ন এবং সর্বাধিক কালো পিক্সেল ঘনত্বের থ্রেশহোল্ডগুলি সংজ্ঞায়িত করুন৷
  • নন-টেক্সট উল্লম্ব সেগমেন্ট থ্রেশহোল্ড - পৃষ্ঠায় নন-টেক্সট উল্লম্ব অংশগুলি সনাক্ত করতে ব্যবহৃত সর্বনিম্ন এবং সর্বাধিক কালো পিক্সেল ঘনত্বের থ্রেশহোল্ডগুলি সংজ্ঞায়িত করুন৷
  • উইন্ডো আকার – বিশ্লেষণের জন্য পৃষ্ঠাটি কীভাবে অনুভূমিক এবং উল্লম্ব অংশে বিভক্ত হয় তা নিয়ন্ত্রণ করে (X_WINDOW, Y_WINDOW)। এটি পিক্সেল সংখ্যা দ্বারা সংজ্ঞায়িত করা হয়.
  • ন্যূনতম চাক্ষুষ এলাকা - ক্ষুদ্রতম এলাকাকে সংজ্ঞায়িত করে যেটিকে সরানোর জন্য একটি ভিজ্যুয়াল হিসাবে বিবেচনা করা যেতে পারে। এটি পিক্সেলে সংজ্ঞায়িত করা হয়েছে।
  • ধূসর পরিসীমা থ্রেশহোল্ড - ধূসর ছায়াগুলির জন্য থ্রেশহোল্ড সরানো হবে৷

সুবিধাগুলি এবং অসুবিধাগুলি

এই পদ্ধতি অত্যন্ত কাস্টমাইজযোগ্য. যাইহোক, এর নিম্নলিখিত অসুবিধা রয়েছে:

  • সর্বোত্তম পরামিতিগুলি আরও বেশি সময় নেয় এবং সমাধানের গভীর উপলব্ধি অর্জন করে
  • যদি নথিটি পুরোপুরি সংশোধন করা না হয় (একটি কোণ সহ ক্যামেরা দ্বারা তোলা ছবি), এই পদ্ধতিটি ব্যর্থ হতে পারে।

উপসংহার

এই পোস্টে, আমরা দেখিয়েছি কিভাবে আপনি বিভিন্ন নথি থেকে ভিজ্যুয়াল রিডাক্ট করার দুটি পন্থা বাস্তবায়ন করতে পারেন। উভয় পন্থা বাস্তবায়ন করা সহজ। আপনি উচ্চ-মানের ফলাফল পেতে পারেন এবং আপনার ব্যবহারের ক্ষেত্রে অনুযায়ী যে কোনও পদ্ধতি কাস্টমাইজ করতে পারেন।

অ্যামাজন টেক্সট্র্যাক্টের বিভিন্ন কৌশল সম্পর্কে আরও জানতে, জনসাধারণের কাছে যান AWS নমুনা GitHub রেপো.


লেখক সম্পর্কে

 পিডিএফ ডকুমেন্ট অ্যামাজন টেক্সট্র্যাক্টের সাথে প্রি-প্রসেসিং: ভিজ্যুয়াল ডিটেকশন এবং অপসারণ প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.ইউয়ান জিয়াং মেশিন লার্নিং-এ ফোকাস সহ একজন সিনিয়র সলিউশন আর্কিটেক্ট। তিনি আমাজন কম্পিউটার ভিশন হিরো প্রোগ্রাম এবং অ্যামাজন মেশিন লার্নিং টেকনিক্যাল ফিল্ড কমিউনিটির সদস্য।

পিডিএফ ডকুমেন্ট অ্যামাজন টেক্সট্র্যাক্টের সাথে প্রি-প্রসেসিং: ভিজ্যুয়াল ডিটেকশন এবং অপসারণ প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.ভিক্টর রেড কথোপকথনমূলক এআই ফোকাস সহ একজন সিনিয়র পার্টনার সলিউশন আর্কিটেক্ট। তিনি অ্যামাজন কম্পিউটার ভিশন হিরো প্রোগ্রামের একজন সদস্যও।

পিডিএফ ডকুমেন্ট অ্যামাজন টেক্সট্র্যাক্টের সাথে প্রি-প্রসেসিং: ভিজ্যুয়াল ডিটেকশন এবং অপসারণ প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.লুইস পিনেদা একজন সিনিয়র পার্টনার ম্যানেজমেন্ট সলিউশন আর্কিটেক্ট। তিনি অ্যামাজন কম্পিউটার ভিশন হিরো প্রোগ্রামের একজন সদস্যও।

পিডিএফ ডকুমেন্ট অ্যামাজন টেক্সট্র্যাক্টের সাথে প্রি-প্রসেসিং: ভিজ্যুয়াল ডিটেকশন এবং অপসারণ প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.মিগুয়েল রোমেরো ক্যালভো AWS মেশিন লার্নিং সলিউশন ল্যাবের একজন ডেটা সায়েন্টিস্ট।

সূত্র: https://aws.amazon.com/blogs/machine-learning/process-text-and-images-in-pdf-documents-with-amazon-textract/

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং ব্লগ

কিভাবে সুপ্ত স্পেস অ্যামাজন সেজমেকার মডেলের সমান্তরাল লাইব্রেরি ব্যবহার করে বৃহৎ আকারের ট্রান্সফরমারগুলির সীমানাকে ঠেলে দেয়

উত্স নোড: 1204406
সময় স্ট্যাম্প: মার্চ 12, 2021

চাহিদার পূর্বাভাস থেকে অর্ডার করা পর্যন্ত - স্টকআউট, অতিরিক্ত ইনভেন্টরি এবং খরচ কমাতে অ্যামাজন পূর্বাভাসের সাথে একটি স্বয়ংক্রিয় মেশিন লার্নিং পদ্ধতি

উত্স নোড: 1204383
সময় স্ট্যাম্প: মার্চ 12, 2021