কিভাবে অটোমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ক্রয় আদেশ OCR করবেন। উল্লম্ব অনুসন্ধান. আ.

কীভাবে অটোমেশনের জন্য ক্রয় আদেশ ওসিআর করবেন

যে কোনো কোম্পানিতে একটি সাধারণ ক্রয় প্রক্রিয়ার সাথে যুক্ত একাধিক নথি থাকে যেমন ইনভয়েস বা চালান, ক্রয় আদেশ, ডেলিভারি নোট, ইত্যাদি। এই প্রক্রিয়াটি ওভারহেড কমাতে প্রযুক্তি-ভিত্তিক উন্নতিগুলির ধারাবাহিক ফোকাস। এই নথিগুলির ডিজিটাইজেশনের মাধ্যমে একটি প্রধান অপ্টিমাইজেশন হয়েছে যার ফলে কম খরচ, দ্রুত পরিবর্তনের সময় এবং ত্রুটির হার হ্রাস পায়। এই পোস্টটি বিশেষভাবে ক্রয় আদেশগুলিতে ফোকাস করে এই নথিগুলি থেকে OCR-ভিত্তিক ডেটা ক্যাপচারের বর্তমান অত্যাধুনিক প্রযুক্তির রূপরেখা দেবে।

খুব বেশি বিশদে না গিয়ে একটি সাধারণ প্রকিউরমেন্ট ওয়ার্কফ্লো এইরকম দেখায়:

  1. ক্রেতা একটি ক্রয় আদেশ তৈরি করে
  2. বিক্রেতা একটি চালান তৈরি করে
  3. ক্রেতা একটি GRN/অর্ডার তৈরি করে প্রাপ্তি বিঃদ্রঃ

তথ্য ক্যাপচার প্রক্রিয়া এবং এই নথিগুলির প্রতিটির জন্য প্রয়োজনীয়তার মধ্যে কিছু সূক্ষ্ম পার্থক্য রয়েছে কারণ এই নথিগুলির মধ্যে তথ্য এবং কাঠামোর পার্থক্য রয়েছে৷ একটি প্রধান পার্থক্য হল কে নথিটি প্রস্তুত করছে এবং ফলস্বরূপ কার নথিটিকে ডিজিটাইজ করার প্রয়োজন রয়েছে।

কিভাবে অটোমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ক্রয় আদেশ OCR করবেন। উল্লম্ব অনুসন্ধান. আ.

3 ওয়ে ম্যাচিং

ডিজিটাইজেশনের একটি প্রধান কারণ হল এই নথিগুলির সকলকে লেনদেনের একটি সামঞ্জস্যপূর্ণ গল্পকে সমর্থন করতে হবে এবং বলতে হবে। এই 3টি নথির অনুমোদনের প্রক্রিয়াটিকে 3-ওয়ে ম্যাচিং হিসাবে উল্লেখ করা হয়। কে ম্যাচ পরিচালনা করছে, ক্রেতা বা বিক্রেতার উপর নির্ভর করে 3-ওয়ে ম্যাচিংয়ের প্রয়োজনীয়তা এবং প্রক্রিয়া ব্যাপকভাবে আলাদা।

কিভাবে অটোমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ক্রয় আদেশ OCR করবেন। উল্লম্ব অনুসন্ধান. আ.

ক্রেতার দৃষ্টিভঙ্গি:

ক্রেতা PO এবং তৈরি করে প্রাপ্তি এবং এই তথ্য রয়েছে যা তাদের সফ্টওয়্যারে সহজেই মিলিত হতে পারে। মেলাতে হবে চালান ক্রয় আদেশ এবং প্রাপ্তি. ক্রেতাকে ডিজিটাইজ করতে হবে চালান অন্যান্য নথিগুলি ইতিমধ্যে তাদের ইআরপি সিস্টেমের মধ্যে রয়েছে।

ক্রেতার 3-উপায় ম্যাচিং করার জন্য বিভিন্ন কারণ রয়েছে:

  1. নিশ্চিত করা যে ক্রয়টি একটি ম্যাচ করে অনুমোদিত চালান এবং একটি ক্রয় আদেশ সহ GRN
  2. নথি জুড়ে ম্যাচ করে সঠিক পণ্য কেনা হয়েছে তা নিশ্চিত করা
  3. অনুমোদিত সঠিক পরিমাণ নিশ্চিত করা এবং বিতরণ করা হয়েছে।
  4. প্রতিটি পণ্যের জন্য দেওয়া মূল্য নিশ্চিত করা অনুমোদিত ছিল
  5. সঠিক বিক্রেতা নির্বাচন করা হয়েছে তা নিশ্চিত করা এবং সঠিক বিক্রেতাকে অবশেষে অর্থ প্রদান করা হবে কারণ একই পণ্য বিভিন্ন বিক্রেতাদের কাছ থেকে সংগ্রহ করা যেতে পারে
  6. ডাটার ডাউনস্ট্রিম মানের জন্য জিআরএন-এ পরিমাণের সাথে ইনভেন্টরি মেলানো

বিক্রেতার দৃষ্টিভঙ্গি:

বিক্রেতা উৎপন্ন চালান এবং নিশ্চিত করতে হবে পিও এবং প্রাপ্তি ইনভয়েসে থাকা তথ্যের সাথে মেলে। বিক্রেতাকে ক্রয় আদেশ ডিজিটাইজ করতে হবে এবং চালানটি তার ইআরপি থেকে তৈরি করা হয়েছে।

3 ওয়ে ম্যাচিং এর জন্য বিক্রেতার প্রয়োজন

  1. সিস্টেমে ইনভেন্টরি দেওয়া একটি ক্রয় আদেশ পূরণ করা যেতে পারে কিনা তা পরীক্ষা করা হচ্ছে
  2. অনুরোধ করা পণ্যের সাথে মেলে পণ্য পাঠানো নিশ্চিত করা
  3. সঠিক গ্রাহককে অনুরোধ করা পণ্য পাঠানো হয়েছে তা নিশ্চিত করে
  4. অনুরোধ করা পণ্যগুলি গ্রাহকের কাছে পৌঁছে দেওয়া হয় তা নিশ্চিত করা
  5. সঠিক পরিমাণ গ্রাহককে দেওয়া হয়েছে তা নিশ্চিত করা
  6. PO-তে মূল্য নিশ্চিত করার একটি গ্রস মার্জিন রয়েছে যা পূরণ করা যেতে পারে

ক্রয় আদেশ স্বয়ংক্রিয় করার জন্য একটি AI ভিত্তিক OCR সমাধান খুঁজছেন? ন্যানোনেট দিনইন্টেলিজেন্ট অটোমেশন প্ল্যাটফর্ম একটি স্পিন এবং অটোপাইলটে আপনার ক্রয় আদেশ রাখুন!


ম্যানুয়াল 3 ওয়ে ম্যাচিং এর সমস্যা

যেহেতু 3 ওয়ে ম্যাচিং সমস্যা উভয় পক্ষের জন্য তাদের চুক্তির কার্যকারিতা এবং নির্ভুলতা সবচেয়ে গুরুত্বপূর্ণ। যাইহোক, এটি বিভিন্ন দৃষ্টিকোণ থেকে একটি মোটামুটি উচ্চ প্রক্রিয়া খরচ:

ডকুমেন্ট ট্র্যাকিং এবং ত্রুটির মানবিক খরচ

  1. এটি একটি অগোছালো প্রক্রিয়া বিশেষ করে যখন PO একাধিকবার সংশোধন করা হয়। PO এর সঠিক সংস্করণ বজায় রাখা কঠিন হতে পারে। সঠিকভাবে করা না হলে, এটি একাধিক অর্থপ্রদান, অতিরিক্ত আইটেম বিতরণ, ইত্যাদি হতে পারে।
  2. ঘন ঘন সরবরাহকারী, ক্রেতার মধ্যে একাধিক অনুরূপ নথি এবং লেনদেন রয়েছে। এই লেনদেন গ্রাস করা যেতে পারে.
  3. প্রক্রিয়াটি স্কেল করতে পারে না। যখন প্রক্রিয়াকরণের পরিমাণ দ্রুত পরিবর্তন হয় তখন সর্বোত্তম মানব সম্পদ বজায় রাখা কঠিন। বেশীরভাগ কোম্পানীর আয়তনের স্পাইকের জন্য ক্ষতিপূরণের জন্য এই বিভাগগুলির অতিরিক্ত স্টাফ রয়েছে

অর্থপ্রদান বা সংগ্রহ বিলম্ব

  1. নথি থেকে ডেটা ম্যানুয়ালি প্রবেশ করানো হয়। প্রক্রিয়াকৃত নথির পরিমাণ বৃদ্ধি পেলে এই প্রক্রিয়াটি বাধা হয়ে দাঁড়ায়
  2. বিলম্বের ফলে ডেলিভারি/পেমেন্ট/প্রকিউরমেন্টে বিলম্ব হতে পারে। কাঁচামাল সংগ্রহে বিলম্বের কারণে কার্যকরী মূলধনের উচ্চ ব্যয় বা রাজস্ব ক্ষতির দিকে পরিচালিত করে।

ইনভেন্টরি ত্রুটি

  1. যদি ইনভেন্টরি সিস্টেমগুলি এই প্রক্রিয়ার সাথে সঠিকভাবে একত্রিত না হয় তবে ইনভেন্টরির ভুল গণনা করার জন্য উচ্চ খরচ হতে পারে। ওভারস্টকিং, ডুপ্লিকেট অর্ডার, কম মজুদ এবং রাজস্ব ক্ষতির ফলে।

3 ওয়ে ম্যাচিংয়ে ত্রুটি

এই প্রক্রিয়ায় বিভিন্ন ধরণের ত্রুটি রয়েছে। নীচে কয়েকটি উদাহরণ

কিভাবে অটোমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ক্রয় আদেশ OCR করবেন। উল্লম্ব অনুসন্ধান. আ.

বিক্রেতা ম্যাচিং ত্রুটি

বিক্রেতা ম্যাচিং সাধারণত দুটি জিনিসের উপর ভিত্তি করে করা হয়, বিক্রেতার নাম এবং ঠিকানা। যেহেতু একই কোম্পানির বিভিন্ন সহযোগী এবং বিভিন্ন ব্যবসায়িক ইউনিট একই রকম ইস্যু করতে পারে চালান.

যদি ঠিকানা থেকে পারচেজ অর্ডার ও চালান সঠিক ঠিকানা নেই এবং বিক্রেতার নাম শনাক্ত করা নেই সেখানে মেলাতে সমস্যা হতে পারে। এছাড়াও স্পষ্টভাবে দেখা যায় যে কেবল সরাসরি পাঠ্য ম্যাচিং ইনভয়েস এবং পিওর সাথে মেলে কাজ করে না।

ক্রয় আদেশ চালান অবস্থা
Acme Inc. Acme Inc. কাজ করে
Acme Inc. Acme Inc. আফ্রিকা ব্যর্থ
চূড়া Acme LLC. ব্যর্থ
Acme LLC. Acme LLC. আর্টিলারি বিভাগ ব্যর্থ

পণ্য ম্যাচিং ত্রুটি

পণ্যগুলি মেলানো সবচেয়ে কঠিন আইটেম কারণ তারা খুব কমই ক্রয় অর্ডার এবং চালানে একই নাম অনুসরণ করে এবং প্রাপ্তি. এটি সম্ভবত ত্রুটির জন্য সবচেয়ে বড় কারণ।

একই পণ্যের ভিন্ন ভিন্ন সংস্করণ, বিভিন্ন আকার, স্পেসিফিকেশন এবং দামের কারণে ত্রুটির কারণ হতে পারে। পণ্যটির সাম্প্রতিক আপডেট থাকতে পারে, একটি অনুপলব্ধ আইটেমের বিকল্প প্রদান করা হয়েছে ইত্যাদি।

ক্রয় আদেশ চালান অবস্থা
টাইলেনল সাইনাসের চাপ এবং ব্যথা টাইলেনল সাইনাসের চাপ এবং ব্যথা কাজ করে
Tylenol টাইলেনল সাইনাসের চাপ এবং ব্যথা ব্যর্থ
টাইলেনল সাইনাসের চাপ এবং ব্যথা TYLENOL® সাইনাসের চাপ এবং ব্যথা ব্যর্থ
TYLENOL অতিরিক্ত শক্তি TYLENOL অতিরিক্ত শক্তি ব্যথা উপশমকারী এবং জ্বর হ্রাসকারী 500 মিলিগ্রাম ক্যাপলেট ব্যর্থ
TYLENOL অতিরিক্ত শক্তি ব্যথা উপশমকারী এবং জ্বর হ্রাসকারী 500 মিলিগ্রাম ক্যাপলেট TYLENOL অতিরিক্ত শক্তি ব্যথা উপশমকারী এবং জ্বর হ্রাসকারী 250 মিলিগ্রাম ক্যাপলেট ব্যর্থ

পরিমাণের সাথে মিলে যাওয়া ত্রুটি৷

এমনকি যদি পণ্যটি সঠিকভাবে মিলিত হয় তবে একটি নির্দিষ্ট পরিমাণে পণ্যটি অনুপলব্ধ হলে পরিমাণের সাথে মেলাতে ত্রুটি হতে পারে ইত্যাদি। এটি সাধারণত ক্রয় অর্ডার এবং জিআরএন-এর মধ্যেও সত্য কারণ এই দুটি নথির মধ্যে সাধারণত একটি সময় ব্যবধান থাকে।

মূল্য মেলে ত্রুটি

যদি সমগ্র পণ্য ক্রয়ের জীবনচক্রের সময় মূল্যের পরিবর্তন হয় বা যদি পণ্যটি আপডেট করা হয় বা প্রতিস্থাপিত হয় তবে এই ত্রুটি ঘটতে পারে।

ডুপ্লিকেট নথি

যদি একই বিক্রেতার কাছ থেকে একই পণ্যগুলির ঘন ঘন ক্রয় করা হয় তবে একাধিক নথি থাকতে পারে যা দেখতে একই রকম। যদি PO-এর রেফারেন্স নম্বর ইনভয়েসে এবং GRN-এ ইনভয়েস বা PO-এর জন্য উল্লেখ না থাকে, তাহলে নথির অমিলের একটি উল্লেখযোগ্য সুযোগ রয়েছে।


ডিজিটাইজিং ক্রয় আদেশ

ক্রয় আদেশ থেকে সমস্ত প্রাসঙ্গিক ডেটা সংগ্রহ করতে নিম্নলিখিত ক্ষেত্রগুলি বের করতে হবে:

কিভাবে অটোমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ক্রয় আদেশ OCR করবেন। উল্লম্ব অনুসন্ধান. আ.

এক্সট্রাক্ট করা ক্ষেত্রগুলির সাধারণ তালিকা (পারচেজ অর্ডার জুড়ে তাদের বিভিন্ন নাম থাকতে পারে):

বিলিং ঠিকানা অর্থপ্রদান শর্তাদি সাব মোট
ক্রেতার নাম পি ও নম্বর বিষয়
যোগাযোগের নাম পণ্য মোট
মুদ্রা ক্রয় আদেশ তারিখ একক দাম
সরবরাহ করা পরিমাণ বিক্রেতার নাম
নির্দিষ্ট তারিখ রিকুইজিশন নং

বর্তমান সমাধান এবং তাদের সমস্যা

টেমপ্লেট + টেক্সট ম্যাচিং

এর মধ্যে তথ্যের একটি নির্দিষ্ট অংশের সন্ধানের জন্য সঠিক অঞ্চলটি সংজ্ঞায়িত করা জড়িত। তাই আসুন বলি আপনি যদি তারিখটি বের করতে চান এবং নথি জুড়ে বিন্যাসটি ঠিক একই রকম হয় এবং তারিখটি নথিতে ঠিক একই জায়গায় ঘটে। আমরা তারিখের জন্য নথিতে সন্ধান করার জন্য এলাকাটি সংজ্ঞায়িত করি।
প্রক্রিয়াটি এখানে:

  1. নথিটিকে একটি ছবিতে রূপান্তর করুন
  2. আমরা একটি নমুনা নথি দিতে
  3. যে অঞ্চলে তারিখটি পাওয়া যায় সেটি চিহ্নিত করুন (নথিটি একটি সমন্বয় ব্যবস্থা হিসাবে দেখা হয় যেখানে উপরের বাম কোণে (0,0)) আমরা চিহ্নিত করতে পারি (200,300) থেকে (350,450) যা তারিখের আগ্রহের অঞ্চল।
  4. যখন একটি নতুন নথি থাকে আমরা গিয়ে (200,300) থেকে (350,450) পরীক্ষা করি এবং সেখানে পাঠ্য বের করি

ঐতিহাসিকভাবে এই সমস্যাটি সমাধানের জন্য এটি সবচেয়ে সাধারণ পদ্ধতির একটি। এটি বিভিন্ন কারণে হয়:

  1. সফ্টওয়্যার সরলতা এবং বাস্তবায়ন. একজন দক্ষ প্রোগ্রামার একদিনেরও কম সময়ে এই সমাধানটি তৈরি করতে পারে
  2. সমাধানটি কীভাবে কাজ করবে তা কোন অনিশ্চয়তা নেই, যদি নথিটি ঠিক একই বিন্যাসে হয় তবে এটি পুরোপুরি কাজ করবে
  3. ডেটা বের করার জন্য খুব সীমিত গণনা সংস্থান প্রয়োজন

তবে এই পদ্ধতিটি কতটা প্রাথমিক তা দেওয়া কিছু খুব সুস্পষ্ট চ্যালেঞ্জ রয়েছে:

  1. নথিতে সামান্য পার্থক্য থাকলেও এটি কাজ করে না
  2. ক্রেতা তাদের বিন্যাস আপডেট করলে এটি কাজ করে না
  3. প্রতিটি ক্রেতার জন্য একটি নতুন বিন্যাস আছে যা সেটআপ করতে হবে
  4. এটি স্ক্যান করা নথিগুলির জন্য কাজ করে না
কিভাবে অটোমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ক্রয় আদেশ OCR করবেন। উল্লম্ব অনুসন্ধান. আ.

OCR + NLP + টেক্সট ম্যাচিং

OCR + NLP নথি থেকে ডেটা বের করার একটি নতুন কৌশল। ওসিআর একটি মোটামুটি ভালভাবে অধ্যয়ন করা সমস্যা এবং নথি থেকে পাঠ্য বের করা বেশিরভাগ সময় কাজ করে। পরবর্তী পদক্ষেপটি হল নথি থেকে নিষ্কাশন করা সমস্ত কাঁচা পাঠ নেওয়া এবং তারপর নথির প্রতিটি পাঠ্যের প্রতিটি অংশকে পার্স করার চেষ্টা করা।

কিভাবে অটোমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ক্রয় আদেশ OCR করবেন। উল্লম্ব অনুসন্ধান. আ.

এনএলপির মধ্যে এই সমস্যা সমাধানের জন্য বিভিন্ন কৌশল ব্যবহার করা যেতে পারে

  1. Regex (রেগুলার এক্সপ্রেশন)

একটি তারিখ বের করতে একটি নিয়মিত অভিব্যক্তি দেখতে হবে:

^(?:(?:31(/|-|.)(?:0?[13578]|1[02]|(?:Jan|Mar|May|Jul|Aug|Oct|Dec)))1|(?:(?:29|30)(/|-|.)(?:0?[1,3-9]|1[0-2]|(?:Jan|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec))2))(?:(?:1[6-9]|[2-9]d)?d{2})$|^(?:29(/|-|.)(?:0?2|(?:Feb))3(?:(?:(?:1[6-9]|[2-9]d)?(?:0[48]|[2468][048]|[13579][26])|(?:(?:16|[2468][048]|[3579][26])00))))$|^(?:0?[1-9]|1d|2[0-8])(/|-|.)(?:(?:0?[1-9]|(?:Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep))|(?:1[0-2]|(?:Oct|Nov|Dec)))4(?:(?:1[6-9]|[2-9]d)?d{2})$

এক্সট্রাক্ট 01/02/2020

উত্স: https://stackoverflow.com/questions/15491894/regex-to-validate-date-format-dd-mm-yyyy

রেজেক্স ভিত্তিক সমাধানের নেতিবাচক দিক হল যে প্রতিটি নতুন বিন্যাস আলাদাভাবে প্রোগ্রাম করা প্রয়োজন। যদি একটি নতুন বিন্যাস থাকে তবে এটি নিয়মিত অভিব্যক্তিতে যুক্ত করা প্রয়োজন। ক্রয় অর্ডারের তারিখ বা তারিখ অনুসারে নির্দিষ্ট তারিখটি ডেলিভারির তারিখ কিনা তা চিহ্নিত করে না।

2. NER (নামকৃত সত্তা স্বীকৃতি)

NER ব্যবহার করে ক্ষেত্রের ধরন বের করতে

results = stanford_ner_tagger.tag(article.split()) print('Original Sentence: %s' % (article)) for result in results: tag_value = result[0] tag_type = result[1] if tag_type != 'O': print('Type: %s, Value: %s' % (tag_type, tag_value))

ছাপে
Type: DATE, Value: 01/02/2020

উত্স: https://towardsdatascience.com/named-entity-recognition-3fad3f53c91e

এনইআর ভিত্তিক নিষ্কাশনের নেতিবাচক দিক হল এটি ভালভাবে সংজ্ঞায়িত প্রকারের জন্য ভাল কাজ করে কিন্তু ঠিকানা এবং অ-মানিক বিন্যাসের মতো বিভিন্ন ধরণের জন্য ব্যর্থ হয়। এটি তারিখ, মুদ্রা, ফোন নম্বর ইত্যাদির জন্য ভাল কাজ করে৷ এটি মাঝে মাঝে নাম এবং সংস্থাগুলির জন্য কাজ করে৷ ক্রয় অর্ডারের তারিখ বা তারিখ অনুসারে এটি ডেলিভারির তারিখ কোন তারিখ তা না জানার অনুরূপ সমস্যায় ভুগছে।

3. নথি জমা দেওয়ার জন্য আপনার সফ্টওয়্যার ব্যবহার করতে বিক্রেতা / ক্রেতাকে বাধ্য করুন৷

যদি একজন বিক্রেতা বা ক্রেতার একটি লেনদেনে উল্লেখযোগ্য লিভারেজ থাকে তবে তিনি অন্য পক্ষকে তাদের নথি জমা দেওয়ার জন্য তাদের সফ্টওয়্যার ব্যবহার করতে বাধ্য করতে পারেন। এটি বেশিরভাগ সমস্যাগুলিকে সরিয়ে দেয় এবং বিক্রেতার কাছে সম্পূর্ণ দায়িত্ব অফলোড করে এবং কোনও নথি ডিজিটাইজেশনের প্রয়োজন হয় না। তবে এটি সর্বব্যাপী না হওয়ার সুস্পষ্ট সমস্যা থেকে ভুগছে এবং অন্য পক্ষকে আপনার সফ্টওয়্যারের সাথে যোগাযোগ করতে হবে। এমনকি যদি কয়েকটি 3 দল এই প্রোটোকলটি অনুসরণ না করে তবে এটিকে আপনার বিদ্যমান সিস্টেমে যুক্ত করার জন্য একটি উল্লেখযোগ্য প্রচেষ্টার প্রয়োজন।


গভীর জ্ঞানার্জন

ডিপ লার্নিং টেকনোলজি সাম্প্রতিক সময়ে ডেটা এক্সট্র্যাক্ট করার ক্ষেত্রে মোটামুটি উন্নত হয়েছে এবং আরও গুরুত্বপূর্ণভাবে ফিচার এক্সট্র্যাক্ট করা যা ভাল ভবিষ্যদ্বাণী করতে পারে।

গ্রাফ কনভোলিউশনাল নিউরাল নেটওয়ার্ক (GCN) এই নথিগুলি থেকে ডেটা বের করতে ব্যবহার করা যেতে পারে। আমরা GCN-কে বিভিন্ন ধরণের বিভিন্ন বৈশিষ্ট্য প্রদান করি, যার প্রতিটি সঠিক তথ্য বের করতে সক্ষম হওয়ার জন্য ব্যবহার করা হয়।

এটি 2টি ধাপে বিভক্ত করা যেতে পারে:
1. বৈশিষ্ট্য নিষ্কাশন

আমরা প্রতিটি টেক্সট ব্লক থেকে বিভিন্ন বৈশিষ্ট্য বের করি।

ক) পাঠ্য বৈশিষ্ট্য

খ) চাক্ষুষ বৈশিষ্ট্য

গ) অবস্থান বৈশিষ্ট্য

ঘ) আকার বৈশিষ্ট্য

ঙ) ফন্ট বৈশিষ্ট্য

2. গ্রাফ তৈরি

এই বৈশিষ্ট্যগুলি পাঠ্যের প্রতিটি ব্লকের জন্য তৈরি করা হয় এবং তারপর একটি গ্রাফ তৈরি করা হয়। প্রতিটি পাঠ্য ব্লকের জন্য এটি তার প্রতিবেশীর বৈশিষ্ট্যগুলি পাস করে। প্রতিটি টেক্সট ব্লকের জন্য তৈরি করা গ্রাফ বৈশিষ্ট্য এবং অন্যান্য বৈশিষ্ট্যগুলির সাথে এটিকে আগ্রহের ক্ষেত্রগুলির একটি বা কোনটি নয় হিসাবে শ্রেণীবদ্ধ করা হয়।

কিভাবে অটোমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ক্রয় আদেশ OCR করবেন। উল্লম্ব অনুসন্ধান. আ.

ডকুমেন্ট ম্যাচিং

ডকুমেন্টের সাথে মেলানোর জন্য ডিপ লার্নিংও একটি দুর্দান্ত সমাধান যেখানে প্রতিটি নথির ধরন থেকে নিষ্কাশিত ক্ষেত্রগুলি যদি নথিগুলি মিলে যায় তবে একটি চূড়ান্ত ভবিষ্যদ্বাণী দেওয়ার জন্য পার্স করা যেতে পারে।

কিভাবে অটোমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ক্রয় আদেশ OCR করবেন। উল্লম্ব অনুসন্ধান. আ.

ডিপ লার্নিং এর সমস্যা

দুই শ্রেণীর তথ্য বের করতে হবে

1. মূল মানগুলির সমস্যা (PO নম্বর, তারিখ, ইত্যাদি)

কিভাবে অটোমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ক্রয় আদেশ OCR করবেন। উল্লম্ব অনুসন্ধান. আ.
  • মূল মান জোড়া সনাক্তকরণ. তারা ফরম্যাট জুড়ে সমানভাবে অবস্থান করে না এবং কতজন প্রতিবেশীর মধ্য দিয়ে দেখতে হবে তা স্পষ্ট নয়।
  • অ্যাকাউন্টে একাধিক ভাষা গ্রহণ.
  • একটি নির্দিষ্ট কী (শ্রেণীর ভারসাম্যহীনতা) এর জন্য প্রশিক্ষণের জন্য পর্যাপ্ত ডেটা নেই

2. সারণি মান নিয়ে সমস্যা

কিভাবে অটোমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ক্রয় আদেশ OCR করবেন। উল্লম্ব অনুসন্ধান. আ.
  • যে কোনো বাক্সকে টেবিল হিসেবে শ্রেণীবদ্ধ করা
  • একাধিক টেবিল সহ পৃষ্ঠাগুলিতে টেবিল অনুপস্থিত
  • দুটি বন্ধ কলাম মার্জ করা
  • পৃষ্ঠার সীমানাগুলিকে টেবিলের সীমানা হিসাবে ভুল ব্যাখ্যা করা হচ্ছে৷

3. অন্যান্য সমস্যা

  • ঘূর্ণন এবং ক্রপিং
  • খারাপ মানের ছবি
  • ডেটা প্রবাহ

Nanonets ব্যবহার করে

ক্রয় আদেশে OCR-এর জন্য ডিপ লার্নিং ব্যবহারে সমস্যার সমাধান করা

Nanonets API ব্যবহার করে আপনি স্বয়ংক্রিয়ভাবে মিলিত নথিগুলির জন্য প্রয়োজনীয় সমস্ত কীগুলি বের করতে পারেন৷ শুধু একটি নথি আপলোড করুন এবং আপনার পছন্দের বিন্যাসে সমস্ত নিষ্কাশিত ক্ষেত্র ফেরত পান।

আমরা উপরে তালিকাভুক্ত বেশিরভাগ সমস্যা মোকাবেলা করি তাই আপনাকে চাকাটি পুনরায় উদ্ভাবন করতে সময় ব্যয় করতে হবে না।

মূল মান জোড়া:

1. কী মান জোড়া সনাক্ত করা। তারা ফরম্যাট জুড়ে অভিন্নভাবে অবস্থান করা হয় না.

আমাদের GCN বাস্তবায়ন ব্যবহার করে আমরা নথি জুড়ে কী পার্স করতে সক্ষম। আমাদের GCN বাস্তবায়নের মধ্যে রয়েছে বৈশিষ্ট্যের বিস্ফোরণ এবং মডেলের জন্য প্রেক্ষাপটের অভাবের মধ্যে সর্বোত্তম ট্রেড-অফ পেতে সঠিক আশেপাশের অনুসন্ধান খোঁজার জন্য অপ্টিমাইজেশন অন্তর্ভুক্ত যাতে প্রতিটিটি কোন কীটির অন্তর্গত তা সঠিকভাবে ব্যাখ্যা করার জন্য

2. একাধিক ভাষা বিবেচনায় নেওয়া।

আমাদের মডেলগুলিকে টেক্সট এম্বেডিংয়ের সাথে প্রশিক্ষিত করা হয়েছে যা ভাষা অজ্ঞেয়বাদী৷ এটি একটি ফিচার স্পেস তৈরি করে অর্জন করা হয় যাতে 'ইনভয়েস' এবং 'ফাকতুরা' (জার্মান ভাষায় ইনভয়েস) এবং चलाना (হিন্দিতে ইনভয়েস) এর জন্য এম্বেডিং শব্দটি একই ফিচার স্পেসে ম্যাপ করে। তাই পাঠ্য বৈশিষ্ট্যগুলি ভাষা স্বাধীন হয়ে যায় এবং মডেলটিকে ভাষা প্রতি প্রশিক্ষণের প্রয়োজন হয় না।

3. একটি নির্দিষ্ট কী (শ্রেণীর ভারসাম্যহীনতা) জন্য প্রশিক্ষণের জন্য পর্যাপ্ত ডেটা নেই

আমাদের কাছে প্রচুর আর্থিক নথি রয়েছে যা আমাদের মডেলগুলিকে প্রশিক্ষিত করা হয় যা এই সমস্যাটি কমিয়ে দেয়।

টেবিল

1. যেকোনো বাক্সকে টেবিল হিসাবে শ্রেণীবদ্ধ করা

আমরা একটি শক্তিশালী ক্লাসিফায়ার তৈরি করেছি যা বিভিন্ন ফর্ম্যাট এবং সেটিংসে বিভিন্ন টেবিলের বিভিন্ন শনাক্ত করতে পারে। এটি টেবিলের গঠন শনাক্ত করতে পাঠ্য ভিত্তিক বৈশিষ্ট্যগুলির সাথে ভিজ্যুয়াল বৈশিষ্ট্য এবং লেআউট বৈশিষ্ট্যগুলির মিশ্রণ ব্যবহার করে।

2. একাধিক সারণী সহ পৃষ্ঠাগুলিতে সারণী অনুপস্থিত৷

প্রতিটি পৃষ্ঠা জুড়ে বিভিন্ন টেবিলের কাঠামো চিহ্নিত করার পরে আমাদের একটি মার্জ লজিক রয়েছে যা নির্ধারণ করে যে কাঠামোটি একত্রিত হওয়ার জন্য যথেষ্ট একই রকম এবং দুটি টেবিল একত্রিত করা উচিত কিনা তা নির্ধারণ করার জন্য পূর্ববর্তী পৃষ্ঠার একটি টেবিল অসম্পূর্ণ ছিল কিনা।

3. দুটি বন্ধ কলাম একত্রিত করা

যদি আমরা শুধুমাত্র ভিজ্যুয়াল বৈশিষ্ট্যগুলির উপর নির্ভর করি তবে এটি একটি সমস্যা হয়ে দাঁড়ায় কারণ স্থান ভিত্তিক বিচ্ছেদ সনাক্ত করা কঠিন। যাইহোক, ভিজ্যুয়াল টেক্সট এবং অবস্থান ভিত্তিক বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করার সাথে এটি সনাক্ত করা সম্ভব হয় যে একটি কলামে থাকা ডেটার ধরনটি একটি নতুন কলাম বলা যেতে যথেষ্ট আলাদা।

4. পৃষ্ঠার সীমানাগুলিকে টেবিলের সীমানা হিসাবে ভুল ব্যাখ্যা করা৷

উপরের মতোই এই সমস্যাটি বিভিন্ন বৈশিষ্ট্য ব্যবহার করে সমাধান করা হয় যে নির্দিষ্ট কাঠামোটি একটি টেবিল বা পৃষ্ঠার সীমানা কিনা তা নির্ধারণ করতে।

অন্যান্য সমস্যা

1. ঘূর্ণন এবং ক্রপিং

আমরা একটি নথির প্রান্তগুলি সনাক্ত করতে এবং তারপর সঠিকভাবে নথিটিকে অভিমুখী করতে আমাদের প্রাক প্রক্রিয়াকরণ পদক্ষেপের অংশ হিসাবে একটি ঘূর্ণন এবং ক্রপিং মডেল প্রয়োগ করেছি৷ এটি একটি অবজেক্ট ডিটেকশন মডেলের অনুরূপ একটি মডেল ব্যবহার করে যার মাধ্যমে উদ্দেশ্য ফাংশনটি 4টি কোণা চিহ্নিত করার জন্য পরিবর্তিত হয় যা 2টি পয়েন্টের বিপরীতে একটি অবজেক্ট সনাক্তকরণ সমস্যায় আদর্শ। এটি ঘূর্ণন এবং ক্রপিং উভয়ের জন্যই সমাধান করে

2. অস্পষ্ট এবং খারাপ নথির গুণমান

আমাদের প্রিপ্রসেসিং পাইপলাইনের একটি অংশ হিসাবে আমাদের কাছে একটি গুণমানের মডেল রয়েছে যা শুধুমাত্র একটি নির্দিষ্ট মানের থ্রেশহোল্ডের উপরে নথি গ্রহণ করে। এটি একটি বাইনারি ক্লাসিফায়ার যা একটি সাধারণ ইমেজ ক্লাসিফিকেশন মডেল যা বেশ কয়েকটি নথিতে প্রশিক্ষিত যা ভাল এবং খারাপ উভয় মানের। নথিতে ক্যাপচার পাইপলাইন নথিগুলি প্রয়োজনীয় মানের মান পূরণ না করলে তাড়াতাড়ি প্রত্যাখ্যান করা যেতে পারে এবং পুনরুদ্ধার বা ম্যানুয়াল প্রক্রিয়াকরণের জন্য পাঠানো যেতে পারে।

2. ডেটা প্রবাহ

ডেটা ড্রিফ্ট একটি সমস্যা যখন মডেলটি শুধুমাত্র একটি একক বিক্রেতা বা একক অঞ্চলের ডেটার কাছে উন্মুক্ত হয়৷ মডেলটিকে ঐতিহাসিকভাবে বিভিন্ন বিক্রেতা, ভৌগলিক শিল্প ইত্যাদির উপর প্রশিক্ষিত করা হলে ডেটা প্রবাহের সম্ভাবনা অনেকাংশে কমে যায় কারণ এটি ইতিমধ্যেই এই বৈচিত্রগুলির সামনে এসেছে।

PO ডিজিটাইজ করা শুরু করুন এবং ইনভয়েস বা চালান এখন Nanonets সঙ্গে - 1 PO ডিজিটাইজেশন ক্লিক করুন:

কিভাবে অটোমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য ক্রয় আদেশ OCR করবেন। উল্লম্ব অনুসন্ধান. আ.

আরও পড়া

1 আপডেট করুন:
ক্রয় আদেশ থেকে তথ্য আহরণ এবং অটোমেশনের জন্য OCR ব্যবহার সম্পর্কে আরও পড়ার উপাদান যুক্ত করা হয়েছে

আপডেট 2: আমরা PO থেকে ডেটা বের করার জন্য আমাদের মডেলের নির্ভুলতা উল্লেখযোগ্যভাবে উন্নত করেছি।

একটি ডেমো সেটআপ করুন

কিভাবে Nanonets আপনাকে এই সমস্যার সমাধান করতে সাহায্য করতে পারে সে সম্পর্কে জানতে একটি ডেমো সেট আপ করুন

সময় স্ট্যাম্প:

থেকে আরো এআই এবং মেশিন লার্নিং