যে কোনো কোম্পানিতে একটি সাধারণ ক্রয় প্রক্রিয়ার সাথে যুক্ত একাধিক নথি থাকে যেমন ইনভয়েস বা চালান, ক্রয় আদেশ, ডেলিভারি নোট, ইত্যাদি। এই প্রক্রিয়াটি ওভারহেড কমাতে প্রযুক্তি-ভিত্তিক উন্নতিগুলির ধারাবাহিক ফোকাস। এই নথিগুলির ডিজিটাইজেশনের মাধ্যমে একটি প্রধান অপ্টিমাইজেশন হয়েছে যার ফলে কম খরচ, দ্রুত পরিবর্তনের সময় এবং ত্রুটির হার হ্রাস পায়। এই পোস্টটি বিশেষভাবে ক্রয় আদেশগুলিতে ফোকাস করে এই নথিগুলি থেকে OCR-ভিত্তিক ডেটা ক্যাপচারের বর্তমান অত্যাধুনিক প্রযুক্তির রূপরেখা দেবে।
খুব বেশি বিশদে না গিয়ে একটি সাধারণ প্রকিউরমেন্ট ওয়ার্কফ্লো এইরকম দেখায়:
- ক্রেতা একটি ক্রয় আদেশ তৈরি করে
- বিক্রেতা একটি চালান তৈরি করে
- ক্রেতা একটি GRN/অর্ডার তৈরি করে প্রাপ্তি বিঃদ্রঃ
তথ্য ক্যাপচার প্রক্রিয়া এবং এই নথিগুলির প্রতিটির জন্য প্রয়োজনীয়তার মধ্যে কিছু সূক্ষ্ম পার্থক্য রয়েছে কারণ এই নথিগুলির মধ্যে তথ্য এবং কাঠামোর পার্থক্য রয়েছে৷ একটি প্রধান পার্থক্য হল কে নথিটি প্রস্তুত করছে এবং ফলস্বরূপ কার নথিটিকে ডিজিটাইজ করার প্রয়োজন রয়েছে।
3 ওয়ে ম্যাচিং
ডিজিটাইজেশনের একটি প্রধান কারণ হল এই নথিগুলির সকলকে লেনদেনের একটি সামঞ্জস্যপূর্ণ গল্পকে সমর্থন করতে হবে এবং বলতে হবে। এই 3টি নথির অনুমোদনের প্রক্রিয়াটিকে 3-ওয়ে ম্যাচিং হিসাবে উল্লেখ করা হয়। কে ম্যাচ পরিচালনা করছে, ক্রেতা বা বিক্রেতার উপর নির্ভর করে 3-ওয়ে ম্যাচিংয়ের প্রয়োজনীয়তা এবং প্রক্রিয়া ব্যাপকভাবে আলাদা।
ক্রেতার দৃষ্টিভঙ্গি:
ক্রেতা PO এবং তৈরি করে প্রাপ্তি এবং এই তথ্য রয়েছে যা তাদের সফ্টওয়্যারে সহজেই মিলিত হতে পারে। মেলাতে হবে চালান ক্রয় আদেশ এবং প্রাপ্তি. ক্রেতাকে ডিজিটাইজ করতে হবে চালান অন্যান্য নথিগুলি ইতিমধ্যে তাদের ইআরপি সিস্টেমের মধ্যে রয়েছে।
ক্রেতার 3-উপায় ম্যাচিং করার জন্য বিভিন্ন কারণ রয়েছে:
- নিশ্চিত করা যে ক্রয়টি একটি ম্যাচ করে অনুমোদিত চালান এবং একটি ক্রয় আদেশ সহ GRN
- নথি জুড়ে ম্যাচ করে সঠিক পণ্য কেনা হয়েছে তা নিশ্চিত করা
- অনুমোদিত সঠিক পরিমাণ নিশ্চিত করা এবং বিতরণ করা হয়েছে।
- প্রতিটি পণ্যের জন্য দেওয়া মূল্য নিশ্চিত করা অনুমোদিত ছিল
- সঠিক বিক্রেতা নির্বাচন করা হয়েছে তা নিশ্চিত করা এবং সঠিক বিক্রেতাকে অবশেষে অর্থ প্রদান করা হবে কারণ একই পণ্য বিভিন্ন বিক্রেতাদের কাছ থেকে সংগ্রহ করা যেতে পারে
- ডাটার ডাউনস্ট্রিম মানের জন্য জিআরএন-এ পরিমাণের সাথে ইনভেন্টরি মেলানো
বিক্রেতার দৃষ্টিভঙ্গি:
বিক্রেতা উৎপন্ন চালান এবং নিশ্চিত করতে হবে পিও এবং প্রাপ্তি ইনভয়েসে থাকা তথ্যের সাথে মেলে। বিক্রেতাকে ক্রয় আদেশ ডিজিটাইজ করতে হবে এবং চালানটি তার ইআরপি থেকে তৈরি করা হয়েছে।
3 ওয়ে ম্যাচিং এর জন্য বিক্রেতার প্রয়োজন
- সিস্টেমে ইনভেন্টরি দেওয়া একটি ক্রয় আদেশ পূরণ করা যেতে পারে কিনা তা পরীক্ষা করা হচ্ছে
- অনুরোধ করা পণ্যের সাথে মেলে পণ্য পাঠানো নিশ্চিত করা
- সঠিক গ্রাহককে অনুরোধ করা পণ্য পাঠানো হয়েছে তা নিশ্চিত করে
- অনুরোধ করা পণ্যগুলি গ্রাহকের কাছে পৌঁছে দেওয়া হয় তা নিশ্চিত করা
- সঠিক পরিমাণ গ্রাহককে দেওয়া হয়েছে তা নিশ্চিত করা
- PO-তে মূল্য নিশ্চিত করার একটি গ্রস মার্জিন রয়েছে যা পূরণ করা যেতে পারে
ক্রয় আদেশ স্বয়ংক্রিয় করার জন্য একটি AI ভিত্তিক OCR সমাধান খুঁজছেন? ন্যানোনেট দিন™ ইন্টেলিজেন্ট অটোমেশন প্ল্যাটফর্ম একটি স্পিন এবং অটোপাইলটে আপনার ক্রয় আদেশ রাখুন!
ম্যানুয়াল 3 ওয়ে ম্যাচিং এর সমস্যা
যেহেতু 3 ওয়ে ম্যাচিং সমস্যা উভয় পক্ষের জন্য তাদের চুক্তির কার্যকারিতা এবং নির্ভুলতা সবচেয়ে গুরুত্বপূর্ণ। যাইহোক, এটি বিভিন্ন দৃষ্টিকোণ থেকে একটি মোটামুটি উচ্চ প্রক্রিয়া খরচ:
ডকুমেন্ট ট্র্যাকিং এবং ত্রুটির মানবিক খরচ
- এটি একটি অগোছালো প্রক্রিয়া বিশেষ করে যখন PO একাধিকবার সংশোধন করা হয়। PO এর সঠিক সংস্করণ বজায় রাখা কঠিন হতে পারে। সঠিকভাবে করা না হলে, এটি একাধিক অর্থপ্রদান, অতিরিক্ত আইটেম বিতরণ, ইত্যাদি হতে পারে।
- ঘন ঘন সরবরাহকারী, ক্রেতার মধ্যে একাধিক অনুরূপ নথি এবং লেনদেন রয়েছে। এই লেনদেন গ্রাস করা যেতে পারে.
- প্রক্রিয়াটি স্কেল করতে পারে না। যখন প্রক্রিয়াকরণের পরিমাণ দ্রুত পরিবর্তন হয় তখন সর্বোত্তম মানব সম্পদ বজায় রাখা কঠিন। বেশীরভাগ কোম্পানীর আয়তনের স্পাইকের জন্য ক্ষতিপূরণের জন্য এই বিভাগগুলির অতিরিক্ত স্টাফ রয়েছে
অর্থপ্রদান বা সংগ্রহ বিলম্ব
- নথি থেকে ডেটা ম্যানুয়ালি প্রবেশ করানো হয়। প্রক্রিয়াকৃত নথির পরিমাণ বৃদ্ধি পেলে এই প্রক্রিয়াটি বাধা হয়ে দাঁড়ায়
- বিলম্বের ফলে ডেলিভারি/পেমেন্ট/প্রকিউরমেন্টে বিলম্ব হতে পারে। কাঁচামাল সংগ্রহে বিলম্বের কারণে কার্যকরী মূলধনের উচ্চ ব্যয় বা রাজস্ব ক্ষতির দিকে পরিচালিত করে।
ইনভেন্টরি ত্রুটি
- যদি ইনভেন্টরি সিস্টেমগুলি এই প্রক্রিয়ার সাথে সঠিকভাবে একত্রিত না হয় তবে ইনভেন্টরির ভুল গণনা করার জন্য উচ্চ খরচ হতে পারে। ওভারস্টকিং, ডুপ্লিকেট অর্ডার, কম মজুদ এবং রাজস্ব ক্ষতির ফলে।
3 ওয়ে ম্যাচিংয়ে ত্রুটি
এই প্রক্রিয়ায় বিভিন্ন ধরণের ত্রুটি রয়েছে। নীচে কয়েকটি উদাহরণ
বিক্রেতা ম্যাচিং ত্রুটি
বিক্রেতা ম্যাচিং সাধারণত দুটি জিনিসের উপর ভিত্তি করে করা হয়, বিক্রেতার নাম এবং ঠিকানা। যেহেতু একই কোম্পানির বিভিন্ন সহযোগী এবং বিভিন্ন ব্যবসায়িক ইউনিট একই রকম ইস্যু করতে পারে চালান.
যদি ঠিকানা থেকে পারচেজ অর্ডার ও চালান সঠিক ঠিকানা নেই এবং বিক্রেতার নাম শনাক্ত করা নেই সেখানে মেলাতে সমস্যা হতে পারে। এছাড়াও স্পষ্টভাবে দেখা যায় যে কেবল সরাসরি পাঠ্য ম্যাচিং ইনভয়েস এবং পিওর সাথে মেলে কাজ করে না।
ক্রয় আদেশ | চালান | অবস্থা |
---|---|---|
Acme Inc. | Acme Inc. | কাজ করে |
Acme Inc. | Acme Inc. আফ্রিকা | ব্যর্থ |
চূড়া | Acme LLC. | ব্যর্থ |
Acme LLC. | Acme LLC. আর্টিলারি বিভাগ | ব্যর্থ |
পণ্য ম্যাচিং ত্রুটি
পণ্যগুলি মেলানো সবচেয়ে কঠিন আইটেম কারণ তারা খুব কমই ক্রয় অর্ডার এবং চালানে একই নাম অনুসরণ করে এবং প্রাপ্তি. এটি সম্ভবত ত্রুটির জন্য সবচেয়ে বড় কারণ।
একই পণ্যের ভিন্ন ভিন্ন সংস্করণ, বিভিন্ন আকার, স্পেসিফিকেশন এবং দামের কারণে ত্রুটির কারণ হতে পারে। পণ্যটির সাম্প্রতিক আপডেট থাকতে পারে, একটি অনুপলব্ধ আইটেমের বিকল্প প্রদান করা হয়েছে ইত্যাদি।
ক্রয় আদেশ | চালান | অবস্থা |
---|---|---|
টাইলেনল সাইনাসের চাপ এবং ব্যথা | টাইলেনল সাইনাসের চাপ এবং ব্যথা | কাজ করে |
Tylenol | টাইলেনল সাইনাসের চাপ এবং ব্যথা | ব্যর্থ |
টাইলেনল সাইনাসের চাপ এবং ব্যথা | TYLENOL® সাইনাসের চাপ এবং ব্যথা | ব্যর্থ |
TYLENOL অতিরিক্ত শক্তি | TYLENOL অতিরিক্ত শক্তি ব্যথা উপশমকারী এবং জ্বর হ্রাসকারী 500 মিলিগ্রাম ক্যাপলেট | ব্যর্থ |
TYLENOL অতিরিক্ত শক্তি ব্যথা উপশমকারী এবং জ্বর হ্রাসকারী 500 মিলিগ্রাম ক্যাপলেট | TYLENOL অতিরিক্ত শক্তি ব্যথা উপশমকারী এবং জ্বর হ্রাসকারী 250 মিলিগ্রাম ক্যাপলেট | ব্যর্থ |
পরিমাণের সাথে মিলে যাওয়া ত্রুটি৷
এমনকি যদি পণ্যটি সঠিকভাবে মিলিত হয় তবে একটি নির্দিষ্ট পরিমাণে পণ্যটি অনুপলব্ধ হলে পরিমাণের সাথে মেলাতে ত্রুটি হতে পারে ইত্যাদি। এটি সাধারণত ক্রয় অর্ডার এবং জিআরএন-এর মধ্যেও সত্য কারণ এই দুটি নথির মধ্যে সাধারণত একটি সময় ব্যবধান থাকে।
মূল্য মেলে ত্রুটি
যদি সমগ্র পণ্য ক্রয়ের জীবনচক্রের সময় মূল্যের পরিবর্তন হয় বা যদি পণ্যটি আপডেট করা হয় বা প্রতিস্থাপিত হয় তবে এই ত্রুটি ঘটতে পারে।
ডুপ্লিকেট নথি
যদি একই বিক্রেতার কাছ থেকে একই পণ্যগুলির ঘন ঘন ক্রয় করা হয় তবে একাধিক নথি থাকতে পারে যা দেখতে একই রকম। যদি PO-এর রেফারেন্স নম্বর ইনভয়েসে এবং GRN-এ ইনভয়েস বা PO-এর জন্য উল্লেখ না থাকে, তাহলে নথির অমিলের একটি উল্লেখযোগ্য সুযোগ রয়েছে।
ডিজিটাইজিং ক্রয় আদেশ
ক্রয় আদেশ থেকে সমস্ত প্রাসঙ্গিক ডেটা সংগ্রহ করতে নিম্নলিখিত ক্ষেত্রগুলি বের করতে হবে:
এক্সট্রাক্ট করা ক্ষেত্রগুলির সাধারণ তালিকা (পারচেজ অর্ডার জুড়ে তাদের বিভিন্ন নাম থাকতে পারে):
বিলিং ঠিকানা | অর্থপ্রদান শর্তাদি | সাব মোট |
ক্রেতার নাম | পি ও নম্বর | বিষয় |
যোগাযোগের নাম | পণ্য | মোট |
মুদ্রা | ক্রয় আদেশ তারিখ | একক দাম |
সরবরাহ করা | পরিমাণ | বিক্রেতার নাম |
নির্দিষ্ট তারিখ | রিকুইজিশন নং |
বর্তমান সমাধান এবং তাদের সমস্যা
টেমপ্লেট + টেক্সট ম্যাচিং
এর মধ্যে তথ্যের একটি নির্দিষ্ট অংশের সন্ধানের জন্য সঠিক অঞ্চলটি সংজ্ঞায়িত করা জড়িত। তাই আসুন বলি আপনি যদি তারিখটি বের করতে চান এবং নথি জুড়ে বিন্যাসটি ঠিক একই রকম হয় এবং তারিখটি নথিতে ঠিক একই জায়গায় ঘটে। আমরা তারিখের জন্য নথিতে সন্ধান করার জন্য এলাকাটি সংজ্ঞায়িত করি।
প্রক্রিয়াটি এখানে:
- নথিটিকে একটি ছবিতে রূপান্তর করুন
- আমরা একটি নমুনা নথি দিতে
- যে অঞ্চলে তারিখটি পাওয়া যায় সেটি চিহ্নিত করুন (নথিটি একটি সমন্বয় ব্যবস্থা হিসাবে দেখা হয় যেখানে উপরের বাম কোণে (0,0)) আমরা চিহ্নিত করতে পারি (200,300) থেকে (350,450) যা তারিখের আগ্রহের অঞ্চল।
- যখন একটি নতুন নথি থাকে আমরা গিয়ে (200,300) থেকে (350,450) পরীক্ষা করি এবং সেখানে পাঠ্য বের করি
ঐতিহাসিকভাবে এই সমস্যাটি সমাধানের জন্য এটি সবচেয়ে সাধারণ পদ্ধতির একটি। এটি বিভিন্ন কারণে হয়:
- সফ্টওয়্যার সরলতা এবং বাস্তবায়ন. একজন দক্ষ প্রোগ্রামার একদিনেরও কম সময়ে এই সমাধানটি তৈরি করতে পারে
- সমাধানটি কীভাবে কাজ করবে তা কোন অনিশ্চয়তা নেই, যদি নথিটি ঠিক একই বিন্যাসে হয় তবে এটি পুরোপুরি কাজ করবে
- ডেটা বের করার জন্য খুব সীমিত গণনা সংস্থান প্রয়োজন
তবে এই পদ্ধতিটি কতটা প্রাথমিক তা দেওয়া কিছু খুব সুস্পষ্ট চ্যালেঞ্জ রয়েছে:
- নথিতে সামান্য পার্থক্য থাকলেও এটি কাজ করে না
- ক্রেতা তাদের বিন্যাস আপডেট করলে এটি কাজ করে না
- প্রতিটি ক্রেতার জন্য একটি নতুন বিন্যাস আছে যা সেটআপ করতে হবে
- এটি স্ক্যান করা নথিগুলির জন্য কাজ করে না
OCR + NLP + টেক্সট ম্যাচিং
OCR + NLP নথি থেকে ডেটা বের করার একটি নতুন কৌশল। ওসিআর একটি মোটামুটি ভালভাবে অধ্যয়ন করা সমস্যা এবং নথি থেকে পাঠ্য বের করা বেশিরভাগ সময় কাজ করে। পরবর্তী পদক্ষেপটি হল নথি থেকে নিষ্কাশন করা সমস্ত কাঁচা পাঠ নেওয়া এবং তারপর নথির প্রতিটি পাঠ্যের প্রতিটি অংশকে পার্স করার চেষ্টা করা।
এনএলপির মধ্যে এই সমস্যা সমাধানের জন্য বিভিন্ন কৌশল ব্যবহার করা যেতে পারে
- Regex (রেগুলার এক্সপ্রেশন)
একটি তারিখ বের করতে একটি নিয়মিত অভিব্যক্তি দেখতে হবে:
^(?:(?:31(/|-|.)(?:0?[13578]|1[02]|(?:Jan|Mar|May|Jul|Aug|Oct|Dec)))1|(?:(?:29|30)(/|-|.)(?:0?[1,3-9]|1[0-2]|(?:Jan|Mar|Apr|May|Jun|Jul|Aug|Sep|Oct|Nov|Dec))2))(?:(?:1[6-9]|[2-9]d)?d{2})$|^(?:29(/|-|.)(?:0?2|(?:Feb))3(?:(?:(?:1[6-9]|[2-9]d)?(?:0[48]|[2468][048]|[13579][26])|(?:(?:16|[2468][048]|[3579][26])00))))$|^(?:0?[1-9]|1d|2[0-8])(/|-|.)(?:(?:0?[1-9]|(?:Jan|Feb|Mar|Apr|May|Jun|Jul|Aug|Sep))|(?:1[0-2]|(?:Oct|Nov|Dec)))4(?:(?:1[6-9]|[2-9]d)?d{2})$
এক্সট্রাক্ট 01/02/2020
উত্স: https://stackoverflow.com/questions/15491894/regex-to-validate-date-format-dd-mm-yyyy
রেজেক্স ভিত্তিক সমাধানের নেতিবাচক দিক হল যে প্রতিটি নতুন বিন্যাস আলাদাভাবে প্রোগ্রাম করা প্রয়োজন। যদি একটি নতুন বিন্যাস থাকে তবে এটি নিয়মিত অভিব্যক্তিতে যুক্ত করা প্রয়োজন। ক্রয় অর্ডারের তারিখ বা তারিখ অনুসারে নির্দিষ্ট তারিখটি ডেলিভারির তারিখ কিনা তা চিহ্নিত করে না।
2. NER (নামকৃত সত্তা স্বীকৃতি)
NER ব্যবহার করে ক্ষেত্রের ধরন বের করতে
results = stanford_ner_tagger.tag(article.split()) print('Original Sentence: %s' % (article)) for result in results: tag_value = result[0] tag_type = result[1] if tag_type != 'O': print('Type: %s, Value: %s' % (tag_type, tag_value))
ছাপেType: DATE, Value: 01/02/2020
উত্স: https://towardsdatascience.com/named-entity-recognition-3fad3f53c91e
এনইআর ভিত্তিক নিষ্কাশনের নেতিবাচক দিক হল এটি ভালভাবে সংজ্ঞায়িত প্রকারের জন্য ভাল কাজ করে কিন্তু ঠিকানা এবং অ-মানিক বিন্যাসের মতো বিভিন্ন ধরণের জন্য ব্যর্থ হয়। এটি তারিখ, মুদ্রা, ফোন নম্বর ইত্যাদির জন্য ভাল কাজ করে৷ এটি মাঝে মাঝে নাম এবং সংস্থাগুলির জন্য কাজ করে৷ ক্রয় অর্ডারের তারিখ বা তারিখ অনুসারে এটি ডেলিভারির তারিখ কোন তারিখ তা না জানার অনুরূপ সমস্যায় ভুগছে।
3. নথি জমা দেওয়ার জন্য আপনার সফ্টওয়্যার ব্যবহার করতে বিক্রেতা / ক্রেতাকে বাধ্য করুন৷
যদি একজন বিক্রেতা বা ক্রেতার একটি লেনদেনে উল্লেখযোগ্য লিভারেজ থাকে তবে তিনি অন্য পক্ষকে তাদের নথি জমা দেওয়ার জন্য তাদের সফ্টওয়্যার ব্যবহার করতে বাধ্য করতে পারেন। এটি বেশিরভাগ সমস্যাগুলিকে সরিয়ে দেয় এবং বিক্রেতার কাছে সম্পূর্ণ দায়িত্ব অফলোড করে এবং কোনও নথি ডিজিটাইজেশনের প্রয়োজন হয় না। তবে এটি সর্বব্যাপী না হওয়ার সুস্পষ্ট সমস্যা থেকে ভুগছে এবং অন্য পক্ষকে আপনার সফ্টওয়্যারের সাথে যোগাযোগ করতে হবে। এমনকি যদি কয়েকটি 3 দল এই প্রোটোকলটি অনুসরণ না করে তবে এটিকে আপনার বিদ্যমান সিস্টেমে যুক্ত করার জন্য একটি উল্লেখযোগ্য প্রচেষ্টার প্রয়োজন।
গভীর জ্ঞানার্জন
ডিপ লার্নিং টেকনোলজি সাম্প্রতিক সময়ে ডেটা এক্সট্র্যাক্ট করার ক্ষেত্রে মোটামুটি উন্নত হয়েছে এবং আরও গুরুত্বপূর্ণভাবে ফিচার এক্সট্র্যাক্ট করা যা ভাল ভবিষ্যদ্বাণী করতে পারে।
গ্রাফ কনভোলিউশনাল নিউরাল নেটওয়ার্ক (GCN) এই নথিগুলি থেকে ডেটা বের করতে ব্যবহার করা যেতে পারে। আমরা GCN-কে বিভিন্ন ধরণের বিভিন্ন বৈশিষ্ট্য প্রদান করি, যার প্রতিটি সঠিক তথ্য বের করতে সক্ষম হওয়ার জন্য ব্যবহার করা হয়।
এটি 2টি ধাপে বিভক্ত করা যেতে পারে:
1. বৈশিষ্ট্য নিষ্কাশন
আমরা প্রতিটি টেক্সট ব্লক থেকে বিভিন্ন বৈশিষ্ট্য বের করি।
ক) পাঠ্য বৈশিষ্ট্য
খ) চাক্ষুষ বৈশিষ্ট্য
গ) অবস্থান বৈশিষ্ট্য
ঘ) আকার বৈশিষ্ট্য
ঙ) ফন্ট বৈশিষ্ট্য
2. গ্রাফ তৈরি
এই বৈশিষ্ট্যগুলি পাঠ্যের প্রতিটি ব্লকের জন্য তৈরি করা হয় এবং তারপর একটি গ্রাফ তৈরি করা হয়। প্রতিটি পাঠ্য ব্লকের জন্য এটি তার প্রতিবেশীর বৈশিষ্ট্যগুলি পাস করে। প্রতিটি টেক্সট ব্লকের জন্য তৈরি করা গ্রাফ বৈশিষ্ট্য এবং অন্যান্য বৈশিষ্ট্যগুলির সাথে এটিকে আগ্রহের ক্ষেত্রগুলির একটি বা কোনটি নয় হিসাবে শ্রেণীবদ্ধ করা হয়।
ডকুমেন্ট ম্যাচিং
ডকুমেন্টের সাথে মেলানোর জন্য ডিপ লার্নিংও একটি দুর্দান্ত সমাধান যেখানে প্রতিটি নথির ধরন থেকে নিষ্কাশিত ক্ষেত্রগুলি যদি নথিগুলি মিলে যায় তবে একটি চূড়ান্ত ভবিষ্যদ্বাণী দেওয়ার জন্য পার্স করা যেতে পারে।
ডিপ লার্নিং এর সমস্যা
দুই শ্রেণীর তথ্য বের করতে হবে
1. মূল মানগুলির সমস্যা (PO নম্বর, তারিখ, ইত্যাদি)
- মূল মান জোড়া সনাক্তকরণ. তারা ফরম্যাট জুড়ে সমানভাবে অবস্থান করে না এবং কতজন প্রতিবেশীর মধ্য দিয়ে দেখতে হবে তা স্পষ্ট নয়।
- অ্যাকাউন্টে একাধিক ভাষা গ্রহণ.
- একটি নির্দিষ্ট কী (শ্রেণীর ভারসাম্যহীনতা) এর জন্য প্রশিক্ষণের জন্য পর্যাপ্ত ডেটা নেই
2. সারণি মান নিয়ে সমস্যা
- যে কোনো বাক্সকে টেবিল হিসেবে শ্রেণীবদ্ধ করা
- একাধিক টেবিল সহ পৃষ্ঠাগুলিতে টেবিল অনুপস্থিত
- দুটি বন্ধ কলাম মার্জ করা
- পৃষ্ঠার সীমানাগুলিকে টেবিলের সীমানা হিসাবে ভুল ব্যাখ্যা করা হচ্ছে৷
3. অন্যান্য সমস্যা
- ঘূর্ণন এবং ক্রপিং
- খারাপ মানের ছবি
- ডেটা প্রবাহ
Nanonets ব্যবহার করে
ক্রয় আদেশে OCR-এর জন্য ডিপ লার্নিং ব্যবহারে সমস্যার সমাধান করা
Nanonets API ব্যবহার করে আপনি স্বয়ংক্রিয়ভাবে মিলিত নথিগুলির জন্য প্রয়োজনীয় সমস্ত কীগুলি বের করতে পারেন৷ শুধু একটি নথি আপলোড করুন এবং আপনার পছন্দের বিন্যাসে সমস্ত নিষ্কাশিত ক্ষেত্র ফেরত পান।
আমরা উপরে তালিকাভুক্ত বেশিরভাগ সমস্যা মোকাবেলা করি তাই আপনাকে চাকাটি পুনরায় উদ্ভাবন করতে সময় ব্যয় করতে হবে না।
মূল মান জোড়া:
1. কী মান জোড়া সনাক্ত করা। তারা ফরম্যাট জুড়ে অভিন্নভাবে অবস্থান করা হয় না.
আমাদের GCN বাস্তবায়ন ব্যবহার করে আমরা নথি জুড়ে কী পার্স করতে সক্ষম। আমাদের GCN বাস্তবায়নের মধ্যে রয়েছে বৈশিষ্ট্যের বিস্ফোরণ এবং মডেলের জন্য প্রেক্ষাপটের অভাবের মধ্যে সর্বোত্তম ট্রেড-অফ পেতে সঠিক আশেপাশের অনুসন্ধান খোঁজার জন্য অপ্টিমাইজেশন অন্তর্ভুক্ত যাতে প্রতিটিটি কোন কীটির অন্তর্গত তা সঠিকভাবে ব্যাখ্যা করার জন্য
2. একাধিক ভাষা বিবেচনায় নেওয়া।
আমাদের মডেলগুলিকে টেক্সট এম্বেডিংয়ের সাথে প্রশিক্ষিত করা হয়েছে যা ভাষা অজ্ঞেয়বাদী৷ এটি একটি ফিচার স্পেস তৈরি করে অর্জন করা হয় যাতে 'ইনভয়েস' এবং 'ফাকতুরা' (জার্মান ভাষায় ইনভয়েস) এবং चलाना (হিন্দিতে ইনভয়েস) এর জন্য এম্বেডিং শব্দটি একই ফিচার স্পেসে ম্যাপ করে। তাই পাঠ্য বৈশিষ্ট্যগুলি ভাষা স্বাধীন হয়ে যায় এবং মডেলটিকে ভাষা প্রতি প্রশিক্ষণের প্রয়োজন হয় না।
3. একটি নির্দিষ্ট কী (শ্রেণীর ভারসাম্যহীনতা) জন্য প্রশিক্ষণের জন্য পর্যাপ্ত ডেটা নেই
আমাদের কাছে প্রচুর আর্থিক নথি রয়েছে যা আমাদের মডেলগুলিকে প্রশিক্ষিত করা হয় যা এই সমস্যাটি কমিয়ে দেয়।
টেবিল
1. যেকোনো বাক্সকে টেবিল হিসাবে শ্রেণীবদ্ধ করা
আমরা একটি শক্তিশালী ক্লাসিফায়ার তৈরি করেছি যা বিভিন্ন ফর্ম্যাট এবং সেটিংসে বিভিন্ন টেবিলের বিভিন্ন শনাক্ত করতে পারে। এটি টেবিলের গঠন শনাক্ত করতে পাঠ্য ভিত্তিক বৈশিষ্ট্যগুলির সাথে ভিজ্যুয়াল বৈশিষ্ট্য এবং লেআউট বৈশিষ্ট্যগুলির মিশ্রণ ব্যবহার করে।
2. একাধিক সারণী সহ পৃষ্ঠাগুলিতে সারণী অনুপস্থিত৷
প্রতিটি পৃষ্ঠা জুড়ে বিভিন্ন টেবিলের কাঠামো চিহ্নিত করার পরে আমাদের একটি মার্জ লজিক রয়েছে যা নির্ধারণ করে যে কাঠামোটি একত্রিত হওয়ার জন্য যথেষ্ট একই রকম এবং দুটি টেবিল একত্রিত করা উচিত কিনা তা নির্ধারণ করার জন্য পূর্ববর্তী পৃষ্ঠার একটি টেবিল অসম্পূর্ণ ছিল কিনা।
3. দুটি বন্ধ কলাম একত্রিত করা
যদি আমরা শুধুমাত্র ভিজ্যুয়াল বৈশিষ্ট্যগুলির উপর নির্ভর করি তবে এটি একটি সমস্যা হয়ে দাঁড়ায় কারণ স্থান ভিত্তিক বিচ্ছেদ সনাক্ত করা কঠিন। যাইহোক, ভিজ্যুয়াল টেক্সট এবং অবস্থান ভিত্তিক বৈশিষ্ট্যগুলি অন্তর্ভুক্ত করার সাথে এটি সনাক্ত করা সম্ভব হয় যে একটি কলামে থাকা ডেটার ধরনটি একটি নতুন কলাম বলা যেতে যথেষ্ট আলাদা।
4. পৃষ্ঠার সীমানাগুলিকে টেবিলের সীমানা হিসাবে ভুল ব্যাখ্যা করা৷
উপরের মতোই এই সমস্যাটি বিভিন্ন বৈশিষ্ট্য ব্যবহার করে সমাধান করা হয় যে নির্দিষ্ট কাঠামোটি একটি টেবিল বা পৃষ্ঠার সীমানা কিনা তা নির্ধারণ করতে।
অন্যান্য সমস্যা
1. ঘূর্ণন এবং ক্রপিং
আমরা একটি নথির প্রান্তগুলি সনাক্ত করতে এবং তারপর সঠিকভাবে নথিটিকে অভিমুখী করতে আমাদের প্রাক প্রক্রিয়াকরণ পদক্ষেপের অংশ হিসাবে একটি ঘূর্ণন এবং ক্রপিং মডেল প্রয়োগ করেছি৷ এটি একটি অবজেক্ট ডিটেকশন মডেলের অনুরূপ একটি মডেল ব্যবহার করে যার মাধ্যমে উদ্দেশ্য ফাংশনটি 4টি কোণা চিহ্নিত করার জন্য পরিবর্তিত হয় যা 2টি পয়েন্টের বিপরীতে একটি অবজেক্ট সনাক্তকরণ সমস্যায় আদর্শ। এটি ঘূর্ণন এবং ক্রপিং উভয়ের জন্যই সমাধান করে
2. অস্পষ্ট এবং খারাপ নথির গুণমান
আমাদের প্রিপ্রসেসিং পাইপলাইনের একটি অংশ হিসাবে আমাদের কাছে একটি গুণমানের মডেল রয়েছে যা শুধুমাত্র একটি নির্দিষ্ট মানের থ্রেশহোল্ডের উপরে নথি গ্রহণ করে। এটি একটি বাইনারি ক্লাসিফায়ার যা একটি সাধারণ ইমেজ ক্লাসিফিকেশন মডেল যা বেশ কয়েকটি নথিতে প্রশিক্ষিত যা ভাল এবং খারাপ উভয় মানের। নথিতে ক্যাপচার পাইপলাইন নথিগুলি প্রয়োজনীয় মানের মান পূরণ না করলে তাড়াতাড়ি প্রত্যাখ্যান করা যেতে পারে এবং পুনরুদ্ধার বা ম্যানুয়াল প্রক্রিয়াকরণের জন্য পাঠানো যেতে পারে।
2. ডেটা প্রবাহ
ডেটা ড্রিফ্ট একটি সমস্যা যখন মডেলটি শুধুমাত্র একটি একক বিক্রেতা বা একক অঞ্চলের ডেটার কাছে উন্মুক্ত হয়৷ মডেলটিকে ঐতিহাসিকভাবে বিভিন্ন বিক্রেতা, ভৌগলিক শিল্প ইত্যাদির উপর প্রশিক্ষিত করা হলে ডেটা প্রবাহের সম্ভাবনা অনেকাংশে কমে যায় কারণ এটি ইতিমধ্যেই এই বৈচিত্রগুলির সামনে এসেছে।
PO ডিজিটাইজ করা শুরু করুন এবং ইনভয়েস বা চালান এখন Nanonets সঙ্গে - 1 PO ডিজিটাইজেশন ক্লিক করুন:
আরও পড়া
1 আপডেট করুন:
ক্রয় আদেশ থেকে তথ্য আহরণ এবং অটোমেশনের জন্য OCR ব্যবহার সম্পর্কে আরও পড়ার উপাদান যুক্ত করা হয়েছে
আপডেট 2: আমরা PO থেকে ডেটা বের করার জন্য আমাদের মডেলের নির্ভুলতা উল্লেখযোগ্যভাবে উন্নত করেছি।
একটি ডেমো সেটআপ করুন
কিভাবে Nanonets আপনাকে এই সমস্যার সমাধান করতে সাহায্য করতে পারে সে সম্পর্কে জানতে একটি ডেমো সেট আপ করুন
- AI
- এআই এবং মেশিন লার্নিং
- ai শিল্প
- এআই আর্ট জেনারেটর
- আইআই রোবট
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তা সার্টিফিকেশন
- ব্যাংকিং এ কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তা সফ্টওয়্যার
- স্বয়ংক্রিয়তা
- blockchain
- ব্লকচেইন সম্মেলন এআই
- coingenius
- কথোপকথন কৃত্রিম বুদ্ধিমত্তা
- ক্রিপ্টো সম্মেলন এআই
- ডাল-ই
- গভীর জ্ঞানার্জন
- নথি ডিজিটালাইজেশন
- গুগল আই
- চালান ডিজিটাইজেশন
- মেশিন লার্নিং
- OCR করুন
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটো গেম
- প্লেটোডাটা
- প্লেটোগেমিং
- ক্রয় আদেশ
- স্কেল ai
- বাক্য গঠন
- zephyrnet