সাংগঠনিক ফর্মগুলি শিল্প জুড়ে একটি প্রাথমিক ব্যবসার হাতিয়ার হিসাবে কাজ করে — আর্থিক পরিষেবা থেকে শুরু করে স্বাস্থ্যসেবা এবং আরও অনেক কিছু। উদাহরণ স্বরূপ, ট্যাক্স ম্যানেজমেন্ট ইন্ডাস্ট্রিতে ট্যাক্স ফাইলিং ফর্মগুলি বিবেচনা করুন, যেখানে প্রতি বছর একই তথ্যের সাথে নতুন ফর্মগুলি বেরিয়ে আসে। সেক্টর জুড়ে AWS গ্রাহকদের তাদের দৈনন্দিন ব্যবসায়িক অনুশীলনের অংশ হিসাবে ফর্মগুলিতে তথ্য প্রক্রিয়াকরণ এবং সংরক্ষণ করতে হবে। এই ফর্মগুলি প্রায়শই এমন একটি সংস্থায় তথ্য প্রবাহের প্রাথমিক উপায় হিসাবে কাজ করে যেখানে তথ্য ক্যাপচারের প্রযুক্তিগত উপায়গুলি অব্যবহার্য।
তথ্য ক্যাপচার করার জন্য ফর্ম ব্যবহার করার পাশাপাশি, প্রস্তাবের বছর ধরে অ্যামাজন টেক্সট্র্যাক, আমরা লক্ষ্য করেছি যে AWS গ্রাহকরা ঘন ঘন তাদের সাংগঠনিক ফর্মগুলির কাঠামোগত পরিবর্তন, ক্ষেত্র যোগ করা বা পরিবর্তিত, বা অন্যান্য বিবেচনা যেমন বছরের পরিবর্তন বা ফর্মের সংস্করণের উপর ভিত্তি করে সংস্করণ করে।
যখন একটি ফর্মের গঠন বা বিষয়বস্তু পরিবর্তিত হয়, প্রায়শই এটি ঐতিহ্যগত ওসিআর সিস্টেমের জন্য চ্যালেঞ্জের কারণ হতে পারে বা তথ্য ক্যাপচার করতে ব্যবহৃত ডাউনস্ট্রিম টুলগুলিকে প্রভাবিত করতে পারে, এমনকি যখন আপনাকে বছরের পর বছর একই তথ্য ক্যাপচার করতে হবে এবং ফর্ম্যাট নির্বিশেষে ব্যবহারের জন্য ডেটা একত্রিত করতে হবে। নথির।
এই সমস্যাটি সমাধান করার জন্য, এই পোস্টে আমরা দেখিয়েছি কিভাবে আপনি Amazon Textract এর সাথে একটি ইভেন্ট-চালিত, সার্ভারহীন, মাল্টি-ফরম্যাট ডকুমেন্ট পার্সিং পাইপলাইন তৈরি এবং স্থাপন করতে পারেন।
সমাধান ওভারভিউ
নিম্নলিখিত চিত্রটি আমাদের সমাধান আর্কিটেকচারকে চিত্রিত করে:
প্রথমত, সমাধানটি ব্যবহার করে পাইপলাইন ইনজেস্ট অফার করে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3), Amazon S3 ইভেন্ট বিজ্ঞপ্তি, এবং একটি অ্যামাজন সরল সারি পরিষেবা (Amazon SQS) সারি যাতে একটি ফর্ম লক্ষ্য Amazon S3 পার্টিশনে অবতরণ করলে প্রক্রিয়াকরণ শুরু হয়। একটি ইভেন্ট চালু অ্যামাজন ইভেন্টব্রিজ তৈরি এবং একটি পাঠানো হয় এডাব্লুএস ল্যাম্বদা লক্ষ্য যা একটি অ্যামাজন টেক্সট্র্যাক্ট কাজ ট্রিগার করে।
আপনি সার্ভারহীন AWS পরিষেবাগুলি যেমন Lambda এবং ব্যবহার করতে পারেন এডাব্লুএস স্টেপ ফাংশন গুদামজাতকরণ, বিশ্লেষণ, এবং এআই এবং মেশিন লার্নিং (এমএল) এর জন্য AWS AI পরিষেবা এবং AWS অ্যানালিটিক্স এবং ডেটাবেস পরিষেবাগুলির মধ্যে অ্যাসিঙ্ক্রোনাস পরিষেবা ইন্টিগ্রেশন তৈরি করতে৷ এই পোস্টে, আমরা অ্যামাজন টেক্সট্র্যাক্ট অ্যাসিঙ্ক্রোনাস API-এর অনুরোধের অবস্থা অ্যাসিঙ্ক্রোনাসভাবে নিয়ন্ত্রণ এবং বজায় রাখতে স্টেপ ফাংশনগুলি কীভাবে ব্যবহার করতে হয় তা প্রদর্শন করি। কল এবং প্রতিক্রিয়া পরিচালনার জন্য একটি রাষ্ট্রীয় মেশিন ব্যবহার করে এটি অর্জন করা হয়। অ্যামাজন টেক্সট্র্যাক্ট থেকে পেজিনেটেড API প্রতিক্রিয়া ডেটাকে একক JSON অবজেক্টে মার্জ করতে আমরা স্টেট মেশিনের মধ্যে Lambda ব্যবহার করি যাতে OCR ব্যবহার করে বের করা সেমি-স্ট্রাকচার্ড টেক্সট ডেটা থাকে।
তারপরে আমরা এই OCR ডেটাকে একটি সাধারণ কাঠামোগত বিন্যাসে একত্রিত করার জন্য একটি প্রমিত পদ্ধতি ব্যবহার করে বিভিন্ন ফর্ম জুড়ে ফিল্টার করি অ্যামাজন অ্যাথেনা এবং একটি SQL Amazon Textract JSON সার্ডি.
আপনি প্রসেসিং স্টেট ট্র্যাক করতে এবং প্রতিটি স্টেটের আউটপুট ধরে রাখতে সার্ভারহীন স্টেপ ফাংশন ব্যবহার করে এই পাইপলাইনের মাধ্যমে নেওয়া পদক্ষেপগুলি ট্রেস করতে পারেন। এটি এমন কিছু যা কিছু শিল্পের গ্রাহকরা ডেটা নিয়ে কাজ করার সময় করতে পছন্দ করেন যেখানে আপনাকে অবশ্যই Amazon Textract এর মতো পরিষেবাগুলির সমস্ত ভবিষ্যদ্বাণীর ফলাফল ধরে রাখতে হবে যাতে দীর্ঘমেয়াদে আপনার পাইপলাইনের ফলাফলের ব্যাখ্যাযোগ্যতা প্রচার করা যায়।
অবশেষে, আপনি অ্যাথেনা টেবিলে নিষ্কাশিত ডেটা জিজ্ঞাসা করতে পারেন।
নিম্নলিখিত বিভাগে, আমরা ব্যবহার করে পাইপলাইন সেট আপ করার মাধ্যমে আপনাকে নিয়ে চলেছি এডাব্লুএস ক্লাউডফর্মেশন, পাইপলাইন পরীক্ষা করা, এবং নতুন ফর্ম সংস্করণ যোগ করা। এই পাইপলাইন একটি রক্ষণাবেক্ষণযোগ্য সমাধান প্রদান করে কারণ প্রতিটি উপাদান (ইনজেস্ট, পাঠ্য নিষ্কাশন, পাঠ্য প্রক্রিয়াকরণ) স্বাধীন এবং বিচ্ছিন্ন।
CloudFormation স্ট্যাকের জন্য ডিফল্ট ইনপুট পরামিতি সংজ্ঞায়িত করুন
CloudFormation স্ট্যাকের জন্য ইনপুট পরামিতি সংজ্ঞায়িত করতে, খুলুন default.properties
অধীনে params
ফোল্ডার এবং নিম্নলিখিত কোড লিখুন:
সমাধান স্থাপন করুন
আপনার পাইপলাইন স্থাপন করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- বেছে নিন স্ট্যাক চালু করুন:
- বেছে নিন পরবর্তী.
- নিম্নলিখিত স্ক্রিনশটে দেখানো হিসাবে স্ট্যাকের বিবরণ নির্দিষ্ট করুন এবং নির্বাচন করুন পরবর্তী.
- মধ্যে স্ট্যাক বিকল্পগুলি কনফিগার করুন বিভাগ, ঐচ্ছিক ট্যাগ, অনুমতি, এবং অন্যান্য উন্নত সেটিংস যোগ করুন।
- বেছে নিন পরবর্তী.
- স্ট্যাকের বিবরণ পর্যালোচনা করুন এবং নির্বাচন করুন আমি স্বীকার করি যে AWS CloudFormation কাস্টম নাম সহ IAM সংস্থান তৈরি করতে পারে.
- বেছে নিন স্ট্যাক তৈরি করুন.
এটি আপনার AWS অ্যাকাউন্টে স্ট্যাক স্থাপনা শুরু করে।
স্ট্যাক সফলভাবে স্থাপন করার পরে, আপনি পরবর্তী বিভাগে বর্ণিত পাইপলাইন পরীক্ষা শুরু করতে পারেন।
পাইপলাইন পরীক্ষা করুন
একটি সফল স্থাপনার পরে, আপনার পাইপলাইন পরীক্ষা করার জন্য নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- ডাউনলোড নমুনা ফাইল আপনার কম্পিউটারে।
- তৈরি একটি
/uploads
ফোল্ডার (পার্টিশন) সদ্য নির্মিত ইনপুট S3 বালতি অধীনে.
- এর মতো আলাদা ফোল্ডার (পার্টিশন) তৈরি করুন
jobapplications
অধীনে/uploads
.
- নমুনা ডক্স ফোল্ডার থেকে চাকরির আবেদনের প্রথম সংস্করণটি আপলোড করুন৷
/uploads/jobapplications
পার্টিশন।
পাইপলাইন সম্পূর্ণ হলে, আপনি নথির এই সংস্করণের জন্য নিষ্কাশিত কী-মান খুঁজে পেতে পারেন /OuputS3/03-textract-parsed-output/jobapplications
Amazon S3 কনসোলে।
আপনি এটি এথেনা টেবিলেও খুঁজে পেতে পারেন (applications_data_table
) উপরে ডেটাবেস তালিকা (jobapplicationsdatabase
).
- নমুনা ডক্স ফোল্ডার থেকে চাকরির আবেদনের দ্বিতীয় সংস্করণটি আপলোড করুন
/uploads/jobapplications
পার্টিশন।
পাইপলাইন সম্পূর্ণ হলে, আপনি এই সংস্করণের জন্য নিষ্কাশিত কী-মান খুঁজে পেতে পারেন /OuputS3/03-textract-parsed-output/jobapplications
Amazon S3 কনসোলে।
আপনি এটি এথেনা টেবিলেও খুঁজে পেতে পারেন (applications_data_table
) উপরে ডেটাবেস তালিকা (jobapplicationsdatabase
).
তুমি করেছ! আপনি সফলভাবে আপনার পাইপলাইন স্থাপন করেছেন৷
নতুন ফর্ম সংস্করণ যোগ করুন
একটি নতুন ফর্ম সংস্করণের জন্য সমাধানটি আপডেট করা সহজ-প্রতিটি ফর্ম সংস্করণকে শুধুমাত্র প্রক্রিয়াকরণ স্ট্যাকের প্রশ্নগুলি পরীক্ষা করে আপডেট করা প্রয়োজন৷
আপনি আপডেট করার পরে, আপনি AWS CloudFormation API ব্যবহার করে আপডেট করা পাইপলাইন পুনরায় স্থাপন করতে পারেন এবং আপনার পাইপলাইনে পরিবর্তন করার জন্য প্রয়োজনীয় ন্যূনতম ব্যাঘাত এবং বিকাশ প্রচেষ্টার সাথে আপনার স্কিমার জন্য একই স্ট্যান্ডার্ড ডেটা পয়েন্টে পৌঁছে নতুন নথিগুলি প্রক্রিয়া করতে পারেন। এই নমনীয়তা, যা পার্সিং এবং নিষ্কাশন আচরণকে ডিকপলিং করে এবং এথেনায় JSON SerDe কার্যকারিতা ব্যবহার করে অর্জন করা হয়, এই পাইপলাইনটিকে যেকোন সংখ্যক ফর্ম সংস্করণের জন্য একটি রক্ষণাবেক্ষণযোগ্য সমাধান করে তোলে যা আপনার সংস্থাকে তথ্য সংগ্রহের জন্য প্রক্রিয়া করতে হবে।
যখন আপনি ইনজেস্ট সলিউশন চালান, ইনকামিং ফর্মগুলি থেকে ডেটা স্বয়ংক্রিয়ভাবে অ্যাথেনাতে জমা হয় তাদের সাথে সম্পর্কিত ফাইল এবং ইনপুটগুলি সম্পর্কে তথ্য সহ। যখন আপনার ফর্মের ডেটা অসংগঠিত থেকে স্ট্রাকচার্ড ডেটাতে চলে যায়, তখন এটি ডাউনস্ট্রিম অ্যাপ্লিকেশন যেমন অ্যানালিটিক্স, এমএল মডেলিং এবং আরও অনেক কিছুর জন্য ব্যবহার করার জন্য প্রস্তুত।
পরিষ্কার কর
চলমান চার্জগুলি এড়াতে, আপনার কাজ শেষ হয়ে গেলে এই সমাধানের অংশ হিসাবে আপনার তৈরি সংস্থানগুলি মুছুন৷
- Amazon S3 কনসোলে, ক্লাউডফর্মেশন স্ট্যাকের অংশ হিসাবে আপনার তৈরি করা বালতিগুলি ম্যানুয়ালি মুছুন।
- এডাব্লুএস ক্লাউডফর্মেশন কনসোলে, নির্বাচন করুন স্ট্যাক নেভিগেশন ফলকে।
- প্রধান স্ট্যাক নির্বাচন করুন এবং নির্বাচন করুন মুছে ফেলা.
এটি স্বয়ংক্রিয়ভাবে নেস্টেড স্ট্যাকগুলি মুছে দেয়।
উপসংহার
এই পোস্টে, আমরা দেখিয়েছি যে গ্রাহকরা কীভাবে ডকুমেন্ট প্রসেসিং ট্রেস এবং কাস্টমাইজ করতে চান তারা অ্যামাজন টেক্সট্র্যাক্টের সাথে একটি ইভেন্ট-চালিত, সার্ভারহীন, মাল্টি-ফরম্যাট ডকুমেন্ট পার্সিং পাইপলাইন তৈরি এবং স্থাপন করতে পারে। এই পাইপলাইনটি একটি রক্ষণাবেক্ষণযোগ্য সমাধান প্রদান করে কারণ প্রতিটি উপাদান (ইনজেস্ট, টেক্সট এক্সট্রাকশন, টেক্সট প্রসেসিং) স্বতন্ত্র এবং বিচ্ছিন্ন, যা বিভিন্ন প্রক্রিয়াকরণের প্রয়োজনীয়তা মোকাবেলায় সংস্থাগুলিকে তাদের সমাধানগুলিকে কার্যকর করার অনুমতি দেয়।
আজই সমাধানটি চেষ্টা করুন এবং মন্তব্য বিভাগে আপনার প্রতিক্রিয়া জানান।
লেখক সম্পর্কে
এমিলি সোওয়ার্ড AWS প্রফেশনাল সার্ভিসের সাথে একজন ডেটা সায়েন্টিস্ট। তিনি ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) এর উপর জোর দিয়ে যুক্তরাজ্যের স্কটল্যান্ডের এডিনবার্গ বিশ্ববিদ্যালয় থেকে কৃত্রিম বুদ্ধিমত্তায় ডিস্টিনশন সহ বিজ্ঞানে স্নাতকোত্তর করেছেন। এমিলি এআই-সক্ষম পণ্য গবেষণা এবং উন্নয়ন, কর্মক্ষম উৎকর্ষতা এবং সরকারী ও বেসরকারী সেক্টরে সংস্থাগুলিতে চলমান এআই কাজের চাপের জন্য শাসনের উপর দৃষ্টি নিবদ্ধ করে প্রয়োগকৃত বৈজ্ঞানিক এবং প্রকৌশল ভূমিকায় কাজ করেছেন। তিনি AWS সিনিয়র স্পিকার এবং সম্প্রতি AWS Well-Architected in the Machine Learning Lens-এর লেখক হিসেবে গ্রাহক নির্দেশনায় অবদান রেখেছেন।
সন্দীপ সিং AWS প্রফেশনাল সার্ভিসের সাথে একজন ডেটা সায়েন্টিস্ট। তিনি ক্যালিফোর্নিয়ার সান ডিয়েগো স্টেট ইউনিভার্সিটি (SDSU) থেকে AI এবং ডেটা সায়েন্সে একাগ্রতার সাথে ইনফরমেশন সিস্টেমে স্নাতকোত্তর করেছেন। তিনি একজন শক্তিশালী কম্পিউটার সায়েন্স ব্যাকগ্রাউন্ড সহ একজন সম্পূর্ণ স্ট্যাক ডেটা সায়েন্টিস্ট এবং এআই সিস্টেম এবং কন্ট্রোল ডিজাইনে বিশেষত্ব সহ বিশ্বস্ত উপদেষ্টা। তিনি গ্রাহকদের তাদের উচ্চ প্রভাবের প্রকল্পগুলিকে সঠিক পথে পেতে সাহায্য করার জন্য, তাদের ক্লাউড যাত্রায় তাদের পরামর্শ ও নির্দেশনা এবং অত্যাধুনিক AI/ML সক্ষম সমাধানগুলি তৈরি করতে আগ্রহী৷
- Coinsmart. ইউরোপের সেরা বিটকয়েন এবং ক্রিপ্টো এক্সচেঞ্জ।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. বিনামূল্যে এক্সেস.
- ক্রিপ্টোহক। Altcoin রাডার। বিনামূল্যে ট্রায়াল.
- সূত্র: https://aws.amazon.com/blogs/machine-learning/build-a-traceable-custom-multi-format-document-parsing-pipeline-with-amazon-textract/
- "
- 100
- সম্পর্কে
- হিসাব
- অর্জন
- দিয়ে
- ঠিকানা
- অগ্রসর
- AI
- এআই পরিষেবা
- সব
- অনুমতি
- মর্দানী স্ত্রীলোক
- বৈশ্লেষিক ন্যায়
- API
- API গুলি
- আবেদন
- অ্যাপ্লিকেশন
- অভিগমন
- স্থাপত্য
- কৃত্রিম
- কৃত্রিম বুদ্ধিমত্তা
- ডেস্কটপ AWS
- পটভূমি
- সীমান্ত
- নির্মাণ করা
- ভবন
- ব্যবসায়
- ক্যালিফোর্নিয়া
- কারণ
- চ্যালেঞ্জ
- পরিবর্তন
- চার্জ
- মেঘ
- কোড
- মন্তব্য
- সাধারণ
- উপাদান
- কম্পিউটার বিজ্ঞান
- একাগ্রতা
- কনসোল
- বিষয়বস্তু
- নিয়ন্ত্রণ
- গ্রাহকদের
- উপাত্ত
- তথ্য বিজ্ঞান
- তথ্য বিজ্ঞানী
- ডেটাবেস
- প্রদর্শিত
- স্থাপন
- বিস্তৃতি
- নকশা
- উন্নয়ন
- বিভিন্ন
- ভাঙ্গন
- কাগজপত্র
- প্রকৌশল
- ঘটনা
- উদাহরণ
- প্রতিক্রিয়া
- ক্ষেত্রসমূহ
- আর্থিক
- অর্থনৈতিক সেবা সমূহ
- প্রথম
- নমনীয়তা
- প্রবাহ
- দৃষ্টি নিবদ্ধ করা
- অনুসরণ
- ফর্ম
- বিন্যাস
- ফর্ম
- সম্পূর্ণ
- কার্যকারিতা
- শাসন
- স্বাস্থ্যসেবা
- উচ্চ
- ঝুলিতে
- কিভাবে
- কিভাবে
- HTTPS দ্বারা
- প্রভাব
- শিল্প
- শিল্প
- তথ্য
- ঐক্যবদ্ধতার
- বুদ্ধিমত্তা
- IT
- কাজ
- রাজ্য
- ভাষা
- শিক্ষা
- ত্যাগ
- দীর্ঘ
- মেশিন
- মেশিন লার্নিং
- বজায় রাখা
- ব্যবস্থাপনা
- পরিচালক
- ম্যানুয়ালি
- ML
- প্রাকৃতিক
- ন্যাভিগেশন
- সংখ্যা
- নৈবেদ্য
- অফার
- খোলা
- সংগঠন
- সাংগঠনিক
- সংগঠন
- অন্যান্য
- অনুশীলন
- ভবিষ্যতবাণী
- প্রাথমিক
- ব্যক্তিগত
- সমস্যা
- প্রক্রিয়া
- পণ্য
- পেশাদারী
- প্রকল্প
- উপলব্ধ
- প্রকাশ্য
- গবেষণা
- গবেষণা ও উন্নয়ন
- Resources
- প্রতিক্রিয়া
- ফলাফল
- চালান
- দৌড়
- সান
- বিজ্ঞান
- বিজ্ঞানী
- সেক্টর
- সেক্টর
- সচেষ্ট
- Serverless
- সেবা
- সেবা
- সেট
- বিন্যাস
- সহজ
- So
- সমাধান
- সলিউশন
- সমাধান
- কিছু
- বক্তা
- গাদা
- শুরু
- রাষ্ট্র
- রাষ্ট্র-এর-শিল্প
- স্টোরেজ
- দোকান
- শক্তিশালী
- সফল
- সফলভাবে
- সিস্টেম
- লক্ষ্য
- কর
- পরীক্ষা
- পরীক্ষামূলক
- দ্বারা
- আজ
- টুল
- সরঞ্জাম
- পথ
- ঐতিহ্যগত
- অবিভক্ত
- যুক্তরাজ্য
- বিশ্ববিদ্যালয়
- আপডেট
- ব্যবহার
- মূল্য
- মধ্যে
- কাজ
- বছর
- বছর