চুক্তি, চালান, জীবনবৃত্তান্ত এবং প্রতিবেদনের মতো বিপুল পরিমাণ নথির সাথে লেনদেনকারী আধুনিক সংস্থাগুলির জন্য, প্রতিযোগিতামূলক প্রান্ত বজায় রাখার জন্য দক্ষতার সাথে প্রাসঙ্গিক ডেটা প্রক্রিয়াকরণ এবং পুনরুদ্ধার করা গুরুত্বপূর্ণ। যাইহোক, নথি সংরক্ষণ এবং অনুসন্ধানের ঐতিহ্যগত পদ্ধতিগুলি সময়সাপেক্ষ হতে পারে এবং প্রায়শই একটি নির্দিষ্ট নথি খুঁজে বের করার জন্য একটি বড় প্রচেষ্টার ফলস্বরূপ, বিশেষ করে যখন তারা হস্তাক্ষর অন্তর্ভুক্ত করে। যদি নথিগুলিকে বুদ্ধিমত্তার সাথে প্রক্রিয়া করার এবং উচ্চ নির্ভুলতার সাথে অনুসন্ধানযোগ্য করে তোলার উপায় থাকে?
এটি দিয়ে সম্ভব হয়েছে অ্যামাজন টেক্সট্র্যাক, AWS এর ইন্টেলিজেন্ট ডকুমেন্ট প্রসেসিং পরিষেবা, এর দ্রুত অনুসন্ধান ক্ষমতা সহ ওপেনসার্চ. এই পোস্টে, আমরা আপনাকে দ্রুত একটি নথি অনুসন্ধান সূচীকরণ সমাধান তৈরি এবং স্থাপন করার জন্য একটি যাত্রায় নিয়ে যাব যা আপনার সংস্থাকে আরও ভালভাবে ব্যবহার করতে এবং নথিগুলি থেকে অন্তর্দৃষ্টি বের করতে সহায়তা করে৷
আপনি হিউম্যান রিসোর্সেসে কর্মচারী চুক্তিতে নির্দিষ্ট ধারাগুলি খুঁজছেন, বা অর্থ বিশ্লেষক অর্থপ্রদানের ডেটা বের করার জন্য চালানের পাহাড়ের মধ্য দিয়ে অনুসন্ধান করছেন, এই সমাধানটি আপনাকে অভূতপূর্ব গতি এবং নির্ভুলতার সাথে আপনার প্রয়োজনীয় তথ্য অ্যাক্সেস করার ক্ষমতা দেওয়ার জন্য তৈরি করা হয়েছে।
প্রস্তাবিত সমাধানের সাথে, আপনার নথিগুলি স্বয়ংক্রিয়ভাবে গ্রহণ করা হয়, তাদের বিষয়বস্তু পার্স করা হয় এবং পরবর্তীকালে একটি অত্যন্ত প্রতিক্রিয়াশীল এবং মাপযোগ্য ওপেনসার্চ সূচকে সূচিত হয়।
আমরা কভার করব কিভাবে প্রযুক্তি যেমন Amazon Textract, এডাব্লুএস ল্যাম্বদা, আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3), এবং আমাজন ওপেন সার্চ সার্ভিস একটি ওয়ার্কফ্লোতে একত্রিত করা যেতে পারে যা নির্বিঘ্নে নথিগুলি প্রক্রিয়া করে। তারপরে আমরা OpenSearch-এ এই ডেটা ইন্ডেক্স করার জন্য ডুব দিয়ে থাকি এবং আপনার নখদর্পণে উপলব্ধ অনুসন্ধান ক্ষমতাগুলি প্রদর্শন করি৷
আপনার প্রতিষ্ঠান ডিজিটাল ট্রান্সফরমেশন যুগে প্রথম পদক্ষেপ নিচ্ছে বা টার্বোচার্জ তথ্য পুনরুদ্ধার করতে চাইছে এমন একটি প্রতিষ্ঠিত জায়ান্ট হোক না কেন, AWS ইন্টেলিজেন্ট ডকুমেন্ট প্রসেসিং এবং ওপেনসার্চ অফার করে এমন সুযোগগুলি নেভিগেট করার জন্য এই গাইডটি আপনার কম্পাস।
সার্জারির বাস্তবায়ন এই পোস্টে ব্যবহার করা হয় Amazon Textract IDP CDK নির্মাণ করে - AWS ক্লাউড ডেভেলপমেন্ট কিট (CDK) উপাদানগুলি ইন্টেলিজেন্ট ডকুমেন্ট প্রসেসিং (IDP) ওয়ার্কফ্লোগুলির জন্য পরিকাঠামো সংজ্ঞায়িত করতে - যা আপনাকে নির্দিষ্ট ক্ষেত্রে কাস্টমাইজযোগ্য IDP ওয়ার্কফ্লো তৈরি করতে দেয়৷ IDP CDK নির্মাণ এবং নমুনাগুলি হল AWS-এ IDP প্রক্রিয়াগুলির সংজ্ঞা সক্ষম করার জন্য উপাদানগুলির একটি সংগ্রহ এবং প্রকাশিত GitHub. ব্যবহৃত প্রধান ধারণা AWS ক্লাউড ডেভেলপমেন্ট কিট (CDK) গঠন, প্রকৃত CDK স্ট্যাক এবং এডাব্লুএস স্টেপ ফাংশন. কর্মশালা স্কেলে ডকুমেন্টগুলি স্বয়ংক্রিয় এবং প্রক্রিয়া করতে মেশিন লার্নিং ব্যবহার করুন ওয়ার্কফ্লো কাস্টমাইজ করা এবং আপনার নিজের জন্য একটি বেস হিসাবে অন্যান্য নমুনা ওয়ার্কফ্লো ব্যবহার করার বিষয়ে আরও জানতে এটি একটি ভাল সূচনা পয়েন্ট।
সমাধান ওভারভিউ
এই সমাধানে, আমরা তথ্য এবং নথির দ্রুত অনুসন্ধান এবং পুনরুদ্ধারের জন্য একটি OpenSearch সূচকে নথিগুলিকে সূচীকরণের উপর ফোকাস করি। পিডিএফ, টিআইএফএফ, জেপিইজি বা পিএনজি ফর্ম্যাটে ডকুমেন্টগুলি একটি অ্যামাজন সিম্পল স্টোরেজ সার্ভিসে রাখা হয় (আমাজন S3) বালতি এবং পরবর্তীতে এই ধাপ ফাংশন ওয়ার্কফ্লো ব্যবহার করে OpenSearch-এ সূচিত করা হয়েছে।
সার্জারির OpenSearchWorkflow-Decider নথিটি দেখে এবং যাচাই করে যে নথিটি সমর্থিত মাইম প্রকারগুলির মধ্যে একটি (PDF, TIFF, PNG বা JPEG)। এটি একটি নিয়ে গঠিত এডাব্লুএস ল্যাম্বদা ফাংশন.
সার্জারির ডকুমেন্ট স্প্লিটার নথি থেকে সর্বোচ্চ 2500-পৃষ্ঠার অংশ তৈরি করে। এর মানে হল যদিও অ্যামাজন টেক্সট্র্যাক্ট 3000 পৃষ্ঠা পর্যন্ত নথি সমর্থন করে, আপনি আরও অনেক পৃষ্ঠা সহ নথিতে পাস করতে পারেন এবং প্রক্রিয়াটি এখনও ভাল কাজ করে এবং পৃষ্ঠাগুলিকে OpenSearch-এ রাখে এবং সঠিক পৃষ্ঠা নম্বর তৈরি করে। দ্য ডকুমেন্ট স্প্লিটার একটি AWS Lambda ফাংশন হিসাবে প্রয়োগ করা হয়।
সার্জারির মানচিত্র রাজ্য সমান্তরাল প্রতিটি খণ্ড প্রক্রিয়া.
সার্জারির TextractAsync টাস্ক অ্যাসিঙ্ক্রোনাস ব্যবহার করে অ্যামাজন টেক্সট্র্যাক্টকে কল করে অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস (API) অনুসরণ করছে সেরা অভ্যাস অ্যামাজন সিম্পল নোটিফিকেশন সার্ভিস সহ (অ্যামাজন এসএনএস) বিজ্ঞপ্তি এবং আউটপুট কনফিগারেশন আমাজন টেক্সট্র্যাক্ট JSON আউটপুট একটি গ্রাহক Amazon S3 বালতিতে সংরক্ষণ করতে। এটিতে দুটি Amazon Lambda ফাংশন রয়েছে: একটি প্রক্রিয়াকরণের জন্য নথি জমা দেওয়া এবং একটি Amazon SNS বিজ্ঞপ্তিতে ট্রিগার করা।
কারন TextractAsync টাস্ক একাধিক পেজিনেটেড আউটপুট ফাইল তৈরি করতে পারে, TextractAsyncToJSON2 প্রক্রিয়া তাদের একটি JSON ফাইলে একত্রিত করে।
স্টেপ ফাংশন প্রসঙ্গ তথ্য দিয়ে সমৃদ্ধ করা হয়েছে যা ওপেন সার্চ ইনডেক্সে অনুসন্ধানযোগ্য হওয়া উচিত সেট মেটাডেটা পদক্ষেপ নমুনা বাস্তবায়ন যোগ করে ORIGIN_FILE_NAME
, START_PAGE_NUMBER
, এবং ORIGIN_FILE_URI
. অন্যান্য ব্যাকএন্ড সিস্টেমের তথ্য, নির্দিষ্ট আইডি বা শ্রেণীবিভাগ তথ্যের মতো অনুসন্ধানের অভিজ্ঞতাকে সমৃদ্ধ করতে আপনি যেকোনো তথ্য যোগ করতে পারেন।
সার্জারির ওপেন সার্চব্যাচ তৈরি করুন জেনারেট করা Amazon Textract আউটপুট JSON নেয়, SetMetaData দ্বারা সেট করা প্রসঙ্গ থেকে তথ্যের সাথে এটিকে একত্রিত করে এবং একটি ফাইল প্রস্তুত করে যা OpenSearch-এ ব্যাচ আমদানির জন্য অপ্টিমাইজ করা হয়।
মধ্যে OpenSearchPushInvoke, এই ব্যাচ আমদানি ফাইলটি OpenSearch সূচকে পাঠানো হয় এবং অনুসন্ধানের জন্য উপলব্ধ। এই AWS Lambda ফাংশন এর সাথে সংযুক্ত aws-lambda-opensearch থেকে নির্মাণ এডাব্লুএস সলিউশন m6g.large.search উদাহরণ ব্যবহার করে লাইব্রেরি, OpenSearch সংস্করণ 2.7, এবং অ্যামাজন ইলাস্টিক ব্লক সার্ভিস কনফিগার করেছে (আমাজন ইবিএস) 2 GB সহ সাধারণ উদ্দেশ্য 2 (GP200) থেকে ভলিউম আকার। আপনি আপনার প্রয়োজনীয়তা অনুযায়ী OpenSearch কনফিগারেশন পরিবর্তন করতে পারেন।
চূড়ান্ত TaskOpenSearchMapping পদক্ষেপটি প্রসঙ্গটি পরিষ্কার করে, যা অন্যথায় অতিক্রম করতে পারে ধাপ ফাংশন কোটা of একটি টাস্ক, স্টেট বা এক্সিকিউশনের জন্য সর্বোচ্চ ইনপুট বা আউটপুট সাইজ.
পূর্বশর্ত
নমুনা স্থাপন করার জন্য, আপনার একটি AWS অ্যাকাউন্টের প্রয়োজন AWS ক্লাউড ডেভেলপমেন্ট কিট (AWS CDK), একটি বর্তমান পাইথন সংস্করণ এবং ডকার প্রয়োজন। AWS ক্লাউডফর্মেশন টেমপ্লেট স্থাপন করার জন্য আপনার অনুমতির প্রয়োজন, তে চাপুন অ্যামাজন ইলাস্টিক কনটেইনার রেজিস্ট্রি (Amazon ECR), তৈরি করুন অ্যামাজন আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (AWS IAM) ভূমিকা, Amazon Lambda ফাংশন, Amazon S3 buckets, Amazon Step Functions, Amazon OpenSearch ক্লাস্টার এবং একটি অ্যামাজন কগনিটো ব্যবহারকারী পুল। নিশ্চিত করুন আপনার AWS CLI পরিবেশ সেটআপ করা হয়েছে অনুমতি অনুযায়ী.
আপনি একটি স্পিন আপ করতে পারেন এডাব্লুএস ক্লাউড 9 এডব্লিউএস সিডিকে, পাইথন এবং ডকারের সাথে ডিপ্লয়মেন্ট শুরু করার জন্য প্রি-ইনস্টল করা হয়েছে।
walkthrough
বিস্তৃতি
- আপনি পূর্বশর্তগুলি সেট আপ করার পরে, আপনাকে প্রথমে সংগ্রহস্থলটি ক্লোন করতে হবে:
- তারপরে সংগ্রহস্থল ফোল্ডারে সিডি করুন এবং নির্ভরতাগুলি ইনস্টল করুন:
- OpenSearchWorkflow স্ট্যাক স্থাপন করুন:
GitHub নমুনাগুলি থেকে ডিফল্ট কনফিগারেশন সেটিংসের সাথে মোতায়েন প্রায় 25 মিনিট সময় নেয় এবং একটি স্টেপ ফাংশন ওয়ার্কফ্লো তৈরি করে, যা একটি ডকুমেন্টকে Amazon S3 বাকেট/প্রিফিক্সে রাখা হলে এবং পরবর্তীতে ডকুমেন্টের বিষয়বস্তু সূচিবদ্ধ না হওয়া পর্যন্ত প্রক্রিয়া করা হয়। একটি OpenSearch ক্লাস্টারে।
নিম্নলিখিতটি একটি নমুনা আউটপুট সহ দরকারী লিঙ্ক এবং তথ্য থেকে উত্পন্নcdk deploy OpenSearchWorkflow
কমান্ড প্রয়োগ করুন:
এই তথ্যটি AWS CloudFormation কনসোলেও পাওয়া যায়।
যখন একটি নতুন নথির অধীনে স্থাপন করা হয় OpenSearchWorkflow.DocumentUploadLocation, এই ডকুমেন্টের জন্য একটি নতুন স্টেপ ফাংশন ওয়ার্কফ্লো শুরু হয়েছে।
এই নথির স্থিতি পরীক্ষা করতে, OpenSearchWorkflow.StepFunctionFlowLink AWS ম্যানেজমেন্ট কনসোলে StepFunction এক্সিকিউশনের তালিকার একটি লিঙ্ক প্রদান করে, যা Amazon S3 এ আপলোড করা প্রতিটি নথির জন্য নথি প্রক্রিয়াকরণের অবস্থা প্রদর্শন করে। টিউটোরিয়াল স্টেপ ফাংশন কনসোলে এক্সিকিউশন দেখা এবং ডিবাগ করা AWS কনসোলে উপাদান এবং দৃশ্যগুলির একটি ওভারভিউ প্রদান করে।
পরীক্ষামূলক
- একটি নমুনা ফাইল ব্যবহার করে প্রথম পরীক্ষা.
- StepFunction ওয়ার্কফ্লোতে লিঙ্কটি নির্বাচন করার পরে বা AWS ম্যানেজমেন্ট কনসোল খুলুন এবং স্টেপ ফাংশন পরিষেবা পৃষ্ঠায় যাওয়ার পরে, আপনি বিভিন্ন ওয়ার্কফ্লো আহ্বানগুলি দেখতে পারেন।
- বর্তমানে চলমান নমুনা ডকুমেন্ট এক্সিকিউশনের দিকে নজর দিন, যেখানে আপনি পৃথক ওয়ার্কফ্লো কাজগুলি সম্পাদন করতে পারেন।
সার্চ
প্রক্রিয়াটি শেষ হয়ে গেলে, আমরা যাচাই করতে পারি যে নথিটি OpenSearch সূচীতে সূচিত করা হয়েছে।
- এটি করার জন্য, প্রথমে আমরা একটি Amazon Cognito ব্যবহারকারী তৈরি করি। Amazon Cognito ব্যবহার করা হয় OpenSearch সূচকের বিরুদ্ধে ব্যবহারকারীদের প্রমাণীকরণের জন্য। সিডিকে ডিপ্লোয় থেকে আউটপুটে লিঙ্কটি নির্বাচন করুন (বা দেখুন এডাব্লুএস ক্লাউডফর্মেশন AWS ম্যানেজমেন্ট কনসোলে আউটপুট) নামে OpenSearchWorkflow.CognitoUserPoolLink.
- পরবর্তী, নির্বাচন করুন ব্যবহারকারী তৈরি করুন বোতাম, যা আপনাকে ওপেনসার্চ ড্যাশবোর্ড অ্যাক্সেস করার জন্য একটি ব্যবহারকারীর নাম এবং একটি পাসওয়ার্ড লিখতে একটি পৃষ্ঠায় নির্দেশ করে।
- নির্বাচন করার পর ব্যবহারকারী তৈরি করুন, আপনি ক্লিক করে OpenSearch ড্যাশবোর্ডে চালিয়ে যেতে পারেন OpenSearchWorkflow.OpenSearchDashboard CDK স্থাপনার আউটপুট থেকে। পূর্বে তৈরি করা ব্যবহারকারীর নাম এবং পাসওয়ার্ড ব্যবহার করে লগইন করুন। প্রথমবার লগইন করার সময় আপনাকে পাসওয়ার্ড পরিবর্তন করতে হবে।
- একবার ওপেনসার্চ ড্যাশবোর্ডে লগ ইন করার পরে, নির্বাচন করুন স্ট্যাক ম্যানেজমেন্ট বিভাগ, অনুসরণ করে সূচক প্যাটার্নএকটি অনুসন্ধান সূচক তৈরি করতে s.
- সূচকের জন্য ডিফল্ট নাম কাগজপত্র-সূচক এবং একটি সূচক প্যাটার্ন নাম কাগজপত্র-সূচী* যে মিলবে।
- ক্লিক করার পরে পরবর্তী পর্ব, নির্বাচন করুন টাইমস্ট্যাম্প যেমন সময় ক্ষেত্র এবং সূচক প্যাটার্ন তৈরি করুন.
- এখন, মেনু থেকে, নির্বাচন করুন আবিষ্কার.
বেশিরভাগ ক্ষেত্রে, আপনাকে আপনার শেষ ইনজেস্ট অনুযায়ী সময়-কাল পরিবর্তন করতে হবে। ডিফল্ট 15 মিনিট এবং প্রায়ই শেষ 15 মিনিটে কোন কার্যকলাপ ছিল না. এই উদাহরণে, এটি 15 দিনে পরিবর্তিত হয়েছে যা ইনজেস্টকে কল্পনা করতে পারে৷
- এখন আপনি অনুসন্ধান শুরু করতে পারেন. একটি উপন্যাস সূচী করা হয়েছে, আপনি যে কোনো পদের জন্য অনুসন্ধান করতে পারেন আমাকে ইসমাঈল ডাকো এবং ফলাফল দেখুন।
এই ক্ষেত্রে, শব্দ আমাকে ইসমাঈল ডাকো প্রদত্ত ইউনিফর্ম রিসোর্স আইডেন্টিফায়ার (URI) নথির পৃষ্ঠা 6-এ প্রদর্শিত হয়, যা ফাইলটির Amazon S3 অবস্থান নির্দেশ করে। এটি ম্যানুয়ালি এড়িয়ে যাওয়ার তুলনায় PDF, TIFF বা ইমেজ ডকুমেন্টের একটি বৃহৎ কর্পাস জুড়ে দস্তাবেজগুলি সনাক্ত করা এবং তথ্য খুঁজে পাওয়া দ্রুততর করে তোলে।
স্কেলে চলছে
একটি সূচীকরণ প্রক্রিয়ার স্কেল এবং সময়কাল অনুমান করার জন্য, বাস্তবায়নটি 93,997টি নথি এবং মোট 1,583,197 পৃষ্ঠাগুলির সমষ্টি (গড় 16.84 পৃষ্ঠা/নথি এবং 3755 পৃষ্ঠার বৃহত্তম ফাইল) দিয়ে পরীক্ষা করা হয়েছিল, যেগুলি সবগুলি OpenSearch-এ সূচিত হয়েছে৷ ডিফল্ট ব্যবহার করে ইউএস ইস্ট (এন. ভার্জিনিয়া – us-east-5.5) অঞ্চলে সমস্ত ফাইল প্রক্রিয়াকরণ এবং OpenSearch-এ সূচীকরণ করতে 1 ঘন্টা সময় লেগেছে আমাজন টেক্সট্র্যাক্ট পরিষেবা কোটা. নীচের গ্রাফটি 18:00-এ একটি প্রাথমিক পরীক্ষা দেখায় এবং তারপরে 21:00-এ প্রধান গ্রহণ এবং সমস্ত 2:30-এর মধ্যে সম্পন্ন হয়৷
প্রক্রিয়াকরণের জন্য, tcdk.SFE executionsStartThrottle একটি সেট করা হয়েছে executions_concurrency_threshold
=550, যার মানে সমসাময়িক ডকুমেন্ট প্রসেসিং ওয়ার্কফ্লো 550 এ সীমাবদ্ধ করা হয়েছে এবং অতিরিক্ত অনুরোধগুলি সারিবদ্ধ করা হয়েছে আমাজন SQS ফিস্ট-ইন-ফার্স্ট-আউট (FIFO) সারি, যা পরবর্তীতে বর্তমান ওয়ার্কফ্লো শেষ হলে নিষ্কাশন করা হয়। 550-এর থ্রেশহোল্ড মার্কিন-পূর্ব-600 অঞ্চলে 1-এর টেক্সট্র্যাক্ট পরিষেবা কোটার উপর ভিত্তি করে। অতএব, সারির গভীরতা এবং প্রাচীনতম বার্তার বয়স হল পর্যবেক্ষণের যোগ্য মেট্রিক।
এই পরীক্ষায়, সমস্ত নথি একযোগে Amazon S3 এ আপলোড করা হয়েছিল, তাই দৃশ্যমান বার্তার আনুমানিক সংখ্যা একটি খাড়া বৃদ্ধি এবং তারপর একটি ধীর পতন কারণ কোন নতুন নথি গ্রহণ করা হয় না. দ্য প্রাচীনতম বার্তার আনুমানিক বয়স সমস্ত বার্তা প্রক্রিয়া না হওয়া পর্যন্ত বৃদ্ধি পায়। আমাজন SQS মেসেজ রিটেনশন পিরিয়ড 14 দিনের জন্য সেট করা হয়েছে। খুব দীর্ঘ চলমান ব্যাকলগ প্রক্রিয়াকরণের জন্য যা 14 দিনের প্রসেসিং অতিক্রম করতে পারে, প্রতিনিধি নথিগুলির একটি ছোট উপসেট প্রক্রিয়াকরণের সাথে শুরু করুন এবং 14 দিন অতিক্রম করার আগে আপনি কতগুলি নথি পাস করতে পারবেন তা অনুমান করতে কার্যকর করার সময়কাল পর্যবেক্ষণ করুন৷ Amazon SQS ক্লাউডওয়াচ মেট্রিক্সগুলি নথিগুলির একটি বৃহৎ ব্যাকলগ প্রক্রিয়াকরণের ক্ষেত্রে একই রকম দেখায়, যা একবারে প্রবেশ করা হয় তারপর সম্পূর্ণরূপে প্রক্রিয়া করা হয়। যদি আপনার ব্যবহারের ক্ষেত্রে নথির একটি স্থির প্রবাহ হয়, উভয় মেট্রিক্স, দৃশ্যমান বার্তার আনুমানিক সংখ্যা এবং প্রাচীনতম বার্তার আনুমানিক বয়স আরো লিনিয়ার হবে। আপনি ব্যাকলগ প্রক্রিয়াকরণের সাথে একটি স্থির লোড মিশ্রিত করতে এবং আপনার প্রক্রিয়াকরণের প্রয়োজন অনুযায়ী ক্ষমতা বরাদ্দ করতে থ্রেশহোল্ড প্যারামিটার ব্যবহার করতে পারেন।
নিরীক্ষণ করার জন্য আরেকটি মেট্রিক হল OpenSearch ক্লাস্টারের স্বাস্থ্য, যা আপনার অনুযায়ী সেটআপ করা উচিত Amazon OpenSearch পরিষেবার জন্য সর্বোত্তম কার্যপ্রণালী. ডিফল্ট স্থাপনা m6g.large.search উদাহরণ ব্যবহার করে।
এখানে OpenSearch ক্লাস্টারের জন্য কী পারফরম্যান্স ইন্ডিকেটর (KPI) এর একটি স্ন্যাপশট রয়েছে। কোন ত্রুটি, ধ্রুবক ইনডেক্সিং ডেটা রেট এবং লেটেন্সি।
স্টেপ ফাংশন ওয়ার্কফ্লো এক্সিকিউশনগুলি প্রতিটি পৃথক নথির জন্য প্রক্রিয়াকরণের অবস্থা দেখায়। আপনি যদি মৃত্যুদন্ড দেখতে পান ব্যর্থ রাজ্য, তারপর বিশদ নির্বাচন করুন। নিরীক্ষণের জন্য একটি ভাল মেট্রিক হল AWS ক্লাউডওয়াচ স্বয়ংক্রিয় ড্যাশবোর্ড ধাপ ফাংশনের জন্য, যা কিছু প্রকাশ করে ধাপ ফাংশন CloudWatch মেট্রিক্স.
এই AWS ক্লাউডওয়াচ ড্যাশবোর্ড গ্রাফে, আপনি সময়ের সাথে সাথে সফল স্টেপ ফাংশন এক্সিকিউশন দেখতে পাচ্ছেন।
এবং এই এক ব্যর্থ মৃত্যুদন্ড দেখায়. এগুলি AWS কনসোল স্টেপ ফাংশন ওভারভিউ এর মাধ্যমে তদন্ত করার যোগ্য।
নিম্নলিখিত স্ক্রিনশটটি মূল ফাইলটি 0 আকারের হওয়ার কারণে একটি ব্যর্থ কার্য সম্পাদনের একটি উদাহরণ দেখায়, যা অর্থবহ কারণ ফাইলটিতে কোনও বিষয়বস্তু নেই এবং প্রক্রিয়া করা যায়নি৷ আপনি উত্স নথিতে ফিরে যেতে এবং মূল কারণটি যাচাই করার জন্য ব্যর্থ প্রক্রিয়াগুলি ফিল্টার করা এবং ব্যর্থতাগুলিকে কল্পনা করা গুরুত্বপূর্ণ৷
অন্যান্য ব্যর্থতার মধ্যে এমন নথি অন্তর্ভুক্ত থাকতে পারে যা মাইম টাইপের নয়: অ্যাপ্লিকেশন/পিডিএফ, ইমেজ/পিএনজি, ইমেজ/জেপিইজি, বা ইমেজ/টিফ কারণ অন্যান্য নথির ধরন অ্যামাজন টেক্সট্র্যাক্ট দ্বারা সমর্থিত নয়।
মূল্য
বাস্তবায়নের জন্য ব্যবহৃত AWS পরিষেবাগুলিতে 1,583,278 পৃষ্ঠাগুলি গ্রহণের মোট খরচ ভাগ করা হয়েছিল৷ নিম্নলিখিত তালিকাটি আনুমানিক সংখ্যা হিসাবে কাজ করে, কারণ আপনার প্রকৃত খরচ এবং প্রক্রিয়াকরণের সময়কাল নথির আকার, নথি প্রতি পৃষ্ঠার সংখ্যা, নথিতে তথ্যের ঘনত্ব এবং AWS অঞ্চলের উপর নির্ভর করে। আমাজন ডায়নামোডিবি খরচ করছিল $0.55, Amazon S3 $3.33, OpenSearch Service $14.71, Step Functions $17.92, AWS Lambda $28.95, এবং Amazon Textract $1,849.97। এছাড়াও, মনে রাখবেন যে মোতায়েন করা Amazon OpenSearch পরিষেবা ক্লাস্টারটি ঘন্টা দ্বারা বিল করা হয় এবং নির্দিষ্ট সময়ের মধ্যে চালানোর সময় উচ্চতর খরচ জমা হবে৷
পরিবর্তন
সম্ভবত, আপনি বাস্তবায়ন পরিবর্তন করতে চান এবং আপনার ব্যবহারের ক্ষেত্রে এবং নথিগুলির জন্য কাস্টমাইজ করতে চান। কর্মশালা স্কেলে ডকুমেন্টগুলি স্বয়ংক্রিয় এবং প্রক্রিয়া করতে মেশিন লার্নিং ব্যবহার করুন কিভাবে প্রকৃত কর্মপ্রবাহ, প্রবাহ পরিবর্তন, এবং নতুন উপাদান যোগ করার বিষয়ে একটি ভাল ওভারভিউ উপস্থাপন করে। OpenSearch সূচকে কাস্টম ক্ষেত্র যোগ করতে, দেখুন সেট মেটাডেটা ব্যবহার করে কর্মপ্রবাহে টাস্ক set-manifest-meta-data-opensearch কনটেক্সটে মেটা-ডেটা যোগ করার জন্য AWS Lambda ফাংশন, যা OpenSearch সূচকে একটি ক্ষেত্র হিসেবে যোগ করা হবে। কোনো মেটা-ডেটা তথ্য সূচকের অংশ হয়ে যাবে।
পরিষ্কার আপ
নিম্নলিখিত কমান্ড ব্যবহার করে ভবিষ্যতের খরচ এড়াতে আপনার যদি আর প্রয়োজন না হয় তবে উদাহরণের সংস্থানগুলি মুছুন:
হিসাবে একই পরিবেশে cdk deploy
আদেশ সতর্ক থাকুন যে এটি OpenSearch ক্লাস্টার এবং সমস্ত নথি এবং Amazon S3 বালতি সহ সবকিছু সরিয়ে দেয়৷ আপনি যদি সেই তথ্য বজায় রাখতে চান তবে আপনার Amazon S3 বালতি এবং ব্যাকআপ করুন আপনার OpenSearch ক্লাস্টার থেকে একটি সূচক স্ন্যাপশট তৈরি করুন. আপনি যদি অনেকগুলি ফাইল প্রসেস করেন, তাহলে আপনাকে AWS ম্যানেজমেন্ট কনসোল ব্যবহার করে প্রথমে Amazon S3 বালতি খালি করতে হতে পারে (অর্থাৎ, আপনি একটি ব্যাকআপ নেওয়ার পরে বা তথ্য ধরে রাখতে চাইলে সেগুলিকে অন্য বালতিতে সিঙ্ক করার পরে), কারণ ক্লিনআপ ফাংশন সময় শেষ করতে পারে এবং তারপর AWS CloudFormation স্ট্যাক ধ্বংস করতে পারে।
উপসংহার
এই পোস্টে, আমরা আপনাকে দেখিয়েছি কিভাবে একটি ওপেন সার্চ ইনডেক্সে বিপুল সংখ্যক নথি ইনজেস্ট করার জন্য একটি সম্পূর্ণ স্ট্যাক সমাধান স্থাপন করতে হয়, যেগুলি অনুসন্ধান ব্যবহারের ক্ষেত্রে ব্যবহারের জন্য প্রস্তুত। বাস্তবায়নের পৃথক উপাদানগুলির পাশাপাশি স্কেলিং বিবেচনা, খরচ এবং পরিবর্তনের বিকল্পগুলি নিয়ে আলোচনা করা হয়েছিল। সমস্ত কোড GitHub-এ ওপেনসোর্স হিসাবে অ্যাক্সেসযোগ্য IDP CDK নমুনা এবং হিসাবে IDP CDK নির্মাণ করে স্ক্র্যাচ থেকে আপনার নিজস্ব সমাধান তৈরি করতে. পরবর্তী পদক্ষেপ হিসাবে আপনি কার্যপ্রবাহ সংশোধন করতে শুরু করতে পারেন, অনুসন্ধান সূচকে নথিতে তথ্য যোগ করতে পারেন এবং অনুসন্ধান করতে পারেন আইডিপি কর্মশালা. বর্তমান সমাধান প্রসারিত করতে আপনার অভিজ্ঞতা এবং ধারনা নীচে মন্তব্য করুন.
লেখক সম্পর্কে
মার্টিন শেড অ্যামাজন টেক্সট্র্যাক্ট টিমের সাথে একটি সিনিয়র এমএল প্রোডাক্ট SA। ইন্টারনেট-সম্পর্কিত প্রযুক্তি, প্রকৌশল এবং স্থাপত্য সমাধানের সাথে তার 20 বছরের বেশি অভিজ্ঞতা রয়েছে। তিনি 2014 সালে AWS-এ যোগদান করেন, প্রথমে AWS পরিষেবার সবচেয়ে দক্ষ এবং স্কেলযোগ্য ব্যবহারের বিষয়ে কিছু বৃহত্তম AWS গ্রাহককে নির্দেশনা দেন এবং পরে কম্পিউটার ভিশনের উপর ফোকাস করে AI/ML-এ ফোকাস করেন। বর্তমানে, তিনি নথি থেকে তথ্য আহরণের সাথে আচ্ছন্ন।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
- প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- প্লেটোইএসজি। মোটরগাড়ি / ইভি, কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
- প্লেটো হেলথ। বায়োটেক এবং ক্লিনিক্যাল ট্রায়াল ইন্টেলিজেন্স। এখানে প্রবেশ করুন.
- চার্টপ্রাইম। ChartPrime এর সাথে আপনার ট্রেডিং গেমটি উন্নত করুন। এখানে প্রবেশ করুন.
- ব্লকঅফসেট। পরিবেশগত অফসেট মালিকানার আধুনিকীকরণ। এখানে প্রবেশ করুন.
- উত্স: https://aws.amazon.com/blogs/machine-learning/implement-smart-document-search-index-with-amazon-textract-and-amazon-opensearch/
- : আছে
- : হয়
- :না
- :কোথায়
- $3
- $ ইউপি
- 1
- 10
- 100
- 11
- 12
- 13
- 14
- 15%
- 16
- 17
- 20
- 20 বছর
- 200
- 2014
- 216
- 220
- 25
- 30
- 3000
- 32
- 33
- 7
- 700
- 8
- 820
- 84
- 9
- a
- সম্পর্কে
- প্রবেশ
- প্রবেশযোগ্য
- অ্যাক্সেস করা
- অনুযায়ী
- হিসাব
- স্তূপাকার করা
- সঠিকতা
- দিয়ে
- কার্যকলাপ
- আসল
- যোগ
- যোগ
- যোগ
- যোগ করে
- পর
- বিরুদ্ধে
- বয়স
- এআই / এমএল
- সব
- বরাদ্দ করা
- অনুমতি
- এছাড়াও
- মর্দানী স্ত্রীলোক
- অ্যামাজন কগনিটো
- আমাজন ওপেন সার্চ সার্ভিস
- অ্যামাজন টেক্সট্র্যাক
- অ্যামাজন ওয়েব সার্ভিসেস
- an
- বিশ্লেষক
- এবং
- কোন
- API
- মনে হচ্ছে,
- আনুমানিক
- রয়েছি
- কাছাকাছি
- AS
- At
- প্রমাণীকরণ
- স্বয়ংক্রিয় পদ্ধতি প্রয়োগ করা
- স্বয়ংক্রিয়
- স্বয়ংক্রিয়ভাবে
- সহজলভ্য
- গড়
- এড়াতে
- ডেস্কটপ AWS
- এডাব্লুএস ক্লাউডফর্মেশন
- এডাব্লুএস ল্যাম্বদা
- এডাব্লুএস ম্যানেজমেন্ট কনসোল
- পিছনে
- ব্যাক-এন্ড
- ব্যাকআপ
- ভিত্তি
- ভিত্তি
- BE
- কারণ
- পরিণত
- আগে
- হচ্ছে
- নিচে
- সর্বোত্তম
- সেরা অভ্যাস
- উত্তম
- হুঁশিয়ার
- বাধা
- উভয়
- নির্মাণ করা
- বোতাম
- by
- কল
- CAN
- ক্ষমতা
- ধারণক্ষমতা
- কেস
- মামলা
- কারণ
- CD
- পরিবর্তন
- পরিবর্তিত
- পরিবর্তন
- চেক
- নির্বাচন
- শ্রেণীবিন্যাস
- মেঘ
- গুচ্ছ
- কোড
- সংগ্রহ
- সম্মিলন
- মন্তব্য
- কোম্পানি
- তুলনা
- কম্পাস
- প্রতিযোগিতামূলক
- উপাদান
- কম্পিউটার
- কম্পিউটার ভিশন
- ধারণা
- সহগামী
- কনফিগারেশন
- কনফিগার
- সংযুক্ত
- বিবেচ্য বিষয়
- গঠিত
- কনসোল
- ধ্রুব
- গঠন করা
- আধার
- বিষয়বস্তু
- প্রসঙ্গ
- অবিরত
- চুক্তি
- ঠিক
- মূল্য
- খরচ
- পারা
- মিলিত
- আবরণ
- সৃষ্টি
- নির্মিত
- সৃষ্টি
- সংকটপূর্ণ
- বর্তমান
- এখন
- প্রথা
- ক্রেতা
- গ্রাহকদের
- স্বনির্ধারিত
- কাস্টমাইজ
- ড্যাশবোর্ড
- ড্যাশবোর্ডের
- উপাত্ত
- দিন
- লেনদেন
- পতন
- ডিফল্ট
- নির্ধারণ করা
- সংজ্ঞা
- প্রদর্শন
- নির্ভরতা
- নির্ভর করে
- স্থাপন
- মোতায়েন
- বিস্তৃতি
- গভীরতা
- ধ্বংস
- বিস্তারিত
- উন্নয়ন
- কথোপকথন
- বিভিন্ন
- ডিজিটাল
- ডিজিটাল ট্রান্সফরমেসন
- আবিষ্কার করা
- আলোচনা
- প্রদর্শক
- ডুব
- do
- ডকশ্রমিক
- দলিল
- কাগজপত্র
- সম্পন্ন
- আপীত
- কারণে
- স্থিতিকাল
- e
- প্রতি
- পূর্ব
- প্রান্ত
- দক্ষ
- দক্ষতার
- প্রচেষ্টা
- কর্মচারী
- ক্ষমতাপ্রদান করা
- সক্ষম করা
- প্রকৌশল
- প্রচুর
- সমৃদ্ধ করা
- সমৃদ্ধ
- প্রবেশ করান
- পরিবেশ
- যুগ
- ত্রুটি
- বিশেষত
- প্রতিষ্ঠিত
- হিসাব
- এমন কি
- সব
- উদাহরণ
- অতিক্রম করা
- মাত্রাধিক
- বাড়তি
- ফাঁসি
- বিস্তৃত করা
- অভিজ্ঞতা
- অন্বেষণ করুণ
- নির্যাস
- ব্যর্থ
- দ্রুত
- দ্রুত
- ক্ষেত্র
- ক্ষেত্রসমূহ
- ব্যক্তিত্ব
- ফাইল
- নথি পত্র
- ছাঁকনি
- চূড়ান্ত
- আর্থিক
- আবিষ্কার
- জরিমানা
- নখদর্পণে
- শেষ
- প্রথম
- প্রথম পদক্ষেপ
- প্রথমবার
- প্রবাহ
- কেন্দ্রবিন্দু
- দৃষ্টি নিবদ্ধ করা
- অনুসরণ করা
- অনুসৃত
- অনুসরণ
- জন্য
- বিন্যাস
- থেকে
- সম্পূর্ণ
- পূর্ণ স্ট্যাক
- সম্পূর্ণরূপে
- ক্রিয়া
- ক্রিয়াকলাপ
- ভবিষ্যৎ
- সাধারণ
- উত্পন্ন
- উত্পন্ন
- পেয়ে
- দৈত্য
- GitHub
- প্রদত্ত
- Go
- চালু
- ভাল
- চিত্রলেখ
- কৌশল
- সাজ
- আছে
- জমিদারি
- he
- স্বাস্থ্য
- সাহায্য
- উচ্চ
- ঊর্ধ্বতন
- অত্যন্ত
- ঘন্টা
- ঘন্টার
- কিভাবে
- কিভাবে
- যাহোক
- এইচটিএমএল
- HTTPS দ্বারা
- মানবীয়
- মানব সম্পদ
- i
- ধারনা
- আইডেন্টিফায়ার
- সনাক্ত করা
- পরিচয়
- আইডি
- if
- ভাবমূর্তি
- বাস্তবায়ন
- বাস্তবায়ন
- বাস্তবায়িত
- আমদানি
- গুরুত্বপূর্ণ
- in
- অন্তর্ভুক্ত করা
- সুদ্ধ
- বৃদ্ধি
- বৃদ্ধি
- সূচক
- সূচীবদ্ধ
- সূচক
- স্বতন্ত্র
- তথ্য
- পরিকাঠামো
- প্রারম্ভিক
- আরম্ভ করা
- ইনপুট
- অর্ন্তদৃষ্টি
- ইনস্টল
- উদাহরণ
- সংহত
- বুদ্ধিমান
- বুদ্ধিমান নথি প্রক্রিয়াকরণ
- মধ্যে
- অনুসন্ধানী
- প্রার্থনা
- IT
- যোগদান
- যাত্রা
- JPG
- JSON
- রাখা
- চাবি
- বড়
- বৃহত্তম
- গত
- অদৃশ্যতা
- পরে
- শিখতে
- শিক্ষা
- লাইব্রেরি
- মত
- সম্ভবত
- LINK
- লিঙ্ক
- তালিকা
- বোঝা
- অবস্থান
- লগ
- লগইন
- দীর্ঘ
- আর
- দেখুন
- খুঁজছি
- সৌন্দর্য
- মেশিন
- মেশিন লার্নিং
- প্রণীত
- প্রধান
- বজায় রাখা
- নিয়ন্ত্রণের
- করা
- তৈরি করে
- ব্যবস্থাপনা
- ম্যানুয়ালি
- অনেক
- ম্যাচ
- সর্বাধিক
- মে..
- me
- মানে
- মেনু
- বার্তা
- বার্তা
- পদ্ধতি
- ছন্দোময়
- ছন্দোবিজ্ঞান
- হতে পারে
- মন
- মিনিট
- মিশ্রিত করা
- ML
- আধুনিক
- পরিবর্তন
- মনিটর
- পর্যবেক্ষণ
- অধিক
- সেতু
- পর্বত
- বহু
- নাম
- নামে
- নেভিগেট
- প্রয়োজন
- চাহিদা
- নতুন
- পরবর্তী
- না।
- প্রজ্ঞাপন
- বিজ্ঞপ্তি
- উপন্যাস
- সংখ্যা
- সংখ্যার
- of
- অর্পণ
- প্রায়ই
- প্রবীণতম
- on
- একদা
- ONE
- খোলা
- মুক্ত উৎস
- সুযোগ
- অপ্টিমাইজ
- অপশন সমূহ
- or
- ক্রম
- সংগঠন
- উত্স
- অন্যান্য
- অন্যভাবে
- বাইরে
- আউটপুট
- শেষ
- ওভারভিউ
- নিজের
- পৃষ্ঠা
- পেজ
- সমান্তরাল
- স্থিতিমাপ
- অংশ
- পাস
- পাসওয়ার্ড
- প্যাটার্ন
- নিদর্শন
- প্রদান
- পিডিএফ
- প্রতি
- কর্মক্ষমতা
- কাল
- অনুমতি
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- দয়া করে
- বিন্দু
- পয়েন্ট
- পুকুর
- সম্ভব
- পোস্ট
- চর্চা
- প্রস্তুত করে
- পূর্বশর্ত
- উপস্থাপন
- পূর্বে
- প্রক্রিয়া
- প্রক্রিয়াকৃত
- প্রসেস
- প্রক্রিয়াজাতকরণ
- উৎপাদন করা
- পণ্য
- প্রোগ্রামিং
- প্রস্তাবিত
- উপলব্ধ
- প্রকাশিত
- উদ্দেশ্য
- ধাক্কা
- করা
- রাখে
- পাইথন
- দ্রুত
- দ্রুত
- হার
- প্রস্তুত
- এলাকা
- প্রতিবেদন
- সংগ্রহস্থলের
- প্রতিনিধি
- অনুরোধ
- প্রয়োজনীয়
- আবশ্যকতা
- সংস্থান
- Resources
- প্রতিক্রিয়াশীল
- ফল
- ফলাফল
- রাখা
- ভূমিকা
- শিকড়
- চালান
- দৌড়
- SA
- একই
- মাপযোগ্য
- স্কেল
- আরোহী
- আঁচড়ের দাগ
- নির্বিঘ্নে
- সার্চ
- অনুসন্ধানের
- অধ্যায়
- দেখ
- সচেষ্ট
- নির্বাচন
- জ্যেষ্ঠ
- অনুভূতি
- প্রেরিত
- স্থল
- সেবা
- সেবা
- সেট
- সেটিংস
- সেটআপ
- উচিত
- প্রদর্শনী
- দেখিয়েছেন
- শো
- অনুরূপ
- সহজ
- আয়তন
- ধীর
- ক্ষুদ্রতর
- স্মার্ট
- স্ন্যাপশট
- So
- সমাধান
- সলিউশন
- কিছু
- উৎস
- নির্দিষ্ট
- স্পীড
- ঘূর্ণন
- বিভক্ত করা
- গাদা
- শুরু
- শুরু
- শুরু হচ্ছে
- রাষ্ট্র
- যুক্তরাষ্ট্র
- অবস্থা
- অবিচলিত
- ধাপ
- প্রারম্ভিক ব্যবহারের নির্দেশাবলী
- এখনো
- স্টোরেজ
- দোকান
- সংরক্ষণ
- জমা
- পরবর্তীকালে
- সফল
- এমন
- সমর্থিত
- সমর্থন
- নিশ্চিত
- সিস্টেম
- উপযোগী
- গ্রহণ করা
- লাগে
- গ্রহণ
- কার্য
- কাজ
- টীম
- প্রযুক্তি
- টেমপ্লেট
- মেয়াদ
- শর্তাবলী
- পরীক্ষা
- প্রমাণিত
- পাঠ
- যে
- সার্জারির
- গ্রাফ
- তথ্য
- উৎস
- রাষ্ট্র
- তাদের
- তাহাদিগকে
- তারপর
- সেখানে।
- অতএব
- এইগুলো
- তারা
- এই
- যদিও?
- গোবরাট
- দ্বারা
- পর্যন্ত
- সময়
- সময় অপগিত হয় এমন
- থেকে
- গ্রহণ
- মোট
- ঐতিহ্যগত
- রুপান্তর
- আলোড়ন সৃষ্টি
- অভিভাবকসংবঁধীয়
- দুই
- আদর্শ
- ধরনের
- অধীনে
- অভূতপূর্ব
- পর্যন্ত
- আপলোড করা
- us
- ব্যবহার
- ব্যবহার ক্ষেত্রে
- ব্যবহৃত
- ব্যবহারকারী
- ব্যবহারকারী
- ব্যবহারসমূহ
- ব্যবহার
- ব্যবহার
- যাচাই করুন
- মূল্য
- সংস্করণ
- খুব
- মতামত
- ভার্জিনিয়া
- দৃষ্টি
- ঠাহর করা
- আয়তন
- ভলিউম
- প্রয়োজন
- ছিল
- উপায়..
- we
- ওয়েব
- ওয়েব সার্ভিস
- আমরা একটি
- ছিল
- কি
- কখন
- যে
- ইচ্ছা
- সঙ্গে
- কর্মপ্রবাহ
- কর্মপ্রবাহ
- কাজ
- কারখানা
- কর্মশালা
- মূল্য
- বছর
- আপনি
- আপনার
- zephyrnet