অ্যামাজন বোঝার জন্য স্বয়ংক্রিয় পিডিএফ প্রি-লেবেলিং | আমাজন ওয়েব সার্ভিসেস

অ্যামাজন বোঝার জন্য স্বয়ংক্রিয় পিডিএফ প্রি-লেবেলিং | আমাজন ওয়েব সার্ভিসেস

অ্যামাজন সমঝোতা একটি প্রাকৃতিক-ভাষা প্রক্রিয়াকরণ (NLP) পরিষেবা যা পাঠ্য ডেটা থেকে অন্তর্দৃষ্টি পেতে প্রাক-প্রশিক্ষিত এবং কাস্টম API প্রদান করে। Amazon Comprehend গ্রাহকরা কাস্টম নামের সত্তা স্বীকৃতি (NER) মডেলগুলিকে তাদের ব্যবসার জন্য স্বতন্ত্র যেমন অবস্থান, ব্যক্তির নাম এবং তারিখের মতো আগ্রহের সত্তাগুলিকে বের করতে প্রশিক্ষণ দিতে পারেন৷

একটি কাস্টম মডেল প্রশিক্ষণের জন্য, আপনি প্রথমে নথিতে সত্তাকে ম্যানুয়ালি টীকা দিয়ে প্রশিক্ষণের ডেটা প্রস্তুত করুন৷ এটি দিয়ে করা যেতে পারে সেমি-স্ট্রাকচার্ড ডকুমেন্টস টীকা টুল বোঝা, যা একটি তৈরি করে আমাজন সেজমেকার গ্রাউন্ড ট্রুথ একটি কাস্টম টেমপ্লেটের সাথে কাজ, টীকাকারদের সরাসরি পিডিএফ নথিতে সত্তার চারপাশে বাউন্ডিং বাক্স আঁকতে অনুমতি দেয়। যাইহোক, SAP-এর মতো ERP সিস্টেমে বিদ্যমান ট্যাবুলার সত্তা ডেটা সহ সংস্থাগুলির জন্য, ম্যানুয়াল টীকা পুনরাবৃত্তিমূলক এবং সময়সাপেক্ষ হতে পারে।

প্রশিক্ষণ ডেটা প্রস্তুত করার প্রচেষ্টা কমাতে, আমরা ব্যবহার করে একটি প্রাক-লেবেলিং টুল তৈরি করেছি এডাব্লুএস স্টেপ ফাংশন যেটি বিদ্যমান ট্যাবুলার সত্তা ডেটা ব্যবহার করে স্বয়ংক্রিয়ভাবে নথিগুলিকে প্রাক-টীকা দেয়। এটি Amazon Comprehend-এ সঠিক কাস্টম সত্তা শনাক্তকরণ মডেল প্রশিক্ষণের জন্য প্রয়োজনীয় ম্যানুয়াল কাজকে উল্লেখযোগ্যভাবে হ্রাস করে।

এই পোস্টে, আমরা আপনাকে প্রাক-লেবেলিং টুল সেট আপ করার ধাপগুলির মধ্য দিয়ে হেঁটেছি এবং কীভাবে এটি স্বয়ংক্রিয়ভাবে জনসাধারণের থেকে নথিগুলিকে টীকা করে তার উদাহরণ দেখাই ডেটা সেটটি পিডিএফ ফরম্যাটে নমুনা ব্যাঙ্ক স্টেটমেন্ট। সম্পূর্ণ কোড পাওয়া যায় গিটহুব রেপো.

সমাধান ওভারভিউ

এই বিভাগে, আমরা প্রাক-লেবেলিং টুলের ইনপুট এবং আউটপুট নিয়ে আলোচনা করি এবং সমাধান আর্কিটেকচারের একটি ওভারভিউ প্রদান করি।

ইনপুট এবং আউটপুট

ইনপুট হিসাবে, প্রাক-লেবেলিং টুলটি পিডিএফ ডকুমেন্টগুলি নেয় যেগুলিতে টীকা লেখার জন্য পাঠ্য থাকে। ডেমোর জন্য, আমরা নিম্নলিখিত উদাহরণের মতো সিমুলেটেড ব্যাঙ্ক স্টেটমেন্ট ব্যবহার করি।

অ্যামাজন বোঝার জন্য স্বয়ংক্রিয় পিডিএফ প্রি-লেবেলিং | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

টুলটি একটি ম্যানিফেস্ট ফাইলও নেয় যা পিডিএফ ডকুমেন্টগুলিকে সেই সত্তাগুলির সাথে ম্যাপ করে যা আমরা এই নথিগুলি থেকে বের করতে চাই৷ সত্তা দুটি জিনিস নিয়ে গঠিত: expected_text নথি থেকে বের করতে (উদাহরণস্বরূপ, AnyCompany Bank) এবং সংশ্লিষ্ট entity_type (উদাহরণ স্বরূপ, bank_name) পরবর্তীতে এই পোস্টে, আমরা নিম্নলিখিত উদাহরণের মতো একটি CSV নথি থেকে এই ম্যানিফেস্ট ফাইলটি কীভাবে তৈরি করতে হয় তা দেখাই।

অ্যামাজন বোঝার জন্য স্বয়ংক্রিয় পিডিএফ প্রি-লেবেলিং | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

প্রাক-লেবেলিং টুলটি ম্যানিফেস্ট ফাইল ব্যবহার করে স্বয়ংক্রিয়ভাবে নথিগুলিকে তাদের সংশ্লিষ্ট সত্তাগুলির সাথে টীকা করতে। তারপরে আমরা একটি অ্যামাজন কম্প্রেহেন্ড মডেলকে প্রশিক্ষণ দিতে সরাসরি এই টীকাগুলি ব্যবহার করতে পারি।

বিকল্পভাবে, আপনি নিম্নলিখিত স্ক্রিনশটে দেখানো হিসাবে মানব পর্যালোচনা এবং সম্পাদনার জন্য একটি সেজমেকার গ্রাউন্ড ট্রুথ লেবেলিং কাজ তৈরি করতে পারেন।

অ্যামাজন বোঝার জন্য স্বয়ংক্রিয় পিডিএফ প্রি-লেবেলিং | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

পর্যালোচনা সম্পূর্ণ হলে, আপনি একটি Amazon Comprehend কাস্টম সত্তা শনাক্তকারী মডেলকে প্রশিক্ষণ দিতে টীকাযুক্ত ডেটা ব্যবহার করতে পারেন।

স্থাপত্য

প্রাক-লেবেলিং টুল একাধিক নিয়ে গঠিত এডাব্লুএস ল্যাম্বদা একটি স্টেপ ফাংশন স্টেট মেশিন দ্বারা সাজানো ফাংশন। এটির দুটি সংস্করণ রয়েছে যা প্রাক-টীকা তৈরি করতে বিভিন্ন কৌশল ব্যবহার করে।

প্রথম কৌশল হল অস্পষ্ট মিল. এর জন্য প্রত্যাশিত সত্তা সহ একটি প্রাক-প্রকাশিত ফাইল প্রয়োজন৷ টুলটি টেক্সট সাদৃশ্য তুলনা করে প্রাক-টীকা তৈরি করতে অস্পষ্ট ম্যাচিং অ্যালগরিদম ব্যবহার করে।

অস্পষ্ট ম্যাচিং নথিতে স্ট্রিংগুলির সন্ধান করে যা প্রাক-প্রকাশিত ফাইলে তালিকাভুক্ত প্রত্যাশিত সত্তাগুলির সাথে একই রকম (কিন্তু অগত্যা অভিন্ন নয়)৷ এটি প্রথমে নথিতে প্রত্যাশিত পাঠ্য এবং শব্দের মধ্যে পাঠ্যের মিলের স্কোর গণনা করে, তারপর এটি একটি প্রান্তিকের উপরে সমস্ত জোড়ার সাথে মেলে। অতএব, কোনো সঠিক মিল না থাকলেও, অস্পষ্ট মিলগুলি সংক্ষেপণ এবং ভুল বানানগুলির মত বৈকল্পিকগুলি খুঁজে পেতে পারে। এটি টুলটিকে নথিগুলিকে প্রাক-লেবেল করার অনুমতি দেয় সত্তাগুলিকে মৌখিকভাবে উপস্থিত করার প্রয়োজন ছাড়াই৷ উদাহরণস্বরূপ, যদি 'AnyCompany Bank' একটি প্রত্যাশিত সত্তা হিসাবে তালিকাভুক্ত করা হয়েছে, অস্পষ্ট ম্যাচিং এর ঘটনাগুলিকে টীকা দেবে৷ 'Any Companys Bank'. এটি কঠোর স্ট্রিং ম্যাচিংয়ের চেয়ে আরও নমনীয়তা প্রদান করে এবং প্রাক-লেবেলিং টুলটিকে স্বয়ংক্রিয়ভাবে আরও সত্তা লেবেল করতে সক্ষম করে।

নিম্নলিখিত চিত্রটি এই স্টেপ ফাংশন স্টেট মেশিনের আর্কিটেকচারকে চিত্রিত করে।

অ্যামাজন বোঝার জন্য স্বয়ংক্রিয় পিডিএফ প্রি-লেবেলিং | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

দ্বিতীয় কৌশল একটি প্রয়োজন প্রাক-প্রশিক্ষিত অ্যামাজন কম্প্রিহেন্ড সত্তা শনাক্তকারী মডেল. টুলটি অ্যামাজন কম্প্রিহেন্ড মডেল ব্যবহার করে প্রাক-টীকা তৈরি করে, নিম্নলিখিত চিত্রে দেখানো কর্মপ্রবাহ অনুসরণ করে।

অ্যামাজন বোঝার জন্য স্বয়ংক্রিয় পিডিএফ প্রি-লেবেলিং | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

নীচের চিত্রটি সম্পূর্ণ স্থাপত্যকে চিত্রিত করে।

অ্যামাজন বোঝার জন্য স্বয়ংক্রিয় পিডিএফ প্রি-লেবেলিং | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

নিম্নলিখিত বিভাগগুলিতে, আমরা সমাধানটি বাস্তবায়নের জন্য পদক্ষেপগুলি নিয়ে চলেছি।

প্রাক-লেবেলিং টুল স্থাপন করুন

আপনার স্থানীয় মেশিনে সংগ্রহস্থল ক্লোন করুন:

git clone https://github.com/aws-samples/amazon-comprehend-automated-pdf-prelabeling-tool.git

এই রিপোজিটরিটি কম্প্রিহেন্ড সেমি-স্ট্রাকচার্ড ডকুমেন্টস অ্যানোটেশন টুলের উপরে তৈরি করা হয়েছে এবং সেজমেকার গ্রাউন্ড ট্রুথ UI এ ইতিমধ্যেই প্রদর্শিত প্রাক-টীকা সহ একটি সেজমেকার গ্রাউন্ড ট্রুথ লেবেলিং কাজ শুরু করতে সক্ষম করে এর কার্যকারিতা প্রসারিত করে।

প্রাক-লেবেলিং টুলে কম্প্রিহেন্ড সেমি-স্ট্রাকচার্ড ডকুমেন্টস অ্যানোটেশন টুল রিসোর্স এবং সেইসাথে প্রাক-লেবেলিং টুলের জন্য নির্দিষ্ট কিছু রিসোর্স উভয়ই অন্তর্ভুক্ত। আপনি এর সাথে সমাধান স্থাপন করতে পারেন এডাব্লুএস সার্ভারলেস অ্যাপ্লিকেশন মডেল (AWS SAM), একটি ওপেন সোর্স ফ্রেমওয়ার্ক যা আপনি সার্ভারহীন অ্যাপ্লিকেশন অবকাঠামো কোড সংজ্ঞায়িত করতে ব্যবহার করতে পারেন।

আপনি যদি পূর্বে কম্প্রেহেন্ড সেমি-স্ট্রাকচার্ড ডকুমেন্টস টীকা টুল স্থাপন করে থাকেন, তাহলে FAQ বিভাগটি দেখুন Pre_labeling_tool/README.md প্রাক-লেবেলিং টুলের জন্য শুধুমাত্র নির্দিষ্ট সংস্থানগুলি কীভাবে স্থাপন করতে হয় তার নির্দেশাবলীর জন্য।

আপনি যদি আগে টুলটি স্থাপন না করে থাকেন এবং নতুন করে শুরু করছেন, পুরো সমাধানটি স্থাপন করতে নিম্নলিখিতটি করুন।

টীকা টুল ফোল্ডারে বর্তমান ডিরেক্টরি পরিবর্তন করুন:

cd amazon-comprehend-semi-structured-documents-annotation-tools

সমাধানটি তৈরি করুন এবং স্থাপন করুন:

make ready-and-deploy-guided

প্রি-মেনিফেস্ট ফাইল তৈরি করুন

প্রি-লেবেলিং টুল ব্যবহার করার আগে, আপনাকে আপনার ডেটা প্রস্তুত করতে হবে। প্রধান ইনপুটগুলি হল PDF নথি এবং একটি প্রাক-প্রকাশিত ফাইল। প্রাক-প্রকাশিত ফাইলের অধীনে প্রতিটি PDF নথির অবস্থান রয়েছে 'pdf' এবং লেবেল করার জন্য প্রত্যাশিত সত্তা সহ একটি JSON ফাইলের অবস্থান 'expected_entities'.

খাতাটি generate_premanifest_file.ipynb এই ফাইলটি কিভাবে তৈরি করতে হয় তা দেখায়। ডেমোতে, প্রাক-প্রকাশিত ফাইল নিম্নলিখিত কোড দেখায়:

[ { 'pdf': 's3://<bucket>/data_aws_idp_workshop_data/bank_stmt_0.pdf', 'expected_entities': 's3://<bucket>/prelabeling-inputs/expected-entities/example-demo/fuzzymatching_version/file_bank_stmt_0.json' }, ...
]

প্রি-মেনিফেস্ট ফাইলে তালিকাভুক্ত প্রতিটি JSON ফাইল (এর অধীনে expected_entities) অভিধানের একটি তালিকা রয়েছে, প্রতিটি প্রত্যাশিত সত্তার জন্য একটি। অভিধানে নিম্নলিখিত কী রয়েছে:

  • 'প্রত্যাশিত_টেক্সট' - সত্তার সাথে মেলে সম্ভাব্য পাঠ্য স্ট্রিংগুলির একটি তালিকা৷
  • 'সত্তা টাইপ' - সংশ্লিষ্ট সত্তা টাইপ।
  • 'উপেক্ষা_তালিকা' (ঐচ্ছিক) - ম্যাচে উপেক্ষা করা উচিত শব্দের তালিকা. এই পরামিতিগুলি ব্যবহার করা উচিত অস্পষ্ট ম্যাচিং প্রতিরোধ করার জন্য নির্দিষ্ট শব্দের সংমিশ্রণ যা আপনি ভুল জানেন। নাম দেখার সময় আপনি যদি কিছু নম্বর বা ইমেল ঠিকানা উপেক্ষা করতে চান তবে এটি কার্যকর হতে পারে।

উদাহরণস্বরূপ, expected_entities পূর্বে দেখানো PDF এর নিচের মত দেখাচ্ছে:

[ { 'expected_texts': ['AnyCompany Bank'], 'entity_type': 'bank_name', 'ignore_list': [] }, { 'expected_texts': ['JANE DOE'], 'entity_type': 'customer_name', 'ignore_list': ['JANE.DOE@example_mail.com'] }, { 'expected_texts': ['003884257406'], 'entity_type': 'checking_number', 'ignore_list': [] }, ...
]

প্রাক-লেবেলিং টুল চালান

পূর্ববর্তী ধাপে আপনি যে প্রি-মেনিফেস্ট ফাইলটি তৈরি করেছেন, সেটি দিয়ে প্রি-লেবেলিং টুলটি চালানো শুরু করুন। আরো বিস্তারিত জানার জন্য, নোটবুক পড়ুন start_step_functions.ipynb.

প্রাক-লেবেলিং টুল শুরু করতে, একটি প্রদান করুন event নিম্নলিখিত কীগুলির সাথে:

  • পূর্বপ্রকাশ - প্রতিটি পিডিএফ ডকুমেন্টকে তার সাথে মানচিত্র করুন expected_entities ফাইল এই থাকা উচিত আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) বালতি (নীচে bucket) এবং কী (এর অধীনে key) ফাইলের।
  • উপসর্গ - তৈরি করতে ব্যবহৃত হয় execution_id, যা আউটপুট স্টোরেজের জন্য S3 ফোল্ডারের নাম দেয় এবং সেজমেকার গ্রাউন্ড ট্রুথ লেবেলিং কাজের নাম।
  • entity_types - টীকাকারদের লেবেল করার জন্য UI-তে প্রদর্শিত হয়। এগুলি প্রত্যাশিত সত্তা ফাইলগুলিতে সমস্ত সত্তা প্রকার অন্তর্ভুক্ত করা উচিত৷
  • কাজের_দলের_নাম (ঐচ্ছিক) - সেজমেকার গ্রাউন্ড ট্রুথ লেবেলিং কাজ তৈরি করার জন্য ব্যবহৃত হয়। এটি ব্যবহার করার জন্য বেসরকারী কর্মীবাহিনীর সাথে সামঞ্জস্যপূর্ণ। যদি এটি প্রদান না করা হয়, তাহলে সেজমেকার গ্রাউন্ড ট্রুথ লেবেলিং কাজের পরিবর্তে শুধুমাত্র একটি ম্যানিফেস্ট ফাইল তৈরি করা হবে। আপনি পরে একটি সেজমেকার গ্রাউন্ড ট্রুথ লেবেলিং কাজ তৈরি করতে ম্যানিফেস্ট ফাইলটি ব্যবহার করতে পারেন। নোট করুন যে এই লেখার মতো, আপনি নোটবুক থেকে লেবেলিং কাজ তৈরি করার সময় একটি বহিরাগত কর্মী প্রদান করতে পারবেন না। যাইহোক, আপনি তৈরি করা কাজটি ক্লোন করতে পারেন এবং সেজমেকার গ্রাউন্ড ট্রুথ কনসোলে এটি একটি বাহ্যিক কর্মশক্তিকে বরাদ্দ করতে পারেন।
  • comprehend_parameters (ঐচ্ছিক) - একটি Amazon Comprehend কাস্টম সত্তা শনাক্তকারী মডেলকে সরাসরি প্রশিক্ষণ দেওয়ার পরামিতি। বাদ দিলে, এই ধাপটি এড়িয়ে যাবে।

স্টেট মেশিন শুরু করতে, নিম্নলিখিত পাইথন কোড চালান:

import boto3
stepfunctions_client = boto3.client('stepfunctions')

response = stepfunctions_client.start_execution(
stateMachineArn=fuzzymatching_prelabeling_step_functions_arn,
input=json.dumps(<event-dict>)
)

এটি রাষ্ট্রযন্ত্রের একটি দৌড় শুরু করবে। আপনি স্টেপ ফাংশন কনসোলে স্টেট মেশিনের অগ্রগতি নিরীক্ষণ করতে পারেন। নিম্নলিখিত চিত্রটি রাষ্ট্রীয় মেশিনের কার্যপ্রবাহকে চিত্রিত করে।

অ্যামাজন বোঝার জন্য স্বয়ংক্রিয় পিডিএফ প্রি-লেবেলিং | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

স্টেট মেশিন সম্পূর্ণ হলে, নিম্নলিখিতগুলি করুন:

  • তে সংরক্ষিত নিম্নলিখিত আউটপুটগুলি পরিদর্শন করুন prelabeling/ এর ফোল্ডার comprehend-semi-structured-docs S3 বালতি:
    • নথির প্রতিটি পৃষ্ঠার জন্য স্বতন্ত্র টীকা ফাইল (প্রতি নথি প্রতি পৃষ্ঠায় একটি) ইন temp_individual_manifests/
    • সেজমেকার গ্রাউন্ড ট্রুথ লেবেলিং কাজের জন্য একটি ম্যানিফেস্ট consolidated_manifest/consolidated_manifest.manifest
    • একটি ম্যানিফেস্ট যা একটি কাস্টম Amazon Comprehend মডেলকে প্রশিক্ষণ দিতে ব্যবহার করা যেতে পারে৷ consolidated_manifest/consolidated_manifest_comprehend.manifest
  • সেজমেকার কনসোলে, সেজমেকার গ্রাউন্ড ট্রুথ লেবেলিং কাজটি খুলুন যা টীকা পর্যালোচনা করার জন্য তৈরি করা হয়েছিল
  • প্রশিক্ষিত কাস্টম অ্যামাজন কম্প্রেহেন্ড মডেলটি পরিদর্শন এবং পরীক্ষা করুন

পূর্বে উল্লিখিত হিসাবে, টুলটি শুধুমাত্র বেসরকারী কর্মীদের জন্য সেজমেকার গ্রাউন্ড ট্রুথ লেবেলিং কাজ তৈরি করতে পারে। মানুষের লেবেলিং প্রচেষ্টা আউটসোর্স করতে, আপনি সেজমেকার গ্রাউন্ড ট্রুথ কনসোলে লেবেলিং কাজটি ক্লোন করতে পারেন এবং নতুন কাজের সাথে যেকোন কর্মীকে সংযুক্ত করতে পারেন।

পরিষ্কার কর

অতিরিক্ত চার্জ এড়াতে, আপনি যে সংস্থানগুলি তৈরি করেছেন তা মুছুন এবং নিম্নলিখিত কমান্ডের মাধ্যমে আপনি যে স্ট্যাক স্থাপন করেছেন তা মুছুন:

make delete

উপসংহার

প্রাক-লেবেলিং টুলটি অ্যামাজন কম্প্রেহেন্ড-এ কাস্টম সত্তা স্বীকৃতি মডেল প্রশিক্ষণের প্রক্রিয়াকে ত্বরান্বিত করতে বিদ্যমান ট্যাবুলার ডেটা ব্যবহার করার জন্য কোম্পানিগুলির জন্য একটি শক্তিশালী উপায় প্রদান করে। স্বয়ংক্রিয়ভাবে পিডিএফ নথিগুলিকে প্রাক-টীকা করার মাধ্যমে, এটি লেবেলিং প্রক্রিয়ায় প্রয়োজনীয় ম্যানুয়াল প্রচেষ্টাকে উল্লেখযোগ্যভাবে হ্রাস করে।

টুলটির দুটি সংস্করণ রয়েছে: অস্পষ্ট ম্যাচিং এবং অ্যামাজন কম্প্রিহেন্ড-ভিত্তিক, প্রাথমিক টীকাগুলি কীভাবে তৈরি করা যায় সে সম্পর্কে নমনীয়তা দেয়। নথিগুলিকে পূর্ব-লেবেল করার পরে, আপনি সেজমেকার গ্রাউন্ড ট্রুথ লেবেলিং কাজে দ্রুত সেগুলি পর্যালোচনা করতে পারেন বা এমনকি পর্যালোচনাটি এড়িয়ে যেতে পারেন এবং সরাসরি একটি Amazon Comprehend কাস্টম মডেলকে প্রশিক্ষণ দিতে পারেন৷

প্রাক-লেবেলিং টুল আপনাকে আপনার ঐতিহাসিক সত্তা ডেটার মান দ্রুত আনলক করতে এবং আপনার নির্দিষ্ট ডোমেনের জন্য তৈরি কাস্টম মডেল তৈরিতে ব্যবহার করতে সক্ষম করে। প্রক্রিয়াটির সাধারণত সবচেয়ে শ্রম-নিবিড় অংশ যা দ্রুততর করে, এটি Amazon Comprehend এর সাথে কাস্টম সত্তা স্বীকৃতিকে আগের চেয়ে আরও বেশি অ্যাক্সেসযোগ্য করে তোলে।

সেজমেকার গ্রাউন্ড ট্রুথ লেবেলিং কাজ ব্যবহার করে কীভাবে পিডিএফ ডকুমেন্ট লেবেল করবেন সে সম্পর্কে আরও তথ্যের জন্য, দেখুন Amazon Comprehend ব্যবহার করে নথিতে নামযুক্ত সত্তাগুলি বের করার জন্য কাস্টম নথির টীকা৷ এবং ডেটা লেবেল করতে অ্যামাজন সেজমেকার গ্রাউন্ড ট্রুথ ব্যবহার করুন.


লেখক সম্পর্কে

অ্যামাজন বোঝার জন্য স্বয়ংক্রিয় পিডিএফ প্রি-লেবেলিং | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.অস্কার স্নাক জেনারেটিভ এআই ইনোভেশন সেন্টারের একজন ফলিত বিজ্ঞানী। গ্রাহকদের জন্য অ্যাক্সেসযোগ্য করার জন্য তিনি মেশিন লার্নিংয়ের পিছনে বিজ্ঞানে ডুব দেওয়ার বিষয়ে উত্সাহী। কাজের বাইরে, অস্কার সাইকেল চালানো এবং তথ্য তত্ত্বের প্রবণতা বজায় রাখা উপভোগ করেন।

অ্যামাজন বোঝার জন্য স্বয়ংক্রিয় পিডিএফ প্রি-লেবেলিং | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.রোমেন বেসোম্বেস জেনারেটিভ এআই ইনোভেশন সেন্টারের একজন ডিপ লার্নিং আর্কিটেক্ট। তিনি মেশিন লার্নিং এর মাধ্যমে গ্রাহকদের ব্যবসায়িক সমস্যা সমাধানের জন্য উদ্ভাবনী স্থাপত্য নির্মাণের প্রতি আগ্রহী।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

অ্যামাজন ইঞ্জিনিয়ারিংয়ের জন্য অ্যামাজন সেজমেকারে মানব এবং এআই প্রতিক্রিয়া সহ এলএলএম কর্মক্ষমতা উন্নত করুন | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1968037
সময় স্ট্যাম্প: এপ্রিল 24, 2024