Amazon SageMaker মডেলকে প্রশিক্ষণের জন্য প্রয়োজনীয় ডেটার পরিমাণ কমাতে একটি ডেটা-কেন্দ্রিক পদ্ধতি ব্যবহার করুন

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

যেহেতু মেশিন লার্নিং (ML) মডেলগুলি উন্নত হয়েছে, ডেটা বিজ্ঞানী, এমএল ইঞ্জিনিয়ার এবং গবেষকরা ডেটার গুণমানকে সংজ্ঞায়িত এবং উন্নত করার দিকে তাদের বেশি মনোযোগ দিয়েছেন৷ এটি ML-এর একটি ডেটা-কেন্দ্রিক পদ্ধতির উত্থানের দিকে পরিচালিত করেছে এবং ডেটা প্রয়োজনীয়তার উপর ফোকাস করে মডেলের কর্মক্ষমতা উন্নত করার জন্য বিভিন্ন কৌশল। এই কৌশলগুলি প্রয়োগ করা এমএল অনুশীলনকারীদের একটি এমএল মডেল প্রশিক্ষণের জন্য প্রয়োজনীয় ডেটার পরিমাণ কমাতে দেয়।

এই পদ্ধতির অংশ হিসাবে, ইনপুট ডেটার পরিমাণ হ্রাস করে প্রশিক্ষণের গতি বাড়ানোর জন্য উন্নত ডেটা উপসেট নির্বাচন কৌশলগুলি সামনে এসেছে। এই প্রক্রিয়াটি স্বয়ংক্রিয়ভাবে একটি নির্দিষ্ট সংখ্যক পয়েন্ট নির্বাচন করার উপর ভিত্তি করে যা একটি বড় ডেটাসেটের আনুমানিক বিতরণ এবং প্রশিক্ষণের জন্য এটি ব্যবহার করে। এই ধরনের কৌশল প্রয়োগ করা একটি ML মডেল প্রশিক্ষণের জন্য প্রয়োজনীয় সময়ের পরিমাণ হ্রাস করে।

এই পোস্টে, আমরা ডেটা-কেন্দ্রিক AI নীতিগুলি প্রয়োগ করার বর্ণনা দিচ্ছি আমাজন সেজমেকার গ্রাউন্ড ট্রুথ, কিভাবে ব্যবহার করে ডেটা উপসেট নির্বাচন কৌশল বাস্তবায়ন করতে হয় কর্ডস সংগ্রহস্থল চালু আমাজন সেজমেকার একটি প্রাথমিক মডেলকে প্রশিক্ষণের জন্য প্রয়োজনীয় ডেটার পরিমাণ কমাতে এবং এই পদ্ধতিটি ব্যবহার করে কীভাবে পরীক্ষা চালানো যায় অ্যামাজন সেজমেকার পরীক্ষা-নিরীক্ষা.

মেশিন লার্নিংয়ের জন্য একটি ডেটা-কেন্দ্রিক পদ্ধতি

ডেটা সাবসেট নির্বাচনের মতো আরও উন্নত ডেটা-কেন্দ্রিক কৌশলগুলিতে ডুব দেওয়ার আগে, আপনি আপনার ডেটা লেবেলিং প্রক্রিয়াতে অন্তর্নিহিত নীতিগুলির একটি সেট প্রয়োগ করে একাধিক উপায়ে আপনার ডেটাসেটগুলিকে উন্নত করতে পারেন। এর জন্য, গ্রাউন্ড ট্রুথ লেবেলের ধারাবাহিকতা এবং ডেটার গুণমান উন্নত করতে বিভিন্ন প্রক্রিয়া সমর্থন করে।

মডেলের কর্মক্ষমতা উন্নত করার জন্য লেবেলের ধারাবাহিকতা গুরুত্বপূর্ণ। এটি ছাড়া, মডেলগুলি এমন একটি সিদ্ধান্তের সীমানা তৈরি করতে পারে না যা বিভিন্ন শ্রেণীর অন্তর্গত প্রতিটি পয়েন্টকে আলাদা করে। ধারাবাহিকতা নিশ্চিত করার একটি উপায় হল ব্যবহার করে স্থল সত্যে টীকা একত্রীকরণ, যা আপনাকে একাধিক লেবেলারের কাছে একটি প্রদত্ত উদাহরণ পরিবেশন করতে এবং সেই উদাহরণের জন্য গ্রাউন্ড ট্রুথ হিসাবে প্রদত্ত সমষ্টিগত লেবেল ব্যবহার করতে দেয়৷ গ্রাউন্ড ট্রুথ দ্বারা উত্পন্ন আত্মবিশ্বাসের স্কোর দ্বারা লেবেলে ভিন্নতা পরিমাপ করা হয়। যখন লেবেলগুলিতে ভিন্নতা থাকে, তখন আপনার লেবেলারদের দেওয়া লেবেল নির্দেশাবলীতে অস্পষ্টতা আছে কিনা তা দেখতে হবে যা সরানো যেতে পারে। এই পদ্ধতিটি পৃথক লেবেলারদের পক্ষপাতের প্রভাবগুলিকে প্রশমিত করে, যা লেবেলগুলিকে আরও সামঞ্জস্যপূর্ণ করার কেন্দ্রবিন্দু।

ডেটার উপর ফোকাস করে মডেলের পারফরম্যান্স উন্নত করার আরেকটি উপায় হল লেবেলগুলিতে ত্রুটিগুলি বিশ্লেষণ করার পদ্ধতিগুলি বিকাশ করা কারণ তারা উন্নত করার জন্য ডেটার সবচেয়ে গুরুত্বপূর্ণ উপসেট সনাক্ত করতে আসে। লেবেলযুক্ত উদাহরণগুলিতে ডাইভিং এবং অ্যামাজন ক্লাউডওয়াচ গ্রাউন্ড ট্রুথ লেবেলিং কাজ দ্বারা উত্পন্ন লগ এবং মেট্রিক্স। আমাদের ডেটাসেটের জন্য লেবেলিংয়ের পরবর্তী পুনরাবৃত্তি চালানোর জন্য অনুমানের সময়ে মডেলটি যে ত্রুটিগুলি করে তা দেখাও গুরুত্বপূর্ণ৷ এই প্রক্রিয়াগুলি ছাড়াও, আমাজন সেজমেকার স্পষ্ট করুন ডেটা বিজ্ঞানী এবং এমএল ইঞ্জিনিয়ারদের মত অ্যালগরিদম চালানোর অনুমতি দেয় KernelSHAP তাদের মডেল দ্বারা করা ভবিষ্যদ্বাণী ব্যাখ্যা করার অনুমতি দিতে। যেমন উল্লেখ করা হয়েছে, মডেলের ভবিষ্যদ্বাণীগুলির একটি গভীর ব্যাখ্যা এটিকে উন্নত করার জন্য প্রাথমিক লেবেলিং প্রক্রিয়ার সাথে সম্পর্কিত হতে পারে।

সবশেষে, আপনি গোলমাল বা অত্যধিক অপ্রয়োজনীয় উদাহরণ আউট টস বিবেচনা করতে পারেন. এটি করার ফলে আপনি এমন উদাহরণগুলি সরিয়ে প্রশিক্ষণের সময় কমাতে পারবেন যা মডেল কর্মক্ষমতা উন্নত করতে অবদান রাখে না। যাইহোক, ম্যানুয়ালি একটি প্রদত্ত ডেটাসেটের একটি দরকারী উপসেট সনাক্ত করা কঠিন এবং সময়সাপেক্ষ। এই পোস্টে বর্ণিত ডেটা উপসেট নির্বাচন কৌশলগুলি প্রয়োগ করা আপনাকে প্রতিষ্ঠিত কাঠামোর সাথে এই প্রক্রিয়াটিকে স্বয়ংক্রিয় করতে দেয়।

ব্যবহারের ক্ষেত্রে

যেমন উল্লেখ করা হয়েছে, ডেটা-কেন্দ্রিক AI মডেলের আর্কিটেকচারের পরিবর্তে মডেল ইনপুট উন্নত করার দিকে মনোনিবেশ করে। একবার আপনি ডেটা লেবেলিং বা বৈশিষ্ট্য প্রকৌশলের সময় এই নীতিগুলি প্রয়োগ করার পরে, আপনি প্রশিক্ষণের সময় ডেটা উপসেট নির্বাচন প্রয়োগ করে মডেল ইনপুটের উপর ফোকাস করা চালিয়ে যেতে পারেন।

এই পোস্টের জন্য, আমরা দক্ষ এবং শক্তিশালী শিক্ষার জন্য সাধারণীকরণ ভিত্তিক ডেটা উপসেট নির্বাচন প্রয়োগ করি (গ্লিস্টার), যা CORDS রিপোজিটরিতে প্রয়োগ করা অনেক ডেটা উপসেট নির্বাচন কৌশলগুলির মধ্যে একটি, প্রশিক্ষণ অ্যালগরিদম ResNet-18 মডেল শ্রেণীবদ্ধ করার জন্য একটি মডেলকে প্রশিক্ষণ দিতে যে সময় লাগে তা কমাতে সিআইএফএআর -10 ছবি CIFAR-10 ডেটাসেট থেকে নেওয়া তাদের নিজ নিজ লেবেল সহ কিছু নমুনা চিত্র নিচে দেওয়া হল।

CIFAR ডেটাসেট

ResNet-18 প্রায়ই শ্রেণীবিভাগের কাজে ব্যবহৃত হয়। এটি একটি 18-স্তর গভীর কনভোলিউশনাল নিউরাল নেটওয়ার্ক। CIFAR-10 ডেটাসেট প্রায়ই ML-এ বিভিন্ন কৌশল এবং পদ্ধতির বৈধতা মূল্যায়ন করতে ব্যবহৃত হয়। এটি 60,000টি ক্লাস জুড়ে লেবেলযুক্ত 32 32×10 রঙিন ছবি নিয়ে গঠিত।

নিম্নলিখিত বিভাগগুলিতে, আমরা দেখাই যে কীভাবে GLISTER আপনাকে কিছু মাত্রায় নিম্নলিখিত প্রশ্নের উত্তর দিতে সাহায্য করতে পারে:

প্রদত্ত ডেটাসেটের কত শতাংশ আমরা ব্যবহার করতে পারি এবং এখনও প্রশিক্ষণের সময় ভাল মডেল পারফরম্যান্স অর্জন করতে পারি?

আপনার প্রশিক্ষণ অ্যালগরিদমে GLISTER প্রয়োগ করা আপনার প্রশিক্ষণ অ্যালগরিদমে একটি হাইপারপ্যারামিটার হিসাবে ভগ্নাংশকে প্রবর্তন করবে। এটি প্রদত্ত ডেটাসেটের শতাংশের প্রতিনিধিত্ব করে যা আপনি ব্যবহার করতে চান৷ যেকোনো হাইপারপ্যারামিটারের মতো, আপনার মডেল এবং ডেটার জন্য সেরা ফলাফলের জন্য মান খুঁজে বের করার জন্য টিউনিং প্রয়োজন। আমরা এই পোস্টে হাইপারপ্যারামিটার টিউনিংয়ের গভীরে যাই না। আরো তথ্যের জন্য, পড়ুন Amazon SageMaker স্বয়ংক্রিয় মডেল টিউনিংয়ের সাথে হাইপারপ্যারামিটারগুলি অপ্টিমাইজ করুন.

পদ্ধতির প্রভাব পরিমাপ করতে আমরা সেজমেকার পরীক্ষা-নিরীক্ষা ব্যবহার করে বেশ কয়েকটি পরীক্ষা চালাই। ফলাফল প্রাথমিক ডেটাসেটের উপর নির্ভর করে পরিবর্তিত হবে, তাই বিভিন্ন উপসেট আকারে আমাদের ডেটার বিরুদ্ধে পদ্ধতির পরীক্ষা করা গুরুত্বপূর্ণ।

যদিও আমরা চিত্রগুলিতে GLISTER ব্যবহার করে আলোচনা করি, আপনি এটিকে স্ট্রাকচার্ড বা ট্যাবুলার ডেটা নিয়ে কাজ করা প্রশিক্ষণ অ্যালগরিদমগুলিতেও প্রয়োগ করতে পারেন।

ডেটা উপসেট নির্বাচন

ডেটা উপসেট নির্বাচনের উদ্দেশ্য হল প্রশিক্ষণ প্রক্রিয়াকে ত্বরান্বিত করা এবং সঠিকতার উপর প্রভাব কমিয়ে এবং মডেলের দৃঢ়তা বৃদ্ধি করা। আরও নির্দিষ্টভাবে, GLISTER-ONLINE একটি উপসেট নির্বাচন করে যেমন মডেলটি শেখে আপনার নির্দিষ্ট করা বৈধতা সেটে সেই প্রশিক্ষণ ডেটা উপসেটের লগ-সম্ভাবনাকে সর্বাধিক করার চেষ্টা করে। এইভাবে ডেটা উপসেট নির্বাচন অপ্টিমাইজ করা গোলমাল এবং শ্রেণী ভারসাম্যহীনতার বিরুদ্ধে প্রশমিত করে যা প্রায়শই বাস্তব-বিশ্বের ডেটাসেটে পাওয়া যায় এবং উপসেট নির্বাচন কৌশলটিকে মডেল শেখার সাথে সাথে মানিয়ে নিতে দেয়।

প্রথমিক গ্লিস্টার কাগজ একটি ব্যবহার করে অনুসরণ করে বিভিন্ন ডেটা উপসেট আকারে একটি গতি/নির্ভুলতা ট্রেড-অফ বর্ণনা করে লেনেট মডেল:

উপসেট আকার	Speedup	সঠিকতা
10%	6x	-3%
30%	2.5x	-1.20%
50%	1.5x	-0.20%

মডেল প্রশিক্ষণের জন্য, আমরা একটি চালান সেজমেকার প্রশিক্ষণের কাজ একটি কাস্টম প্রশিক্ষণ স্ক্রিপ্ট ব্যবহার করে। আমরা ইতিমধ্যে আমাদের ইমেজ ডেটাসেট আপলোড করেছি আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3)। যেকোন সেজমেকার প্রশিক্ষণ কাজের মতো, আমাদের একটি সংজ্ঞায়িত করতে হবে Estimator বস্তু থেকে PyTorch অনুমানকারী sagemaker.pytorch প্যাকেজ আমাদের একটি পরিচালিত PyTorch পাত্রে আমাদের নিজস্ব প্রশিক্ষণ স্ক্রিপ্ট চালানোর অনুমতি দেয়। দ্য inputs ভেরিয়েবলটি অনুমানকারীর কাছে চলে গেছে .fit ফাংশনে প্রশিক্ষণ এবং বৈধতা ডেটাসেটের S3 অবস্থানের একটি অভিধান রয়েছে।

সার্জারির train.py একটি প্রশিক্ষণ কাজ চালু হলে স্ক্রিপ্ট চালানো হয়। এই স্ক্রিপ্টে, আমরা CORDS লাইব্রেরি থেকে ResNet-18 মডেল আমদানি করি এবং আমাদের ডেটাসেটে ক্লাসের সংখ্যা নিম্নরূপ পাস করি:

from cords.utils.models import ResNet18 numclasses = 10
model = ResNet18(numclasses)

তারপর, আমরা ব্যবহার gen_dataset প্রশিক্ষণ, বৈধতা এবং পরীক্ষার ডেটাসেট তৈরি করতে CORDS থেকে ফাংশন:

from cords.utils.data.datasets.SL import gen_dataset train_set, validation_set, test_set, numclasses = gen_dataset(
datadir="/opt/ml/input/data/training",
dset_name="cifar10",
feature="dss",
type="image")

প্রতিটি ডেটাসেট থেকে, আমরা একটি সমতুল্য PyTorch ডেটালোডার তৈরি করি:

train_loader = torch.utils.data.DataLoader(train_set,
batch_size=batch_size,
shuffle=True) validation_loader = torch.utils.data.DataLoader(validation_set,
batch_size=batch_size,
shuffle=False)

অবশেষে, আমরা একটি তৈরি করতে এই ডেটালোডারগুলি ব্যবহার করি GLISTERDataLoader CORDS লাইব্রেরি থেকে। এটি GLISTER-ONLINE নির্বাচন কৌশলের একটি বাস্তবায়ন ব্যবহার করে, যা প্রশিক্ষণের সময় মডেল আপডেট করার সময় উপসেট নির্বাচন প্রয়োগ করে, যেমনটি এই পোস্টে আগে আলোচনা করা হয়েছে।

অবজেক্ট তৈরি করতে, আমরা নির্বাচন কৌশল নির্দিষ্ট আর্গুমেন্টগুলিকে একটি হিসাবে পাস করি DotMap বস্তু বরাবর train_loader, validation_loader, এবং logger:

import logging
from cords.utils.data.dataloader.SL.adaptive import GLISTERDataLoader
from dotmap import DotMap dss_args = # GLISTERDataLoader specific arguments
dss_args = DotMap(dss_args)
dataloader = GLISTERDataLoader(train_loader,
validation_loader,
dss_args,
logger,
batch_size=batch_size,
shuffle=True,
pin_memory=False)

সার্জারির GLISTERDataLoader এখন একটি প্রশিক্ষণ লুপে নিয়মিত ডেটালোডার হিসাবে প্রয়োগ করা যেতে পারে। এটি পরবর্তী প্রশিক্ষণ ব্যাচের জন্য ডেটা উপসেট নির্বাচন করবে কারণ মডেলটি সেই মডেলের ক্ষতির উপর ভিত্তি করে শিখবে। পূর্ববর্তী সারণীতে প্রদর্শিত হিসাবে, একটি ডেটা উপসেট নির্বাচন কৌশল যোগ করা আমাদের প্রশিক্ষণের সময়কে উল্লেখযোগ্যভাবে হ্রাস করতে দেয়, এমনকি ডেটা উপসেট নির্বাচনের অতিরিক্ত পদক্ষেপের সাথেও, যথার্থতার সামান্য ট্রেড-অফ সহ।

ডেটা বিজ্ঞানী এবং এমএল ইঞ্জিনিয়ারদের প্রায়শই কিছু বেসলাইনের সাথে তুলনা করে একটি পদ্ধতির বৈধতা মূল্যায়ন করতে হয়। আমরা পরবর্তী বিভাগে এটি কীভাবে করতে হয় তা প্রদর্শন করব।

পরীক্ষা ট্র্যাকিং

আপনি ডেটা উপসেট নির্বাচন পদ্ধতির বৈধতা পরিমাপ করতে SageMaker পরীক্ষাগুলি ব্যবহার করতে পারেন। আরো তথ্যের জন্য, দেখুন নেক্সট জেনারেশন অ্যামাজন সেজমেকার এক্সপেরিমেন্টস - স্কেলে আপনার মেশিন লার্নিং ট্রেনিং সংগঠিত করুন, ট্র্যাক করুন এবং তুলনা করুন.

আমাদের ক্ষেত্রে, আমরা চারটি পরীক্ষা-নিরীক্ষা করি: ডেটা উপসেট নির্বাচন প্রয়োগ না করে একটি বেসলাইন, এবং অন্য তিনটি ভিন্নতার সাথে fraction প্যারামিটার, যা সামগ্রিক ডেটাসেটের সাপেক্ষে উপসেটের আকারকে উপস্থাপন করে। স্বাভাবিকভাবেই, একটি ছোট ব্যবহার করে fraction প্যারামিটারের ফলে প্রশিক্ষণের সময় কম হওয়া উচিত, তবে মডেলের সঠিকতাও কম।

এই পোস্টের জন্য, প্রতিটি প্রশিক্ষণ রান একটি হিসাবে প্রতিনিধিত্ব করা হয় Run সেজমেকার পরীক্ষায় আমাদের পরীক্ষার সাথে সম্পর্কিত রানগুলি সব একের অধীনে গোষ্ঠীভুক্ত Experiment বস্তু রান তৈরি করার সময় একটি সাধারণ পরীক্ষার সাথে সংযুক্ত করা যেতে পারে Estimator SDK এর সাথে। নিম্নলিখিত কোড দেখুন:

from sagemaker.utils import unique_name_from_base
from sagemaker.experiments.run import Run, load_run experiment_name = unique_name_from_base("data-centric-experiment")
with Run(
experiment_name=experiment_name,
sagemaker_session=sess
) as run:
estimator = PyTorch('train.py',
source_dir="source",
role=role,
instance_type=instance_type,
instance_count=1,
framework_version=framework_version,
py_version='py3',
env={ 'SAGEMAKER_REQUIREMENTS': 'requirements.txt',
})
estimator.fit(inputs)

আপনার কাস্টম প্রশিক্ষণ স্ক্রিপ্টের অংশ হিসাবে, আপনি ব্যবহার করে রান মেট্রিক্স সংগ্রহ করতে পারেন load_run:

from sagemaker.experiments.run import load_run
from sagemaker.session import Session if __name__ == "__main__":
args = parse_args()
session = Session(boto3.session.Session(region_name=args.region))
with load_run(sagemaker_session=session) as run:
train(args, run)

তারপর, পূর্ববর্তী অপারেশন দ্বারা ফিরে আসা রান অবজেক্ট ব্যবহার করে, আপনি কল করে প্রতি যুগে ডেটা পয়েন্ট সংগ্রহ করতে পারেন run.log_metric(name, value, step) এবং মেট্রিক নাম, মান এবং বর্তমান যুগ নম্বর সরবরাহ করা।

আমাদের পদ্ধতির বৈধতা পরিমাপ করার জন্য, আমরা প্রশিক্ষণের ক্ষতি, প্রশিক্ষণের নির্ভুলতা, বৈধতা হ্রাস, বৈধতা নির্ভুলতা এবং একটি যুগ সম্পূর্ণ করার সময় সম্পর্কিত মেট্রিক্স সংগ্রহ করি। তারপর, প্রশিক্ষণের কাজগুলি চালানোর পরে, আমরা পারি আমাদের পরীক্ষার ফলাফল পর্যালোচনা করুন in অ্যামাজন সেজমেকার স্টুডিও অথবা SageMaker এক্সপেরিমেন্ট SDK-এর মাধ্যমে।

স্টুডিওর মধ্যে যাচাইকরণের সঠিকতা দেখতে, নির্বাচন করুন বিশ্লেষণ করা পরীক্ষায় রান পাতা.

পরীক্ষার তালিকা

একটি চার্ট যোগ করুন, চার্টের বৈশিষ্ট্য সেট করুন এবং চয়ন করুন সৃষ্টি. নিম্নলিখিত স্ক্রিনশটে দেখানো হয়েছে, আপনি সমস্ত রানের জন্য প্রতিটি যুগে বৈধতা নির্ভুলতার প্লট দেখতে পাবেন।

পরীক্ষার চার্ট

SDK আপনাকে পান্ডাস ডেটাফ্রেম হিসাবে পরীক্ষা-সম্পর্কিত তথ্য পুনরুদ্ধার করার অনুমতি দেয়:

from sagemaker.analytics import ExperimentAnalytics trial_component_analytics = ExperimentAnalytics(
sagemaker_session=sess.sagemaker_client,
experiment_name=experiment_name
)
analytic_table = trial_component_analytics.dataframe()

ঐচ্ছিকভাবে, প্রশিক্ষণ কাজ বাছাই করা যেতে পারে. উদাহরণস্বরূপ, আমরা যোগ করতে পারে "metrics.validation:accuracy.max" মান হিসাবে sort_by পরামিতি পাস ExperimentAnalytics যাচাইকরণ নির্ভুলতার দ্বারা আদেশকৃত ফলাফল ফেরত দিতে।

প্রত্যাশিত হিসাবে, আমাদের পরীক্ষাগুলি দেখায় যে প্রশিক্ষণ অ্যালগরিদমে GLISTER এবং ডেটা উপসেট নির্বাচন প্রয়োগ করা প্রশিক্ষণের সময়কে হ্রাস করে। আমাদের বেসলাইন ট্রেনিং অ্যালগরিদম চালানোর সময়, একটি একক যুগ সম্পূর্ণ করার মধ্যবর্তী সময় 27 সেকেন্ডের কাছাকাছি হয়। বিপরীতে, সামগ্রিক ডেটাসেটের 50%, 30% এবং 10% এর সমতুল্য একটি উপসেট নির্বাচন করতে GLISTER প্রয়োগ করার ফলে ml.p13x বড় উদাহরণে যথাক্রমে প্রায় 8.5, 2.75 এবং 3.2 সেকেন্ডের একটি যুগ শেষ হয় .

আমরা যাচাইকরণের নির্ভুলতার উপর তুলনামূলকভাবে ন্যূনতম প্রভাবও লক্ষ্য করি, বিশেষ করে যখন 50% ডেটা উপসেট ব্যবহার করি। 100টি যুগের প্রশিক্ষণের পর, বেসলাইন 92.72% এর বৈধতা নির্ভুলতা তৈরি করে। বিপরীতে, সামগ্রিক ডেটাসেটের 50%, 30% এবং 10% এর সমতুল্য একটি উপসেট নির্বাচন করতে GLISTER প্রয়োগ করলে যথাক্রমে 91.42%, 89.76% এবং 82.82% বৈধতা নির্ভুলতা পাওয়া যায়।

উপসংহার

সেজমেকার গ্রাউন্ড ট্রুথ এবং সেজমেকার এক্সপেরিমেন্টগুলি ডেটা বিজ্ঞানী এবং এমএল ইঞ্জিনিয়ারদেরকে আরও সামঞ্জস্যপূর্ণ ডেটাসেট তৈরি করতে এবং মডেল বিল্ডিং পর্বে প্রয়োগ করার সাথে সাথে আরও উন্নত কৌশলগুলির প্রভাব ট্র্যাক করার অনুমতি দিয়ে মেশিন লার্নিংয়ের একটি ডেটা-কেন্দ্রিক পদ্ধতিকে সক্ষম করে৷ ML-এ ডেটা-কেন্দ্রিক পদ্ধতির প্রয়োগ করা আপনাকে আপনার মডেলের জন্য প্রয়োজনীয় ডেটার পরিমাণ কমাতে এবং এর দৃঢ়তা উন্নত করতে দেয়।

এটি চেষ্টা করে দেখুন, এবং আপনি মন্তব্যে কি মনে করেন তা আমাদের জানান।

লেখক সম্পর্কে

নিকোলাস বার্নিয়ার একজন সলিউশন আর্কিটেক্ট, AWS এ কানাডিয়ান পাবলিক সেক্টর টিমের অংশ। তিনি বর্তমানে ডিপ লার্নিং-এ একটি গবেষণার ক্ষেত্রে স্নাতকোত্তর ডিগ্রি নিচ্ছেন এবং ML স্পেশালিটি সার্টিফিকেশন সহ পাঁচটি AWS সার্টিফিকেশন ধারণ করছেন। নিকোলাস গ্রাহকদের তাদের ব্যবসায়িক চ্যালেঞ্জগুলিকে প্রযুক্তিগত সমাধানে অনুবাদ করার জন্য তাদের সাথে কাজ করার মাধ্যমে তাদের AWS সম্পর্কে তাদের জ্ঞানকে আরও গভীর করতে সহায়তা করার বিষয়ে উত্সাহী৷

জিভানিল্ডো আলভেস তিনি আমাজন ওয়েব সার্ভিসে প্রোটোটাইপিং এবং ক্লাউড ইঞ্জিনিয়ারিং টিমের সাথে একজন প্রোটোটাইপিং আর্কিটেক্ট, ক্লায়েন্টদেরকে AWS-এ সম্ভাব্য শিল্প দেখানোর মাধ্যমে উদ্ভাবন এবং ত্বরান্বিত করতে সাহায্য করে, ইতিমধ্যেই কৃত্রিম বুদ্ধিমত্তার আশেপাশে বেশ কয়েকটি প্রোটোটাইপ প্রয়োগ করেছে। সফটওয়্যার ইঞ্জিনিয়ারিংয়ে তার দীর্ঘ কর্মজীবন রয়েছে এবং এর আগে Amazon.com.br-এ সফটওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার হিসেবে কাজ করেছেন।

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
উত্স: https://aws.amazon.com/blogs/machine-learning/use-a-data-centric-approach-to-minimize-the-amount-of-data-required-to-train-amazon-sagemaker-models/

সময় স্ট্যাম্প: মার্চ 9, 2023

সময় স্ট্যাম্প: আগস্ট 15, 2022

প্লেটো দ্বারা প্রকাশিত

Amazon SageMaker Pipelines লোকাল মোড দিয়ে খরচ এবং ডেভেলপমেন্ট টাইম কমান

কিভাবে SIGNAL IDUNA AWS-এ মেশিন লার্নিং প্রকল্পগুলিকে কার্যকর করে

MLOps ওয়ার্কফ্লো সহ Amazon SageMaker ডেটা র্যাংলারকে একীভূত করুন

Amazon SageMaker JumpStart সমাধানগুলি এখন কাস্টম IAM ভূমিকা সেটিংস সমর্থন করে৷

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব