আপনার Amazon SageMaker প্রশিক্ষণ কাজের জন্য সেরা ডেটা উত্স চয়ন করুন

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

আমাজন সেজমেকার একটি পরিচালিত পরিষেবা যা মেশিন লার্নিং (ML) মডেল তৈরি, প্রশিক্ষণ এবং স্থাপন করা সহজ করে তোলে। ডেটা সায়েন্টিস্টরা সহজে এমএল মডেল প্রশিক্ষিত করতে সেজমেকার প্রশিক্ষণের কাজগুলি ব্যবহার করে; আপনাকে গণনা সংস্থান পরিচালনার বিষয়ে চিন্তা করতে হবে না, এবং আপনি শুধুমাত্র প্রকৃত প্রশিক্ষণের সময়ের জন্য অর্থ প্রদান করেন। ডেটা ইনজেশন যেকোন প্রশিক্ষণ পাইপলাইনের একটি অবিচ্ছেদ্য অংশ, এবং সেজমেকার প্রশিক্ষণের কাজগুলি বিভিন্ন ধরণের ডেটা স্টোরেজ এবং ইনপুট মোডগুলিকে প্রশিক্ষণ কাজের লোডের বিস্তৃত পরিসরের জন্য সমর্থন করে।

এই পোস্টটি আপনাকে আপনার সেজমেকার এমএল প্রশিক্ষণ ব্যবহারের ক্ষেত্রে সেরা ডেটা উত্স চয়ন করতে সহায়তা করে। আমরা ডেটা উত্স বিকল্পগুলি উপস্থাপন করি যা SageMaker প্রশিক্ষণের কাজগুলি স্থানীয়ভাবে সমর্থন করে। প্রতিটি ডেটা উৎস এবং ইনপুট মোডের জন্য, আমরা এর ব্যবহার সহজ, কর্মক্ষমতা বৈশিষ্ট্য, খরচ এবং সীমাবদ্ধতার রূপরেখা দিই। আপনাকে দ্রুত শুরু করতে সাহায্য করার জন্য, আমরা একটি নমুনা সিদ্ধান্ত প্রবাহ সহ ডায়াগ্রাম প্রদান করি যা আপনি আপনার মূল কাজের চাপের বৈশিষ্ট্যের উপর ভিত্তি করে অনুসরণ করতে পারেন। পরিশেষে, আমরা সামগ্রিক প্রশিক্ষণ খরচ এবং কর্মক্ষমতার উপর ব্যবহারিক প্রভাব প্রদর্শনের জন্য বাস্তবসম্মত প্রশিক্ষণের পরিস্থিতির জন্য বেশ কয়েকটি মানদণ্ড সম্পাদন করি।

নেটিভ সেজমেকার ডেটা উত্স এবং ইনপুট মোড

পারফরম্যান্ট উপায়ে সহজে এবং নমনীয়ভাবে প্রশিক্ষণের ডেটা পড়া এমএল প্রশিক্ষণের জন্য একটি সাধারণ পুনরাবৃত্ত উদ্বেগ। SageMaker ডেটা উৎস এবং তাদের নিজ নিজ ইনপুট মোড নামে পরিচিত দক্ষ, উচ্চ-থ্রুপুট ডেটা ইনজেশন মেকানিজমের একটি নির্বাচনের মাধ্যমে ডেটা ইনজেশনকে সহজ করে। এটি আপনাকে প্রকৃত ডেটা উত্স থেকে প্রশিক্ষণ কোড ডিক্যুল করতে, ফাইল সিস্টেমগুলিকে স্বয়ংক্রিয়ভাবে মাউন্ট করতে, উচ্চ কার্যকারিতার সাথে পড়তে, ডেটা সমান্তরালতা সক্ষম করতে GPU এবং উদাহরণগুলির মধ্যে সহজেই ডেটা শার্ডিং চালু করতে এবং প্রতিটি যুগের শুরুতে ডেটা অটো শাফেল করতে দেয়৷

সেজমেকার ট্রেনিং ইনজেশন মেকানিজম স্থানীয়ভাবে তিনটি AWS পরিচালিত স্টোরেজ পরিষেবার সাথে সংহত করে:

আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) হল একটি অবজেক্ট স্টোরেজ পরিষেবা যা শিল্প-নেতৃস্থানীয় স্কেলেবিলিটি, ডেটা প্রাপ্যতা, নিরাপত্তা এবং কর্মক্ষমতা প্রদান করে।
দীপ্তি জন্য Amazon FSx জনপ্রিয় লুস্টার ফাইল সিস্টেমের স্কেলেবিলিটি এবং কর্মক্ষমতা সহ একটি সম্পূর্ণরূপে পরিচালিত শেয়ার্ড স্টোরেজ। এটি সাধারণত একটি বিদ্যমান S3 বালতির সাথে সংযুক্ত থাকে।
আমাজন ইলাস্টিক ফাইল সিস্টেম (Amazon EFS) একটি সাধারণ উদ্দেশ্য, মাপযোগ্য, এবং একাধিক মূল্য স্তর সহ অত্যন্ত উপলব্ধ শেয়ার্ড ফাইল সিস্টেম। Amazon EFS সার্ভারবিহীন এবং আপনি ফাইলগুলি যোগ এবং মুছে ফেলার সাথে সাথে স্বয়ংক্রিয়ভাবে বৃদ্ধি এবং সঙ্কুচিত হয়।

SageMaker প্রশিক্ষণ আপনার প্রশিক্ষণ স্ক্রিপ্ট অ্যামাজন S3, FSx for Lustre, বা Amazon EFS-এ সঞ্চিত ডেটাসেটগুলি অ্যাক্সেস করতে দেয়, যেন এটি একটি স্থানীয় ফাইল সিস্টেমে উপলব্ধ (একটি POSIX-সঙ্গী ফাইল সিস্টেম ইন্টারফেসের মাধ্যমে)।

একটি ডেটা উৎস হিসাবে Amazon S3 এর সাথে, আপনি ফাইল মোড, ফাস্টফাইল মোড এবং পাইপ মোডের মধ্যে বেছে নিতে পারেন:

ফাইল মোড - SageMaker Amazon S3 থেকে ML ইনস্ট্যান্স স্টোরেজে একটি ডেটাসেট কপি করে, যা একটি সংযুক্ত আমাজন ইলাস্টিক ব্লক স্টোর (Amazon EBS) ভলিউম বা NVMe SSD ভলিউম, আপনার প্রশিক্ষণ স্ক্রিপ্ট শুরু হওয়ার আগে।
ফাস্টফাইল মোড – সেজমেকার প্রশিক্ষণের দৃষ্টান্তে একটি POSIX ফাইল সিস্টেম হিসাবে Amazon S3-এ থাকা একটি ডেটাসেট প্রকাশ করে। আপনার প্রশিক্ষণ স্ক্রিপ্ট পড়ার কারণে ডেটাসেট ফাইলগুলি অ্যামাজন S3 থেকে স্ট্রিম করা হয়।
পাইপ মোড – SageMaker Amazon S3-এ থাকা একটি ডেটাসেটকে ML ট্রেনিং ইনস্ট্যান্সে ইউনিক্স পাইপ হিসেবে স্ট্রিম করে, যেটি চাহিদা অনুযায়ী Amazon S3 থেকে প্রবাহিত হয় কারণ আপনার ট্রেনিং স্ক্রিপ্ট পাইপ থেকে ডেটা পড়ে।

ডাটা সোর্স হিসেবে Luster বা Amazon EFS-এর জন্য FSx, SageMaker আপনার ট্রেনিং স্ক্রিপ্ট শুরু হওয়ার আগে ফাইল সিস্টেম মাউন্ট করে।

প্রশিক্ষণ ইনপুট চ্যানেল

একটি SageMaker প্রশিক্ষণ কাজ চালু করার সময়, আপনি 20টি পর্যন্ত পরিচালিত নির্দিষ্ট করতে পারেন প্রশিক্ষণ ইনপুট চ্যানেল. একটি ফাইল সিস্টেম পাথ থেকে পড়ার জন্য অ্যালগরিদম কোডে উপলব্ধ ডেটা কীভাবে এবং কোথায় পাওয়া যায় তা প্রশিক্ষণের কাজকে বলার জন্য আপনি চ্যানেলগুলিকে একটি বিমূর্ততা ইউনিট হিসাবে ভাবতে পারেন (উদাহরণস্বরূপ, /opt/ml/input/data/input-channel-name) ML উদাহরণে। নির্বাচিত প্রশিক্ষণ চ্যানেলগুলি প্রশিক্ষণ কাজের মেটাডেটার অংশ হিসাবে ক্যাপচার করা হয় যাতে প্রশিক্ষণের চাকরির পুনরুত্পাদনযোগ্যতা বা মডেল গভর্নেন্সের উদ্দেশ্যে ব্যবহারের ক্ষেত্রে একটি সম্পূর্ণ মডেল বংশ ট্র্যাকিং সক্ষম করা হয়।

আপনার ডেটা উত্স হিসাবে Amazon S3 ব্যবহার করতে, আপনি একটি সংজ্ঞায়িত করুন৷ প্রশিক্ষণ ইনপুট নিম্নলিখিত নির্দিষ্ট করতে:

আপনার ইনপুট মোড (ফাইল, ফাস্টফাইল বা পাইপ মোড)
বিতরণ এবং বদলে যাওয়া কনফিগারেশন
An S3DataType আপনার ডেটাসেট তৈরি করে এমন Amazon S3-এ বস্তু নির্দিষ্ট করার জন্য তিনটি পদ্ধতির মধ্যে একটি হিসাবে:
- S3Prefix (S3 উপসর্গের অধীনে সমস্ত বস্তু)
- ম্যানিফেস্ট ফাইল (S3 বস্তুর একটি তালিকা)
- অগমেন্টেড ম্যানিফেস্ট ফাইল (S3 বস্তুর একটি তালিকা এবং তাদের নিজ নিজ লেবেল)

বিকল্পভাবে, Luster বা Amazon EFS-এর জন্য FSx-এর জন্য, আপনি একটি সংজ্ঞায়িত করুন ফাইল সিস্টেম ইনপুট.

নিম্নলিখিত চিত্রটি পাঁচটি প্রশিক্ষণের কাজ দেখায়, প্রতিটি আলাদা ডেটা উত্স এবং ইনপুট মোড সংমিশ্রণে কনফিগার করা হয়েছে:

ডেটা উত্স এবং ইনপুট মোড

নিম্নলিখিত বিভাগগুলি Amazon S3 (ফাইল মোড, ফাস্টফাইল মোড, এবং পাইপ মোড), লাস্ট্রের জন্য এফএসএক্স এবং সেজমেকার ইনজেশন মেকানিজম হিসাবে অ্যামাজন ইএফএস-এর মধ্যে পার্থক্যগুলির গভীরে ডুব দেয়৷

Amazon S3 ফাইল মোড

ফাইল মোড হল ডিফল্ট ইনপুট মোড (যদি আপনি স্পষ্টভাবে একটি নির্দিষ্ট না করেন), এবং এটি ব্যবহার করা আরও সহজ। যখন আপনি এই ইনপুট বিকল্পটি ব্যবহার করেন, তখন মডেল প্রশিক্ষণ চালু করার আগে SageMaker Amazon S3 থেকে ML ট্রেনিং ইনস্ট্যান্স স্টোরেজে (Amazon EBS বা স্থানীয় NVMe ইনস্ট্যান্স প্রকারের উপর নির্ভর করে) ডেটাসেট ডাউনলোড করে, যাতে ট্রেনিং স্ক্রিপ্ট থেকে ডেটাসেট পড়তে পারে স্থানীয় ফাইল সিস্টেম। এই ক্ষেত্রে, দৃষ্টান্তে অবশ্যই সমগ্র ডেটাসেট ফিট করার জন্য পর্যাপ্ত স্টোরেজ স্পেস থাকতে হবে।

আপনি একটি S3 উপসর্গ, ম্যানিফেস্ট ফাইল বা অগমেন্টেড ম্যানিফেস্ট ফাইল প্রদান করে ফাইল মোডের জন্য ডেটাসেট কনফিগার করেন।

আপনার একটি S3 উপসর্গ ব্যবহার করা উচিত যখন আপনার সমস্ত ডেটাসেট ফাইল একটি সাধারণ S3 উপসর্গের মধ্যে থাকে (সাবফোল্ডার ঠিক আছে)।

ম্যানিফেস্ট ফাইল আপনার ডেটাসেট সমন্বিত ফাইলগুলিকে তালিকাভুক্ত করে৷ আপনি সাধারণত একটি ম্যানিফেস্ট ব্যবহার করেন যখন একটি ডেটা প্রিপ্রসেসিং কাজ একটি ম্যানিফেস্ট ফাইল নির্গত করে, বা যখন আপনার ডেটাসেট ফাইলগুলি একাধিক S3 উপসর্গ জুড়ে ছড়িয়ে পড়ে। একটি অগমেন্টেড ম্যানিফেস্ট হল একটি JSON লাইন ফাইল, যেখানে প্রতিটি লাইনে অ্যাট্রিবিউটের একটি তালিকা থাকে, যেমন Amazon S3-এ একটি ফাইলের রেফারেন্স, অতিরিক্ত বৈশিষ্ট্যগুলির পাশাপাশি, বেশিরভাগ লেবেল। এর ব্যবহারের ক্ষেত্রে একটি ম্যানিফেস্টের মতোই।

ফাইল মোড এর সাথে সামঞ্জস্যপূর্ণ সেজমেকার স্থানীয় মোড (সেকেন্ডের মধ্যে ইন্টারেক্টিভভাবে একটি সেজমেকার প্রশিক্ষণ পাত্র শুরু করা)। বিতরণ করা প্রশিক্ষণের জন্য, আপনি এর সাথে একাধিক দৃষ্টান্ত জুড়ে ডেটাসেট ভাগ করতে পারেন ShardedByS3Key বিকল্প।

ফাইল মোড ডাউনলোডের গতি ডেটাসেটের আকার, গড় ফাইলের আকার এবং ফাইলের সংখ্যার উপর নির্ভর করে। উদাহরণস্বরূপ, ডেটাসেটটি যত বড় হবে (অথবা এটিতে যত বেশি ফাইল রয়েছে), ডাউনলোড করার পর্যায় তত দীর্ঘ হবে, যার সময় ইনস্ট্যান্সের গণনা সংস্থান কার্যকরভাবে নিষ্ক্রিয় থাকে। স্পট ইন্সট্যান্সের সাথে প্রশিক্ষণের সময়, প্রতিবার স্পট বাধার পরে কাজ পুনরায় শুরু হলে ডেটাসেট ডাউনলোড করা হয়। সাধারণত, বড় ফাইলের জন্য ডাটা ডাউনলোড হয় প্রায় 200 MB/s এ (উদাহরণস্বরূপ, 5 মিনিট/50 GB)। এই স্টার্টআপ ওভারহেড গ্রহণযোগ্য কিনা তা প্রাথমিকভাবে আপনার প্রশিক্ষণ কাজের সামগ্রিক সময়কালের উপর নির্ভর করে, কারণ একটি দীর্ঘ প্রশিক্ষণ পর্ব মানে আনুপাতিকভাবে ছোট ডাউনলোড পর্ব।

Amazon S3 ফাস্টফাইল মোড

ফাস্টফাইল মোড একটি POSIX-সঙ্গী ফাইল সিস্টেম ইন্টারফেসের মাধ্যমে S3 অবজেক্টগুলিকে প্রকাশ করে, যেন ফাইলগুলি আপনার প্রশিক্ষণ উদাহরণের স্থানীয় ডিস্কে উপলব্ধ ছিল এবং প্রশিক্ষণ স্ক্রিপ্ট দ্বারা ডেটা ব্যবহার করা হলে চাহিদা অনুযায়ী তাদের বিষয়বস্তু স্ট্রিম করে। এর মানে আপনার ডেটাসেটকে আর ট্রেনিং ইন্সট্যান্স স্টোরেজ স্পেসে ফিট করার দরকার নেই এবং ট্রেনিং শুরু হওয়ার আগে আপনাকে ট্রেনিং ইনস্ট্যান্সে ডেটাসেট ডাউনলোড করার জন্য অপেক্ষা করতে হবে না।

এই সুবিধার জন্য, SageMaker আপনার প্রশিক্ষণ স্ক্রিপ্ট চালানোর আগে নির্দিষ্ট S3 উপসর্গের অধীনে সংরক্ষিত সমস্ত অবজেক্ট মেটাডেটা তালিকাভুক্ত করে। এই মেটাডেটা শুধুমাত্র পঠনযোগ্য তৈরি করতে ব্যবহার করা হয় FUSE (ইউজারস্পেসে ফাইল সিস্টেম) যা আপনার প্রশিক্ষণ স্ক্রিপ্টের মাধ্যমে উপলব্ধ /opt/ml/data/training-channel-name. S3 অবজেক্টের তালিকা তাদের আকার নির্বিশেষে প্রতি সেকেন্ডে 5,500 অবজেক্টের মতো দ্রুত চলে। এটি ফাইল মোডের ক্ষেত্রে যেমনটি, আগে থেকে ফাইল ডাউনলোড করার চেয়ে অনেক দ্রুত। আপনার প্রশিক্ষণ স্ক্রিপ্ট চলাকালীন, এটি ফাইলগুলিকে তালিকাভুক্ত করতে বা পড়তে পারে যেন সেগুলি স্থানীয়ভাবে উপলব্ধ ছিল৷ প্রতিটি পঠিত ক্রিয়াকলাপ FUSE পরিষেবাতে অর্পণ করা হয়, যা কলারের কাছে প্রকৃত ফাইল সামগ্রী সরবরাহ করার জন্য Amazon S3-এর কাছে GET অনুরোধ প্রক্সি করে। একটি স্থানীয় ফাইল সিস্টেমের মতো, ফাস্টফাইল ফাইলগুলিকে বাইট হিসাবে বিবেচনা করে, তাই এটি ফাইল ফর্ম্যাটগুলির জন্য অজ্ঞেয়বাদী৷ একাধিক কর্মী ব্যবহার করে ক্রমানুসারে বড় ফাইল পড়ার সময় ফাস্টফাইল মোড এক GB/s এর বেশি থ্রুপুটে পৌঁছাতে পারে। আপনি ছোট ফাইলগুলি পড়তে বা র্যান্ডম বাইট রেঞ্জ পুনরুদ্ধার করতে ফাস্টফাইল ব্যবহার করতে পারেন, তবে এই ধরনের অ্যাক্সেস প্যাটার্নগুলির জন্য আপনার কম থ্রুপুট আশা করা উচিত। আপনি অনেক ছোট ফাইলকে বড় ফাইল পাত্রে সিরিয়ালাইজ করে আপনার পঠন অ্যাক্সেস প্যাটার্নটি অপ্টিমাইজ করতে পারেন এবং সেগুলিকে ক্রমানুসারে পড়তে পারেন।

FastFile বর্তমানে শুধুমাত্র S3 উপসর্গ সমর্থন করে (মেনিফেস্ট এবং অগমেন্টেড ম্যানিফেস্টের জন্য কোন সমর্থন নেই), এবং FastFile মোড SageMaker স্থানীয় মোডের সাথে সামঞ্জস্যপূর্ণ।

Amazon S3 পাইপ মোড

পাইপ মোড হল আরেকটি স্ট্রিমিং মোড যা মূলত নতুন এবং সহজে ব্যবহারযোগ্য FastFile মোড দ্বারা প্রতিস্থাপিত হয়।

পাইপ মোডের সাহায্যে, উচ্চ একযোগে এবং থ্রুপুটে Amazon S3 থেকে ডেটা প্রাক-আনয়ন করা হয় এবং ইউনিক্স নামক FIFO পাইপগুলিতে প্রবাহিত হয়। প্রতিটি পাইপ শুধুমাত্র একটি একক প্রক্রিয়া দ্বারা পড়া হতে পারে। টেনসরফ্লোতে সুবিধাজনকভাবে একটি সেজমেকার-নির্দিষ্ট এক্সটেনশন নেটিভ টেনসরফ্লো ডেটা লোডারে পাইপ মোডকে একীভূত করে স্ট্রিমিং টেক্সট, TFRecords, বা RecordIO ফাইল ফরম্যাটের জন্য। পাইপ মোড ম্যানেজড শার্ডিং এবং ডাটা শাফলিংকেও সমর্থন করে।

দীপ্তি জন্য FSx

Luster-এর জন্য FSx শত শত GB/s থ্রুপুট এবং লো-লেটেন্সি ফাইল পুনরুদ্ধার সহ লক্ষ লক্ষ IOPS স্কেল করতে পারে।

প্রশিক্ষণের কাজ শুরু করার সময়, SageMaker FSx for Luster ফাইল সিস্টেমকে ট্রেনিং ইনস্ট্যান্স ফাইল সিস্টেমে মাউন্ট করে, তারপর আপনার প্রশিক্ষণ স্ক্রিপ্ট শুরু করে। মাউন্ট করা নিজেই একটি অপেক্ষাকৃত দ্রুত অপারেশন যা Lustre-এর জন্য FSx-এ সংরক্ষিত ডেটাসেটের আকারের উপর নির্ভর করে না।

অনেক ক্ষেত্রে, আপনি Luster ফাইল সিস্টেমের জন্য একটি FSx তৈরি করুন এবং এটিকে একটি S3 বালতি এবং উপসর্গের সাথে লিঙ্ক করুন. উত্স হিসাবে একটি S3 বাকেটের সাথে লিঙ্ক করা হলে, ফাইলগুলি ফাইল সিস্টেমে অলসভাবে লোড হয় কারণ আপনার প্রশিক্ষণ স্ক্রিপ্ট সেগুলি পড়ে৷ এর মানে হল যে আপনার প্রথম প্রশিক্ষণের প্রথম যুগের ঠিক পরে, সম্পূর্ণ ডেটাসেটটি Amazon S3 থেকে FSx-এ Luster স্টোরেজের জন্য অনুলিপি করা হয়েছে (ধরে নিচ্ছি যে একটি যুগকে একটি একক পূর্ণ ঝাড়ু হিসাবে সংজ্ঞায়িত করা হয়েছে প্রশিক্ষণের উদাহরণগুলির জন্য, এবং যে জন্য বরাদ্দ করা হয়েছে FSx দীপ্তি সঞ্চয়স্থান যথেষ্ট বড়)। এটি একই ডেটাসেটের সাথে পরবর্তী যেকোনো যুগ এবং প্রশিক্ষণের কাজের জন্য কম-বিলম্বিত ফাইল অ্যাক্সেস সক্ষম করে।

আপনি এটিও করতে পারেন ফাইল সিস্টেমে ফাইল প্রিলোড করুন প্রশিক্ষণ কাজ শুরু করার আগে, যা অলস লোডিংয়ের কারণে ঠান্ডা শুরুকে উপশম করে। লাস্টার ফাইল সিস্টেমের জন্য একই FSx দ্বারা পরিসেবা করা সমান্তরালে একাধিক প্রশিক্ষণের কাজ চালানোও সম্ভব। Lustre-এর জন্য FSx অ্যাক্সেস করতে, আপনার প্রশিক্ষণের কাজ অবশ্যই একটি VPC-এর সাথে সংযুক্ত হতে হবে (দেখুন VPCCconfig সেটিংস), যার জন্য DevOps সেটআপ এবং সম্পৃক্ততা প্রয়োজন৷ ডেটা স্থানান্তর খরচ এড়াতে, ফাইল সিস্টেম একটি একক উপলব্ধতা অঞ্চল ব্যবহার করে এবং প্রশিক্ষণের কাজ চালানোর সময় আপনাকে এই উপলব্ধতা অঞ্চল আইডি নির্দিষ্ট করতে হবে। যেহেতু আপনি আপনার দীর্ঘমেয়াদী ডেটা স্টোরেজ হিসাবে Amazon S3 ব্যবহার করছেন, তাই আমরা 2 MB/s বেসলাইন প্রদান করে উচ্চ থ্রুপুটের জন্য একটি সাশ্রয়ী, স্বল্পমেয়াদী স্টোরেজ পছন্দ হিসাবে স্ক্র্যাচ 200 স্টোরেজ সহ লাস্টারের জন্য আপনার FSx স্থাপন করার সুপারিশ করছি। এবং প্রভিশনেড স্টোরেজ প্রতি টিবিতে 1300 MB/s পর্যন্ত বিস্ফোরণ।

আপনার এফএসএক্স ফর লুস্টার ফাইল সিস্টেম ক্রমাগত চলার সাথে, আপনি একটি ফাইল সিস্টেম তৈরি হওয়ার জন্য অপেক্ষা না করেই নতুন প্রশিক্ষণের কাজ শুরু করতে পারেন, এবং প্রথম যুগে ঠান্ডা শুরুর বিষয়ে চিন্তা করতে হবে না (কারণ ফাইলগুলি এখনও ক্যাশে করা যেতে পারে) লাস্টার ফাইল সিস্টেমের জন্য FSx)। এই দৃশ্যের নেতিবাচক দিক হল ফাইল সিস্টেম চালু রাখার সাথে যুক্ত অতিরিক্ত খরচ। বিকল্পভাবে, আপনি প্রতিটি প্রশিক্ষণ কাজের আগে এবং পরে ফাইল সিস্টেম তৈরি করতে এবং মুছে ফেলতে পারেন (সম্ভবত সাহায্য করার জন্য স্ক্রিপ্টেড অটোমেশন সহ), তবে এটি Luster ফাইল সিস্টেমের জন্য একটি FSx শুরু করতে সময় নেয়, যা এটি ধারণ করা ফাইলগুলির সংখ্যার সমানুপাতিক (এর জন্য উদাহরণস্বরূপ, Amazon S2 থেকে আনুমানিক 3 মিলিয়ন বস্তুকে সূচী করতে প্রায় এক ঘন্টা সময় লাগে)।

আমাজন ইএফএস

এমএল প্রশিক্ষণ ছাড়াও ব্যবহারের ক্ষেত্রে আপনার প্রশিক্ষণের ডেটা ইতিমধ্যেই অ্যামাজন ইএফএস-এ থাকলে আমরা অ্যামাজন ইএফএস ব্যবহার করার পরামর্শ দিই। একটি ডেটা উত্স হিসাবে Amazon EFS ব্যবহার করার জন্য, প্রশিক্ষণের আগে ডেটা ইতিমধ্যেই Amazon EFS-এ থাকতে হবে। সেজমেকার প্রশিক্ষণের উদাহরণে নির্দিষ্ট আমাজন EFS ফাইল সিস্টেম মাউন্ট করে, তারপর আপনার প্রশিক্ষণ স্ক্রিপ্ট শুরু করে। অ্যামাজন ইএফএস ফাইল সিস্টেম কনফিগার করার সময়, আপনাকে ডিফল্ট সাধারণ উদ্দেশ্য কর্মক্ষমতা মোডের মধ্যে বেছে নিতে হবে, যা লেটেন্সির জন্য অপ্টিমাইজ করা হয়েছে (ছোট ফাইলগুলির জন্য ভাল), এবং সর্বোচ্চ I/O পারফরম্যান্স মোড, যা সমষ্টিগত থ্রুপুটের উচ্চ স্তরে স্কেল করতে পারে এবং প্রতি সেকেন্ডে ক্রিয়াকলাপ (অনেক I/O কর্মীদের প্রশিক্ষণের কাজের জন্য ভাল)। আরো জানতে, পড়ুন সঠিক কর্মক্ষমতা মোড ব্যবহার করে.

অতিরিক্তভাবে, আপনি দুটি মিটারযুক্ত থ্রুপুট বিকল্পের মধ্যে বেছে নিতে পারেন: বার্স্টিং থ্রুপুট এবং প্রভিশনড থ্রুপুট। একটি 1 টিবি ফাইল সিস্টেমের জন্য বার্স্টিং থ্রুপুট 150 এমবি/সেকেন্ডের একটি বেসলাইন প্রদান করে, যেখানে দিনে 300 ঘন্টা সময়ের জন্য 12 এমবি/সেকেন্ডে বিস্ফোরিত হতে সক্ষম। আপনার যদি উচ্চতর বেসলাইন থ্রুপুট প্রয়োজন হয়, অথবা অনেকবার বার্স্ট ক্রেডিট ফুরিয়ে যাচ্ছে, আপনি হয় ফাইল সিস্টেমের আকার বাড়াতে পারেন বা প্রভিশনেড থ্রুপুটে স্যুইচ করতে পারেন। প্রভিশনড থ্রুপুটে, আপনি সর্বোচ্চ 3072 MB/s রিড পর্যন্ত কাঙ্ক্ষিত বেসলাইন থ্রুপুটের জন্য অর্থ প্রদান করেন।

আপনার প্রশিক্ষণের কাজটি অবশ্যই একটি ভিপিসির সাথে সংযুক্ত হবে (দেখুন VPCCconfig সেটিংস) অ্যামাজন ইএফএস অ্যাক্সেস করতে।

সেরা ডাটা সোর্স নির্বাচন করা

আপনার প্রশিক্ষণের কাজের জন্য সর্বোত্তম ডেটা উত্স নির্ভর করে কাজের চাপের বৈশিষ্ট্যগুলির উপর যেমন ডেটাসেট আকার, ফাইল বিন্যাস, গড় ফাইলের আকার, প্রশিক্ষণের সময়কাল, অনুক্রমিক বা র্যান্ডম ডেটা লোডার পড়ার প্যাটার্ন এবং আপনার মডেল কত দ্রুত প্রশিক্ষণের ডেটা ব্যবহার করতে পারে।

নিম্নলিখিত ফ্লোচার্ট আপনাকে শুরু করতে সাহায্য করার জন্য কিছু নির্দেশিকা প্রদান করে:

কখন Amazon EFS ব্যবহার করবেন

যদি আপনার ডেটাসেট প্রাথমিকভাবে Amazon EFS-এ সংরক্ষিত থাকে, তাহলে আপনার কাছে একটি প্রিপ্রসেসিং বা টীকা অ্যাপ্লিকেশন থাকতে পারে যা স্টোরেজের জন্য Amazon EFS ব্যবহার করে। আপনি সহজেই একটি ডেটা চ্যানেলের সাথে কনফিগার করা একটি প্রশিক্ষণ কাজ চালাতে পারেন যা Amazon EFS ফাইল সিস্টেমের দিকে নির্দেশ করে (আরো তথ্যের জন্য, দেখুন Luster এবং Amazon EFS ফাইল সিস্টেমের জন্য Amazon FSx ব্যবহার করে Amazon SageMaker-এ প্রশিক্ষণের গতি বাড়ান) যদি পারফরম্যান্স আপনার প্রত্যাশার মতো ভাল না হয়, তাহলে আপনার অপ্টিমাইজেশন বিকল্পগুলি দেখুন আমাজন ইএফএস পারফরম্যান্স গাইড, অথবা অন্যান্য ইনপুট মোড বিবেচনা করুন।

ছোট ডেটাসেটের জন্য ফাইল মোড ব্যবহার করুন

যদি ডেটাসেটটি Amazon S3 এ সংরক্ষিত থাকে এবং এর সামগ্রিক ভলিউম তুলনামূলকভাবে ছোট হয় (উদাহরণস্বরূপ, 50-100 GB-এর কম), তাহলে ফাইল মোড ব্যবহার করার চেষ্টা করুন. 50 জিবি ডেটাসেট ডাউনলোড করার ওভারহেড ফাইলের মোট সংখ্যার উপর ভিত্তি করে পরিবর্তিত হতে পারে (উদাহরণস্বরূপ, প্রায় 5 মিনিট যদি 100 এমবি শার্ডে বিভক্ত করা হয়)। এই স্টার্টআপ ওভারহেড গ্রহণযোগ্য কিনা তা প্রাথমিকভাবে আপনার প্রশিক্ষণ কাজের সামগ্রিক সময়কালের উপর নির্ভর করে, কারণ একটি দীর্ঘ প্রশিক্ষণ পর্ব মানে আনুপাতিকভাবে ছোট ডাউনলোড পর্ব।

অনেক ছোট ফাইল একসাথে সিরিয়াল করা

যদি আপনার ডেটাসেটের আকার ছোট হয় (50-100 GB-এর কম), কিন্তু অনেকগুলি ছোট ফাইল (50 MB-এর কম) দিয়ে তৈরি হয়, তাহলে ফাইল মোড ডাউনলোডের ওভারহেড বৃদ্ধি পায়, কারণ প্রতিটি ফাইলকে Amazon S3 থেকে আলাদাভাবে ডাউনলোড করতে হবে। প্রশিক্ষণ উদাহরণ ভলিউম। এই ওভারহেড কমাতে, এবং সাধারণভাবে ডেটা ট্রাভার্সালের গতি বাড়ানোর জন্য, ফাইল ফরম্যাটগুলি ব্যবহার করে ছোট ফাইলগুলির গ্রুপগুলিকে কম বড় ফাইল কন্টেনারে (যেমন ফাইল প্রতি 150 এমবি) সিরিয়ালাইজ করার কথা বিবেচনা করুন যেমন TFR রেকর্ড TensorFlow এর জন্য, ওয়েবডেটসেট PyTorch জন্য, বা রেকর্ড আইও MXNet এর জন্য। এই ফর্ম্যাটগুলির জন্য আপনার ডেটা লোডারকে ক্রমানুসারে উদাহরণগুলির মাধ্যমে পুনরাবৃত্তি করতে হবে। আপনি এখনও প্রতিটি যুগের পরে এলোমেলোভাবে TFRecord ফাইলগুলির তালিকা পুনর্বিন্যাস করে এবং স্থানীয় শাফেল বাফার থেকে এলোমেলোভাবে ডেটা নমুনা করে আপনার ডেটা এলোমেলো করতে পারেন (নিম্নলিখিতটি দেখুন টেনসরফ্লো উদাহরণ).

কখন ফাস্টফাইল মোড ব্যবহার করবেন

বৃহত্তর ফাইলের (50 এমবি-এর বেশি) বড় ডেটাসেটের জন্য, প্রথম বিকল্পটি হল ফাস্টফাইল মোড চেষ্টা করা, যেটি লুস্টারের জন্য FSx-এর চেয়ে ব্যবহার করা আরও সহজ কারণ এটির জন্য একটি ফাইল সিস্টেম তৈরি করা বা VPC-তে সংযোগ করার প্রয়োজন নেই৷ ফাস্টফাইল মোড বড় ফাইল কন্টেইনারগুলির জন্য আদর্শ (150 এমবি-এর বেশি), এবং 50 এমবি-এর বেশি ফাইলগুলির সাথেও ভাল কাজ করতে পারে৷ যেহেতু ফাস্টফাইল মোড একটি POSIX ইন্টারফেস প্রদান করে, এটি র্যান্ডম রিড (অ-ক্রমিক বাইট-রেঞ্জ পড়া) সমর্থন করে। যাইহোক, এটি আদর্শ ব্যবহারের ক্ষেত্রে নয়, এবং আপনার থ্রুপুট সম্ভবত অনুক্রমিক পাঠের তুলনায় কম হবে। যাইহোক, যদি আপনার কাছে তুলনামূলকভাবে বড় এবং গণনামূলকভাবে নিবিড় এমএল মডেল থাকে, তবে ফাস্টফাইল মোড এখনও প্রশিক্ষণ পাইপলাইনের কার্যকর ব্যান্ডউইথকে পরিপূর্ণ করতে সক্ষম হতে পারে এবং এর ফলে I/O বাধা সৃষ্টি হবে না। আপনি পরীক্ষা এবং দেখতে হবে. সৌভাগ্যবশত, ফাইল মোড থেকে ফাস্টফাইলে (এবং পিছনে) স্যুইচ করা যতটা সহজ, ততই সহজ input_mode='FastFile' SageMaker Python SDK ব্যবহার করে আপনার ইনপুট চ্যানেল সংজ্ঞায়িত করার সময় প্যারামিটার:

sagemaker.inputs.TrainingInput(S3_INPUT_FOLDER, input_mode='FastFile')

অন্য কোন কোড বা কনফিগারেশন পরিবর্তন করার প্রয়োজন নেই।

দীপ্তির জন্য কখন FSx ব্যবহার করবেন

যদি আপনার ডেটাসেট ফাইল মোডের জন্য খুব বড় হয়, বা অনেকগুলি ছোট ফাইল থাকে (যা আপনি সহজে সিরিয়ালাইজ করতে পারবেন না), বা আপনার কাছে র্যান্ডম রিড অ্যাক্সেস প্যাটার্ন থাকে, তাহলে লুস্টারের জন্য FSx বিবেচনা করার জন্য একটি ভাল বিকল্প। এর ফাইল সিস্টেমটি শত শত GB/s থ্রুপুট এবং লক্ষাধিক IOPS পর্যন্ত স্কেল করে, যখন আপনার কাছে অনেক ছোট ফাইল থাকে তখন এটি আদর্শ। যাইহোক, যেমনটি আগেই আলোচনা করা হয়েছে, অলস লোডিংয়ের কারণে কোল্ড স্টার্ট সংক্রান্ত সমস্যাগুলি এবং লুস্টার ফাইল সিস্টেমের জন্য FSx সেট আপ ও আরম্ভ করার ওভারহেড সম্পর্কে মনে রাখবেন।

খরচ বিবেচনা

এমএল প্রশিক্ষণের বেশিরভাগ চাকরির জন্য, বিশেষ করে জিপিইউ বা উদ্দেশ্য-নির্মিত এমএল চিপ ব্যবহার করা চাকরির জন্য, প্রশিক্ষণের বেশিরভাগ খরচ হল ML ট্রেনিং ইনস্ট্যান্সের বিলযোগ্য সেকেন্ড। প্রতি মাসে স্টোরেজ GB, API অনুরোধ এবং প্রভিশনেড থ্রুপুট হল অতিরিক্ত খরচ যা আপনার ব্যবহার করা ডেটা উৎসের সাথে সরাসরি যুক্ত।

প্রতি মাসে স্টোরেজ জিবি

প্রতি মাসে GB স্টোরেজ বড় ডেটাসেটের জন্য গুরুত্বপূর্ণ হতে পারে, যেমন ভিডিও, LiDAR সেন্সর ডেটা এবং AdTech রিয়েল-টাইম বিডিং লগ। উদাহরণস্বরূপ, 1 টিবি সংরক্ষণ করা Amazon S3 ইন্টেলিজেন্ট-টিয়ারিং ফ্রিকোয়েন্ট অ্যাক্সেস টিয়ার প্রতি মাসে $23 খরচ হয়। Amazon S3 এর উপরে Luster ফাইল সিস্টেমের জন্য FSx যোগ করলে অতিরিক্ত খরচ হয়। উদাহরণস্বরূপ, ডেটা কম্প্রেশন অক্ষম সহ SSD-ব্যাকড স্ক্র্যাচ 1.2 টাইপের একটি 2 TB ফাইল সিস্টেম তৈরি করতে প্রতি মাসে অতিরিক্ত $168 খরচ হয় ($140/TB/মাস)।

Amazon S3 এবং Amazon EFS-এর সাথে, আপনি যা ব্যবহার করেন তার জন্যই আপনি অর্থপ্রদান করেন, যার অর্থ প্রকৃত ডেটাসেট আকার অনুযায়ী আপনাকে চার্জ করা হয়। Lustre-এর জন্য FSx-এর সাথে, আপনাকে প্রবিধান করা ফাইল সিস্টেম আকার (ন্যূনতম 1.2 TB) দ্বারা চার্জ করা হয়। EBS ভলিউম সহ ML দৃষ্টান্ত চালানোর সময়, Amazon EBS ML দৃষ্টান্ত থেকে স্বাধীনভাবে চার্জ করা হয়। দৃষ্টান্ত চালানোর খরচের তুলনায় এটি সাধারণত অনেক কম খরচ। উদাহরণস্বরূপ, 3.2 GB EBS ভলিউমের সাথে 100 ঘন্টার জন্য একটি ml.p1x বড় ইনস্ট্যান্স চালানোর জন্য উদাহরণের জন্য $3.825 এবং EBS ভলিউমের জন্য $0.02 খরচ হয়৷

API অনুরোধ এবং প্রবিধান থ্রুপুট খরচ

আপনার প্রশিক্ষণের কাজটি ডেটাসেটের মাধ্যমে ক্রাঞ্চ করার সময়, এটি Amazon S3 API অনুরোধগুলি প্রেরণের মাধ্যমে ফাইলগুলিকে তালিকাভুক্ত করে এবং আনয়ন করে৷ উদাহরণস্বরূপ, প্রতিটি মিলিয়ন GET অনুরোধের মূল্য $0.4 (বুদ্ধিমান-টিয়ারিং ক্লাসের সাথে)। আপনার Amazon S3-এর মধ্যে এবং বাইরে ব্যান্ডউইথের জন্য কোনও ডেটা স্থানান্তর খরচ আশা করা উচিত নয়, কারণ প্রশিক্ষণ একটি একক উপলব্ধতা অঞ্চলে হয়।

S3 বাকেটের সাথে লিঙ্কযুক্ত Luster-এর জন্য FSx ব্যবহার করার সময়, ফাইল সিস্টেমে এখনও ক্যাশে করা হয়নি এমন ডেটা পড়ার জন্য আপনাকে Amazon S3 API অনুরোধের খরচ বহন করতে হবে, কারণ FSx For Luster প্রক্সি অ্যামাজন S3-এর কাছে অনুরোধ করে (এবং ফলাফল ক্যাশে করে) ) লাস্টারের জন্য FSx-এর জন্য সরাসরি অনুরোধের কোনো খরচ নেই। আপনি যখন লুস্টার ফাইল সিস্টেমের জন্য একটি FSx ব্যবহার করেন, তখন আপনি যে ফাইল সিস্টেমের ব্যবস্থা করেছেন সেই একই উপলব্ধতা অঞ্চলের সাথে সংযুক্ত আপনার প্রশিক্ষণের কাজ চালিয়ে ক্রস-অ্যাভেলেবিলিটি জোন ডেটা ট্রান্সফারের জন্য খরচ এড়ান৷ অ্যামাজন EFS প্রভিশনড থ্রুপুট সহ অতিরিক্ত খরচ যোগ করে প্রতি মাসে জিবি।

কর্মক্ষমতা কেস স্টাডি

পূর্বে উল্লিখিত প্রশিক্ষণ কর্মক্ষমতা বিবেচনা প্রদর্শনের জন্য, আমরা কম্পিউটার ভিশন ডোমেনে বাস্তবসম্মত ব্যবহারের ক্ষেত্রে একাধিক মানদণ্ড সম্পাদন করেছি। এই বিভাগ থেকে বেঞ্চমার্ক (এবং টেকওয়ে) সমস্ত পরিস্থিতিতে প্রযোজ্য নাও হতে পারে এবং আমরা ব্যবহার করেছি বিভিন্ন পূর্বনির্ধারিত কারণ দ্বারা প্রভাবিত হয়, যেমন DNN। আমরা নিম্নলিখিতগুলির 12 টি সংমিশ্রণের জন্য পরীক্ষা চালিয়েছি:

ইনপুট মোড - লাস্ট্রের জন্য FSx, ফাইল মোড, ফাস্টফাইল মোড
ডেটাসেটের আকার - ছোট ডেটাসেট (1 জিবি), বড় ডেটাসেট (54 জিবি)
ফাইলের আকার - ছোট ফাইল (JPGs, আনুমানিক 39 KB), বড় ফাইল (TFRecord, প্রায় 110 MB)

এই কেস স্টাডির জন্য, আমরা সর্বাধিক ব্যবহৃত ইনপুট মোড বেছে নিয়েছি, এবং তাই Amazon EFS এবং পাইপ মোড বাদ দিয়েছি।

কেস স্টাডি বেঞ্চমার্কগুলি একটি ml.p3.2x বৃহৎ একক-GPU দৃষ্টান্তে এন্ড-টু-এন্ড সেজমেকার টেনসরফ্লো প্রশিক্ষণের কাজ হিসাবে ডিজাইন করা হয়েছিল। আমরা ক্লাসিফিকেশন টাস্কের জন্য আমাদের ব্যাকবোন মডেল হিসেবে বিখ্যাত ResNet-50 বেছে নিয়েছি এবং ছোট ট্রেনিং ডেটাসেট হিসেবে Caltech-256 বেছে নিয়েছি (যা আমরা এর বড় ডেটাসেট সংস্করণ তৈরি করতে 50 বার প্রতিলিপি করেছি)। আমরা এক যুগের জন্য প্রশিক্ষণটি সম্পাদন করেছি, প্রশিক্ষণের উদাহরণগুলিকে একক পূর্ণ ঝাড়ু হিসাবে সংজ্ঞায়িত করা হয়েছে।

নিম্নলিখিত গ্রাফগুলি প্রতিটি বেঞ্চমার্ক পরিস্থিতির জন্য SageMaker প্রশিক্ষণ কাজের মোট বিলযোগ্য সময় দেখায়। মোট কাজের সময় নিজেই ডাউনলোড করা, প্রশিক্ষণ এবং অন্যান্য ধাপগুলি নিয়ে গঠিত (যেমন কন্টেইনার স্টার্টআপ এবং আমাজন S3-তে প্রশিক্ষিত মডেল আর্টিফ্যাক্ট আপলোড করা)। কম বিলযোগ্য সময় দ্রুত এবং সস্তা প্রশিক্ষণের চাকরিতে অনুবাদ করে।

প্রথমে আলোচনা করা যাক দৃশ্যকল্প A এবং দৃশ্যকল্প C, যা ইনপুট মোডগুলির মধ্যে কার্যক্ষমতার পার্থক্যকে সুবিধাজনকভাবে প্রদর্শন করে যখন ডেটাসেটটি অনেকগুলি ছোট ফাইল নিয়ে গঠিত।

পরিস্থিতি এ (ছোট ফাইল, ছোট ডেটাসেট) প্রকাশ করে যে লাস্টার ফাইল সিস্টেমের জন্য FSx-এর সাথে প্রশিক্ষণের কাজটির বিলযোগ্য সময় সবচেয়ে কম। এটির সবচেয়ে কম ডাউনলোডিং পর্যায় রয়েছে এবং এর প্রশিক্ষণের পর্যায়টি ফাইল মোডের মতো দ্রুত, তবে ফাস্টফাইলের চেয়ে দ্রুত। লুস্টারের জন্য FSx এই একক যুগের পরীক্ষায় বিজয়ী। এটি বলার পরে, একই রকম কাজের চাপ বিবেচনা করুন তবে একাধিক যুগের সাথে — ডাউনলোডিং পর্যায়ের কারণে ফাইল মোডের আপেক্ষিক ওভারহেড কমে যায় কারণ আরও যুগ যুক্ত হয়। এই ক্ষেত্রে, আমরা ফাইল মোডের ব্যবহার সহজ করার জন্য পছন্দ করি। অতিরিক্তভাবে, আপনি দেখতে পারেন যে ফাইল মোড ব্যবহার করা এবং 100 অতিরিক্ত বিলযোগ্য সেকেন্ডের জন্য অর্থ প্রদান করা Luster ফাইল সিস্টেমের জন্য একটি FSx প্রদান এবং ব্যবস্থা করার চেয়ে একটি ভাল পছন্দ।

দৃশ্যকল্প সি (ছোট ফাইল, বড় ডেটাসেট) মোট বিলযোগ্য সময়ের মাত্র 5,000 সেকেন্ড সহ লাস্টারের জন্য FSx দ্রুততম মোড হিসাবে দেখায়। এটিতে সবচেয়ে কম ডাউনলোড করার পর্যায়ও রয়েছে, কারণ লুস্টার ফাইল সিস্টেমের জন্য FSx মাউন্ট করা ফাইল সিস্টেমের ফাইলের সংখ্যার উপর নির্ভর করে না (এই ক্ষেত্রে 1.5 মিলিয়ন ফাইল)। ফাস্টফাইলের ডাউনলোড ওভারহেডও ছোট; এটি শুধুমাত্র নির্দিষ্ট S3 বাকেট প্রিফিক্সের অধীনে থাকা ফাইলগুলির মেটাডেটা নিয়ে আসে, যখন ফাইলগুলির বিষয়বস্তু প্রশিক্ষণের পর্যায়ে পড়া হয়। ফাইল মোড হল সবচেয়ে ধীরগতির মোড, প্রশিক্ষণ শুরু করার আগে সম্পূর্ণ ডেটাসেট ডাউনলোড করতে 10,000 সেকেন্ড সময় ব্যয় করে। যখন আমরা প্রশিক্ষণ পর্যায়ে তাকাই, দীপ্তি এবং ফাইল মোডের জন্য FSx অনুরূপ চমৎকার কর্মক্ষমতা প্রদর্শন করে। ফাস্টফাইল মোডের জন্য, যখন Amazon S3 থেকে সরাসরি ছোট ফাইল স্ট্রিম করা হয়, তখন প্রতিটি ফাইলের জন্য একটি নতুন GET অনুরোধ পাঠানোর ওভারহেড ফাইল স্থানান্তরের মোট সময়কালের তুলনায় উল্লেখযোগ্য হয়ে ওঠে (প্রিফেচ বাফার সহ একটি অত্যন্ত সমান্তরাল ডেটা লোডার ব্যবহার করা সত্ত্বেও)। এর ফলে ফাস্টফাইল মোডের জন্য একটি সামগ্রিক নিম্ন থ্রুপুট হয়, যা প্রশিক্ষণ কাজের জন্য একটি I/O বাধা সৃষ্টি করে। দীপ্তির জন্য FSx এই দৃশ্যে স্পষ্ট বিজয়ী।

পরিস্থিতি বি এবং ডি ইনপুট মোড জুড়ে কর্মক্ষমতা পার্থক্য দেখায় যখন ডেটাসেটটি কম বড় ফাইলের সমন্বয়ে গঠিত হয়। বড় ফাইলগুলি ব্যবহার করে ক্রমানুসারে পড়ার ফলে সাধারণত ভাল I/O কার্যকারিতা পাওয়া যায় কারণ এটি কার্যকরী বাফারিংয়ের অনুমতি দেয় এবং I/O অপারেশনের সংখ্যা হ্রাস করে।

পরিস্থিতি বি (বড় ফাইল, ছোট ডেটাসেট) সমস্ত মোডের জন্য অনুরূপ প্রশিক্ষণ পর্যায়ের সময় দেখায় (প্রশিক্ষণ যে I/O-বাউন্ড নয় তা সাক্ষ্য দেয়)। এই পরিস্থিতিতে, ডাউনলোড করার ছোট ধাপের কারণে আমরা ফাস্টফাইল মোডকে ফাইল মোডের চেয়ে পছন্দ করি এবং আগেরটির ব্যবহারের সহজতার কারণে Luster-এর জন্য FSx-এর তুলনায় FastFile মোড পছন্দ করি।

দৃশ্যকল্প ডি (বৃহত্তর ফাইল, বৃহত্তর ডেটাসেট) তিনটি মোডের জন্য তুলনামূলকভাবে অনুরূপ মোট বিলযোগ্য সময় দেখায়। Luster এবং FastFile-এর জন্য ফাইল মোডের ডাউনলোড পর্ব FSx এর চেয়ে দীর্ঘ। প্রশিক্ষণের পর্যায় শুরু করার আগে ফাইল মোড Amazon S54 থেকে ট্রেনিং ইনস্ট্যান্সে সম্পূর্ণ ডেটাসেট (3 GB) ডাউনলোড করে। তিনটি মোডই প্রশিক্ষণ পর্বে একই রকম সময় ব্যয় করে, কারণ সমস্ত মোডই যথেষ্ট দ্রুত ডেটা আনতে পারে এবং GPU-বাউন্ড। যদি আমরা অতিরিক্ত CPU বা GPU সম্পদের সাথে ML দৃষ্টান্ত ব্যবহার করি, যেমন ml.p4d.24xlarge, গণনা সংস্থানগুলিকে পরিপূর্ণ করার জন্য প্রয়োজনীয় ডেটা I/O থ্রুপুট বৃদ্ধি পায়। এই ক্ষেত্রে, আমরা আশা করতে পারি যে ফাস্টফাইল এবং এফএসএক্স লুস্টারের জন্য সফলভাবে তাদের থ্রুপুট স্কেল করবে (তবে, লাস্টার থ্রুপুটের জন্য FSx প্রভিশন করা ফাইল সিস্টেম আকারের উপর নির্ভর করে)। ফাইল মোডের থ্রুপুট স্কেল করার ক্ষমতা উদাহরণের সাথে সংযুক্ত ডিস্ক ভলিউমের থ্রুপুটের উপর নির্ভর করে। উদাহরণস্বরূপ, অ্যামাজন ইবিএস-সমর্থিত দৃষ্টান্তগুলি (যেমন ml.p3.2xlarge, ml.p3.8xlarge, এবং ml.p3.16xlarge) সর্বাধিক 250MB/s এর থ্রুপুটে সীমাবদ্ধ, যেখানে স্থানীয় NVMe-সমর্থিত উদাহরণগুলি (যেমন ml. g5.* বা ml.p4d.24xlarge) অনেক বড় থ্রুপুট মিটমাট করতে পারে।

সংক্ষেপে বলতে গেলে, আমরা বিশ্বাস করি FastFile এই দৃশ্যের জন্য বিজয়ী কারণ এটি ফাইল মোডের চেয়ে দ্রুত, এবং Lustre-এর জন্য FSx-এর মতোই দ্রুত, ব্যবহার করার জন্য আরও সহজ, খরচ কম, এবং প্রয়োজন অনুসারে সহজেই এর থ্রুপুট বাড়াতে পারে৷

অতিরিক্তভাবে, যদি আমাদের কাছে অনেক বড় ডেটাসেট থাকে (আকারে বেশ কয়েকটি টিবি), প্রশিক্ষণ শুরু হওয়ার আগে ফাইল মোড ডেটাসেট ডাউনলোড করতে অনেক ঘন্টা ব্যয় করবে, যেখানে ফাস্টফাইল উল্লেখযোগ্যভাবে আরও দ্রুত প্রশিক্ষণ শুরু করতে পারে।

আপনার নিজের ডেটা ইনজেশন আনুন

SageMaker-এর নেটিভ ডেটা সোর্স সবচেয়ে বেশি ফিট করে কিন্তু সব সম্ভাব্য ML প্রশিক্ষণের পরিস্থিতিতে নয়। যে পরিস্থিতিতে আপনাকে অন্যান্য ডেটা ইনজেশন বিকল্পগুলি সন্ধান করতে হতে পারে সেগুলির মধ্যে একটি তৃতীয় পক্ষের স্টোরেজ পণ্য থেকে সরাসরি ডেটা পড়া অন্তর্ভুক্ত থাকতে পারে (ধরে নেওয়া সহজ এবং সময়মত অ্যামাজন এস3 এ রপ্তানি করা সম্ভব নয়), বা একই প্রশিক্ষণের জন্য একটি শক্তিশালী প্রয়োজন SageMaker এবং উভয়েই অপরিবর্তিত চালানোর জন্য স্ক্রিপ্ট অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (Amazon EC2) বা অ্যামাজন ইলাস্টিক কুবারনেটস পরিষেবা (আমাজন ইকেএস)। ট্রেনিং স্ক্রিপ্টে আপনার ডেটা ইনজেশন মেকানিজম প্রয়োগ করে আপনি এই কেসগুলোর সমাধান করতে পারেন। এই প্রক্রিয়াটি প্রশিক্ষণের উদাহরণে বাহ্যিক ডেটা উত্স থেকে ডেটাসেট পড়ার জন্য দায়ী। উদাহরণস্বরূপ, দ TFRecordDataset টেনসরফ্লো এর tf.data লাইব্রেরি Amazon S3 স্টোরেজ থেকে সরাসরি পড়তে পারে।

যদি আপনার ডেটা ইনজেশন মেকানিজমের কোনো AWS পরিষেবাতে কল করতে হয়, যেমন অ্যামাজন রিলেশনাল ডাটাবেস পরিষেবা (Amazon RDS), নিশ্চিত করুন যে এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (IAM) আপনার প্রশিক্ষণ কাজের ভূমিকা প্রাসঙ্গিক IAM নীতিগুলি অন্তর্ভুক্ত করে। যদি ডাটা সোর্স থাকে আমাজন ভার্চুয়াল প্রাইভেট ক্লাউড (Amazon VPC), আপনাকে একই VPC এর সাথে সংযুক্ত আপনার প্রশিক্ষণের কাজ চালাতে হবে।

যখন আপনি নিজেই ডেটাসেট ইনজেশন পরিচালনা করছেন, তখন সেজমেকার লাইনেজ ট্র্যাকিং প্রশিক্ষণের সময় ব্যবহৃত ডেটাসেটগুলি স্বয়ংক্রিয়ভাবে লগ করতে পারে না। অতএব, আপনার প্রাসঙ্গিক মেটাডেটা ক্যাপচার করতে প্রশিক্ষণের কাজের ট্যাগ বা হাইপারপ্যারামিটারের মতো বিকল্প প্রক্রিয়াগুলি বিবেচনা করুন।

উপসংহার

সঠিক সেজমেকার প্রশিক্ষণ ডেটা উত্স নির্বাচন করা গতি, ব্যবহারের সহজতা এবং এমএল মডেল প্রশিক্ষণের ব্যয়ের উপর গভীর প্রভাব ফেলতে পারে। দ্রুত শুরু করার জন্য প্রদত্ত ফ্লোচার্ট ব্যবহার করুন, ফলাফলগুলি পর্যবেক্ষণ করুন এবং প্রয়োজন অনুযায়ী অতিরিক্ত কনফিগারেশন নিয়ে পরীক্ষা করুন৷ প্রতিটি ডেটা উত্সের সুবিধা, অসুবিধা এবং সীমাবদ্ধতাগুলি মনে রাখবেন এবং সেগুলি আপনার প্রশিক্ষণের কাজের ব্যক্তিগত প্রয়োজনীয়তার সাথে কতটা উপযুক্ত। আরও তথ্য এবং সহায়তার জন্য একটি AWS যোগাযোগের সাথে যোগাযোগ করুন।

লেখক সম্পর্কে

গিলি নাছুম একজন সিনিয়র AI/ML স্পেশালিস্ট সলিউশন আর্কিটেক্ট যিনি EMEA Amazon Machine Learning দলের অংশ হিসেবে কাজ করেন। গিলি গভীর শিক্ষার মডেল প্রশিক্ষণের চ্যালেঞ্জগুলি এবং আমরা জানি যে কীভাবে মেশিন লার্নিং বিশ্বকে পরিবর্তন করছে সে সম্পর্কে উত্সাহী। অবসর সময়ে, গিলি টেবিল টেনিস খেলা উপভোগ করেন।

ডাঃ আলেকজান্ডার আরজানভ ফ্রাঙ্কফুর্ট, জার্মানিতে অবস্থিত একজন AI/ML বিশেষজ্ঞ সমাধান স্থপতি৷ তিনি AWS গ্রাহকদের EMEA অঞ্চল জুড়ে তাদের ML সলিউশন ডিজাইন ও স্থাপন করতে সাহায্য করেন। AWS-এ যোগদানের আগে, আলেকজান্ডার আমাদের মহাবিশ্বে ভারী উপাদানের উৎপত্তি নিয়ে গবেষণা করছিলেন এবং ML-এর প্রতি তার বৃহৎ মাপের বৈজ্ঞানিক গণনাতে ব্যবহার করার পর তিনি উৎসাহী হয়ে ওঠেন।

সময় স্ট্যাম্প: ফেব্রুয়ারী 23, 2022

সময় স্ট্যাম্প: মার্চ 29, 2023

প্লেটো দ্বারা প্রকাশিত

AWS স্থানীয়করণ স্থানীয়করণ স্কেল করতে Amazon Translate ব্যবহার করে

কিভাবে VMware GitLab, Amazon MWAA, এবং Amazon SageMaker ব্যবহার করে স্ক্র্যাচ থেকে MLOps পাইপলাইন তৈরি করেছে

ডোমেন-নির্দিষ্ট এবং ভাষা-নির্দিষ্ট কাস্টমাইজেশন সহ একটি বহু-ভাষিক নথি অনুবাদ কর্মপ্রবাহ তৈরি করুন

Chronomics অ্যামাজন রিকগনিশন কাস্টম লেবেল সহ COVID-19 পরীক্ষার ফলাফল সনাক্ত করে

Amazon SageMaker-এ MLOps সহ শক্তিশালী সময়ের সিরিজের পূর্বাভাস | আমাজন ওয়েব সার্ভিসেস

অ্যামাজন লুকআউট ফর ভিশনের জন্য ইমেজ অগমেন্টেশন পাইপলাইন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব