Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

Amazon SageMaker Data Wrangler ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন

অ্যামাজন সেজমেকার ডেটা র্যাংলার আপনাকে একক ভিজ্যুয়াল ইন্টারফেস থেকে মেশিন লার্নিং (ML) এর জন্য ডেটা বুঝতে, একত্রিত করতে, রূপান্তর করতে এবং প্রস্তুত করতে সহায়তা করে। এটিতে 300 টিরও বেশি অন্তর্নির্মিত ডেটা ট্রান্সফরমেশন রয়েছে যাতে আপনি কোনও কোড না লিখেই দ্রুত স্বাভাবিককরণ, রূপান্তর এবং বৈশিষ্ট্যগুলিকে একত্রিত করতে পারেন৷

ডেটা বিজ্ঞান অনুশীলনকারীরা ব্যবসায়িক সমস্যাগুলি সমাধান করার জন্য ডেটা তৈরি করে, পর্যবেক্ষণ করে এবং প্রক্রিয়া করে যেখানে তাদের ডেটাসেটগুলি থেকে বৈশিষ্ট্যগুলিকে রূপান্তরিত এবং নিষ্কাশন করতে হবে। রূপান্তর যেমন অর্ডিনাল এনকোডিং বা ওয়ান-হট এনকোডিং আপনার ডেটাসেটে এনকোডিং শিখে। এই এনকোডেড আউটপুটগুলিকে প্রশিক্ষিত পরামিতি হিসাবে উল্লেখ করা হয়। সময়ের সাথে সাথে ডেটাসেটগুলি পরিবর্তিত হওয়ার সাথে সাথে আপনার ডেটার সাথে প্রাসঙ্গিক রূপান্তর প্রবাহ বজায় রাখতে পূর্বে অদেখা ডেটাতে এনকোডিংগুলি পুনরায় ফিট করা প্রয়োজন হতে পারে৷

আমরা রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্যটি ঘোষণা করতে পেরে উত্তেজিত, যা আপনাকে পূর্বের প্রশিক্ষিত প্যারামিটারগুলি ব্যবহার করতে এবং সেগুলিকে ইচ্ছামতো রিফিট করতে দেয়৷ এই পোস্টে, আমরা এই বৈশিষ্ট্যটি কীভাবে ব্যবহার করতে হয় তা প্রদর্শন করি।

ডেটা র্যাংলার রিফিট বৈশিষ্ট্যের ওভারভিউ

আমরা রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্যের সুনির্দিষ্ট বিষয়গুলিতে ডুব দেওয়ার আগে নিম্নলিখিত উদাহরণের সাথে এই বৈশিষ্ট্যটি কীভাবে কাজ করে তা আমরা ব্যাখ্যা করি।

ধরে নিন আপনার গ্রাহক ডেটাসেটের জন্য একটি স্বতন্ত্র বৈশিষ্ট্য রয়েছে country মত স্ট্রিং হিসাবে উপস্থাপিত Australia এবং Singapore. ML অ্যালগরিদমের সংখ্যাসূচক ইনপুট প্রয়োজন; অতএব, এই শ্রেণীবদ্ধ মানগুলিকে সংখ্যাসূচক মানগুলিতে এনকোড করতে হবে। শ্রেণীগত ডেটা এনকোডিং হল বিভাগগুলির জন্য একটি সংখ্যাসূচক উপস্থাপনা তৈরি করার প্রক্রিয়া। উদাহরণস্বরূপ, যদি আপনার বিভাগের দেশের মান থাকে Australia এবং Singapore, আপনি এই তথ্য দুটি ভেক্টরে এনকোড করতে পারেন: [1, 0] প্রতিনিধিত্ব করতে Australia এবং [0, 1] প্রতিনিধিত্ব করতে Singapore. এখানে ব্যবহৃত রূপান্তর হল এক-হট এনকোডিং এবং নতুন এনকোড করা আউটপুট প্রশিক্ষিত পরামিতিগুলিকে প্রতিফলিত করে।

মডেল প্রশিক্ষণের পর, সময়ের সাথে সাথে আপনার গ্রাহক বাড়তে পারে এবং দেশের তালিকায় আপনার আরও স্বতন্ত্র মান রয়েছে। নতুন ডেটাসেটে অন্য বিভাগ থাকতে পারে, India, যা মূল ডেটাসেটের অংশ ছিল না, যা মডেলের নির্ভুলতাকে প্রভাবিত করতে পারে। অতএব, সময়ের সাথে সংগৃহীত নতুন ডেটা দিয়ে আপনার মডেলকে পুনরায় প্রশিক্ষণ দেওয়া প্রয়োজন।

এই সমস্যাটি কাটিয়ে উঠতে, আপনাকে নতুন বিভাগ অন্তর্ভুক্ত করতে এনকোডিং রিফ্রেশ করতে হবে এবং আপনার সর্বশেষ ডেটাসেট অনুযায়ী ভেক্টর উপস্থাপনা আপডেট করতে হবে। আমাদের উদাহরণে, এনকোডিং এর জন্য নতুন বিভাগ প্রতিফলিত করা উচিত country, যা হলো India. আমরা সাধারণত একটি রিফিট অপারেশন হিসাবে একটি এনকোডিং রিফ্রেশ করার এই প্রক্রিয়াটিকে উল্লেখ করি। আপনি রিফিট অপারেশন করার পরে, আপনি নতুন এনকোডিং পাবেন: Australia: [1, 0, 0], Singapore: [0, 1, 0], এবং India: [0, 0, 1]। ওয়ান-হট এনকোডিং পুনরায় ফিট করা এবং তারপরে নতুন ডেটাসেটে মডেলটিকে পুনরায় প্রশিক্ষণ দেওয়ার ফলে আরও ভাল মানের পূর্বাভাস পাওয়া যায়।

ডেটা র‍্যাংলারের রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্যটি নিম্নলিখিত ক্ষেত্রে কার্যকর:

  • ডেটাসেটে নতুন ডেটা যোগ করা হয় - যখন ডেটাসেট নতুন ডেটা দিয়ে সমৃদ্ধ হয় তখন এমএল মডেলকে পুনরায় প্রশিক্ষণ দেওয়া প্রয়োজন৷ সর্বোত্তম ফলাফল অর্জনের জন্য, আমাদের নতুন ডেটাসেটে প্রশিক্ষিত পরামিতিগুলি পুনরায় ফিট করতে হবে।
  • নমুনা ডেটাতে বৈশিষ্ট্য প্রকৌশল সম্পাদন করার পরে একটি সম্পূর্ণ ডেটাসেটের প্রশিক্ষণ - একটি বড় ডেটাসেটের জন্য, প্রশিক্ষিত প্যারামিটার শেখার জন্য ডেটাসেটের একটি নমুনা বিবেচনা করা হয়, যা আপনার সম্পূর্ণ ডেটাসেটের প্রতিনিধিত্ব নাও করতে পারে। আমাদের সম্পূর্ণ ডেটাসেটে প্রশিক্ষিত পরামিতিগুলি পুনরায় শিখতে হবে।

ডেটাসেটে সম্পাদিত কিছু সাধারণ ডেটা র‍্যাংলার ট্রান্সফর্মগুলি নিম্নরূপ যা রিফিট প্রশিক্ষিত প্যারামিটার বিকল্প থেকে উপকৃত হয়:

ডেটা র্যাংলারে রূপান্তর সম্পর্কে আরও তথ্যের জন্য, পড়ুন তথ্য রূপান্তর.

এই পোস্টে, আমরা দেখাই কিভাবে ডেটা র্যাংলার ব্যবহার করে ডেটাসেটে এই প্রশিক্ষিত প্যারামিটারগুলি প্রক্রিয়া করা যায়। আপনি আপনার ডেটা বৃদ্ধি এবং পরিবর্তনের সাথে সাথে পুনরায় প্রক্রিয়া করার জন্য উত্পাদন কাজের ক্ষেত্রে ডেটা র্যাংলার প্রবাহ ব্যবহার করতে পারেন।

সমাধান ওভারভিউ

এই পোস্টের জন্য, আমরা প্রদর্শন করি কিভাবে ডেটা র‍্যাংলারের রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্যটি সর্বজনীনভাবে উপলব্ধ ডেটাসেটের সাথে ব্যবহার করতে হয় Kaggle: জিলো থেকে মার্কিন হাউজিং ডেটা, মার্কিন যুক্তরাষ্ট্রে বিক্রয়ের জন্য সম্পত্তি। এটি বাড়ির বিভিন্ন ভূ-বন্টন জুড়ে বাড়ির বিক্রয় মূল্য রয়েছে৷

নিম্নলিখিত চিত্রটি রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্য ব্যবহার করে ডেটা র্যাংলারের উচ্চ-স্তরের আর্কিটেকচারকে চিত্রিত করে। আমরা রিফিট প্রশিক্ষিত প্যারামিটার ছাড়াই ডেটার মানের উপর প্রভাব দেখাই এবং শেষে ফলাফলের বিপরীতে।

কর্মপ্রবাহে নিম্নলিখিত পদক্ষেপগুলি অন্তর্ভুক্ত রয়েছে:

  1. অনুসন্ধানমূলক তথ্য বিশ্লেষণ সঞ্চালন - অনুসন্ধানমূলক ডেটা বিশ্লেষণ (EDA) শুরু করতে ডেটা র্যাংলারে একটি নতুন প্রবাহ তৈরি করুন। প্রশিক্ষণের জন্য আপনার ডেটা বোঝা, পরিষ্কার, একত্রিত, রূপান্তর এবং প্রস্তুত করতে ব্যবসার ডেটা আমদানি করুন। নির্দেশ করে নমুনা ডেটাসেট সহ Amazon SageMaker ডেটা র্যাংলার ক্ষমতাগুলি অন্বেষণ করুন৷ ডেটা র‍্যাংলারের সাথে ইডিএ করার বিষয়ে আরও বিশদ বিবরণের জন্য।
  2. একটি ডেটা প্রসেসিং কাজ তৈরি করুন - এই ধাপটি কনফিগার করা ফ্লো ফাইল হিসাবে ডেটাসেটে করা সমস্ত রূপান্তর রপ্তানি করে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) অবস্থান। ডেটা র‍্যাংলার দ্বারা উত্পন্ন ফ্লো ফাইলের সাথে ডেটা প্রক্রিয়াকরণের কাজটি আপনার ডেটাসেটে শেখা রূপান্তর এবং প্রশিক্ষিত পরামিতিগুলিকে প্রয়োগ করে৷ ডেটা প্রসেসিং কাজ সম্পূর্ণ হলে, আউটপুট ফাইলগুলি গন্তব্য নোডে কনফিগার করা Amazon S3 অবস্থানে আপলোড করা হয়। নোট করুন যে রিফিট বিকল্পটি ডিফল্টরূপে বন্ধ থাকে। প্রক্রিয়াকরণ কাজ অবিলম্বে কার্যকর করার বিকল্প হিসাবে, আপনিও করতে পারেন একটি প্রক্রিয়াকরণ কাজের সময় নির্ধারণ করুন ডেটা র্যাংলার ব্যবহার করে কয়েকটি ক্লিকে - নির্দিষ্ট সময়ে চালানোর জন্য কাজ তৈরি করুন।
  3. রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্য সহ একটি ডেটা প্রসেসিং কাজ তৈরি করুন - আপনার সম্পূর্ণ বা চাঙ্গা ডেটাসেটে আপনার প্রশিক্ষিত পরামিতিগুলির পুনরায় শিক্ষার জন্য কাজ তৈরি করার সময় নতুন রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্যটি নির্বাচন করুন। ফ্লো ফাইল সংরক্ষণের জন্য Amazon S3 অবস্থান কনফিগারেশন অনুযায়ী, ডেটা প্রসেসিং কাজ নতুন ফ্লো ফাইল তৈরি বা আপডেট করে। আপনি যদি ধাপ 3-এর মতো একই Amazon S2 অবস্থান কনফিগার করেন, তাহলে ডেটা প্রসেসিং কাজটি ধাপ 2-এ তৈরি ফ্লো ফাইল আপডেট করে, যা আপনার ডেটার সাথে আপনার প্রবাহকে প্রাসঙ্গিক রাখতে ব্যবহার করা যেতে পারে। প্রসেসিং কাজ শেষ হলে, আউটপুট ফাইলগুলি গন্তব্য নোড কনফিগার করা S3 বালতিতে আপলোড করা হয়। আপনি একটি উত্পাদন কর্মপ্রবাহের জন্য আপনার সম্পূর্ণ ডেটাসেটে আপডেট করা প্রবাহ ব্যবহার করতে পারেন।

পূর্বশর্ত

শুরু করার আগে, একটি S3 বালতিতে ডেটাসেট আপলোড করুন, তারপরে এটি ডেটা র্যাংলারে আমদানি করুন। নির্দেশাবলীর জন্য, পড়ুন Amazon S3 থেকে ডেটা আমদানি করুন.

চলুন এখন স্থাপত্য চিত্রে উল্লিখিত ধাপগুলোর মধ্য দিয়ে চলুন।

ডেটা র্যাংলারে EDA সম্পাদন করুন

রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্যটি চেষ্টা করার জন্য, ডেটা র্যাংলারে নিম্নলিখিত বিশ্লেষণ এবং রূপান্তর সেট আপ করুন। EDA সেট আপ করার শেষে, ডেটা র্যাংলার ডেটাসেট থেকে প্রশিক্ষিত পরামিতিগুলির সাথে ক্যাপচার করা একটি ফ্লো ফাইল তৈরি করে।

  1. অনুসন্ধানমূলক ডেটা বিশ্লেষণের জন্য Amazon SageMaker Data Wrangler-এ একটি নতুন প্রবাহ তৈরি করুন।
  2. আপনার Amazon S3 এ আপলোড করা ব্যবসার ডেটা আমদানি করুন।
  3. আপনি ফাইলের ধরন, বিভেদক, নমুনা ইত্যাদি নির্বাচন করার জন্য ডেটা এবং বিকল্পগুলির পূর্বরূপ দেখতে পারেন। এই উদাহরণের জন্য, আমরা ব্যবহার করি প্রথম কে ডেটাসেট থেকে প্রথম 50,000 রেকর্ড আমদানি করতে Data Wrangler দ্বারা স্যাম্পলিং বিকল্প।
  4. বেছে নিন আমদানি.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

  1. আপনি ডেটা র্যাংলার দ্বারা প্রয়োগ করা ডেটা টাইপ ম্যাচিং পরীক্ষা করার পরে, একটি নতুন বিশ্লেষণ যোগ করুন।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

  1. জন্য বিশ্লেষণের ধরণনির্বাচন ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট.
  2. বেছে নিন সৃষ্টি.

ডেটা গুণমান এবং অন্তর্দৃষ্টি প্রতিবেদনের সাথে, আপনি সাধারণ তথ্য যেমন অনুপস্থিত মান, অবৈধ মান, বৈশিষ্ট্যের ধরন, বহির্মুখী গণনা এবং আরও অনেক কিছু সহ ডেটাসেটের একটি সংক্ষিপ্ত সারাংশ পান। আপনি বৈশিষ্ট্য চয়ন করতে পারেন property_type এবং city রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্য বোঝার জন্য ডেটাসেটে রূপান্তর প্রয়োগের জন্য।

এর বৈশিষ্ট্য ফোকাস করা যাক property_type ডেটাসেট থেকে। প্রতিবেদনে বৈশিষ্ট্য বিশদ বিভাগে, আপনি দেখতে পারেন property_type, যা একটি শ্রেণীবদ্ধ বৈশিষ্ট্য এবং ডেটা র‍্যাংলারের 50,000 নমুনাকৃত ডেটাসেট থেকে প্রাপ্ত ছয়টি অনন্য মান। সম্পূর্ণ ডেটাসেটে বৈশিষ্ট্যটির জন্য আরও বিভাগ থাকতে পারে property_type. অনেক অনন্য মান সহ একটি বৈশিষ্ট্যের জন্য, আপনি অর্ডিনাল এনকোডিং পছন্দ করতে পারেন। বৈশিষ্ট্যটির কয়েকটি অনন্য মান থাকলে, একটি এক-হট এনকোডিং পদ্ধতি ব্যবহার করা যেতে পারে। এই উদাহরণের জন্য, আমরা এক-হট এনকোডিং চালু করার জন্য বেছে নিই property_type.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

একইভাবে, জন্য city বৈশিষ্ট্য, যা একটি বিশাল সংখ্যক অনন্য মান সহ একটি পাঠ্য ডেটা টাইপ, আসুন এই বৈশিষ্ট্যটিতে অর্ডিনাল এনকোডিং প্রয়োগ করি।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

  1. ডেটা র্যাংলার ফ্লোতে নেভিগেট করুন, প্লাস চিহ্নটি নির্বাচন করুন এবং চয়ন করুন রূপান্তর যোগ করুন.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

  1. পছন্দ এনকোড শ্রেণিবদ্ধ শ্রেণীবদ্ধ বৈশিষ্ট্য রূপান্তর করার বিকল্প।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট থেকে, বৈশিষ্ট্য property_type ছয়টি অনন্য বিভাগ দেখায়: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILY, এবং TOWNHOUSE.

  1. জন্য রুপান্তরনির্বাচন এক-গরম এনকোড.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

বৈশিষ্ট্যে এক-হট এনকোডিং প্রয়োগ করার পরে property_type, আপনি নতুন কলাম হিসাবে যোগ করা পৃথক বৈশিষ্ট্য হিসাবে সমস্ত ছয়টি বিভাগের পূর্বরূপ দেখতে পারেন। মনে রাখবেন যে এই প্রিভিউ তৈরি করতে আপনার ডেটাসেট থেকে 50,000 রেকর্ডের নমুনা নেওয়া হয়েছে। এই প্রবাহের সাথে একটি ডেটা র্যাংলার প্রসেসিং কাজ চালানোর সময়, এই রূপান্তরগুলি আপনার সম্পূর্ণ ডেটাসেটে প্রয়োগ করা হয়।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

  1. একটি নতুন রূপান্তর যোগ করুন এবং চয়ন করুন এনকোড শ্রেণিবদ্ধ বৈশিষ্ট্যে একটি রূপান্তর প্রয়োগ করতে city, যার অনন্য শ্রেণীবদ্ধ পাঠ্য মানগুলির একটি বড় সংখ্যা রয়েছে৷
  2. এই বৈশিষ্ট্যটিকে একটি সংখ্যাসূচক উপস্থাপনায় এনকোড করতে, নির্বাচন করুন সাধারণ এনকোড উন্নত রুপান্তর.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

  1. এই রূপান্তরের পূর্বরূপ নির্বাচন করুন।

আপনি যে শ্রেণীবদ্ধ বৈশিষ্ট্য দেখতে পারেন city আউটপুট কলামে অর্ডিনাল মানগুলিতে ম্যাপ করা হয় e_city.

  1. বেছে নিয়ে এই ধাপটি যোগ করুন আপডেট.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

  1. CSV ফাইল হিসাবে আউটপুট তৈরি করতে ডেটাসেটে প্রয়োগকৃত রূপান্তরগুলি সংরক্ষণ করতে আপনি Amazon S3-এ গন্তব্য সেট করতে পারেন।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

ডেটা র‍্যাংলার ইউজার ইন্টারফেসে আপনার সংজ্ঞায়িত ওয়ার্কফ্লোকে একটি ফ্লো ফাইল হিসাবে সংরক্ষণ করে এবং কনফিগার করা ডেটা প্রসেসিং কাজের Amazon S3 অবস্থানে আপলোড করে। এই ফ্লো ফাইলটি ব্যবহার করা হয় যখন আপনি ডেটা র‍্যাংলার প্রসেসিং কাজ তৈরি করেন বড় ডেটাসেটে রূপান্তর প্রয়োগ করতে, বা মডেলটিকে পুনরায় প্রশিক্ষণ দেওয়ার জন্য নতুন শক্তিবৃদ্ধি ডেটা রূপান্তর করতে।

রিফিট সক্ষম না করে একটি ডেটা র্যাংলার ডেটা প্রসেসিং কাজ চালু করুন

এখন আপনি দেখতে পাচ্ছেন কিভাবে রিফিট বিকল্পটি নতুন ডেটাসেটে প্রশিক্ষিত প্যারামিটার ব্যবহার করে। এই প্রদর্শনের জন্য, আমরা একই ডেটাতে অপারেটিং দুটি ডেটা র্যাংলার প্রক্রিয়াকরণ কাজ সংজ্ঞায়িত করি। প্রথম প্রক্রিয়াকরণ কাজ রিফিট সক্ষম করবে না; দ্বিতীয় প্রক্রিয়াকরণ কাজের জন্য, আমরা রিফিট ব্যবহার করি। আমরা শেষে প্রভাব তুলনা.

  1. বেছে নিন চাকরি তৈরি করুন ডেটা র্যাংলারের সাথে একটি ডেটা প্রসেসিং কাজ শুরু করতে।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

  1. জন্য কাজের নাম, একটি নাম লিখুন।
  2. অধীনে প্রশিক্ষিত পরামিতি, নির্বাচন করবেন না রিফিট.
  3. বেছে নিন কাজ কনফিগার করুন.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

  1. আউটপুট ফ্লো ফাইল সংরক্ষণ করার জন্য উদাহরণের ধরন, ভলিউম আকার এবং Amazon S3 অবস্থানের মতো কাজের প্যারামিটারগুলি কনফিগার করুন।
  2. ডেটা র্যাংলার ফ্লো ফাইল S3 অবস্থানে একটি ফ্লো ফাইল তৈরি করে। প্রবাহটি পরামিতিগুলিকে প্রশিক্ষণের জন্য রূপান্তর ব্যবহার করে এবং আমরা পরে এই পরামিতিগুলিকে পুনরায় প্রশিক্ষণের জন্য রিফিট বিকল্পটি ব্যবহার করি।
  3. বেছে নিন সৃষ্টি.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

গন্তব্য নোডে কনফিগার করা S3 বালতিতে রূপান্তরিত ডেটা দেখতে ডেটা প্রসেসিং কাজটি সম্পূর্ণ হওয়ার জন্য অপেক্ষা করুন।

রিফিট সক্ষম করে একটি ডেটা র্যাংলার ডেটা প্রসেসিং কাজ চালু করুন

চলুন রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্য সক্রিয় করে আরেকটি প্রসেসিং কাজ তৈরি করি। এই বিকল্পটি সম্পূর্ণ ডেটাসেটে পুনরায় শিখে নেওয়া প্রশিক্ষিত প্যারামিটারগুলিকে প্রয়োগ করে৷ এই ডেটা প্রসেসিং কাজ সম্পূর্ণ হলে, কনফিগার করা Amazon S3 অবস্থানে একটি ফ্লো ফাইল তৈরি বা আপডেট করা হয়।

  1. বেছে নিন চাকরি তৈরি করুন.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

  1. জন্য কাজের নাম, একটি নাম লিখুন।
  2. জন্য প্রশিক্ষিত পরামিতি, নির্বাচন করুন রিফিট.
  3. আপনি যদি নির্বাচন করেন সব দেখুন, আপনি সমস্ত প্রশিক্ষিত পরামিতি পর্যালোচনা করতে পারেন।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

  1. বেছে নিন কাজ কনফিগার করুন.
  2. Amazon S3 ফ্লো ফাইলের অবস্থান লিখুন।
  3. বেছে নিন সৃষ্টি.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

ডেটা প্রসেসিং কাজ শেষ হওয়ার জন্য অপেক্ষা করুন।

সংজ্ঞায়িত রূপান্তর চালানোর ডেটা প্রসেসিং কাজের দ্বারা উত্পন্ন ডেটা দেখতে গন্তব্য নোডে কনফিগার করা S3 বালতিটি পড়ুন।

ডাটা র‍্যাংলার প্রসেসিং কাজ চালানোর জন্য পাইথন কোডে রপ্তানি করুন

ডেটা র্যাংলারে কাজ তৈরি করুন বিকল্পটি ব্যবহার করে প্রক্রিয়াকরণের কাজগুলি শুরু করার বিকল্প হিসাবে, আপনি একটি জুপিটার নোটবুকে ডেটা র্যাংলার প্রবাহ রপ্তানি করে ডেটা প্রক্রিয়াকরণের কাজগুলিকে ট্রিগার করতে পারেন৷ ডেটা র‍্যাংলার ইনপুট, আউটপুট, প্রসেসিং কাজের কনফিগারেশন এবং কাজের স্থিতি পরীক্ষা করার জন্য কোড সহ একটি জুপিটার নোটবুক তৈরি করে। আপনি আপনার ডেটা ট্রান্সফরমেশন প্রয়োজনীয়তা অনুযায়ী প্যারামিটার পরিবর্তন বা আপডেট করতে পারেন।

  1. ফাইনালের পাশে প্লাস চিহ্নটি বেছে নিন রুপান্তর নোড
  2. বেছে নিন রপ্তানি অতঃপর আমাজন S3 (জুপিটার নোটবুকের মাধ্যমে).

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

আপনি ইনপুট, আউটপুট, প্রসেসিং কাজের কনফিগারেশন এবং কাজের স্থিতি পরীক্ষা করার জন্য কোড সহ খোলা একটি জুপিটার নোটবুক দেখতে পারেন।

  1. কোডের মাধ্যমে রিফিট প্রশিক্ষিত পরামিতি বিকল্পটি প্রয়োগ করতে, সেট করুন refit প্যারামিটারে True.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.ডেটা প্রসেসিং কাজের ফলাফল তুলনা করুন

ডেটা র্যাংলার প্রসেসিং কাজগুলি সম্পূর্ণ হওয়ার পরে, আপনাকে কনফিগার করা Amazon S3 গন্তব্যে সংরক্ষিত ডেটা প্রসেসিং কাজের দ্বারা তৈরি আউটপুট সহ দুটি নতুন ডেটা র্যাংলার ফ্লো তৈরি করতে হবে।

ডেটা প্রসেসিং কাজের আউটপুট পর্যালোচনা করতে আপনি Amazon S3 গন্তব্য ফোল্ডারে কনফিগার করা অবস্থানটি উল্লেখ করতে পারেন।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

প্রক্রিয়াকরণ কাজের ফলাফলগুলি পরিদর্শন করতে, রূপান্তর ফলাফলের তুলনা করার জন্য ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট ব্যবহার করে দুটি নতুন ডেটা র্যাংলার প্রবাহ তৈরি করুন৷

  1. Amazon SageMaker Data Wrangler-এ একটি নতুন প্রবাহ তৈরি করুন।
  2. Amazon S3 থেকে রিফিট সক্ষম আউটপুট ফাইল ছাড়াই ডেটা প্রসেসিং কাজ আমদানি করুন।
  3. একটি নতুন বিশ্লেষণ যোগ করুন.
  4. জন্য বিশ্লেষণের ধরণনির্বাচন ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট.
  5. বেছে নিন সৃষ্টি.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.
Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

উপরের ধাপগুলি পুনরাবৃত্তি করুন এবং রিফিট সক্ষম করে ডেটা প্রসেসিং কাজের আউটপুট বিশ্লেষণ করতে নতুন ডেটা র্যাংলার ফ্লো তৈরি করুন।

এখন ফিচারটির জন্য প্রসেসিং কাজের আউটপুট দেখি property_type ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট ব্যবহার করে। ডেটা এবং অন্তর্দৃষ্টি প্রতিবেদন তালিকায় বৈশিষ্ট্যের বিবরণে স্ক্রোল করুন feature_type.

রিফিট প্রশিক্ষিত প্যারামিটার প্রসেসিং কাজ সমগ্র ডেটাসেটে প্রশিক্ষিত প্যারামিটারগুলিকে পুনরায় ফিট করেছে এবং নতুন মান এনকোড করেছে APARTMENT সম্পূর্ণ ডেটাসেটে সাতটি স্বতন্ত্র মান সহ।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

স্বাভাবিক প্রক্রিয়াকরণ কাজ নমুনা ডেটাসেট প্রশিক্ষিত পরামিতি প্রয়োগ করে, যার জন্য শুধুমাত্র ছয়টি স্বতন্ত্র মান রয়েছে property_type বৈশিষ্ট্য সাথে ডেটার জন্য feature_type APARTMENT, দ্য অবৈধ হ্যান্ডলিং কৌশল স্কিপ প্রয়োগ করা হয়েছে এবং ডেটা প্রসেসিং কাজ এই নতুন বিভাগটি শিখবে না। ওয়ান-হট এনকোডিং নতুন ডেটাতে উপস্থিত এই নতুন বিভাগটিকে এড়িয়ে গেছে এবং এনকোডিং বিভাগটিকে এড়িয়ে যায় APARTMENT.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

এবার আরেকটা ফিচারে ফোকাস করা যাক, city. রিফিট প্রশিক্ষিত প্যারামিটার প্রসেসিং কাজের জন্য উপলব্ধ সমস্ত মান পুনরায় শিখেছে city বৈশিষ্ট্য, নতুন ডেটা বিবেচনা করে।

হিসাবে দেখানো হয়েছে বৈশিষ্ট্য সংক্ষিপ্তসার প্রতিবেদনের বিভাগ, নতুন এনকোড করা বৈশিষ্ট্য কলাম e_city রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্য ব্যবহার করে 100% বৈধ প্যারামিটার আছে।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

বিপরীতে, নতুন এনকোড করা বৈশিষ্ট্য কলামে স্বাভাবিক প্রক্রিয়াকরণ কাজের 82.4% অনুপস্থিত মান রয়েছে e_city. এই ঘটনাটি হল কারণ শুধুমাত্র শেখা প্রশিক্ষিত প্যারামিটারের নমুনা সেট সম্পূর্ণ ডেটাসেটে প্রয়োগ করা হয় এবং ডেটা প্রসেসিং কাজের দ্বারা কোনও রিফিটিং প্রয়োগ করা হয় না।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

নিম্নলিখিত হিস্টোগ্রামগুলি অর্ডিনাল এনকোডেড বৈশিষ্ট্যটি চিত্রিত করে e_city. প্রথম হিস্টোগ্রামটি রিফিট বিকল্পের সাথে রূপান্তরিত বৈশিষ্ট্যের।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

পরবর্তী হিস্টোগ্রামটি রিফিট বিকল্প ছাড়াই রূপান্তরিত বৈশিষ্ট্যের। কমলা কলাম ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্টে অনুপস্থিত মান (NaN) দেখায়। নমুনা ডেটাসেট থেকে শেখা নয় এমন নতুন মানগুলি ডেটা র‍্যাংলার UI-তে কনফিগার করা হিসাবে নট এ নম্বর (NaN) হিসাবে প্রতিস্থাপিত হয় অবৈধ হ্যান্ডলিং কৌশল.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

রিফিট প্রশিক্ষিত প্যারামিটারের সাথে ডেটা প্রসেসিং কাজটি পুনরায় শিখেছে property_type এবং city সম্পূর্ণ ডেটাসেট থেকে নতুন মান বিবেচনা করে বৈশিষ্ট্য। রিফিট প্রশিক্ষিত প্যারামিটার ছাড়া, ডেটা প্রসেসিং কাজ শুধুমাত্র নমুনাকৃত ডেটাসেটের প্রাক-শিক্ষিত প্রশিক্ষিত পরামিতি ব্যবহার করে। এটি তখন নতুন ডেটাতে প্রয়োগ করে, কিন্তু নতুন মানগুলি এনকোডিংয়ের জন্য বিবেচনা করা হয় না। এটি মডেল নির্ভুলতার উপর প্রভাব ফেলবে।

পরিষ্কার কর

আপনি যখন ডেটা র‍্যাংলার ব্যবহার করছেন না, তখন অতিরিক্ত ফি খরচ এড়াতে এটি যে দৃষ্টান্তে চলে তা বন্ধ করা গুরুত্বপূর্ণ।

কাজ হারানো এড়াতে, ডাটা র্যাংলার বন্ধ করার আগে আপনার ডেটা প্রবাহ সংরক্ষণ করুন।

  1. আপনার ডেটা প্রবাহ সংরক্ষণ করতে অ্যামাজন সেজমেকার স্টুডিওনির্বাচন ফাইল, তাহলে বেছে নাও ডেটা র্যাংলার প্রবাহ সংরক্ষণ করুন. ডেটা র্যাংলার স্বয়ংক্রিয়ভাবে প্রতি 60 সেকেন্ডে আপনার ডেটা প্রবাহ সংরক্ষণ করে।
  2. ডাটা র‍্যাংলার ইনস্ট্যান্স বন্ধ করতে, স্টুডিওতে, নির্বাচন করুন চলমান দৃষ্টান্ত এবং কার্নেলগুলি.
  3. অধীনে চলমান অ্যাপস, sagemaker-data-wrangler-1.0 অ্যাপের পাশে শাটডাউন আইকনটি বেছে নিন।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

  1. বেছে নিন সব বন্ধ করুন নিশ্চিত করতে.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

ডেটা র‍্যাংলার একটি ml.m5.4x বৃহৎ উদাহরণে চলে। এই উদাহরণ থেকে অদৃশ্য হয় চলমান উদাহরণ যখন আপনি ডাটা র‍্যাংলার অ্যাপ বন্ধ করেন।

আপনি ডেটা র্যাংলার অ্যাপটি বন্ধ করার পরে, পরের বার যখন আপনি একটি ডেটা র্যাংলার ফ্লো ফাইল খুলবেন তখন এটি পুনরায় চালু করতে হবে। এই কয়েক মিনিট সময় নিতে পারে.

উপসংহার

এই পোস্টে, আমরা ডেটা র্যাংলারে রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্যের একটি ওভারভিউ প্রদান করেছি। এই নতুন বৈশিষ্ট্যের সাহায্যে, আপনি ডেটা র্যাংলার ফ্লোতে প্রশিক্ষিত প্যারামিটারগুলি সংরক্ষণ করতে পারেন এবং ডেটা প্রসেসিং কাজগুলি বড় ডেটাসেট বা শক্তিবৃদ্ধি ডেটাসেটে শেখা রূপান্তরগুলি প্রয়োগ করতে প্রশিক্ষিত প্যারামিটারগুলি ব্যবহার করে৷ আপনি এই বিকল্পটি ভেক্টরাইজ করার জন্য পাঠ্য বৈশিষ্ট্য, সংখ্যাসূচক ডেটা এবং আউটলিয়ার পরিচালনা করতে প্রয়োগ করতে পারেন।

ML লাইফসাইকেলের ডেটা প্রসেসিং জুড়ে প্রশিক্ষিত পরামিতিগুলি সংরক্ষণ করা ডেটা প্রক্রিয়াকরণের ধাপগুলিকে সহজ করে এবং হ্রাস করে, শক্তিশালী বৈশিষ্ট্য ইঞ্জিনিয়ারিংকে সমর্থন করে এবং নতুন ডেটাতে মডেল প্রশিক্ষণ এবং শক্তিবৃদ্ধি প্রশিক্ষণকে সমর্থন করে।

আমরা আপনাকে আপনার ডেটা প্রক্রিয়াকরণের প্রয়োজনীয়তার জন্য এই নতুন বৈশিষ্ট্যটি চেষ্টা করার জন্য উত্সাহিত করি।


লেখক সম্পর্কে

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ. হরিহরন সুরেশ AWS-এর একজন সিনিয়র সলিউশন আর্কিটেক্ট। তিনি ডাটাবেস, মেশিন লার্নিং এবং উদ্ভাবনী সমাধান ডিজাইন করার বিষয়ে উত্সাহী। AWS-এ যোগ দেওয়ার আগে, হরিহরন একজন পণ্য স্থপতি, কোর ব্যাঙ্কিং বাস্তবায়ন বিশেষজ্ঞ এবং বিকাশকারী ছিলেন এবং 11 বছরেরও বেশি সময় ধরে BFSI সংস্থাগুলির সাথে কাজ করেছিলেন। প্রযুক্তির বাইরে, তিনি প্যারাগ্লাইডিং এবং সাইক্লিং উপভোগ করেন।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.সন্তোষ কুলকার্নি অ্যামাজন ওয়েব সার্ভিসেসের একজন এন্টারপ্রাইজ সলিউশন আর্কিটেক্ট যিনি অস্ট্রেলিয়ার ক্রীড়া গ্রাহকদের সাথে কাজ করেন। তিনি এআই/এমএল, বিগ ডেটা এবং সফ্টওয়্যার ডেভেলপমেন্টে তার জ্ঞান ব্যবহার করে ব্যবসায়িক সমস্যা সমাধানের জন্য বৃহৎ আকারে বিতরণ করা অ্যাপ্লিকেশন তৈরি করার বিষয়ে উত্সাহী।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.বিশাল কাপুর AWS AI এর একজন সিনিয়র ফলিত বিজ্ঞানী। ডেটা র‍্যাংলারে গ্রাহকদের তাদের ডেটা বুঝতে সাহায্য করার বিষয়ে তিনি উত্সাহী। তার অবসর সময়ে, তিনি পর্বত বাইক, স্নোবোর্ড এবং তার পরিবারের সাথে সময় কাটান।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.অনিকেত মঞ্জুনাথ অ্যামাজন সেজমেকারের একজন সফটওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার। তিনি অ্যামাজন সেজমেকার ডেটা র্যাংলারকে সহায়তা করেন এবং বিতরণ করা মেশিন লার্নিং সিস্টেম সম্পর্কে উত্সাহী। কাজের বাইরে, তিনি হাইকিং, সিনেমা দেখা এবং ক্রিকেট খেলা উপভোগ করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

বুন্দেসলিগা ম্যাচ ফ্যাক্ট জয়ের সম্ভাবনা: AWS-এ মেশিন লার্নিং ব্যবহার করে জেতার সম্ভাবনার উপর ইন-গেম ইভেন্টের প্রভাব পরিমাপ করা

উত্স নোড: 1709670
সময় স্ট্যাম্প: সেপ্টেম্বর 30, 2022

অ্যামাজন ইঞ্জিনিয়ারিংয়ের জন্য অ্যামাজন সেজমেকারে মানব এবং এআই প্রতিক্রিয়া সহ এলএলএম কর্মক্ষমতা উন্নত করুন | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1968037
সময় স্ট্যাম্প: এপ্রিল 24, 2024