অ্যামাজন সেজমেকার ডেটা র্যাংলার ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত প্যারামিটারগুলি রিফিট করুন

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

অ্যামাজন সেজমেকার ডেটা র্যাংলার আপনাকে একক ভিজ্যুয়াল ইন্টারফেস থেকে মেশিন লার্নিং (ML) এর জন্য ডেটা বুঝতে, একত্রিত করতে, রূপান্তর করতে এবং প্রস্তুত করতে সহায়তা করে। এটিতে 300 টিরও বেশি অন্তর্নির্মিত ডেটা ট্রান্সফরমেশন রয়েছে যাতে আপনি কোনও কোড না লিখেই দ্রুত স্বাভাবিককরণ, রূপান্তর এবং বৈশিষ্ট্যগুলিকে একত্রিত করতে পারেন৷

ডেটা বিজ্ঞান অনুশীলনকারীরা ব্যবসায়িক সমস্যাগুলি সমাধান করার জন্য ডেটা তৈরি করে, পর্যবেক্ষণ করে এবং প্রক্রিয়া করে যেখানে তাদের ডেটাসেটগুলি থেকে বৈশিষ্ট্যগুলিকে রূপান্তরিত এবং নিষ্কাশন করতে হবে। রূপান্তর যেমন অর্ডিনাল এনকোডিং বা ওয়ান-হট এনকোডিং আপনার ডেটাসেটে এনকোডিং শিখে। এই এনকোডেড আউটপুটগুলিকে প্রশিক্ষিত পরামিতি হিসাবে উল্লেখ করা হয়। সময়ের সাথে সাথে ডেটাসেটগুলি পরিবর্তিত হওয়ার সাথে সাথে আপনার ডেটার সাথে প্রাসঙ্গিক রূপান্তর প্রবাহ বজায় রাখতে পূর্বে অদেখা ডেটাতে এনকোডিংগুলি পুনরায় ফিট করা প্রয়োজন হতে পারে৷

আমরা রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্যটি ঘোষণা করতে পেরে উত্তেজিত, যা আপনাকে পূর্বের প্রশিক্ষিত প্যারামিটারগুলি ব্যবহার করতে এবং সেগুলিকে ইচ্ছামতো রিফিট করতে দেয়৷ এই পোস্টে, আমরা এই বৈশিষ্ট্যটি কীভাবে ব্যবহার করতে হয় তা প্রদর্শন করি।

ডেটা র্যাংলার রিফিট বৈশিষ্ট্যের ওভারভিউ

আমরা রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্যের সুনির্দিষ্ট বিষয়গুলিতে ডুব দেওয়ার আগে নিম্নলিখিত উদাহরণের সাথে এই বৈশিষ্ট্যটি কীভাবে কাজ করে তা আমরা ব্যাখ্যা করি।

ধরে নিন আপনার গ্রাহক ডেটাসেটের জন্য একটি স্বতন্ত্র বৈশিষ্ট্য রয়েছে country মত স্ট্রিং হিসাবে উপস্থাপিত Australia এবং Singapore. ML অ্যালগরিদমের সংখ্যাসূচক ইনপুট প্রয়োজন; অতএব, এই শ্রেণীবদ্ধ মানগুলিকে সংখ্যাসূচক মানগুলিতে এনকোড করতে হবে। শ্রেণীগত ডেটা এনকোডিং হল বিভাগগুলির জন্য একটি সংখ্যাসূচক উপস্থাপনা তৈরি করার প্রক্রিয়া। উদাহরণস্বরূপ, যদি আপনার বিভাগের দেশের মান থাকে Australia এবং Singapore, আপনি এই তথ্য দুটি ভেক্টরে এনকোড করতে পারেন: [1, 0] প্রতিনিধিত্ব করতে Australia এবং [0, 1] প্রতিনিধিত্ব করতে Singapore. এখানে ব্যবহৃত রূপান্তর হল এক-হট এনকোডিং এবং নতুন এনকোড করা আউটপুট প্রশিক্ষিত পরামিতিগুলিকে প্রতিফলিত করে।

মডেল প্রশিক্ষণের পর, সময়ের সাথে সাথে আপনার গ্রাহক বাড়তে পারে এবং দেশের তালিকায় আপনার আরও স্বতন্ত্র মান রয়েছে। নতুন ডেটাসেটে অন্য বিভাগ থাকতে পারে, India, যা মূল ডেটাসেটের অংশ ছিল না, যা মডেলের নির্ভুলতাকে প্রভাবিত করতে পারে। অতএব, সময়ের সাথে সংগৃহীত নতুন ডেটা দিয়ে আপনার মডেলকে পুনরায় প্রশিক্ষণ দেওয়া প্রয়োজন।

এই সমস্যাটি কাটিয়ে উঠতে, আপনাকে নতুন বিভাগ অন্তর্ভুক্ত করতে এনকোডিং রিফ্রেশ করতে হবে এবং আপনার সর্বশেষ ডেটাসেট অনুযায়ী ভেক্টর উপস্থাপনা আপডেট করতে হবে। আমাদের উদাহরণে, এনকোডিং এর জন্য নতুন বিভাগ প্রতিফলিত করা উচিত country, যা হলো India. আমরা সাধারণত একটি রিফিট অপারেশন হিসাবে একটি এনকোডিং রিফ্রেশ করার এই প্রক্রিয়াটিকে উল্লেখ করি। আপনি রিফিট অপারেশন করার পরে, আপনি নতুন এনকোডিং পাবেন: Australia: [1, 0, 0], Singapore: [0, 1, 0], এবং India: [0, 0, 1]। ওয়ান-হট এনকোডিং পুনরায় ফিট করা এবং তারপরে নতুন ডেটাসেটে মডেলটিকে পুনরায় প্রশিক্ষণ দেওয়ার ফলে আরও ভাল মানের পূর্বাভাস পাওয়া যায়।

ডেটা র‍্যাংলারের রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্যটি নিম্নলিখিত ক্ষেত্রে কার্যকর:

ডেটাসেটে নতুন ডেটা যোগ করা হয় - যখন ডেটাসেট নতুন ডেটা দিয়ে সমৃদ্ধ হয় তখন এমএল মডেলকে পুনরায় প্রশিক্ষণ দেওয়া প্রয়োজন৷ সর্বোত্তম ফলাফল অর্জনের জন্য, আমাদের নতুন ডেটাসেটে প্রশিক্ষিত পরামিতিগুলি পুনরায় ফিট করতে হবে।
নমুনা ডেটাতে বৈশিষ্ট্য প্রকৌশল সম্পাদন করার পরে একটি সম্পূর্ণ ডেটাসেটের প্রশিক্ষণ - একটি বড় ডেটাসেটের জন্য, প্রশিক্ষিত প্যারামিটার শেখার জন্য ডেটাসেটের একটি নমুনা বিবেচনা করা হয়, যা আপনার সম্পূর্ণ ডেটাসেটের প্রতিনিধিত্ব নাও করতে পারে। আমাদের সম্পূর্ণ ডেটাসেটে প্রশিক্ষিত পরামিতিগুলি পুনরায় শিখতে হবে।

ডেটাসেটে সম্পাদিত কিছু সাধারণ ডেটা র‍্যাংলার ট্রান্সফর্মগুলি নিম্নরূপ যা রিফিট প্রশিক্ষিত প্যারামিটার বিকল্প থেকে উপকৃত হয়:

ডেটা র্যাংলারে রূপান্তর সম্পর্কে আরও তথ্যের জন্য, পড়ুন তথ্য রূপান্তর.

এই পোস্টে, আমরা দেখাই কিভাবে ডেটা র্যাংলার ব্যবহার করে ডেটাসেটে এই প্রশিক্ষিত প্যারামিটারগুলি প্রক্রিয়া করা যায়। আপনি আপনার ডেটা বৃদ্ধি এবং পরিবর্তনের সাথে সাথে পুনরায় প্রক্রিয়া করার জন্য উত্পাদন কাজের ক্ষেত্রে ডেটা র্যাংলার প্রবাহ ব্যবহার করতে পারেন।

সমাধান ওভারভিউ

এই পোস্টের জন্য, আমরা প্রদর্শন করি কিভাবে ডেটা র‍্যাংলারের রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্যটি সর্বজনীনভাবে উপলব্ধ ডেটাসেটের সাথে ব্যবহার করতে হয় Kaggle: জিলো থেকে মার্কিন হাউজিং ডেটা, মার্কিন যুক্তরাষ্ট্রে বিক্রয়ের জন্য সম্পত্তি। এটি বাড়ির বিভিন্ন ভূ-বন্টন জুড়ে বাড়ির বিক্রয় মূল্য রয়েছে৷

নিম্নলিখিত চিত্রটি রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্য ব্যবহার করে ডেটা র্যাংলারের উচ্চ-স্তরের আর্কিটেকচারকে চিত্রিত করে। আমরা রিফিট প্রশিক্ষিত প্যারামিটার ছাড়াই ডেটার মানের উপর প্রভাব দেখাই এবং শেষে ফলাফলের বিপরীতে।

কর্মপ্রবাহে নিম্নলিখিত পদক্ষেপগুলি অন্তর্ভুক্ত রয়েছে:

অনুসন্ধানমূলক তথ্য বিশ্লেষণ সঞ্চালন - অনুসন্ধানমূলক ডেটা বিশ্লেষণ (EDA) শুরু করতে ডেটা র্যাংলারে একটি নতুন প্রবাহ তৈরি করুন। প্রশিক্ষণের জন্য আপনার ডেটা বোঝা, পরিষ্কার, একত্রিত, রূপান্তর এবং প্রস্তুত করতে ব্যবসার ডেটা আমদানি করুন। নির্দেশ করে নমুনা ডেটাসেট সহ Amazon SageMaker ডেটা র্যাংলার ক্ষমতাগুলি অন্বেষণ করুন৷ ডেটা র‍্যাংলারের সাথে ইডিএ করার বিষয়ে আরও বিশদ বিবরণের জন্য।
একটি ডেটা প্রসেসিং কাজ তৈরি করুন - এই ধাপটি কনফিগার করা ফ্লো ফাইল হিসাবে ডেটাসেটে করা সমস্ত রূপান্তর রপ্তানি করে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) অবস্থান। ডেটা র‍্যাংলার দ্বারা উত্পন্ন ফ্লো ফাইলের সাথে ডেটা প্রক্রিয়াকরণের কাজটি আপনার ডেটাসেটে শেখা রূপান্তর এবং প্রশিক্ষিত পরামিতিগুলিকে প্রয়োগ করে৷ ডেটা প্রসেসিং কাজ সম্পূর্ণ হলে, আউটপুট ফাইলগুলি গন্তব্য নোডে কনফিগার করা Amazon S3 অবস্থানে আপলোড করা হয়। নোট করুন যে রিফিট বিকল্পটি ডিফল্টরূপে বন্ধ থাকে। প্রক্রিয়াকরণ কাজ অবিলম্বে কার্যকর করার বিকল্প হিসাবে, আপনিও করতে পারেন একটি প্রক্রিয়াকরণ কাজের সময় নির্ধারণ করুন ডেটা র্যাংলার ব্যবহার করে কয়েকটি ক্লিকে - নির্দিষ্ট সময়ে চালানোর জন্য কাজ তৈরি করুন।
রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্য সহ একটি ডেটা প্রসেসিং কাজ তৈরি করুন - আপনার সম্পূর্ণ বা চাঙ্গা ডেটাসেটে আপনার প্রশিক্ষিত পরামিতিগুলির পুনরায় শিক্ষার জন্য কাজ তৈরি করার সময় নতুন রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্যটি নির্বাচন করুন। ফ্লো ফাইল সংরক্ষণের জন্য Amazon S3 অবস্থান কনফিগারেশন অনুযায়ী, ডেটা প্রসেসিং কাজ নতুন ফ্লো ফাইল তৈরি বা আপডেট করে। আপনি যদি ধাপ 3-এর মতো একই Amazon S2 অবস্থান কনফিগার করেন, তাহলে ডেটা প্রসেসিং কাজটি ধাপ 2-এ তৈরি ফ্লো ফাইল আপডেট করে, যা আপনার ডেটার সাথে আপনার প্রবাহকে প্রাসঙ্গিক রাখতে ব্যবহার করা যেতে পারে। প্রসেসিং কাজ শেষ হলে, আউটপুট ফাইলগুলি গন্তব্য নোড কনফিগার করা S3 বালতিতে আপলোড করা হয়। আপনি একটি উত্পাদন কর্মপ্রবাহের জন্য আপনার সম্পূর্ণ ডেটাসেটে আপডেট করা প্রবাহ ব্যবহার করতে পারেন।

পূর্বশর্ত

শুরু করার আগে, একটি S3 বালতিতে ডেটাসেট আপলোড করুন, তারপরে এটি ডেটা র্যাংলারে আমদানি করুন। নির্দেশাবলীর জন্য, পড়ুন Amazon S3 থেকে ডেটা আমদানি করুন.

চলুন এখন স্থাপত্য চিত্রে উল্লিখিত ধাপগুলোর মধ্য দিয়ে চলুন।

ডেটা র্যাংলারে EDA সম্পাদন করুন

রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্যটি চেষ্টা করার জন্য, ডেটা র্যাংলারে নিম্নলিখিত বিশ্লেষণ এবং রূপান্তর সেট আপ করুন। EDA সেট আপ করার শেষে, ডেটা র্যাংলার ডেটাসেট থেকে প্রশিক্ষিত পরামিতিগুলির সাথে ক্যাপচার করা একটি ফ্লো ফাইল তৈরি করে।

অনুসন্ধানমূলক ডেটা বিশ্লেষণের জন্য Amazon SageMaker Data Wrangler-এ একটি নতুন প্রবাহ তৈরি করুন।
আপনার Amazon S3 এ আপলোড করা ব্যবসার ডেটা আমদানি করুন।
আপনি ফাইলের ধরন, বিভেদক, নমুনা ইত্যাদি নির্বাচন করার জন্য ডেটা এবং বিকল্পগুলির পূর্বরূপ দেখতে পারেন। এই উদাহরণের জন্য, আমরা ব্যবহার করি প্রথম কে ডেটাসেট থেকে প্রথম 50,000 রেকর্ড আমদানি করতে Data Wrangler দ্বারা স্যাম্পলিং বিকল্প।
বেছে নিন আমদানি.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন। উল্লম্ব অনুসন্ধান. আ.

আপনি ডেটা র্যাংলার দ্বারা প্রয়োগ করা ডেটা টাইপ ম্যাচিং পরীক্ষা করার পরে, একটি নতুন বিশ্লেষণ যোগ করুন।

জন্য বিশ্লেষণের ধরণনির্বাচন ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট.
বেছে নিন সৃষ্টি.

ডেটা গুণমান এবং অন্তর্দৃষ্টি প্রতিবেদনের সাথে, আপনি সাধারণ তথ্য যেমন অনুপস্থিত মান, অবৈধ মান, বৈশিষ্ট্যের ধরন, বহির্মুখী গণনা এবং আরও অনেক কিছু সহ ডেটাসেটের একটি সংক্ষিপ্ত সারাংশ পান। আপনি বৈশিষ্ট্য চয়ন করতে পারেন property_type এবং city রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্য বোঝার জন্য ডেটাসেটে রূপান্তর প্রয়োগের জন্য।

এর বৈশিষ্ট্য ফোকাস করা যাক property_type ডেটাসেট থেকে। প্রতিবেদনে বৈশিষ্ট্য বিশদ বিভাগে, আপনি দেখতে পারেন property_type, যা একটি শ্রেণীবদ্ধ বৈশিষ্ট্য এবং ডেটা র‍্যাংলারের 50,000 নমুনাকৃত ডেটাসেট থেকে প্রাপ্ত ছয়টি অনন্য মান। সম্পূর্ণ ডেটাসেটে বৈশিষ্ট্যটির জন্য আরও বিভাগ থাকতে পারে property_type. অনেক অনন্য মান সহ একটি বৈশিষ্ট্যের জন্য, আপনি অর্ডিনাল এনকোডিং পছন্দ করতে পারেন। বৈশিষ্ট্যটির কয়েকটি অনন্য মান থাকলে, একটি এক-হট এনকোডিং পদ্ধতি ব্যবহার করা যেতে পারে। এই উদাহরণের জন্য, আমরা এক-হট এনকোডিং চালু করার জন্য বেছে নিই property_type.

একইভাবে, জন্য city বৈশিষ্ট্য, যা একটি বিশাল সংখ্যক অনন্য মান সহ একটি পাঠ্য ডেটা টাইপ, আসুন এই বৈশিষ্ট্যটিতে অর্ডিনাল এনকোডিং প্রয়োগ করি।

ডেটা র্যাংলার ফ্লোতে নেভিগেট করুন, প্লাস চিহ্নটি নির্বাচন করুন এবং চয়ন করুন রূপান্তর যোগ করুন.

পছন্দ এনকোড শ্রেণিবদ্ধ শ্রেণীবদ্ধ বৈশিষ্ট্য রূপান্তর করার বিকল্প।

ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট থেকে, বৈশিষ্ট্য property_type ছয়টি অনন্য বিভাগ দেখায়: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILY, এবং TOWNHOUSE.

জন্য রুপান্তরনির্বাচন এক-গরম এনকোড.

বৈশিষ্ট্যে এক-হট এনকোডিং প্রয়োগ করার পরে property_type, আপনি নতুন কলাম হিসাবে যোগ করা পৃথক বৈশিষ্ট্য হিসাবে সমস্ত ছয়টি বিভাগের পূর্বরূপ দেখতে পারেন। মনে রাখবেন যে এই প্রিভিউ তৈরি করতে আপনার ডেটাসেট থেকে 50,000 রেকর্ডের নমুনা নেওয়া হয়েছে। এই প্রবাহের সাথে একটি ডেটা র্যাংলার প্রসেসিং কাজ চালানোর সময়, এই রূপান্তরগুলি আপনার সম্পূর্ণ ডেটাসেটে প্রয়োগ করা হয়।

একটি নতুন রূপান্তর যোগ করুন এবং চয়ন করুন এনকোড শ্রেণিবদ্ধ বৈশিষ্ট্যে একটি রূপান্তর প্রয়োগ করতে city, যার অনন্য শ্রেণীবদ্ধ পাঠ্য মানগুলির একটি বড় সংখ্যা রয়েছে৷
এই বৈশিষ্ট্যটিকে একটি সংখ্যাসূচক উপস্থাপনায় এনকোড করতে, নির্বাচন করুন সাধারণ এনকোড উন্নত রুপান্তর.

এই রূপান্তরের পূর্বরূপ নির্বাচন করুন।

আপনি যে শ্রেণীবদ্ধ বৈশিষ্ট্য দেখতে পারেন city আউটপুট কলামে অর্ডিনাল মানগুলিতে ম্যাপ করা হয় e_city.

বেছে নিয়ে এই ধাপটি যোগ করুন আপডেট.

CSV ফাইল হিসাবে আউটপুট তৈরি করতে ডেটাসেটে প্রয়োগকৃত রূপান্তরগুলি সংরক্ষণ করতে আপনি Amazon S3-এ গন্তব্য সেট করতে পারেন।

ডেটা র‍্যাংলার ইউজার ইন্টারফেসে আপনার সংজ্ঞায়িত ওয়ার্কফ্লোকে একটি ফ্লো ফাইল হিসাবে সংরক্ষণ করে এবং কনফিগার করা ডেটা প্রসেসিং কাজের Amazon S3 অবস্থানে আপলোড করে। এই ফ্লো ফাইলটি ব্যবহার করা হয় যখন আপনি ডেটা র‍্যাংলার প্রসেসিং কাজ তৈরি করেন বড় ডেটাসেটে রূপান্তর প্রয়োগ করতে, বা মডেলটিকে পুনরায় প্রশিক্ষণ দেওয়ার জন্য নতুন শক্তিবৃদ্ধি ডেটা রূপান্তর করতে।

রিফিট সক্ষম না করে একটি ডেটা র্যাংলার ডেটা প্রসেসিং কাজ চালু করুন

এখন আপনি দেখতে পাচ্ছেন কিভাবে রিফিট বিকল্পটি নতুন ডেটাসেটে প্রশিক্ষিত প্যারামিটার ব্যবহার করে। এই প্রদর্শনের জন্য, আমরা একই ডেটাতে অপারেটিং দুটি ডেটা র্যাংলার প্রক্রিয়াকরণ কাজ সংজ্ঞায়িত করি। প্রথম প্রক্রিয়াকরণ কাজ রিফিট সক্ষম করবে না; দ্বিতীয় প্রক্রিয়াকরণ কাজের জন্য, আমরা রিফিট ব্যবহার করি। আমরা শেষে প্রভাব তুলনা.

বেছে নিন চাকরি তৈরি করুন ডেটা র্যাংলারের সাথে একটি ডেটা প্রসেসিং কাজ শুরু করতে।

জন্য কাজের নাম, একটি নাম লিখুন।
অধীনে প্রশিক্ষিত পরামিতি, নির্বাচন করবেন না রিফিট.
বেছে নিন কাজ কনফিগার করুন.

আউটপুট ফ্লো ফাইল সংরক্ষণ করার জন্য উদাহরণের ধরন, ভলিউম আকার এবং Amazon S3 অবস্থানের মতো কাজের প্যারামিটারগুলি কনফিগার করুন।
ডেটা র্যাংলার ফ্লো ফাইল S3 অবস্থানে একটি ফ্লো ফাইল তৈরি করে। প্রবাহটি পরামিতিগুলিকে প্রশিক্ষণের জন্য রূপান্তর ব্যবহার করে এবং আমরা পরে এই পরামিতিগুলিকে পুনরায় প্রশিক্ষণের জন্য রিফিট বিকল্পটি ব্যবহার করি।
বেছে নিন সৃষ্টি.

গন্তব্য নোডে কনফিগার করা S3 বালতিতে রূপান্তরিত ডেটা দেখতে ডেটা প্রসেসিং কাজটি সম্পূর্ণ হওয়ার জন্য অপেক্ষা করুন।

রিফিট সক্ষম করে একটি ডেটা র্যাংলার ডেটা প্রসেসিং কাজ চালু করুন

চলুন রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্য সক্রিয় করে আরেকটি প্রসেসিং কাজ তৈরি করি। এই বিকল্পটি সম্পূর্ণ ডেটাসেটে পুনরায় শিখে নেওয়া প্রশিক্ষিত প্যারামিটারগুলিকে প্রয়োগ করে৷ এই ডেটা প্রসেসিং কাজ সম্পূর্ণ হলে, কনফিগার করা Amazon S3 অবস্থানে একটি ফ্লো ফাইল তৈরি বা আপডেট করা হয়।

বেছে নিন চাকরি তৈরি করুন.

জন্য কাজের নাম, একটি নাম লিখুন।
জন্য প্রশিক্ষিত পরামিতি, নির্বাচন করুন রিফিট.
আপনি যদি নির্বাচন করেন সব দেখুন, আপনি সমস্ত প্রশিক্ষিত পরামিতি পর্যালোচনা করতে পারেন।

বেছে নিন কাজ কনফিগার করুন.
Amazon S3 ফ্লো ফাইলের অবস্থান লিখুন।
বেছে নিন সৃষ্টি.

ডেটা প্রসেসিং কাজ শেষ হওয়ার জন্য অপেক্ষা করুন।

সংজ্ঞায়িত রূপান্তর চালানোর ডেটা প্রসেসিং কাজের দ্বারা উত্পন্ন ডেটা দেখতে গন্তব্য নোডে কনফিগার করা S3 বালতিটি পড়ুন।

ডাটা র‍্যাংলার প্রসেসিং কাজ চালানোর জন্য পাইথন কোডে রপ্তানি করুন

ডেটা র্যাংলারে কাজ তৈরি করুন বিকল্পটি ব্যবহার করে প্রক্রিয়াকরণের কাজগুলি শুরু করার বিকল্প হিসাবে, আপনি একটি জুপিটার নোটবুকে ডেটা র্যাংলার প্রবাহ রপ্তানি করে ডেটা প্রক্রিয়াকরণের কাজগুলিকে ট্রিগার করতে পারেন৷ ডেটা র‍্যাংলার ইনপুট, আউটপুট, প্রসেসিং কাজের কনফিগারেশন এবং কাজের স্থিতি পরীক্ষা করার জন্য কোড সহ একটি জুপিটার নোটবুক তৈরি করে। আপনি আপনার ডেটা ট্রান্সফরমেশন প্রয়োজনীয়তা অনুযায়ী প্যারামিটার পরিবর্তন বা আপডেট করতে পারেন।

ফাইনালের পাশে প্লাস চিহ্নটি বেছে নিন রুপান্তর নোড
বেছে নিন রপ্তানি অতঃপর আমাজন S3 (জুপিটার নোটবুকের মাধ্যমে).

আপনি ইনপুট, আউটপুট, প্রসেসিং কাজের কনফিগারেশন এবং কাজের স্থিতি পরীক্ষা করার জন্য কোড সহ খোলা একটি জুপিটার নোটবুক দেখতে পারেন।

কোডের মাধ্যমে রিফিট প্রশিক্ষিত পরামিতি বিকল্পটি প্রয়োগ করতে, সেট করুন refit প্যারামিটারে True.

ডেটা প্রসেসিং কাজের ফলাফল তুলনা করুন

ডেটা র্যাংলার প্রসেসিং কাজগুলি সম্পূর্ণ হওয়ার পরে, আপনাকে কনফিগার করা Amazon S3 গন্তব্যে সংরক্ষিত ডেটা প্রসেসিং কাজের দ্বারা তৈরি আউটপুট সহ দুটি নতুন ডেটা র্যাংলার ফ্লো তৈরি করতে হবে।

ডেটা প্রসেসিং কাজের আউটপুট পর্যালোচনা করতে আপনি Amazon S3 গন্তব্য ফোল্ডারে কনফিগার করা অবস্থানটি উল্লেখ করতে পারেন।

প্রক্রিয়াকরণ কাজের ফলাফলগুলি পরিদর্শন করতে, রূপান্তর ফলাফলের তুলনা করার জন্য ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট ব্যবহার করে দুটি নতুন ডেটা র্যাংলার প্রবাহ তৈরি করুন৷

Amazon SageMaker Data Wrangler-এ একটি নতুন প্রবাহ তৈরি করুন।
Amazon S3 থেকে রিফিট সক্ষম আউটপুট ফাইল ছাড়াই ডেটা প্রসেসিং কাজ আমদানি করুন।
একটি নতুন বিশ্লেষণ যোগ করুন.
জন্য বিশ্লেষণের ধরণনির্বাচন ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট.
বেছে নিন সৃষ্টি.

উপরের ধাপগুলি পুনরাবৃত্তি করুন এবং রিফিট সক্ষম করে ডেটা প্রসেসিং কাজের আউটপুট বিশ্লেষণ করতে নতুন ডেটা র্যাংলার ফ্লো তৈরি করুন।

এখন ফিচারটির জন্য প্রসেসিং কাজের আউটপুট দেখি property_type ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট ব্যবহার করে। ডেটা এবং অন্তর্দৃষ্টি প্রতিবেদন তালিকায় বৈশিষ্ট্যের বিবরণে স্ক্রোল করুন feature_type.

রিফিট প্রশিক্ষিত প্যারামিটার প্রসেসিং কাজ সমগ্র ডেটাসেটে প্রশিক্ষিত প্যারামিটারগুলিকে পুনরায় ফিট করেছে এবং নতুন মান এনকোড করেছে APARTMENT সম্পূর্ণ ডেটাসেটে সাতটি স্বতন্ত্র মান সহ।

স্বাভাবিক প্রক্রিয়াকরণ কাজ নমুনা ডেটাসেট প্রশিক্ষিত পরামিতি প্রয়োগ করে, যার জন্য শুধুমাত্র ছয়টি স্বতন্ত্র মান রয়েছে property_type বৈশিষ্ট্য সাথে ডেটার জন্য feature_type APARTMENT, দ্য অবৈধ হ্যান্ডলিং কৌশল স্কিপ প্রয়োগ করা হয়েছে এবং ডেটা প্রসেসিং কাজ এই নতুন বিভাগটি শিখবে না। ওয়ান-হট এনকোডিং নতুন ডেটাতে উপস্থিত এই নতুন বিভাগটিকে এড়িয়ে গেছে এবং এনকোডিং বিভাগটিকে এড়িয়ে যায় APARTMENT.

এবার আরেকটা ফিচারে ফোকাস করা যাক, city. রিফিট প্রশিক্ষিত প্যারামিটার প্রসেসিং কাজের জন্য উপলব্ধ সমস্ত মান পুনরায় শিখেছে city বৈশিষ্ট্য, নতুন ডেটা বিবেচনা করে।

হিসাবে দেখানো হয়েছে বৈশিষ্ট্য সংক্ষিপ্তসার প্রতিবেদনের বিভাগ, নতুন এনকোড করা বৈশিষ্ট্য কলাম e_city রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্য ব্যবহার করে 100% বৈধ প্যারামিটার আছে।

বিপরীতে, নতুন এনকোড করা বৈশিষ্ট্য কলামে স্বাভাবিক প্রক্রিয়াকরণ কাজের 82.4% অনুপস্থিত মান রয়েছে e_city. এই ঘটনাটি হল কারণ শুধুমাত্র শেখা প্রশিক্ষিত প্যারামিটারের নমুনা সেট সম্পূর্ণ ডেটাসেটে প্রয়োগ করা হয় এবং ডেটা প্রসেসিং কাজের দ্বারা কোনও রিফিটিং প্রয়োগ করা হয় না।

নিম্নলিখিত হিস্টোগ্রামগুলি অর্ডিনাল এনকোডেড বৈশিষ্ট্যটি চিত্রিত করে e_city. প্রথম হিস্টোগ্রামটি রিফিট বিকল্পের সাথে রূপান্তরিত বৈশিষ্ট্যের।

পরবর্তী হিস্টোগ্রামটি রিফিট বিকল্প ছাড়াই রূপান্তরিত বৈশিষ্ট্যের। কমলা কলাম ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্টে অনুপস্থিত মান (NaN) দেখায়। নমুনা ডেটাসেট থেকে শেখা নয় এমন নতুন মানগুলি ডেটা র‍্যাংলার UI-তে কনফিগার করা হিসাবে নট এ নম্বর (NaN) হিসাবে প্রতিস্থাপিত হয় অবৈধ হ্যান্ডলিং কৌশল.

রিফিট প্রশিক্ষিত প্যারামিটারের সাথে ডেটা প্রসেসিং কাজটি পুনরায় শিখেছে property_type এবং city সম্পূর্ণ ডেটাসেট থেকে নতুন মান বিবেচনা করে বৈশিষ্ট্য। রিফিট প্রশিক্ষিত প্যারামিটার ছাড়া, ডেটা প্রসেসিং কাজ শুধুমাত্র নমুনাকৃত ডেটাসেটের প্রাক-শিক্ষিত প্রশিক্ষিত পরামিতি ব্যবহার করে। এটি তখন নতুন ডেটাতে প্রয়োগ করে, কিন্তু নতুন মানগুলি এনকোডিংয়ের জন্য বিবেচনা করা হয় না। এটি মডেল নির্ভুলতার উপর প্রভাব ফেলবে।

পরিষ্কার কর

আপনি যখন ডেটা র‍্যাংলার ব্যবহার করছেন না, তখন অতিরিক্ত ফি খরচ এড়াতে এটি যে দৃষ্টান্তে চলে তা বন্ধ করা গুরুত্বপূর্ণ।

কাজ হারানো এড়াতে, ডাটা র্যাংলার বন্ধ করার আগে আপনার ডেটা প্রবাহ সংরক্ষণ করুন।

আপনার ডেটা প্রবাহ সংরক্ষণ করতে অ্যামাজন সেজমেকার স্টুডিওনির্বাচন ফাইল, তাহলে বেছে নাও ডেটা র্যাংলার প্রবাহ সংরক্ষণ করুন. ডেটা র্যাংলার স্বয়ংক্রিয়ভাবে প্রতি 60 সেকেন্ডে আপনার ডেটা প্রবাহ সংরক্ষণ করে।
ডাটা র‍্যাংলার ইনস্ট্যান্স বন্ধ করতে, স্টুডিওতে, নির্বাচন করুন চলমান দৃষ্টান্ত এবং কার্নেলগুলি.
অধীনে চলমান অ্যাপস, sagemaker-data-wrangler-1.0 অ্যাপের পাশে শাটডাউন আইকনটি বেছে নিন।

বেছে নিন সব বন্ধ করুন নিশ্চিত করতে.

ডেটা র‍্যাংলার একটি ml.m5.4x বৃহৎ উদাহরণে চলে। এই উদাহরণ থেকে অদৃশ্য হয় চলমান উদাহরণ যখন আপনি ডাটা র‍্যাংলার অ্যাপ বন্ধ করেন।

আপনি ডেটা র্যাংলার অ্যাপটি বন্ধ করার পরে, পরের বার যখন আপনি একটি ডেটা র্যাংলার ফ্লো ফাইল খুলবেন তখন এটি পুনরায় চালু করতে হবে। এই কয়েক মিনিট সময় নিতে পারে.

উপসংহার

এই পোস্টে, আমরা ডেটা র্যাংলারে রিফিট প্রশিক্ষিত প্যারামিটার বৈশিষ্ট্যের একটি ওভারভিউ প্রদান করেছি। এই নতুন বৈশিষ্ট্যের সাহায্যে, আপনি ডেটা র্যাংলার ফ্লোতে প্রশিক্ষিত প্যারামিটারগুলি সংরক্ষণ করতে পারেন এবং ডেটা প্রসেসিং কাজগুলি বড় ডেটাসেট বা শক্তিবৃদ্ধি ডেটাসেটে শেখা রূপান্তরগুলি প্রয়োগ করতে প্রশিক্ষিত প্যারামিটারগুলি ব্যবহার করে৷ আপনি এই বিকল্পটি ভেক্টরাইজ করার জন্য পাঠ্য বৈশিষ্ট্য, সংখ্যাসূচক ডেটা এবং আউটলিয়ার পরিচালনা করতে প্রয়োগ করতে পারেন।

ML লাইফসাইকেলের ডেটা প্রসেসিং জুড়ে প্রশিক্ষিত পরামিতিগুলি সংরক্ষণ করা ডেটা প্রক্রিয়াকরণের ধাপগুলিকে সহজ করে এবং হ্রাস করে, শক্তিশালী বৈশিষ্ট্য ইঞ্জিনিয়ারিংকে সমর্থন করে এবং নতুন ডেটাতে মডেল প্রশিক্ষণ এবং শক্তিবৃদ্ধি প্রশিক্ষণকে সমর্থন করে।

আমরা আপনাকে আপনার ডেটা প্রক্রিয়াকরণের প্রয়োজনীয়তার জন্য এই নতুন বৈশিষ্ট্যটি চেষ্টা করার জন্য উত্সাহিত করি।

লেখক সম্পর্কে

হরিহরন সুরেশ AWS-এর একজন সিনিয়র সলিউশন আর্কিটেক্ট। তিনি ডাটাবেস, মেশিন লার্নিং এবং উদ্ভাবনী সমাধান ডিজাইন করার বিষয়ে উত্সাহী। AWS-এ যোগ দেওয়ার আগে, হরিহরন একজন পণ্য স্থপতি, কোর ব্যাঙ্কিং বাস্তবায়ন বিশেষজ্ঞ এবং বিকাশকারী ছিলেন এবং 11 বছরেরও বেশি সময় ধরে BFSI সংস্থাগুলির সাথে কাজ করেছিলেন। প্রযুক্তির বাইরে, তিনি প্যারাগ্লাইডিং এবং সাইক্লিং উপভোগ করেন।

সন্তোষ কুলকার্নি অ্যামাজন ওয়েব সার্ভিসেসের একজন এন্টারপ্রাইজ সলিউশন আর্কিটেক্ট যিনি অস্ট্রেলিয়ার ক্রীড়া গ্রাহকদের সাথে কাজ করেন। তিনি এআই/এমএল, বিগ ডেটা এবং সফ্টওয়্যার ডেভেলপমেন্টে তার জ্ঞান ব্যবহার করে ব্যবসায়িক সমস্যা সমাধানের জন্য বৃহৎ আকারে বিতরণ করা অ্যাপ্লিকেশন তৈরি করার বিষয়ে উত্সাহী।

বিশাল কাপুর AWS AI এর একজন সিনিয়র ফলিত বিজ্ঞানী। ডেটা র‍্যাংলারে গ্রাহকদের তাদের ডেটা বুঝতে সাহায্য করার বিষয়ে তিনি উত্সাহী। তার অবসর সময়ে, তিনি পর্বত বাইক, স্নোবোর্ড এবং তার পরিবারের সাথে সময় কাটান।

অনিকেত মঞ্জুনাথ অ্যামাজন সেজমেকারের একজন সফটওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার। তিনি অ্যামাজন সেজমেকার ডেটা র্যাংলারকে সহায়তা করেন এবং বিতরণ করা মেশিন লার্নিং সিস্টেম সম্পর্কে উত্সাহী। কাজের বাইরে, তিনি হাইকিং, সিনেমা দেখা এবং ক্রিকেট খেলা উপভোগ করেন।

সময় স্ট্যাম্প: নভেম্বর 14, 2022নভেম্বর 14, 2022

সময় স্ট্যাম্প: ফেব্রুয়ারী 29, 2024

Amazon SageMaker Data Wrangler ব্যবহার করে বড় ডেটাসেটে প্রশিক্ষিত পরামিতি রিফিট করুন

প্লেটো দ্বারা প্রকাশিত

ডেটা র্যাংলার রিফিট বৈশিষ্ট্যের ওভারভিউ

সমাধান ওভারভিউ

পূর্বশর্ত

ডেটা র্যাংলারে EDA সম্পাদন করুন

রিফিট সক্ষম না করে একটি ডেটা র্যাংলার ডেটা প্রসেসিং কাজ চালু করুন

রিফিট সক্ষম করে একটি ডেটা র্যাংলার ডেটা প্রসেসিং কাজ চালু করুন

ডাটা র‍্যাংলার প্রসেসিং কাজ চালানোর জন্য পাইথন কোডে রপ্তানি করুন

ডেটা প্রসেসিং কাজের ফলাফল তুলনা করুন

পরিষ্কার কর

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

Amazon Recognition এবং Amazon Textract ব্যবহার করে নথিগুলিকে পরিমিত করুন, শ্রেণীবদ্ধ করুন এবং প্রক্রিয়া করুন৷

AWS Amplify এবং Amazon Recognition নমুনা বাস্তবায়ন ব্যবহার করে আপনার পরিচয় যাচাইকরণ প্রকল্পগুলিকে ত্বরান্বিত করুন

Amazon Translate ব্যবহার করে একাধিক উৎস ভাষার নথি একাধিক লক্ষ্য ভাষায় অনুবাদ করুন

কথোপকথনের প্রতিলিপিতে PII ডেটা কীভাবে সংশোধন করবেন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব