SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে মেশিন লার্নিংয়ের জন্য খরচ-কার্যকর ডেটা প্রস্তুতি। উল্লম্ব অনুসন্ধান. আ.

সেজমেকার ডেটা র্যাংলার ব্যবহার করে মেশিন লার্নিংয়ের জন্য খরচ-কার্যকর ডেটা প্রস্তুতি

অ্যামাজন সেজমেকার ডেটা র্যাংলার এর একটি ক্ষমতা আমাজন সেজমেকার যা ভিজ্যুয়াল ইন্টারফেসের মাধ্যমে মেশিন লার্নিং (ML) অ্যাপ্লিকেশনগুলির জন্য উচ্চ-মানের বৈশিষ্ট্যগুলি প্রস্তুত করতে ডেটা বিজ্ঞানী এবং প্রকৌশলীদের জন্য দ্রুততর করে তোলে৷ ডেটা র‍্যাংলার ML-এর জন্য ডেটা একত্রিত করতে এবং প্রস্তুত করতে কয়েক সপ্তাহ থেকে মিনিট পর্যন্ত সময় কমিয়ে দেয়। ডেটা র‍্যাংলারের সাহায্যে, আপনি ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশলের প্রক্রিয়াটিকে সহজ করতে পারেন এবং একটি একক ভিজ্যুয়াল ইন্টারফেস থেকে ডেটা নির্বাচন, পরিষ্কারকরণ, অন্বেষণ এবং ভিজ্যুয়ালাইজেশন সহ ডেটা প্রস্তুতির কর্মপ্রবাহের প্রতিটি ধাপ সম্পূর্ণ করতে পারেন।

এই পোস্টে, আমরা ডেটা প্রস্তুতির খরচের উপাদানগুলি এবং ডেটা প্রস্তুতির জন্য কীভাবে ডেটা র্যাংলার একটি সাশ্রয়ী পদ্ধতির প্রস্তাব দেয় তা বোঝার জন্য ডেটা প্রস্তুতির বিভিন্ন দিক এবং ডেটা র্যাংলারের সংশ্লিষ্ট বৈশিষ্ট্যগুলির মধ্যে ডুব দিয়েছি। আমরা ডেটা র্যাংলারে ডেটা প্রস্তুতির খরচ আরও কমাতে খরচ অপ্টিমাইজেশনের সেরা অনুশীলনগুলিও কভার করি।

ডেটা র্যাংলারে অনুসন্ধানমূলক ডেটা বিশ্লেষণ (EDA) এবং ডেটা প্রস্তুতির ওভারভিউ

ডেটা র্যাংলারের খরচ-কার্যকারিতা বোঝার জন্য, EDA-এর বিভিন্ন দিক এবং ML-এর ডেটা প্রস্তুতি পর্বের দিকে নজর দেওয়া গুরুত্বপূর্ণ। এই ব্লগটি EDA-এর জন্য বিভিন্ন প্ল্যাটফর্ম বা পরিষেবার তুলনা করবে না, তবে EDA-তে বিভিন্ন পদক্ষেপ, তাদের খরচ বিবেচনা এবং ডেটা র‍্যাংলার কীভাবে খরচ-কার্যকর উপায়ে EDA-কে সহজতর করে তা বুঝতে পারবে।

একটি ডেটা বিজ্ঞানীর সাধারণ EDA অভিজ্ঞতা নিম্নলিখিত পদক্ষেপগুলি নিয়ে গঠিত:

  1. EDA চালানোর জন্য একটি জুপিটার নোটবুক উদাহরণ চালু করুন।
  2. ডেটা বিশ্লেষণ এবং ভিজ্যুয়ালাইজেশনের জন্য প্রয়োজনীয় প্যাকেজ আমদানি করুন।
  3. একাধিক উত্স থেকে ডেটা আমদানি করুন।
  4. ডেটা পরিষ্কার করতে এবং মডেলিংয়ের জন্য প্রস্তুত করার জন্য অনুপস্থিত মান এবং আউটলিয়ার পরিচালনা, ওয়ান-হট এনকোডিং, ডেটা ব্যালেন্সিং এবং আরও অনেক কিছুর মতো রূপান্তরগুলি সম্পাদন করুন৷
  5. ডেটা ভিজ্যুয়ালাইজ করুন।
  6. পদক্ষেপগুলি পুনরাবৃত্তি করার জন্য প্রক্রিয়া তৈরি করুন।
  7. ডাউনস্ট্রিম অ্যানালিটিক্স বা ML-এর জন্য প্রক্রিয়াকৃত ডেটা রপ্তানি করুন।

এই পদক্ষেপগুলি জটিল, এবং গণনা এবং মেমরির প্রয়োজনীয়তার ক্ষেত্রে নমনীয়তার প্রয়োজন যাতে আপনি যথাযথ গণনা এবং মেমরির সাথে প্রতিটি ধাপ চালাতে পারেন। আপনার একটি সমন্বিত সিস্টেমেরও প্রয়োজন যা একাধিক উত্স এবং প্রক্রিয়া থেকে ডেটা আমদানি করতে পারে পুনরাবৃত্তি বা পুনঃব্যবহারের জন্য যাতে আপনি আপনার ডাউনস্ট্রিম ML পাইপলাইনের প্রয়োজন অনুসারে আপনার ইতিমধ্যে তৈরি করা একই EDA পদক্ষেপগুলি প্রয়োগ করতে পারেন।

EDA খরচ বিবেচনা

নিম্নলিখিত EDA-র জন্য কিছু খরচ বিবেচনা করা হয়েছে:

গনা

  • কিছু EDA পরিবেশের জন্য একটি নির্দিষ্ট বিন্যাসে ডেটা প্রয়োজন। এই ধরনের ক্ষেত্রে, আপনাকে EDA পরিবেশ দ্বারা গৃহীত বিন্যাসে ডেটা প্রক্রিয়া করতে হবে। উদাহরণস্বরূপ, যদি পরিবেশ শুধুমাত্র CSV ফর্ম্যাট গ্রহণ করে কিন্তু আপনার কাছে Parquet বা অন্য ফর্ম্যাটে ডেটা থাকে, তাহলে আপনাকে আপনার ডেটাসেটটিকে CSV ফর্ম্যাটে রূপান্তর করতে হবে। ডেটা পুনরায় ফর্ম্যাট করার জন্য গণনা প্রয়োজন।
  • সমস্ত পরিবেশে একটি বোতামের ক্লিকে গণনা বা মেমরি কনফিগারেশন পরিবর্তন করার নমনীয়তা নেই। আপনি সম্পাদন করছেন প্রতিটি রূপান্তরের জন্য প্রযোজ্য হিসাবে আপনার সর্বোচ্চ গণনা ক্ষমতা এবং মেমরি পদচিহ্নের প্রয়োজন হতে পারে।

স্টোরেজ এবং ডেটা স্থানান্তর

  • একাধিক সূত্রে তথ্য সংগ্রহ করতে হবে। যদি শুধুমাত্র নির্বাচিত উত্সগুলি EDA পরিবেশ দ্বারা সমর্থিত হয়, তাহলে আপনাকে বিভিন্ন উত্স থেকে আপনার ডেটা সেই একক সমর্থিত উত্সে স্থানান্তর করতে হতে পারে, যা স্টোরেজ এবং ডেটা স্থানান্তর খরচ উভয়ই বাড়িয়ে দেয়।

শ্রম খরচ এবং দক্ষতা

  • EDA প্ল্যাটফর্ম এবং অন্তর্নিহিত কম্পিউট অবকাঠামো পরিচালনার জন্য দক্ষতা, প্রচেষ্টা এবং খরচ জড়িত। আপনি যখন পরিকাঠামো পরিচালনা করেন, তখন আপনার কাছে অপারেটিং সিস্টেম এবং অ্যাপ্লিকেশানগুলি যেমন প্রভিশনিং, প্যাচিং এবং আপগ্রেডিং পরিচালনার কার্যক্ষম বোঝা থাকে। দ্রুত সমস্যা চিহ্নিত করতে ভুলবেন না। আপনি যদি আপনার মডেল তৈরি করার আগে ডেটা যাচাই না করেন তবে আপনি অনেক সম্পদের পাশাপাশি ইঞ্জিনিয়ারের সময় নষ্ট করেছেন।
  • মনে রাখবেন EDA-এর জন্য ডেটা সায়েন্স এবং ডেটা অভিজ্ঞতার দক্ষতা প্রয়োজন।
  • উপরন্তু, কিছু EDA পরিবেশ একটি পয়েন্ট-এন্ড-ক্লিক ইন্টারফেস অফার করে না এবং আপনাকে ডেটা অন্বেষণ, কল্পনা এবং রূপান্তর করার জন্য কোড লিখতে হবে, যার মধ্যে শ্রম খরচ জড়িত।

অপারেশন খরচ

  • উৎস থেকে ডেটা স্থানান্তর করতে এবং তারপরে ডাউনস্ট্রিম ML পাইপলাইনে নিয়ে যেতে, আপনাকে EDA-এর প্রতিটি পর্যায়ে ডেটা আনার শুরু থেকে পুনরাবৃত্তিমূলক EDA পদক্ষেপগুলি সম্পাদন করতে হতে পারে, যা সময়সাপেক্ষ এবং একটি ক্রমবর্ধমান বহন করে। মজুরী. আপনি যদি পূর্ববর্তী ধাপ থেকে রূপান্তরিত ডেটা ব্যবহার করতে পারেন, তাহলে এটি ক্রমবর্ধমানভাবে খরচ বাড়ায় না।
  • অনুরূপ বা ক্রমবর্ধমান ডেটাসেটে EDA পদক্ষেপগুলির একই সেট পুনরাবৃত্তি করার একটি সহজ প্রক্রিয়া থাকা একটি লোক এবং গণনা সংস্থান দৃষ্টিকোণ থেকে সময় এবং খরচ বাঁচায়।

আসুন দেখি কিভাবে ডেটা র‍্যাংলার এই বিভিন্ন ক্ষেত্রের ক্ষেত্রে খরচ-কার্যকর পদ্ধতিতে EDA বা ডেটা প্রস্তুতির সুবিধা দেয়।

গনা

আপনি যখন একটি নোটবুকে EDA পরিচালনা করেন, তখন আপনার চাহিদা অনুযায়ী গণনা বা মেমরি স্কেল করার নমনীয়তা নাও থাকতে পারে, যা আপনাকে চালাতে বাধ্য করতে পারে পরিবর্তন এবং দৃশ্য একটি বড় পরিবেশে। আপনার যদি একটি ছোট আকারের পরিবেশ থাকে, তাহলে আপনার মেমরির সমস্যা হতে পারে। ডেটা র্যাংলারে, আপনি নির্দিষ্ট রূপান্তর বা বিশ্লেষণের জন্য একটি ছোট দৃষ্টান্তের ধরণ বেছে নিতে পারেন এবং তারপরে উদাহরণটিকে একটি বড় ধরনেরতে উন্নীত করতে পারেন এবং জটিল রূপান্তরগুলি সম্পাদন করতে পারেন। জটিল রূপান্তর সম্পূর্ণ হলে, আপনি ডেটা র‍্যাংলার ইনস্ট্যান্সকে একটি ছোট ইনস্ট্যান্স টাইপে নামিয়ে আনতে পারেন। এটি আপনাকে রূপান্তর প্রয়োজনীয়তার উপর ভিত্তি করে আপনার গণনা স্কেল করার নমনীয়তা দেয়।

ডেটা র‍্যাংলার একটি সমর্থন করে বিভিন্ন ধরনের উদাহরণ, এবং আপনি আপনার কাজের চাপের জন্য সঠিকটি বেছে নিতে পারেন, যার ফলে ওভারসাইজড বা কম আকারের পরিবেশের খরচ দূর হয়।

SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে মেশিন লার্নিংয়ের জন্য খরচ-কার্যকর ডেটা প্রস্তুতি। উল্লম্ব অনুসন্ধান. আ.

স্টোরেজ এবং ডেটা স্থানান্তর

এই বিভাগে, আমরা সঞ্চয়স্থান এবং ডেটা স্থানান্তরের জন্য কিছু খরচ বিবেচনার বিষয়ে আলোচনা করি।

আমদানি

ML-এর জন্য ডেটা প্রায়শই একাধিক উত্স থেকে এবং বিভিন্ন ফর্ম্যাটে পাওয়া যায়। ডেটা র‍্যাংলার দিয়ে, আপনি করতে পারেন আমদানি নিম্নলিখিত তথ্য উত্স থেকে তথ্য: আমাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস 3), অ্যামাজন অ্যাথেনা, আমাজন রেডশিফ্ট, AWS লেক গঠন, আমাজন সেজমেকার ফিচার স্টোর এবং তুষারকণা. ডেটা নিম্নলিখিত যে কোনও ফর্ম্যাটে হতে পারে: CSV, Parquet, JSON, এবং অপ্টিমাইজড রো কলামার (ORC), এবং গ্রাহকের চাহিদার উপর ভিত্তি করে আরও ডেটা ফর্ম্যাট যোগ করা হবে৷ যেহেতু গুরুত্বপূর্ণ ডেটা উত্সগুলি ইতিমধ্যেই ডেটা র্যাংলারে সমর্থিত, তাই সংশ্লিষ্ট উত্স থেকে ডেটা সরাসরি আমদানি করা যেতে পারে এবং আপনি কেবলমাত্র GB-মাসের প্রভিশন করা স্টোরেজের জন্য অর্থ প্রদান করবেন। আরো তথ্যের জন্য, পড়ুন অ্যামাজন সেজমেকার প্রাইসিং.

সমস্ত পুনরাবৃত্তিমূলক ডেটা অন্বেষণ, ডেটা রূপান্তর এবং ভিজ্যুয়ালাইজেশন ডেটা র্যাংলারের মধ্যেই করা যেতে পারে। এটি অন্যান্য পরিবেশের তুলনায় আরও ডেটা মুভমেন্টকে বাদ দেয় যেখানে আপনাকে ইনজেশন, ট্রান্সফর্মেশন এবং প্রক্রিয়াকরণের জন্য বিভিন্ন স্থানে ডেটা স্থানান্তর করতে হতে পারে। খরচের দৃষ্টিকোণ থেকে, এটি ডুপ্লিকেট ডেটা সঞ্চয়স্থানের পাশাপাশি ডেটা চলাচল হ্রাস করে।

ডেটা মানের খরচ

আপনি যদি খারাপ ডেটা শনাক্ত না করেন এবং তাড়াতাড়ি সংশোধন না করেন, তাহলে পরবর্তীতে সমাধান করা একটি ব্যয়বহুল সমস্যা হয়ে উঠবে। দ্য ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট এই সমস্যা দূর করতে সাহায্য করে। আপনার ডেটাসেটের অন্তর্দৃষ্টি পেতে, যেমন অনুপস্থিত মানের সংখ্যা এবং আউটলায়ারের সংখ্যা পেতে আপনার ডেটা বিশ্লেষণ করতে আপনি ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট ব্যবহার করতে পারেন। যদি আপনার ডেটাতে সমস্যা থাকে, যেমন লক্ষ্য ফাঁস বা ভারসাম্যহীনতা, তাহলে অন্তর্দৃষ্টি রিপোর্ট সেই সমস্যাগুলি আপনার নজরে আনতে পারে। যত তাড়াতাড়ি আপনি আপনার ডেটা আমদানি করেন, আপনি একটি বোতামে ক্লিক করে একটি অন্তর্দৃষ্টি প্রতিবেদন চালাতে পারেন৷ এটি ডেটাসেটের প্রয়োজনীয় অন্তর্দৃষ্টি পেতে লাইব্রেরি আমদানি এবং কোড লেখার প্রচেষ্টাকে হ্রাস করে, যা প্রয়োজনীয় শ্রম খরচ এবং দক্ষতা হ্রাস করে।

আপনি যখন ডেটা গুণমান এবং অন্তর্দৃষ্টি প্রতিবেদন তৈরি করেন, তখন ডেটা র্যাংলার আপনাকে একটি লক্ষ্য কলাম নির্বাচন করার বিকল্প দেয় (যে কলামটি আপনি পূর্বাভাস দেওয়ার চেষ্টা করছেন)। আপনি যখন একটি লক্ষ্য কলাম চয়ন করেন, ডেটা র‍্যাংলার স্বয়ংক্রিয়ভাবে একটি লক্ষ্য কলাম বিশ্লেষণ তৈরি করে। এটি তাদের ভবিষ্যদ্বাণী করার ক্ষমতার ক্রম অনুসারে বৈশিষ্ট্যগুলিকে স্থান দেয় (নিম্নলিখিত স্ক্রিনশটটি দেখুন)। এটি ডাউনস্ট্রিম এমএল প্রক্রিয়ার জন্য উচ্চ-মানের বৈশিষ্ট্যগুলির সরাসরি ব্যবসায়িক সুবিধাতে অবদান রাখে।

SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে মেশিন লার্নিংয়ের জন্য খরচ-কার্যকর ডেটা প্রস্তুতি। উল্লম্ব অনুসন্ধান. আ.

রুপান্তর

যদি আপনার EDA টুল শুধুমাত্র নির্দিষ্ট কিছু ট্রান্সফরমেশন সমর্থন করে, তাহলে স্পার্ক জবসের মতো কাস্টম রূপান্তরগুলি চালানোর জন্য আপনাকে ডেটাকে ভিন্ন পরিবেশে সরাতে হবে। ডেটা র‍্যাংলার সমর্থন করে কাস্টম রূপান্তর, যা PySpark, Pandas, এবং SQL এ লেখা যেতে পারে (উদাহরণস্বরূপ নিম্নলিখিত স্ক্রিনশট দেখুন)। এগুলি বিকাশকারী বন্ধুত্বপূর্ণ এবং সমস্ত নির্বিঘ্নে এক জায়গায় প্যাকেজ করা হয়, ডেটা চলাচল হ্রাস করে এবং ডেটা স্থানান্তর এবং স্টোরেজের সাথে সম্পর্কিত খরচ বাঁচায়।

SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে মেশিন লার্নিংয়ের জন্য খরচ-কার্যকর ডেটা প্রস্তুতি। উল্লম্ব অনুসন্ধান. আ.

আপনাকে আপনার ডেটাসেটগুলিতে গাণিতিক ক্রিয়াকলাপগুলি চালানোর প্রয়োজন হতে পারে, যেমন একটি কলামের পরম মান নেওয়া। যদি আপনার EDA টুল গাণিতিক ক্রিয়াকলাপগুলিকে সমর্থন না করে, তাহলে আপনাকে বাহ্যিকভাবে অপারেশনগুলি চালাতে হতে পারে, যার জন্য অতিরিক্ত প্রচেষ্টা এবং খরচ প্রয়োজন৷ কিছু সরঞ্জাম ডেটাসেটে গাণিতিক ক্রিয়াকলাপগুলিকে সমর্থন করতে পারে তবে আপনাকে লাইব্রেরিগুলি আমদানি করতে হবে, যার জন্য অতিরিক্ত প্রচেষ্টা জড়িত। ডেটা র্যাংলারে, আপনি একটি ব্যবহার করতে পারেন কাস্টম সূত্র কাস্টম ট্রান্সফরমেশন বা কাস্টম কোয়েরির জন্য কোনো অতিরিক্ত খরচ না করেই বর্তমান ডাটা ফ্রেমে ডেটা জিজ্ঞাসা করার জন্য একটি স্পার্ক এসকিউএল এক্সপ্রেশন ব্যবহার করে একটি নতুন কলাম সংজ্ঞায়িত করতে।

শ্রম খরচ এবং দক্ষতা

EDA প্ল্যাটফর্ম এবং অন্তর্নিহিত কম্পিউট অবকাঠামো পরিচালনার জন্য দক্ষতা, প্রচেষ্টা এবং খরচ জড়িত। ডেটা র‍্যাংলার PySpark-এ লেখা 300 টিরও বেশি প্রি-কনফিগার করা ডেটা ট্রান্সফর্মেশনের একটি নির্বাচন অফার করে, যাতে আপনি ডেটা রূপান্তর করার জন্য কোড লেখার বিষয়ে চিন্তা না করেই দক্ষতার সাথে শত শত গিগাবাইট পর্যন্ত ডেটাসেট প্রক্রিয়া করতে পারেন। আপনি রূপান্তরগুলি ব্যবহার করতে পারেন যেমন রূপান্তর কলামের ধরন, একটি হট এনকোডিং, গড় বা মধ্যম সহ অনুপস্থিত ডেটা, রিস্কেল কলাম, এবং ডেটা/টাইম এমবেডিংগুলি আপনার ডেটাকে এমন ফর্ম্যাটে রূপান্তর করতে যা মডেলগুলি কোডের একটি লাইন না লিখেও ব্যবহার করতে পারে৷ এটি সময় এবং প্রচেষ্টা হ্রাস করে, যার ফলে শ্রম ব্যয় হ্রাস পায়।

ডেটা র‍্যাংলার ডেটা কল্পনা এবং যাচাই করার জন্য একটি পয়েন্ট-এন্ড-ক্লিক ইন্টারফেস অফার করে (নিম্নলিখিত স্ক্রিনশটটি দেখুন)। ডেটা ইঞ্জিনিয়ারিং বা বিশ্লেষণে কোনও দক্ষতার প্রয়োজন নেই কারণ সমস্ত ডেটা প্রস্তুতি সাধারণ পয়েন্ট এবং ক্লিকের মাধ্যমে করা যেতে পারে।

SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে মেশিন লার্নিংয়ের জন্য খরচ-কার্যকর ডেটা প্রস্তুতি। উল্লম্ব অনুসন্ধান. আ.

কল্পনা

ডেটা র‍্যাংলার আপনাকে আপনার ডেটা বুঝতে এবং শক্তিশালী প্রি-কনফিগার করা ভিজ্যুয়ালাইজেশন টেমপ্লেটগুলির একটি সেট সহ সম্ভাব্য ত্রুটি এবং চরম মানগুলি সনাক্ত করতে সহায়তা করে। ভিজ্যুয়ালাইজেশনগুলি সম্পাদন করার জন্য কোনও বহিরাগত লাইব্রেরি বা নির্ভরতা আমদানি করতে আপনার পরিচিতি বা অতিরিক্ত সময় ব্যয় করার দরকার নেই। হিস্টোগ্রাম, স্ক্যাটার প্লট, বক্স এবং হুইকার প্লট, লাইন প্লট এবং বার চার্ট সবই পাওয়া যায় (কিছু উদাহরণের জন্য নিচের স্ক্রিনশট দেখুন)। হিস্টোগ্রামের মতো টেমপ্লেটগুলি কোড না লিখে আপনার নিজস্ব ভিজ্যুয়ালাইজেশন তৈরি এবং সম্পাদনা করা সহজ করে তোলে।

SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে মেশিন লার্নিংয়ের জন্য খরচ-কার্যকর ডেটা প্রস্তুতি। উল্লম্ব অনুসন্ধান. আ.

ভ্যালিডেশন

ডেটা র্যাংলার আপনাকে আপনার ডেটা প্রস্তুতির কার্যপ্রবাহের অসঙ্গতিগুলি দ্রুত সনাক্ত করতে এবং মডেলগুলি উত্পাদনে স্থাপন করার আগে সমস্যাগুলি নির্ণয় করতে সক্ষম করে (নিচের স্ক্রিনশট দেখুন)। আপনি দ্রুত শনাক্ত করতে পারেন যে আপনার প্রস্তুত করা ডেটা একটি সঠিক মডেলে পরিণত হবে কিনা যাতে আপনি নির্ধারণ করতে পারেন যে কর্মক্ষমতা উন্নত করার জন্য অতিরিক্ত বৈশিষ্ট্য প্রকৌশল প্রয়োজন কিনা। এই সমস্ত কিছুই মডেল বিল্ডিং পর্বের আগে ঘটে, তাই এমন একটি মডেল তৈরির জন্য কোনও অতিরিক্ত শ্রম খরচ নেই যা প্রত্যাশিতভাবে কাজ করছে না (নিম্ন কর্মক্ষমতা মেট্রিক্স) যা মডেল তৈরির পরে অতিরিক্ত রূপান্তর ঘটায়। যাচাইকরণের ফলে আরও ভালো মানের বৈশিষ্ট্যের ব্যবসায়িক সুবিধা পাওয়া যায়।

SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে মেশিন লার্নিংয়ের জন্য খরচ-কার্যকর ডেটা প্রস্তুতি। উল্লম্ব অনুসন্ধান. আ.

স্কেলযোগ্য ডেটা প্রস্তুতি পাইপলাইন তৈরি করুন

আপনি যখন EDA পরিচালনা করেন তখন আপনাকে ডেটা প্রস্তুতির পাইপলাইন তৈরি করতে হবে যা ডেটাসেটগুলির সাথে স্কেল করতে পারে (নিচের স্ক্রিনশট দেখুন)। এটি পুনরাবৃত্তির পাশাপাশি ডাউনস্ট্রিম এমএল প্রক্রিয়াগুলির জন্য গুরুত্বপূর্ণ। সাধারণত, গ্রাহকরা স্পার্ক ব্যবহার করে এর বিতরণ, মাপযোগ্য, এবং ইন-মেমরি প্রক্রিয়াকরণ প্রকৃতির জন্য; যাইহোক, এর জন্য স্পার্কের উপর অনেক দক্ষতার প্রয়োজন। একটি স্পার্ক পরিবেশ সেট আপ করা সময়সাপেক্ষ এবং সর্বোত্তম কনফিগারেশনের জন্য দক্ষতা প্রয়োজন। ডেটা র‍্যাংলারের সাহায্যে, আপনি ডাটা প্রসেসিং কাজ তৈরি করতে পারেন এবং জুপিটার নোটবুক তৈরি, চালানো বা পরিচালনা না করেই সম্পূর্ণরূপে ভিজ্যুয়াল ইন্টারফেসের মাধ্যমে Amazon S3 এবং Amazon ফিচার স্টোরে রপ্তানি করতে পারেন, যা কোনো স্পার্ক দক্ষতা ছাড়াই স্কেলযোগ্য ডেটা প্রস্তুতির পাইপলাইনগুলিকে সহজতর করে৷ আরো তথ্যের জন্য, পড়ুন Amazon SageMaker Data Wrangler ব্যবহার করে কয়েক ক্লিকে প্রসেসিং কাজ চালু করুন.

SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে মেশিন লার্নিংয়ের জন্য খরচ-কার্যকর ডেটা প্রস্তুতি। উল্লম্ব অনুসন্ধান. আ.

অপারেশন খরচ

ইন্টিগ্রেশন একটি সরাসরি খরচ সুবিধা নাও হতে পারে; যাইহোক, আপনি যখন সেজমেকারের মতো একটি সমন্বিত পরিবেশে কাজ করেন তখন পরোক্ষ খরচের সুবিধা রয়েছে। যেহেতু ডেটা র্যাংলার AWS পরিষেবাগুলির সাথে একীভূত হয়েছে, আপনি একটি ডেটা র্যাংলার কাজের নোটবুকে আপনার ডেটা প্রস্তুতির কর্মপ্রবাহ রপ্তানি করতে পারেন এবং চালু করতে পারেন অ্যামাজন সেজমেকার অটোপাইলট প্রশিক্ষণ পরীক্ষা, অ্যামাজন সেজমেকার পাইপলাইন নোটবুক, বা কোড স্ক্রিপ্ট। আপনি একটি এমএল ওয়ার্কফ্লোতে পুনরাবৃত্তিমূলক পদক্ষেপ বা অটোমেশন চালানোর জন্য পরিকাঠামো সেট আপ এবং পরিচালনা করার প্রয়োজন ছাড়াই এক ক্লিকে একটি ডেটা র্যাংলার প্রসেসিং কাজ তৈরি করতে পারেন।

আপনার ডেটা র্যাংলার প্রবাহে, আপনি করতে পারেন রপ্তানি কিছু বা সমস্ত রূপান্তর যা আপনি আপনার ডেটা প্রক্রিয়াকরণ পাইপলাইনে করেছেন। আপনি যখন আপনার ডেটা প্রবাহ রপ্তানি করেন, তখন আপনি যে AWS সংস্থানগুলি ব্যবহার করেন তার জন্য আপনাকে চার্জ করা হয়। খরচের দৃষ্টিকোণ থেকে, রূপান্তর রপ্তানি করা আপনাকে অতিরিক্ত ডেটাসেটে রূপান্তর পুনরাবৃত্তি করার ক্ষমতা দেয় কোনো ক্রমবর্ধমান প্রচেষ্টা ছাড়াই।

ডেটা র‍্যাংলার দিয়ে, আপনি করতে পারেন শুধুমাত্র কয়েকটি ক্লিকের মাধ্যমে একটি গন্তব্য নোডে আপনার ডেটাসেটে করা সমস্ত রূপান্তর রপ্তানি করুন. এটি আপনাকে জুপিটার নোটবুক তৈরি, চালনা বা পরিচালনা না করেই ভিজ্যুয়াল ইন্টারফেসের মাধ্যমে সম্পূর্ণরূপে ডাটা প্রসেসিং কাজ তৈরি করতে এবং Amazon S3 এ রপ্তানি করতে দেয়, যার ফলে কম-কোড অভিজ্ঞতা বৃদ্ধি পায়।

ডেটা র্যাংলার আপনাকে আপনার ডেটা প্রস্তুতির পদক্ষেপ বা ডেটা প্রবাহকে বিভিন্ন পরিবেশে রপ্তানি করতে দেয়। ডেটা র্যাংলারের অন্যান্য AWS পরিষেবা এবং বৈশিষ্ট্যগুলির সাথে বিরামহীন একীকরণ রয়েছে, যেমন নিম্নলিখিত:

  • সেজমেকার ফিচার স্টোর - আপনি ডেটা র্যাংলার ব্যবহার করে এবং তারপরে আপনার মডেল বৈশিষ্ট্যগুলি ইঞ্জিনিয়ার করতে পারেন আপনার ফিচার স্টোরে প্রবেশ করুন, যা বৈশিষ্ট্য এবং তাদের সম্পর্কিত মেটাডেটার জন্য একটি কেন্দ্রীভূত স্টোর
  • সেজমেকার পাইপলাইন - আপনি সেজমেকার পাইপলাইনে ডেটা র্যাংলার থেকে রপ্তানি করা ডেটা ফ্লো ব্যবহার করতে পারেন, যেগুলি বড় আকারের এমএল ওয়ার্কফ্লো তৈরি এবং স্থাপন করতে ব্যবহৃত হয়
  • আমাজন S3 - আপনি Amazon S3 এ ডেটা রপ্তানি করতে পারেন এবং ডেটা র্যাংলার কাজ তৈরি করতে এটি ব্যবহার করতে পারেন
  • পাইথন - অবশেষে, আপনি একটি পাইথন ফাইলে আপনার ডেটা প্রবাহের সমস্ত ধাপ রপ্তানি করতে পারেন, যা আপনি ম্যানুয়ালি যেকোনো ডেটা প্রসেসিং ওয়ার্কফ্লোতে সংহত করতে পারেন।

এই ধরনের টাইট ইন্টিগ্রেশন প্রচেষ্টা, সময়, দক্ষতা, এবং খরচ কমাতে সাহায্য করে।

SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে মেশিন লার্নিংয়ের জন্য খরচ-কার্যকর ডেটা প্রস্তুতি। উল্লম্ব অনুসন্ধান. আ.

খরচ অপ্টিমাইজেশান সেরা অনুশীলন

এই বিভাগে, আমরা ডেটা র্যাংলারে খরচ আরও অপ্টিমাইজ করার জন্য সর্বোত্তম অনুশীলন নিয়ে আলোচনা করি।

সর্বশেষ রিলিজে ডেটা র্যাংলার আপডেট করুন

যখন তুমি ডেটা র্যাংলার আপডেট করুন সর্বশেষ রিলিজে, আপনি ডেটা র্যাংলারে তৈরি সমস্ত সাম্প্রতিক বৈশিষ্ট্য, নিরাপত্তা এবং সামগ্রিক অপ্টিমাইজেশন পাবেন, যা এর খরচ-কার্যকারিতা উন্নত করতে পারে।

বিল্ট-ইন ডেটা র‍্যাংলার ট্রান্সফরমার ব্যবহার করুন

বৃহত্তর এবং বিস্তৃত ডেটাসেট প্রক্রিয়া করার সময় কাস্টম পান্ডাস ট্রান্সফর্মের উপর অন্তর্নির্মিত ডেটা র্যাংলার ট্রান্সফরমার ব্যবহার করুন।

আপনার ডেটা র্যাংলার প্রবাহের জন্য সঠিক দৃষ্টান্তের ধরন চয়ন করুন

ডেটা র্যাংলারের জন্য সমর্থিত এমএল ইন্সট্যান্স ধরনের দুটি পরিবার রয়েছে: m5 এবং r5। m5 দৃষ্টান্তগুলি হল সাধারণ উদ্দেশ্যের উদাহরণ যা গণনা এবং মেমরির মধ্যে একটি ভারসাম্য প্রদান করে, যেখানে r5 দৃষ্টান্তগুলি মেমরিতে বড় ডেটাসেটগুলি প্রক্রিয়া করার জন্য দ্রুত কর্মক্ষমতা প্রদানের জন্য ডিজাইন করা হয়েছে।

আমরা এমন একটি উদাহরণ বেছে নেওয়ার পরামর্শ দিই যা আপনার কাজের চাপের চারপাশে সর্বোত্তম অপ্টিমাইজ করা হয়। উদাহরণস্বরূপ, r5.8xlarge-এর দাম m5.4xlarge-এর চেয়ে বেশি হতে পারে, কিন্তু r5.8xlarge আপনার কাজের চাপের জন্য আরও ভালভাবে অপ্টিমাইজ করা যেতে পারে। আরও ভাল অপ্টিমাইজ করা উদাহরণগুলির সাথে, আপনি কম খরচে কম সময়ে আপনার ডেটা প্রবাহ চালাতে পারেন।

SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে মেশিন লার্নিংয়ের জন্য খরচ-কার্যকর ডেটা প্রস্তুতি। উল্লম্ব অনুসন্ধান. আ.

SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে মেশিন লার্নিংয়ের জন্য খরচ-কার্যকর ডেটা প্রস্তুতি। উল্লম্ব অনুসন্ধান. আ.

বৃহত্তর এবং বিস্তৃত ডেটাসেট প্রক্রিয়া করুন

দশ গিগাবাইটের চেয়ে বড় ডেটাসেটের জন্য, আমরা অন্তর্নির্মিত রূপান্তরগুলি ব্যবহার করার পরামর্শ দিই, অথবা কাস্টম পান্ডাস ট্রান্সফর্মগুলি ইন্টারেক্টিভভাবে চালানোর জন্য আমদানিতে নমুনা ডেটা। মধ্যে পোস্ট, আমরা কীভাবে এটি করতে হয় তা প্রদর্শন করতে দুটি বেঞ্চমার্ক পরীক্ষা থেকে আমাদের ফলাফলগুলি ভাগ করি।

অব্যবহৃত দৃষ্টান্ত বন্ধ করুন

আপনি সমস্ত চলমান উদাহরণের জন্য চার্জ করা হয়. অতিরিক্ত চার্জ এড়াতে, আপনি ম্যানুয়ালি ব্যবহার করছেন না এমন উদাহরণগুলি বন্ধ করুন৷ চলমান একটি উদাহরণ বন্ধ করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. আপনার ডেটা ফ্লো পৃষ্ঠায়, নীচে নেভিগেশন ফলকে ইনস্ট্যান্স আইকনটি বেছে নিন চলমান উদাহরণ.SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে মেশিন লার্নিংয়ের জন্য খরচ-কার্যকর ডেটা প্রস্তুতি। উল্লম্ব অনুসন্ধান. আ.
  2. বেছে নিন বন্ধ করুন.

আপনি যদি একটি প্রবাহ চালানোর জন্য ব্যবহৃত একটি উদাহরণ বন্ধ করে দেন, তাহলে আপনি অস্থায়ীভাবে প্রবাহটি অ্যাক্সেস করতে পারবেন না। আপনি যদি পূর্বে বন্ধ করে দিয়েছিলেন এমন একটি দৃষ্টান্ত চলমান ফ্লোটি খোলার ক্ষেত্রে একটি ত্রুটি পান, প্রায় 5 মিনিট অপেক্ষা করুন এবং এটি আবার খোলার চেষ্টা করুন৷

আপনি যখন ডেটা র‍্যাংলার ব্যবহার করছেন না, তখন অতিরিক্ত ফি খরচ এড়াতে এটি যে দৃষ্টান্তে চলে তা বন্ধ করা গুরুত্বপূর্ণ। আরো তথ্যের জন্য, পড়ুন ডাটা র‍্যাংলার বন্ধ করুন.

স্বয়ংক্রিয়ভাবে ডেটা র্যাংলার সংস্থান বন্ধ করার বিষয়ে তথ্যের জন্য, পড়ুন অ্যামাজন সেজমেকার স্টুডিওতে স্বয়ংক্রিয়ভাবে নিষ্ক্রিয় সংস্থানগুলি বন্ধ করে খরচগুলি সাশ্রয় করুন.

রপ্তানি

আপনি যখন আপনার ডেটা র‍্যাংলার প্রবাহ বা রূপান্তর রপ্তানি করেন, তখন আপনি সেই সংস্থানগুলির খরচ সংগঠিত এবং পরিচালনা করতে খরচ বরাদ্দ ট্যাগ ব্যবহার করতে পারেন। আপনি আপনার ব্যবহারকারীর প্রোফাইলের জন্য এই ট্যাগগুলি তৈরি করেন এবং ডেটা র্যাংলার স্বয়ংক্রিয়ভাবে সেগুলি ডেটা প্রবাহ রপ্তানি করতে ব্যবহৃত সংস্থানগুলিতে প্রয়োগ করে৷ আরও তথ্যের জন্য, দেখুন খরচ বরাদ্দ ট্যাগ ব্যবহার করে.

প্রাইসিং

ডেটা র‍্যাংলার মূল্যের তিনটি উপাদান রয়েছে: ডেটা র‍্যাংলার দৃষ্টান্ত, ডেটা র‍্যাংলার কাজ এবং এমএল স্টোরেজ। আপনি ডেটা র‍্যাংলারের মধ্যে EDA বা ডেটা প্রস্তুতির জন্য সমস্ত পদক্ষেপগুলি সম্পাদন করতে পারেন এবং আপনি কোনও আগাম বা লাইসেন্সিং ফি ছাড়াই ব্যবহার বা ব্যবহারের উপর ভিত্তি করে উদাহরণ, চাকরি এবং স্টোরেজ মূল্যের জন্য অর্থ প্রদান করেন। আরো তথ্যের জন্য, পড়ুন অন-ডিমান্ড প্রাইসিং.

উপসংহার

এই পোস্টে, আমরা বৈশিষ্ট্য-সমৃদ্ধ এবং সমন্বিত ডেটা র‍্যাংলার ML ব্যবহারের ক্ষেত্রে ডেটা একত্রিত করতে এবং প্রস্তুত করতে যে সময় নেয় তা আবিষ্কার করতে আমরা EDA এবং ডেটা প্রস্তুতির বিভিন্ন খরচের দিকগুলি পর্যালোচনা করেছি, যার ফলে খরচ-কার্যকর ডেটা প্রস্তুতির সুবিধা হয়। এমএল এর জন্য। আপনার ML ডেটা প্রস্তুতির প্রয়োজনীয়তাগুলির জন্য ডেটা র্যাংলার ব্যবহার করার সময় আমরা ডেটা র্যাংলারের মূল্যের উপাদানগুলি এবং খরচ অপ্টিমাইজেশনের জন্য সর্বোত্তম অনুশীলনগুলিও পরিদর্শন করেছি৷

আরও তথ্যের জন্য, নিম্নলিখিত সংস্থানগুলি দেখুন:


লেখক সম্পর্কে

SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে মেশিন লার্নিংয়ের জন্য খরচ-কার্যকর ডেটা প্রস্তুতি। উল্লম্ব অনুসন্ধান. আ.রাজকুমার সম্পতকুমার AWS-এর একজন প্রধান টেকনিক্যাল অ্যাকাউন্ট ম্যানেজার, ব্যবসা-প্রযুক্তি সারিবদ্ধকরণের বিষয়ে গ্রাহকদের নির্দেশনা প্রদান করে এবং তাদের ক্লাউড অপারেশন মডেল এবং প্রক্রিয়াগুলির পুনর্বিবেচনাকে সমর্থন করে। তিনি ক্লাউড এবং মেশিন লার্নিং সম্পর্কে উত্সাহী। রাজ একজন মেশিন লার্নিং বিশেষজ্ঞ এবং AWS গ্রাহকদের সাথে তাদের AWS ওয়ার্কলোড এবং আর্কিটেকচার ডিজাইন, স্থাপন এবং পরিচালনা করতে কাজ করে।

SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে মেশিন লার্নিংয়ের জন্য খরচ-কার্যকর ডেটা প্রস্তুতি। উল্লম্ব অনুসন্ধান. আ.রাহুল নবেরা AWS প্রফেশনাল সার্ভিসে একজন ডেটা অ্যানালিটিক্স কনসালটেন্ট। তার বর্তমান কাজ গ্রাহকদের AWS-এ তাদের ডেটা এবং মেশিন লার্নিং ওয়ার্কলোড তৈরি করতে সক্ষম করার উপর দৃষ্টি নিবদ্ধ করে। অবসর সময়ে তিনি ক্রিকেট ও ভলিবল খেলা উপভোগ করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

অ্যামাজন সেজমেকার ক্যানভাসের সাথে নো-কোড মেশিন লার্নিং ব্যবহার করে উত্পাদনের গুণমানের জন্য কম্পিউটার দৃষ্টি ত্রুটি সনাক্তকরণকে গণতন্ত্রীকরণ করুন | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1854343
সময় স্ট্যাম্প: জুন 30, 2023

Amazon SageMaker জাম্পস্টার্ট টেক্সট 2 টেক্সট জেনারেশন বড় ভাষার মডেলের সাথে ব্যাচ রূপান্তর সম্পাদন করুন | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1840932
সময় স্ট্যাম্প: 24 পারে, 2023

অ্যামাজন সেজমেকার পাইপলাইনগুলির সাথে অ্যামাজন প্যাকেজিং উদ্ভাবনে এমএল পাইপলাইনের স্থিতিশীলতা এবং নমনীয়তা উন্নত করা

উত্স নোড: 1735780
সময় স্ট্যাম্প: নভেম্বর 3, 2022