অ্যামাজন সেজমেকার ডেটা র্যাংলার এর একটি ক্ষমতা আমাজন সেজমেকার যা ভিজ্যুয়াল ইন্টারফেসের মাধ্যমে মেশিন লার্নিং (ML) অ্যাপ্লিকেশনগুলির জন্য উচ্চ-মানের বৈশিষ্ট্যগুলি প্রস্তুত করতে ডেটা বিজ্ঞানী এবং প্রকৌশলীদের জন্য দ্রুততর করে তোলে৷ ডেটা র্যাংলার ML-এর জন্য ডেটা একত্রিত করতে এবং প্রস্তুত করতে কয়েক সপ্তাহ থেকে মিনিট পর্যন্ত সময় কমিয়ে দেয়। ডেটা র্যাংলারের সাহায্যে, আপনি ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশলের প্রক্রিয়াটিকে সহজ করতে পারেন এবং একটি একক ভিজ্যুয়াল ইন্টারফেস থেকে ডেটা নির্বাচন, পরিষ্কারকরণ, অন্বেষণ এবং ভিজ্যুয়ালাইজেশন সহ ডেটা প্রস্তুতির কর্মপ্রবাহের প্রতিটি ধাপ সম্পূর্ণ করতে পারেন।
এই পোস্টে, আমরা ডেটা প্রস্তুতির খরচের উপাদানগুলি এবং ডেটা প্রস্তুতির জন্য কীভাবে ডেটা র্যাংলার একটি সাশ্রয়ী পদ্ধতির প্রস্তাব দেয় তা বোঝার জন্য ডেটা প্রস্তুতির বিভিন্ন দিক এবং ডেটা র্যাংলারের সংশ্লিষ্ট বৈশিষ্ট্যগুলির মধ্যে ডুব দিয়েছি। আমরা ডেটা র্যাংলারে ডেটা প্রস্তুতির খরচ আরও কমাতে খরচ অপ্টিমাইজেশনের সেরা অনুশীলনগুলিও কভার করি।
ডেটা র্যাংলারে অনুসন্ধানমূলক ডেটা বিশ্লেষণ (EDA) এবং ডেটা প্রস্তুতির ওভারভিউ
ডেটা র্যাংলারের খরচ-কার্যকারিতা বোঝার জন্য, EDA-এর বিভিন্ন দিক এবং ML-এর ডেটা প্রস্তুতি পর্বের দিকে নজর দেওয়া গুরুত্বপূর্ণ। এই ব্লগটি EDA-এর জন্য বিভিন্ন প্ল্যাটফর্ম বা পরিষেবার তুলনা করবে না, তবে EDA-তে বিভিন্ন পদক্ষেপ, তাদের খরচ বিবেচনা এবং ডেটা র্যাংলার কীভাবে খরচ-কার্যকর উপায়ে EDA-কে সহজতর করে তা বুঝতে পারবে।
একটি ডেটা বিজ্ঞানীর সাধারণ EDA অভিজ্ঞতা নিম্নলিখিত পদক্ষেপগুলি নিয়ে গঠিত:
- EDA চালানোর জন্য একটি জুপিটার নোটবুক উদাহরণ চালু করুন।
- ডেটা বিশ্লেষণ এবং ভিজ্যুয়ালাইজেশনের জন্য প্রয়োজনীয় প্যাকেজ আমদানি করুন।
- একাধিক উত্স থেকে ডেটা আমদানি করুন।
- ডেটা পরিষ্কার করতে এবং মডেলিংয়ের জন্য প্রস্তুত করার জন্য অনুপস্থিত মান এবং আউটলিয়ার পরিচালনা, ওয়ান-হট এনকোডিং, ডেটা ব্যালেন্সিং এবং আরও অনেক কিছুর মতো রূপান্তরগুলি সম্পাদন করুন৷
- ডেটা ভিজ্যুয়ালাইজ করুন।
- পদক্ষেপগুলি পুনরাবৃত্তি করার জন্য প্রক্রিয়া তৈরি করুন।
- ডাউনস্ট্রিম অ্যানালিটিক্স বা ML-এর জন্য প্রক্রিয়াকৃত ডেটা রপ্তানি করুন।
এই পদক্ষেপগুলি জটিল, এবং গণনা এবং মেমরির প্রয়োজনীয়তার ক্ষেত্রে নমনীয়তার প্রয়োজন যাতে আপনি যথাযথ গণনা এবং মেমরির সাথে প্রতিটি ধাপ চালাতে পারেন। আপনার একটি সমন্বিত সিস্টেমেরও প্রয়োজন যা একাধিক উত্স এবং প্রক্রিয়া থেকে ডেটা আমদানি করতে পারে পুনরাবৃত্তি বা পুনঃব্যবহারের জন্য যাতে আপনি আপনার ডাউনস্ট্রিম ML পাইপলাইনের প্রয়োজন অনুসারে আপনার ইতিমধ্যে তৈরি করা একই EDA পদক্ষেপগুলি প্রয়োগ করতে পারেন।
EDA খরচ বিবেচনা
নিম্নলিখিত EDA-র জন্য কিছু খরচ বিবেচনা করা হয়েছে:
গনা
- কিছু EDA পরিবেশের জন্য একটি নির্দিষ্ট বিন্যাসে ডেটা প্রয়োজন। এই ধরনের ক্ষেত্রে, আপনাকে EDA পরিবেশ দ্বারা গৃহীত বিন্যাসে ডেটা প্রক্রিয়া করতে হবে। উদাহরণস্বরূপ, যদি পরিবেশ শুধুমাত্র CSV ফর্ম্যাট গ্রহণ করে কিন্তু আপনার কাছে Parquet বা অন্য ফর্ম্যাটে ডেটা থাকে, তাহলে আপনাকে আপনার ডেটাসেটটিকে CSV ফর্ম্যাটে রূপান্তর করতে হবে। ডেটা পুনরায় ফর্ম্যাট করার জন্য গণনা প্রয়োজন।
- সমস্ত পরিবেশে একটি বোতামের ক্লিকে গণনা বা মেমরি কনফিগারেশন পরিবর্তন করার নমনীয়তা নেই। আপনি সম্পাদন করছেন প্রতিটি রূপান্তরের জন্য প্রযোজ্য হিসাবে আপনার সর্বোচ্চ গণনা ক্ষমতা এবং মেমরি পদচিহ্নের প্রয়োজন হতে পারে।
স্টোরেজ এবং ডেটা স্থানান্তর
- একাধিক সূত্রে তথ্য সংগ্রহ করতে হবে। যদি শুধুমাত্র নির্বাচিত উত্সগুলি EDA পরিবেশ দ্বারা সমর্থিত হয়, তাহলে আপনাকে বিভিন্ন উত্স থেকে আপনার ডেটা সেই একক সমর্থিত উত্সে স্থানান্তর করতে হতে পারে, যা স্টোরেজ এবং ডেটা স্থানান্তর খরচ উভয়ই বাড়িয়ে দেয়।
শ্রম খরচ এবং দক্ষতা
- EDA প্ল্যাটফর্ম এবং অন্তর্নিহিত কম্পিউট অবকাঠামো পরিচালনার জন্য দক্ষতা, প্রচেষ্টা এবং খরচ জড়িত। আপনি যখন পরিকাঠামো পরিচালনা করেন, তখন আপনার কাছে অপারেটিং সিস্টেম এবং অ্যাপ্লিকেশানগুলি যেমন প্রভিশনিং, প্যাচিং এবং আপগ্রেডিং পরিচালনার কার্যক্ষম বোঝা থাকে। দ্রুত সমস্যা চিহ্নিত করতে ভুলবেন না। আপনি যদি আপনার মডেল তৈরি করার আগে ডেটা যাচাই না করেন তবে আপনি অনেক সম্পদের পাশাপাশি ইঞ্জিনিয়ারের সময় নষ্ট করেছেন।
- মনে রাখবেন EDA-এর জন্য ডেটা সায়েন্স এবং ডেটা অভিজ্ঞতার দক্ষতা প্রয়োজন।
- উপরন্তু, কিছু EDA পরিবেশ একটি পয়েন্ট-এন্ড-ক্লিক ইন্টারফেস অফার করে না এবং আপনাকে ডেটা অন্বেষণ, কল্পনা এবং রূপান্তর করার জন্য কোড লিখতে হবে, যার মধ্যে শ্রম খরচ জড়িত।
অপারেশন খরচ
- উৎস থেকে ডেটা স্থানান্তর করতে এবং তারপরে ডাউনস্ট্রিম ML পাইপলাইনে নিয়ে যেতে, আপনাকে EDA-এর প্রতিটি পর্যায়ে ডেটা আনার শুরু থেকে পুনরাবৃত্তিমূলক EDA পদক্ষেপগুলি সম্পাদন করতে হতে পারে, যা সময়সাপেক্ষ এবং একটি ক্রমবর্ধমান বহন করে। মজুরী. আপনি যদি পূর্ববর্তী ধাপ থেকে রূপান্তরিত ডেটা ব্যবহার করতে পারেন, তাহলে এটি ক্রমবর্ধমানভাবে খরচ বাড়ায় না।
- অনুরূপ বা ক্রমবর্ধমান ডেটাসেটে EDA পদক্ষেপগুলির একই সেট পুনরাবৃত্তি করার একটি সহজ প্রক্রিয়া থাকা একটি লোক এবং গণনা সংস্থান দৃষ্টিকোণ থেকে সময় এবং খরচ বাঁচায়।
আসুন দেখি কিভাবে ডেটা র্যাংলার এই বিভিন্ন ক্ষেত্রের ক্ষেত্রে খরচ-কার্যকর পদ্ধতিতে EDA বা ডেটা প্রস্তুতির সুবিধা দেয়।
গনা
আপনি যখন একটি নোটবুকে EDA পরিচালনা করেন, তখন আপনার চাহিদা অনুযায়ী গণনা বা মেমরি স্কেল করার নমনীয়তা নাও থাকতে পারে, যা আপনাকে চালাতে বাধ্য করতে পারে পরিবর্তন এবং দৃশ্য একটি বড় পরিবেশে। আপনার যদি একটি ছোট আকারের পরিবেশ থাকে, তাহলে আপনার মেমরির সমস্যা হতে পারে। ডেটা র্যাংলারে, আপনি নির্দিষ্ট রূপান্তর বা বিশ্লেষণের জন্য একটি ছোট দৃষ্টান্তের ধরণ বেছে নিতে পারেন এবং তারপরে উদাহরণটিকে একটি বড় ধরনেরতে উন্নীত করতে পারেন এবং জটিল রূপান্তরগুলি সম্পাদন করতে পারেন। জটিল রূপান্তর সম্পূর্ণ হলে, আপনি ডেটা র্যাংলার ইনস্ট্যান্সকে একটি ছোট ইনস্ট্যান্স টাইপে নামিয়ে আনতে পারেন। এটি আপনাকে রূপান্তর প্রয়োজনীয়তার উপর ভিত্তি করে আপনার গণনা স্কেল করার নমনীয়তা দেয়।
ডেটা র্যাংলার একটি সমর্থন করে বিভিন্ন ধরনের উদাহরণ, এবং আপনি আপনার কাজের চাপের জন্য সঠিকটি বেছে নিতে পারেন, যার ফলে ওভারসাইজড বা কম আকারের পরিবেশের খরচ দূর হয়।
স্টোরেজ এবং ডেটা স্থানান্তর
এই বিভাগে, আমরা সঞ্চয়স্থান এবং ডেটা স্থানান্তরের জন্য কিছু খরচ বিবেচনার বিষয়ে আলোচনা করি।
আমদানি
ML-এর জন্য ডেটা প্রায়শই একাধিক উত্স থেকে এবং বিভিন্ন ফর্ম্যাটে পাওয়া যায়। ডেটা র্যাংলার দিয়ে, আপনি করতে পারেন আমদানি নিম্নলিখিত তথ্য উত্স থেকে তথ্য: আমাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস 3), অ্যামাজন অ্যাথেনা, আমাজন রেডশিফ্ট, AWS লেক গঠন, আমাজন সেজমেকার ফিচার স্টোর এবং তুষারকণা. ডেটা নিম্নলিখিত যে কোনও ফর্ম্যাটে হতে পারে: CSV, Parquet, JSON, এবং অপ্টিমাইজড রো কলামার (ORC), এবং গ্রাহকের চাহিদার উপর ভিত্তি করে আরও ডেটা ফর্ম্যাট যোগ করা হবে৷ যেহেতু গুরুত্বপূর্ণ ডেটা উত্সগুলি ইতিমধ্যেই ডেটা র্যাংলারে সমর্থিত, তাই সংশ্লিষ্ট উত্স থেকে ডেটা সরাসরি আমদানি করা যেতে পারে এবং আপনি কেবলমাত্র GB-মাসের প্রভিশন করা স্টোরেজের জন্য অর্থ প্রদান করবেন। আরো তথ্যের জন্য, পড়ুন অ্যামাজন সেজমেকার প্রাইসিং.
সমস্ত পুনরাবৃত্তিমূলক ডেটা অন্বেষণ, ডেটা রূপান্তর এবং ভিজ্যুয়ালাইজেশন ডেটা র্যাংলারের মধ্যেই করা যেতে পারে। এটি অন্যান্য পরিবেশের তুলনায় আরও ডেটা মুভমেন্টকে বাদ দেয় যেখানে আপনাকে ইনজেশন, ট্রান্সফর্মেশন এবং প্রক্রিয়াকরণের জন্য বিভিন্ন স্থানে ডেটা স্থানান্তর করতে হতে পারে। খরচের দৃষ্টিকোণ থেকে, এটি ডুপ্লিকেট ডেটা সঞ্চয়স্থানের পাশাপাশি ডেটা চলাচল হ্রাস করে।
ডেটা মানের খরচ
আপনি যদি খারাপ ডেটা শনাক্ত না করেন এবং তাড়াতাড়ি সংশোধন না করেন, তাহলে পরবর্তীতে সমাধান করা একটি ব্যয়বহুল সমস্যা হয়ে উঠবে। দ্য ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট এই সমস্যা দূর করতে সাহায্য করে। আপনার ডেটাসেটের অন্তর্দৃষ্টি পেতে, যেমন অনুপস্থিত মানের সংখ্যা এবং আউটলায়ারের সংখ্যা পেতে আপনার ডেটা বিশ্লেষণ করতে আপনি ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট ব্যবহার করতে পারেন। যদি আপনার ডেটাতে সমস্যা থাকে, যেমন লক্ষ্য ফাঁস বা ভারসাম্যহীনতা, তাহলে অন্তর্দৃষ্টি রিপোর্ট সেই সমস্যাগুলি আপনার নজরে আনতে পারে। যত তাড়াতাড়ি আপনি আপনার ডেটা আমদানি করেন, আপনি একটি বোতামে ক্লিক করে একটি অন্তর্দৃষ্টি প্রতিবেদন চালাতে পারেন৷ এটি ডেটাসেটের প্রয়োজনীয় অন্তর্দৃষ্টি পেতে লাইব্রেরি আমদানি এবং কোড লেখার প্রচেষ্টাকে হ্রাস করে, যা প্রয়োজনীয় শ্রম খরচ এবং দক্ষতা হ্রাস করে।
আপনি যখন ডেটা গুণমান এবং অন্তর্দৃষ্টি প্রতিবেদন তৈরি করেন, তখন ডেটা র্যাংলার আপনাকে একটি লক্ষ্য কলাম নির্বাচন করার বিকল্প দেয় (যে কলামটি আপনি পূর্বাভাস দেওয়ার চেষ্টা করছেন)। আপনি যখন একটি লক্ষ্য কলাম চয়ন করেন, ডেটা র্যাংলার স্বয়ংক্রিয়ভাবে একটি লক্ষ্য কলাম বিশ্লেষণ তৈরি করে। এটি তাদের ভবিষ্যদ্বাণী করার ক্ষমতার ক্রম অনুসারে বৈশিষ্ট্যগুলিকে স্থান দেয় (নিম্নলিখিত স্ক্রিনশটটি দেখুন)। এটি ডাউনস্ট্রিম এমএল প্রক্রিয়ার জন্য উচ্চ-মানের বৈশিষ্ট্যগুলির সরাসরি ব্যবসায়িক সুবিধাতে অবদান রাখে।
রুপান্তর
যদি আপনার EDA টুল শুধুমাত্র নির্দিষ্ট কিছু ট্রান্সফরমেশন সমর্থন করে, তাহলে স্পার্ক জবসের মতো কাস্টম রূপান্তরগুলি চালানোর জন্য আপনাকে ডেটাকে ভিন্ন পরিবেশে সরাতে হবে। ডেটা র্যাংলার সমর্থন করে কাস্টম রূপান্তর, যা PySpark, Pandas, এবং SQL এ লেখা যেতে পারে (উদাহরণস্বরূপ নিম্নলিখিত স্ক্রিনশট দেখুন)। এগুলি বিকাশকারী বন্ধুত্বপূর্ণ এবং সমস্ত নির্বিঘ্নে এক জায়গায় প্যাকেজ করা হয়, ডেটা চলাচল হ্রাস করে এবং ডেটা স্থানান্তর এবং স্টোরেজের সাথে সম্পর্কিত খরচ বাঁচায়।
আপনাকে আপনার ডেটাসেটগুলিতে গাণিতিক ক্রিয়াকলাপগুলি চালানোর প্রয়োজন হতে পারে, যেমন একটি কলামের পরম মান নেওয়া। যদি আপনার EDA টুল গাণিতিক ক্রিয়াকলাপগুলিকে সমর্থন না করে, তাহলে আপনাকে বাহ্যিকভাবে অপারেশনগুলি চালাতে হতে পারে, যার জন্য অতিরিক্ত প্রচেষ্টা এবং খরচ প্রয়োজন৷ কিছু সরঞ্জাম ডেটাসেটে গাণিতিক ক্রিয়াকলাপগুলিকে সমর্থন করতে পারে তবে আপনাকে লাইব্রেরিগুলি আমদানি করতে হবে, যার জন্য অতিরিক্ত প্রচেষ্টা জড়িত। ডেটা র্যাংলারে, আপনি একটি ব্যবহার করতে পারেন কাস্টম সূত্র কাস্টম ট্রান্সফরমেশন বা কাস্টম কোয়েরির জন্য কোনো অতিরিক্ত খরচ না করেই বর্তমান ডাটা ফ্রেমে ডেটা জিজ্ঞাসা করার জন্য একটি স্পার্ক এসকিউএল এক্সপ্রেশন ব্যবহার করে একটি নতুন কলাম সংজ্ঞায়িত করতে।
শ্রম খরচ এবং দক্ষতা
EDA প্ল্যাটফর্ম এবং অন্তর্নিহিত কম্পিউট অবকাঠামো পরিচালনার জন্য দক্ষতা, প্রচেষ্টা এবং খরচ জড়িত। ডেটা র্যাংলার PySpark-এ লেখা 300 টিরও বেশি প্রি-কনফিগার করা ডেটা ট্রান্সফর্মেশনের একটি নির্বাচন অফার করে, যাতে আপনি ডেটা রূপান্তর করার জন্য কোড লেখার বিষয়ে চিন্তা না করেই দক্ষতার সাথে শত শত গিগাবাইট পর্যন্ত ডেটাসেট প্রক্রিয়া করতে পারেন। আপনি রূপান্তরগুলি ব্যবহার করতে পারেন যেমন রূপান্তর কলামের ধরন, একটি হট এনকোডিং, গড় বা মধ্যম সহ অনুপস্থিত ডেটা, রিস্কেল কলাম, এবং ডেটা/টাইম এমবেডিংগুলি আপনার ডেটাকে এমন ফর্ম্যাটে রূপান্তর করতে যা মডেলগুলি কোডের একটি লাইন না লিখেও ব্যবহার করতে পারে৷ এটি সময় এবং প্রচেষ্টা হ্রাস করে, যার ফলে শ্রম ব্যয় হ্রাস পায়।
ডেটা র্যাংলার ডেটা কল্পনা এবং যাচাই করার জন্য একটি পয়েন্ট-এন্ড-ক্লিক ইন্টারফেস অফার করে (নিম্নলিখিত স্ক্রিনশটটি দেখুন)। ডেটা ইঞ্জিনিয়ারিং বা বিশ্লেষণে কোনও দক্ষতার প্রয়োজন নেই কারণ সমস্ত ডেটা প্রস্তুতি সাধারণ পয়েন্ট এবং ক্লিকের মাধ্যমে করা যেতে পারে।
কল্পনা
ডেটা র্যাংলার আপনাকে আপনার ডেটা বুঝতে এবং শক্তিশালী প্রি-কনফিগার করা ভিজ্যুয়ালাইজেশন টেমপ্লেটগুলির একটি সেট সহ সম্ভাব্য ত্রুটি এবং চরম মানগুলি সনাক্ত করতে সহায়তা করে। ভিজ্যুয়ালাইজেশনগুলি সম্পাদন করার জন্য কোনও বহিরাগত লাইব্রেরি বা নির্ভরতা আমদানি করতে আপনার পরিচিতি বা অতিরিক্ত সময় ব্যয় করার দরকার নেই। হিস্টোগ্রাম, স্ক্যাটার প্লট, বক্স এবং হুইকার প্লট, লাইন প্লট এবং বার চার্ট সবই পাওয়া যায় (কিছু উদাহরণের জন্য নিচের স্ক্রিনশট দেখুন)। হিস্টোগ্রামের মতো টেমপ্লেটগুলি কোড না লিখে আপনার নিজস্ব ভিজ্যুয়ালাইজেশন তৈরি এবং সম্পাদনা করা সহজ করে তোলে।
ভ্যালিডেশন
ডেটা র্যাংলার আপনাকে আপনার ডেটা প্রস্তুতির কার্যপ্রবাহের অসঙ্গতিগুলি দ্রুত সনাক্ত করতে এবং মডেলগুলি উত্পাদনে স্থাপন করার আগে সমস্যাগুলি নির্ণয় করতে সক্ষম করে (নিচের স্ক্রিনশট দেখুন)। আপনি দ্রুত শনাক্ত করতে পারেন যে আপনার প্রস্তুত করা ডেটা একটি সঠিক মডেলে পরিণত হবে কিনা যাতে আপনি নির্ধারণ করতে পারেন যে কর্মক্ষমতা উন্নত করার জন্য অতিরিক্ত বৈশিষ্ট্য প্রকৌশল প্রয়োজন কিনা। এই সমস্ত কিছুই মডেল বিল্ডিং পর্বের আগে ঘটে, তাই এমন একটি মডেল তৈরির জন্য কোনও অতিরিক্ত শ্রম খরচ নেই যা প্রত্যাশিতভাবে কাজ করছে না (নিম্ন কর্মক্ষমতা মেট্রিক্স) যা মডেল তৈরির পরে অতিরিক্ত রূপান্তর ঘটায়। যাচাইকরণের ফলে আরও ভালো মানের বৈশিষ্ট্যের ব্যবসায়িক সুবিধা পাওয়া যায়।
স্কেলযোগ্য ডেটা প্রস্তুতি পাইপলাইন তৈরি করুন
আপনি যখন EDA পরিচালনা করেন তখন আপনাকে ডেটা প্রস্তুতির পাইপলাইন তৈরি করতে হবে যা ডেটাসেটগুলির সাথে স্কেল করতে পারে (নিচের স্ক্রিনশট দেখুন)। এটি পুনরাবৃত্তির পাশাপাশি ডাউনস্ট্রিম এমএল প্রক্রিয়াগুলির জন্য গুরুত্বপূর্ণ। সাধারণত, গ্রাহকরা স্পার্ক ব্যবহার করে এর বিতরণ, মাপযোগ্য, এবং ইন-মেমরি প্রক্রিয়াকরণ প্রকৃতির জন্য; যাইহোক, এর জন্য স্পার্কের উপর অনেক দক্ষতার প্রয়োজন। একটি স্পার্ক পরিবেশ সেট আপ করা সময়সাপেক্ষ এবং সর্বোত্তম কনফিগারেশনের জন্য দক্ষতা প্রয়োজন। ডেটা র্যাংলারের সাহায্যে, আপনি ডাটা প্রসেসিং কাজ তৈরি করতে পারেন এবং জুপিটার নোটবুক তৈরি, চালানো বা পরিচালনা না করেই সম্পূর্ণরূপে ভিজ্যুয়াল ইন্টারফেসের মাধ্যমে Amazon S3 এবং Amazon ফিচার স্টোরে রপ্তানি করতে পারেন, যা কোনো স্পার্ক দক্ষতা ছাড়াই স্কেলযোগ্য ডেটা প্রস্তুতির পাইপলাইনগুলিকে সহজতর করে৷ আরো তথ্যের জন্য, পড়ুন Amazon SageMaker Data Wrangler ব্যবহার করে কয়েক ক্লিকে প্রসেসিং কাজ চালু করুন.
অপারেশন খরচ
ইন্টিগ্রেশন একটি সরাসরি খরচ সুবিধা নাও হতে পারে; যাইহোক, আপনি যখন সেজমেকারের মতো একটি সমন্বিত পরিবেশে কাজ করেন তখন পরোক্ষ খরচের সুবিধা রয়েছে। যেহেতু ডেটা র্যাংলার AWS পরিষেবাগুলির সাথে একীভূত হয়েছে, আপনি একটি ডেটা র্যাংলার কাজের নোটবুকে আপনার ডেটা প্রস্তুতির কর্মপ্রবাহ রপ্তানি করতে পারেন এবং চালু করতে পারেন অ্যামাজন সেজমেকার অটোপাইলট প্রশিক্ষণ পরীক্ষা, অ্যামাজন সেজমেকার পাইপলাইন নোটবুক, বা কোড স্ক্রিপ্ট। আপনি একটি এমএল ওয়ার্কফ্লোতে পুনরাবৃত্তিমূলক পদক্ষেপ বা অটোমেশন চালানোর জন্য পরিকাঠামো সেট আপ এবং পরিচালনা করার প্রয়োজন ছাড়াই এক ক্লিকে একটি ডেটা র্যাংলার প্রসেসিং কাজ তৈরি করতে পারেন।
আপনার ডেটা র্যাংলার প্রবাহে, আপনি করতে পারেন রপ্তানি কিছু বা সমস্ত রূপান্তর যা আপনি আপনার ডেটা প্রক্রিয়াকরণ পাইপলাইনে করেছেন। আপনি যখন আপনার ডেটা প্রবাহ রপ্তানি করেন, তখন আপনি যে AWS সংস্থানগুলি ব্যবহার করেন তার জন্য আপনাকে চার্জ করা হয়। খরচের দৃষ্টিকোণ থেকে, রূপান্তর রপ্তানি করা আপনাকে অতিরিক্ত ডেটাসেটে রূপান্তর পুনরাবৃত্তি করার ক্ষমতা দেয় কোনো ক্রমবর্ধমান প্রচেষ্টা ছাড়াই।
ডেটা র্যাংলার দিয়ে, আপনি করতে পারেন শুধুমাত্র কয়েকটি ক্লিকের মাধ্যমে একটি গন্তব্য নোডে আপনার ডেটাসেটে করা সমস্ত রূপান্তর রপ্তানি করুন. এটি আপনাকে জুপিটার নোটবুক তৈরি, চালনা বা পরিচালনা না করেই ভিজ্যুয়াল ইন্টারফেসের মাধ্যমে সম্পূর্ণরূপে ডাটা প্রসেসিং কাজ তৈরি করতে এবং Amazon S3 এ রপ্তানি করতে দেয়, যার ফলে কম-কোড অভিজ্ঞতা বৃদ্ধি পায়।
ডেটা র্যাংলার আপনাকে আপনার ডেটা প্রস্তুতির পদক্ষেপ বা ডেটা প্রবাহকে বিভিন্ন পরিবেশে রপ্তানি করতে দেয়। ডেটা র্যাংলারের অন্যান্য AWS পরিষেবা এবং বৈশিষ্ট্যগুলির সাথে বিরামহীন একীকরণ রয়েছে, যেমন নিম্নলিখিত:
- সেজমেকার ফিচার স্টোর - আপনি ডেটা র্যাংলার ব্যবহার করে এবং তারপরে আপনার মডেল বৈশিষ্ট্যগুলি ইঞ্জিনিয়ার করতে পারেন আপনার ফিচার স্টোরে প্রবেশ করুন, যা বৈশিষ্ট্য এবং তাদের সম্পর্কিত মেটাডেটার জন্য একটি কেন্দ্রীভূত স্টোর
- সেজমেকার পাইপলাইন - আপনি সেজমেকার পাইপলাইনে ডেটা র্যাংলার থেকে রপ্তানি করা ডেটা ফ্লো ব্যবহার করতে পারেন, যেগুলি বড় আকারের এমএল ওয়ার্কফ্লো তৈরি এবং স্থাপন করতে ব্যবহৃত হয়
- আমাজন S3 - আপনি Amazon S3 এ ডেটা রপ্তানি করতে পারেন এবং ডেটা র্যাংলার কাজ তৈরি করতে এটি ব্যবহার করতে পারেন
- পাইথন - অবশেষে, আপনি একটি পাইথন ফাইলে আপনার ডেটা প্রবাহের সমস্ত ধাপ রপ্তানি করতে পারেন, যা আপনি ম্যানুয়ালি যেকোনো ডেটা প্রসেসিং ওয়ার্কফ্লোতে সংহত করতে পারেন।
এই ধরনের টাইট ইন্টিগ্রেশন প্রচেষ্টা, সময়, দক্ষতা, এবং খরচ কমাতে সাহায্য করে।
খরচ অপ্টিমাইজেশান সেরা অনুশীলন
এই বিভাগে, আমরা ডেটা র্যাংলারে খরচ আরও অপ্টিমাইজ করার জন্য সর্বোত্তম অনুশীলন নিয়ে আলোচনা করি।
সর্বশেষ রিলিজে ডেটা র্যাংলার আপডেট করুন
যখন তুমি ডেটা র্যাংলার আপডেট করুন সর্বশেষ রিলিজে, আপনি ডেটা র্যাংলারে তৈরি সমস্ত সাম্প্রতিক বৈশিষ্ট্য, নিরাপত্তা এবং সামগ্রিক অপ্টিমাইজেশন পাবেন, যা এর খরচ-কার্যকারিতা উন্নত করতে পারে।
বিল্ট-ইন ডেটা র্যাংলার ট্রান্সফরমার ব্যবহার করুন
বৃহত্তর এবং বিস্তৃত ডেটাসেট প্রক্রিয়া করার সময় কাস্টম পান্ডাস ট্রান্সফর্মের উপর অন্তর্নির্মিত ডেটা র্যাংলার ট্রান্সফরমার ব্যবহার করুন।
আপনার ডেটা র্যাংলার প্রবাহের জন্য সঠিক দৃষ্টান্তের ধরন চয়ন করুন
ডেটা র্যাংলারের জন্য সমর্থিত এমএল ইন্সট্যান্স ধরনের দুটি পরিবার রয়েছে: m5 এবং r5। m5 দৃষ্টান্তগুলি হল সাধারণ উদ্দেশ্যের উদাহরণ যা গণনা এবং মেমরির মধ্যে একটি ভারসাম্য প্রদান করে, যেখানে r5 দৃষ্টান্তগুলি মেমরিতে বড় ডেটাসেটগুলি প্রক্রিয়া করার জন্য দ্রুত কর্মক্ষমতা প্রদানের জন্য ডিজাইন করা হয়েছে।
আমরা এমন একটি উদাহরণ বেছে নেওয়ার পরামর্শ দিই যা আপনার কাজের চাপের চারপাশে সর্বোত্তম অপ্টিমাইজ করা হয়। উদাহরণস্বরূপ, r5.8xlarge-এর দাম m5.4xlarge-এর চেয়ে বেশি হতে পারে, কিন্তু r5.8xlarge আপনার কাজের চাপের জন্য আরও ভালভাবে অপ্টিমাইজ করা যেতে পারে। আরও ভাল অপ্টিমাইজ করা উদাহরণগুলির সাথে, আপনি কম খরচে কম সময়ে আপনার ডেটা প্রবাহ চালাতে পারেন।
বৃহত্তর এবং বিস্তৃত ডেটাসেট প্রক্রিয়া করুন
দশ গিগাবাইটের চেয়ে বড় ডেটাসেটের জন্য, আমরা অন্তর্নির্মিত রূপান্তরগুলি ব্যবহার করার পরামর্শ দিই, অথবা কাস্টম পান্ডাস ট্রান্সফর্মগুলি ইন্টারেক্টিভভাবে চালানোর জন্য আমদানিতে নমুনা ডেটা। মধ্যে পোস্ট, আমরা কীভাবে এটি করতে হয় তা প্রদর্শন করতে দুটি বেঞ্চমার্ক পরীক্ষা থেকে আমাদের ফলাফলগুলি ভাগ করি।
অব্যবহৃত দৃষ্টান্ত বন্ধ করুন
আপনি সমস্ত চলমান উদাহরণের জন্য চার্জ করা হয়. অতিরিক্ত চার্জ এড়াতে, আপনি ম্যানুয়ালি ব্যবহার করছেন না এমন উদাহরণগুলি বন্ধ করুন৷ চলমান একটি উদাহরণ বন্ধ করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- আপনার ডেটা ফ্লো পৃষ্ঠায়, নীচে নেভিগেশন ফলকে ইনস্ট্যান্স আইকনটি বেছে নিন চলমান উদাহরণ.
- বেছে নিন বন্ধ করুন.
আপনি যদি একটি প্রবাহ চালানোর জন্য ব্যবহৃত একটি উদাহরণ বন্ধ করে দেন, তাহলে আপনি অস্থায়ীভাবে প্রবাহটি অ্যাক্সেস করতে পারবেন না। আপনি যদি পূর্বে বন্ধ করে দিয়েছিলেন এমন একটি দৃষ্টান্ত চলমান ফ্লোটি খোলার ক্ষেত্রে একটি ত্রুটি পান, প্রায় 5 মিনিট অপেক্ষা করুন এবং এটি আবার খোলার চেষ্টা করুন৷
আপনি যখন ডেটা র্যাংলার ব্যবহার করছেন না, তখন অতিরিক্ত ফি খরচ এড়াতে এটি যে দৃষ্টান্তে চলে তা বন্ধ করা গুরুত্বপূর্ণ। আরো তথ্যের জন্য, পড়ুন ডাটা র্যাংলার বন্ধ করুন.
স্বয়ংক্রিয়ভাবে ডেটা র্যাংলার সংস্থান বন্ধ করার বিষয়ে তথ্যের জন্য, পড়ুন অ্যামাজন সেজমেকার স্টুডিওতে স্বয়ংক্রিয়ভাবে নিষ্ক্রিয় সংস্থানগুলি বন্ধ করে খরচগুলি সাশ্রয় করুন.
রপ্তানি
আপনি যখন আপনার ডেটা র্যাংলার প্রবাহ বা রূপান্তর রপ্তানি করেন, তখন আপনি সেই সংস্থানগুলির খরচ সংগঠিত এবং পরিচালনা করতে খরচ বরাদ্দ ট্যাগ ব্যবহার করতে পারেন। আপনি আপনার ব্যবহারকারীর প্রোফাইলের জন্য এই ট্যাগগুলি তৈরি করেন এবং ডেটা র্যাংলার স্বয়ংক্রিয়ভাবে সেগুলি ডেটা প্রবাহ রপ্তানি করতে ব্যবহৃত সংস্থানগুলিতে প্রয়োগ করে৷ আরও তথ্যের জন্য, দেখুন খরচ বরাদ্দ ট্যাগ ব্যবহার করে.
প্রাইসিং
ডেটা র্যাংলার মূল্যের তিনটি উপাদান রয়েছে: ডেটা র্যাংলার দৃষ্টান্ত, ডেটা র্যাংলার কাজ এবং এমএল স্টোরেজ। আপনি ডেটা র্যাংলারের মধ্যে EDA বা ডেটা প্রস্তুতির জন্য সমস্ত পদক্ষেপগুলি সম্পাদন করতে পারেন এবং আপনি কোনও আগাম বা লাইসেন্সিং ফি ছাড়াই ব্যবহার বা ব্যবহারের উপর ভিত্তি করে উদাহরণ, চাকরি এবং স্টোরেজ মূল্যের জন্য অর্থ প্রদান করেন। আরো তথ্যের জন্য, পড়ুন অন-ডিমান্ড প্রাইসিং.
উপসংহার
এই পোস্টে, আমরা বৈশিষ্ট্য-সমৃদ্ধ এবং সমন্বিত ডেটা র্যাংলার ML ব্যবহারের ক্ষেত্রে ডেটা একত্রিত করতে এবং প্রস্তুত করতে যে সময় নেয় তা আবিষ্কার করতে আমরা EDA এবং ডেটা প্রস্তুতির বিভিন্ন খরচের দিকগুলি পর্যালোচনা করেছি, যার ফলে খরচ-কার্যকর ডেটা প্রস্তুতির সুবিধা হয়। এমএল এর জন্য। আপনার ML ডেটা প্রস্তুতির প্রয়োজনীয়তাগুলির জন্য ডেটা র্যাংলার ব্যবহার করার সময় আমরা ডেটা র্যাংলারের মূল্যের উপাদানগুলি এবং খরচ অপ্টিমাইজেশনের জন্য সর্বোত্তম অনুশীলনগুলিও পরিদর্শন করেছি৷
আরও তথ্যের জন্য, নিম্নলিখিত সংস্থানগুলি দেখুন:
লেখক সম্পর্কে
রাজকুমার সম্পতকুমার AWS-এর একজন প্রধান টেকনিক্যাল অ্যাকাউন্ট ম্যানেজার, ব্যবসা-প্রযুক্তি সারিবদ্ধকরণের বিষয়ে গ্রাহকদের নির্দেশনা প্রদান করে এবং তাদের ক্লাউড অপারেশন মডেল এবং প্রক্রিয়াগুলির পুনর্বিবেচনাকে সমর্থন করে। তিনি ক্লাউড এবং মেশিন লার্নিং সম্পর্কে উত্সাহী। রাজ একজন মেশিন লার্নিং বিশেষজ্ঞ এবং AWS গ্রাহকদের সাথে তাদের AWS ওয়ার্কলোড এবং আর্কিটেকচার ডিজাইন, স্থাপন এবং পরিচালনা করতে কাজ করে।
রাহুল নবেরা AWS প্রফেশনাল সার্ভিসে একজন ডেটা অ্যানালিটিক্স কনসালটেন্ট। তার বর্তমান কাজ গ্রাহকদের AWS-এ তাদের ডেটা এবং মেশিন লার্নিং ওয়ার্কলোড তৈরি করতে সক্ষম করার উপর দৃষ্টি নিবদ্ধ করে। অবসর সময়ে তিনি ক্রিকেট ও ভলিবল খেলা উপভোগ করেন।
- AI
- ai শিল্প
- এআই আর্ট জেনারেটর
- আইআই রোবট
- আমাজন সেজমেকার
- অ্যামাজন সেজমেকার ডেটা র্যাংলার
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তা সার্টিফিকেশন
- ব্যাংকিং এ কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তা সফ্টওয়্যার
- এডাব্লুএস মেশিন লার্নিং
- সেরা অভ্যাস
- blockchain
- ব্লকচেইন সম্মেলন এআই
- coingenius
- কথোপকথন কৃত্রিম বুদ্ধিমত্তা
- ক্রিপ্টো সম্মেলন এআই
- ডাল-ই
- গভীর জ্ঞানার্জন
- গুগল আই
- মেশিন লার্নিং
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটো গেম
- প্লেটোডাটা
- প্লেটোগেমিং
- স্কেল ai
- বাক্য গঠন
- zephyrnet