ম্যানুয়ালি ডেটার গুণমান পরিদর্শন করা এবং ডেটা পরিষ্কার করা একটি বেদনাদায়ক এবং সময়সাপেক্ষ প্রক্রিয়া যা একটি প্রকল্পে ডেটা বিজ্ঞানীর প্রচুর সময় নিতে পারে। অ্যানাকোন্ডা দ্বারা পরিচালিত ডেটা বিজ্ঞানীদের 2020 সালের একটি সমীক্ষা অনুসারে, ডেটা বিজ্ঞানীরা তাদের প্রায় 66% সময় ডেটা প্রস্তুতি এবং বিশ্লেষণের কাজে ব্যয় করেন, যার মধ্যে লোড করা (19%), পরিষ্কার করা (26%) এবং ডেটা ভিজ্যুয়ালাইজ করা (21%) রয়েছে। আমাজন সেজমেকার বিভিন্ন গ্রাহকের চাহিদা এবং পছন্দগুলি পূরণ করতে ডেটা প্রস্তুতির সরঞ্জামগুলির একটি পরিসর অফার করে৷ ব্যবহারকারীদের জন্য যারা একটি GUI-ভিত্তিক ইন্টারেক্টিভ ইন্টারফেস পছন্দ করেন, সেজমেকার ডেটা র্যাংলার 300+ বিল্ট-ইন ভিজ্যুয়ালাইজেশন, বিশ্লেষণ এবং ট্রান্সফর্মেশন অফার করে দক্ষতার সাথে স্পার্ক দ্বারা ব্যাক করা ডেটা প্রক্রিয়া করার জন্য কোডের একটি লাইন না লিখে।
মেশিন লার্নিং-এ ডেটা ভিজ্যুয়ালাইজেশন (এমএল) একটি পুনরাবৃত্তিমূলক প্রক্রিয়া এবং আবিষ্কার, তদন্ত এবং বৈধতার জন্য ডেটাসেটের ক্রমাগত ভিজ্যুয়ালাইজেশন প্রয়োজন। পরিপ্রেক্ষিতে ডেটা স্থাপনের জন্য সম্ভাব্য ডেটা ত্রুটি, অনুপস্থিত মান, ভুল ডেটা প্রকার, বিভ্রান্তিকর/ভুল ডেটা, আউটলিয়ার ডেটা এবং আরও অনেক কিছু বোঝার জন্য প্রতিটি কলাম দেখা প্রয়োজন।
এই পোস্টে, আমরা আপনাকে দেখাব কিভাবে অ্যামাজন সেজমেকার ডেটা র্যাংলার স্বয়ংক্রিয়ভাবে ডেটা বিতরণের মূল ভিজ্যুয়ালাইজেশন তৈরি করে, ডেটার মানের সমস্যাগুলি সনাক্ত করে এবং কোডের একটি লাইন না লিখে প্রতিটি বৈশিষ্ট্যের জন্য আউটলারের মতো ডেটা অন্তর্দৃষ্টিগুলিকে পৃষ্ঠতল করে। এটি স্বয়ংক্রিয় মানের সতর্কতা (উদাহরণস্বরূপ, অনুপস্থিত মান বা অবৈধ মান) সহ ডেটা গ্রিড অভিজ্ঞতা উন্নত করতে সহায়তা করে। স্বয়ংক্রিয়ভাবে তৈরি ভিজ্যুয়ালাইজেশনগুলিও ইন্টারেক্টিভ। উদাহরণস্বরূপ, আপনি শতাংশ অনুসারে অর্ডার করা শীর্ষ পাঁচটি সর্বাধিক ঘন ঘন আইটেমগুলির একটি সারণী দেখাতে পারেন এবং গণনা এবং শতাংশের মধ্যে স্যুইচ করতে বারটির উপরে হোভার করতে পারেন।
পূর্বশর্ত
Amazon SageMaker Data Wrangler হল SageMaker স্টুডিওর মধ্যে উপলব্ধ একটি SageMaker বৈশিষ্ট্য। আপনি অনুসরণ করতে পারেন স্টুডিও অনবোর্ডিং প্রক্রিয়া স্টুডিও পরিবেশ এবং নোটবুক ঘূর্ণন. যদিও আপনি কয়েকটি প্রমাণীকরণ পদ্ধতি থেকে বেছে নিতে পারেন, একটি স্টুডিও ডোমেন তৈরি করার সবচেয়ে সহজ উপায় হল অনুসরণ করা দ্রুত শুরু নির্দেশাবলী. কুইক স্টার্ট স্ট্যান্ডার্ড স্টুডিও সেটআপের মতো একই ডিফল্ট সেটিংস ব্যবহার করে। এছাড়াও আপনি ব্যবহার করে অনবোর্ড নির্বাচন করতে পারেন AWS আইডেন্টিটি অ্যান্ড অ্যাকসেস ম্যানেজমেন্ট (IAM) আইডেন্টিটি সেন্টার (AWS একক সাইন-অনের উত্তরসূরি) প্রমাণীকরণের জন্য (দেখুন আইএএম আইডেন্টিটি সেন্টার ব্যবহার করে অ্যামাজন সেজমেকার ডোমেনে অনবোর্ড).
সমাধান ওয়াকথ্রু
আপনার শুরু সেজমেকার স্টুডিও পরিবেশ এবং একটি নতুন তৈরি ডেটা র্যাংলার প্রবাহ. আপনি হয় আপনার নিজস্ব ডেটাসেট আমদানি করতে পারেন বা একটি নমুনা ডেটাসেট ব্যবহার করতে পারেন (বিরাটকায়) নিচের ছবিতে দেখা যাচ্ছে। এই দুটি নোড ( উৎস নোড এবং উপাত্ত টাইপ নোড) ক্লিকযোগ্য - যখন আপনি এই দুটি নোডকে ডাবল-ক্লিক করেন, ডেটা র্যাংলার টেবিলটি প্রদর্শন করবে।
আমাদের ক্ষেত্রে, এর উপর ডান-ক্লিক করা যাক তথ্যের ধরণ আইকন এবং একটি রূপান্তর যোগ করুন:
আপনার এখন প্রতিটি কলামের উপরে ভিজ্যুয়ালাইজেশন দেখতে হবে। চার্ট লোড করার জন্য কিছু সময়ের জন্য অনুমতি দিন. লেটেন্সি ডেটাসেটের আকারের উপর নির্ভর করে (টাইটানিক ডেটাসেটের জন্য, এটি ডিফল্ট উদাহরণে 1-2 সেকেন্ড সময় নেওয়া উচিত)।
টুলটিপের উপর হোভার করে অনুভূমিক শীর্ষ বারে স্ক্রোল করুন। এখন চার্টগুলি লোড হয়েছে, আপনি ডেটা বিতরণ, অবৈধ মান এবং অনুপস্থিত মানগুলি দেখতে পারেন৷ আউটলিয়ার এবং অনুপস্থিত মানগুলি ভুল ডেটার বৈশিষ্ট্য, এবং তাদের সনাক্ত করা গুরুত্বপূর্ণ কারণ তারা আপনার ফলাফলগুলিকে প্রভাবিত করতে পারে। এর মানে হল যেহেতু আপনার ডেটা একটি প্রতিনিধিত্বহীন নমুনা থেকে এসেছে, আপনার ফলাফলগুলি আপনার অধ্যয়নের বাইরের পরিস্থিতিতে সাধারণীকরণযোগ্য নাও হতে পারে। মানের শ্রেণীবিভাগ নীচের চার্টে দেখা যাবে যেখানে বৈধ মানগুলি সাদা রঙে উপস্থাপিত হয়, অকার্যকর নীল রঙের মান, এবং অনুপস্থিত বেগুনি মধ্যে মান. এছাড়াও আপনি দেখতে পারেন বহিরাগত একটি চার্টের বাম বা ডানে নীল বিন্দু দ্বারা চিত্রিত।
সমস্ত ভিজ্যুয়ালাইজেশন হিস্টোগ্রাম আকারে আসে। অ-শ্রেণীগত ডেটার জন্য, প্রতিটি বিনের জন্য একটি বালতি সেট সংজ্ঞায়িত করা হয়। সুনির্দিষ্ট তথ্যের জন্য, প্রতিটি অনন্য মান একটি বিন হিসাবে বিবেচিত হয়। হিস্টোগ্রামের উপরে, একটি বার চার্ট রয়েছে যা আপনাকে অবৈধ এবং অনুপস্থিত মানগুলি দেখায়। আমরা সংখ্যাসূচক, শ্রেণিবদ্ধ, বাইনারি, পাঠ্য এবং তারিখের প্রকারের জন্য বৈধ মানের অনুপাত দেখতে পারি, সেইসাথে মোট শূন্য এবং খালি ঘরের উপর ভিত্তি করে অনুপস্থিত মানগুলির অনুপাত এবং অবশেষে, অবৈধ মানগুলির অনুপাত দেখতে পারি৷ আপনি এই ব্যবহার করে দেখতে পারেন কিভাবে বুঝতে কিছু উদাহরণ তাকান ডেটা র্যাংলারের প্রি-লোড করা নমুনা টাইটানিক ডেটাসেট.
উদাহরণ 1 - আমরা এর জন্য 20% অনুপস্থিত মান দেখতে পারি বয়স বৈশিষ্ট্য/কলাম। ডেটা-সম্পর্কিত গবেষণা/ML এর ক্ষেত্রে অনুপস্থিত ডেটা মোকাবেলা করা অত্যন্ত গুরুত্বপূর্ণ, হয় এটিকে সরিয়ে দিয়ে বা এটিকে অভিযুক্ত করে (কিছু অনুমান সহ অনুপস্থিত মানগুলি পরিচালনা করা)।
আপনি ব্যবহার করে অনুপস্থিত মান প্রক্রিয়া করতে পারেন অনুপস্থিত মান পরিচালনা করুন গ্রুপ রূপান্তর। ব্যবহার অনুপস্থিত অভিযুক্ত অনুপস্থিত মান উৎপন্ন করতে রূপান্তর করুন যেখানে ইনপুট কলামে অনুপস্থিত মান পাওয়া গেছে। কনফিগারেশন আপনার ডেটা প্রকারের উপর নির্ভর করে।
এই উদাহরণে, বয়স কলামে সাংখ্যিক ডেটা টাইপ আছে। ইম্পিউটিং কৌশলের জন্য, আমরা অভিযুক্ত করতে বেছে নিতে পারি গড় অথবা আনুমানিক মধ্যম আপনার ডেটাসেটে উপস্থিত মানগুলির উপরে।
এখন আমরা রূপান্তর যোগ করেছি, আমরা দেখতে পাচ্ছি যে বয়স কলামে আর অনুপস্থিত মান নেই।
উদাহরণ 2 - আমরা এর জন্য 27% অবৈধ মান দেখতে পারি টিকেট বৈশিষ্ট্য/কলাম যা এর STRING এর টাইপ অবৈধ ডেটা পক্ষপাতমূলক অনুমান তৈরি করতে পারে, যা একটি মডেলের যথার্থতা হ্রাস করতে পারে এবং ফলস্বরূপ মিথ্যা সিদ্ধান্তে আসতে পারে। আসুন কিছু রূপান্তর অন্বেষণ করি যা আমরা ব্যবহার করতে পারি এর মধ্যে অবৈধ ডেটা পরিচালনা করতে টিকেট কলাম।
স্ক্রিনশটটি দেখে, আমরা দেখতে পাচ্ছি যে কিছু ইনপুট এমন একটি বিন্যাসে লেখা হয়েছে যাতে সংখ্যার আগে বর্ণমালা রয়েছে “পিসি 17318"এবং অন্যান্যগুলি কেবলমাত্র সংখ্যা যেমন "11769".
"পিসি" এবং তাদের প্রতিস্থাপন করুন। পরবর্তী, আমরা আমাদের নিক্ষেপ করতে পারেন স্ট্রিং একটি নতুন ধরনের কলাম যেমন দীর্ঘ ব্যবহারের সুবিধার জন্য।
এটি এখনও 19% অনুপস্থিত মান নিয়ে আমাদের ছেড়ে দেয়৷ টিকেট বৈশিষ্ট্য উদাহরণ 1-এর মতো, আমরা এখন গড় বা আনুমানিক মধ্যমা ব্যবহার করে অনুপস্থিত মানগুলিকে গণনা করতে পারি। বিশিষ্ট সমূহ টিকেট নীচের চিত্র অনুসারে আর অবৈধ বা অনুপস্থিত মান থাকা উচিত নয়।
এই টিউটোরিয়ালটি অনুসরণ করার পরে আপনাকে যে কোনও চার্জ দিতে হবে না তা নিশ্চিত করতে, নিশ্চিত করুন যে আপনি ডাটা র্যাংলার অ্যাপটি বন্ধ করুন.
উপসংহার
এই পোস্টে, আমরা নতুন উপস্থাপন আমাজন সেজমেকার ডেটা র্যাংলার উইজেট যা অপসারণ করতে সাহায্য করবে অভেদহীন ভারী উত্তোলন প্রতিটি বৈশিষ্ট্যের জন্য স্বয়ংক্রিয়ভাবে সারফেসিং ভিজ্যুয়ালাইজেশন এবং ডেটা প্রোফাইলিং অন্তর্দৃষ্টি সহ ডেটা প্রস্তুতির সময় শেষ ব্যবহারকারীদের জন্য। এই উইজেটটি ডেটা ভিজ্যুয়ালাইজ করা সহজ করে তোলে (উদাহরণস্বরূপ, শ্রেণীবদ্ধ/অ-শ্রেণীগত হিস্টোগ্রাম), ডেটা মানের সমস্যাগুলি সনাক্ত করে (উদাহরণস্বরূপ, অনুপস্থিত মান এবং অবৈধ মান) এবং পৃষ্ঠের ডেটা অন্তর্দৃষ্টি (উদাহরণস্বরূপ, আউটলিয়ার এবং শীর্ষ N আইটেম)।
SageMaker স্টুডিও পাওয়া যায় এমন সমস্ত অঞ্চলে আপনি আজ এই ক্ষমতা ব্যবহার শুরু করতে পারেন। একবার চেষ্টা করে দেখো, এবং আমাদের আপনি কী মনে করেন. আমরা সবসময় আপনার প্রতিক্রিয়ার অপেক্ষায় থাকি, হয় আপনার সাধারণ AWS সহায়তা পরিচিতির মাধ্যমে বা AWS ফোরাম সেজমেকারের জন্য।
লেখক সম্পর্কে
ইশার দুআ সান ফ্রান্সিসকো বে এরিয়াতে অবস্থিত একজন সিনিয়র সলিউশন আর্কিটেক্ট। তিনি AWS এন্টারপ্রাইজ গ্রাহকদের তাদের লক্ষ্য এবং চ্যালেঞ্জগুলি বোঝার মাধ্যমে বৃদ্ধি পেতে সাহায্য করেন এবং তারা কীভাবে তাদের অ্যাপ্লিকেশনগুলিকে ক্লাউড-নেটিভ পদ্ধতিতে আর্কিটেক্ট করতে পারেন এবং তারা স্থিতিস্থাপক এবং পরিমাপযোগ্য তা নিশ্চিত করে তাদের নির্দেশনা দেন৷ তিনি মেশিন লার্নিং প্রযুক্তি এবং পরিবেশগত স্থায়িত্ব সম্পর্কে উত্সাহী।
পার্থ প্যাটেল সান ফ্রান্সিসকো বে এরিয়াতে AWS-এর একজন সমাধান স্থপতি। পার্থ গ্রাহকদের ক্লাউডে তাদের যাত্রা ত্বরান্বিত করতে গাইড করে এবং তাদের AWS ক্লাউড সফলভাবে গ্রহণ করতে সহায়তা করে। তিনি এমএল এবং অ্যাপ্লিকেশন আধুনিকীকরণের দিকে মনোনিবেশ করেন।
- উন্নত (300)
- AI
- ai শিল্প
- এআই আর্ট জেনারেটর
- আইআই রোবট
- আমাজন সেজমেকার
- অ্যামাজন সেজমেকার ডেটা র্যাংলার
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তা সার্টিফিকেশন
- ব্যাংকিং এ কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তা সফ্টওয়্যার
- এডাব্লুএস মেশিন লার্নিং
- blockchain
- ব্লকচেইন সম্মেলন এআই
- coingenius
- কথোপকথন কৃত্রিম বুদ্ধিমত্তা
- ক্রিপ্টো সম্মেলন এআই
- ডাল-ই
- গভীর জ্ঞানার্জন
- গুগল আই
- মেশিন লার্নিং
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটো গেম
- প্লেটোডাটা
- প্লেটোগেমিং
- স্কেল ai
- বাক্য গঠন
- zephyrnet