অ্যামাজন সেজমেকার ডেটা র্যাংলারের নতুন এমবেডেড ভিজ্যুয়ালাইজেশন প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের সাথে পরিচয় করিয়ে দেওয়া হচ্ছে। উল্লম্ব অনুসন্ধান. আ.

অ্যামাজন সেজমেকার ডেটা র্যাংলারের নতুন এমবেডেড ভিজ্যুয়ালাইজেশন উপস্থাপন করা হচ্ছে

ম্যানুয়ালি ডেটার গুণমান পরিদর্শন করা এবং ডেটা পরিষ্কার করা একটি বেদনাদায়ক এবং সময়সাপেক্ষ প্রক্রিয়া যা একটি প্রকল্পে ডেটা বিজ্ঞানীর প্রচুর সময় নিতে পারে। অ্যানাকোন্ডা দ্বারা পরিচালিত ডেটা বিজ্ঞানীদের 2020 সালের একটি সমীক্ষা অনুসারে, ডেটা বিজ্ঞানীরা তাদের প্রায় 66% সময় ডেটা প্রস্তুতি এবং বিশ্লেষণের কাজে ব্যয় করেন, যার মধ্যে লোড করা (19%), পরিষ্কার করা (26%) এবং ডেটা ভিজ্যুয়ালাইজ করা (21%) রয়েছে। আমাজন সেজমেকার বিভিন্ন গ্রাহকের চাহিদা এবং পছন্দগুলি পূরণ করতে ডেটা প্রস্তুতির সরঞ্জামগুলির একটি পরিসর অফার করে৷ ব্যবহারকারীদের জন্য যারা একটি GUI-ভিত্তিক ইন্টারেক্টিভ ইন্টারফেস পছন্দ করেন, সেজমেকার ডেটা র্যাংলার 300+ বিল্ট-ইন ভিজ্যুয়ালাইজেশন, বিশ্লেষণ এবং ট্রান্সফর্মেশন অফার করে দক্ষতার সাথে স্পার্ক দ্বারা ব্যাক করা ডেটা প্রক্রিয়া করার জন্য কোডের একটি লাইন না লিখে।

মেশিন লার্নিং-এ ডেটা ভিজ্যুয়ালাইজেশন (এমএল) একটি পুনরাবৃত্তিমূলক প্রক্রিয়া এবং আবিষ্কার, তদন্ত এবং বৈধতার জন্য ডেটাসেটের ক্রমাগত ভিজ্যুয়ালাইজেশন প্রয়োজন। পরিপ্রেক্ষিতে ডেটা স্থাপনের জন্য সম্ভাব্য ডেটা ত্রুটি, অনুপস্থিত মান, ভুল ডেটা প্রকার, বিভ্রান্তিকর/ভুল ডেটা, আউটলিয়ার ডেটা এবং আরও অনেক কিছু বোঝার জন্য প্রতিটি কলাম দেখা প্রয়োজন।

এই পোস্টে, আমরা আপনাকে দেখাব কিভাবে অ্যামাজন সেজমেকার ডেটা র্যাংলার স্বয়ংক্রিয়ভাবে ডেটা বিতরণের মূল ভিজ্যুয়ালাইজেশন তৈরি করে, ডেটার মানের সমস্যাগুলি সনাক্ত করে এবং কোডের একটি লাইন না লিখে প্রতিটি বৈশিষ্ট্যের জন্য আউটলারের মতো ডেটা অন্তর্দৃষ্টিগুলিকে পৃষ্ঠতল করে। এটি স্বয়ংক্রিয় মানের সতর্কতা (উদাহরণস্বরূপ, অনুপস্থিত মান বা অবৈধ মান) সহ ডেটা গ্রিড অভিজ্ঞতা উন্নত করতে সহায়তা করে। স্বয়ংক্রিয়ভাবে তৈরি ভিজ্যুয়ালাইজেশনগুলিও ইন্টারেক্টিভ। উদাহরণস্বরূপ, আপনি শতাংশ অনুসারে অর্ডার করা শীর্ষ পাঁচটি সর্বাধিক ঘন ঘন আইটেমগুলির একটি সারণী দেখাতে পারেন এবং গণনা এবং শতাংশের মধ্যে স্যুইচ করতে বারটির উপরে হোভার করতে পারেন।

পূর্বশর্ত

Amazon SageMaker Data Wrangler হল SageMaker স্টুডিওর মধ্যে উপলব্ধ একটি SageMaker বৈশিষ্ট্য। আপনি অনুসরণ করতে পারেন স্টুডিও অনবোর্ডিং প্রক্রিয়া স্টুডিও পরিবেশ এবং নোটবুক ঘূর্ণন. যদিও আপনি কয়েকটি প্রমাণীকরণ পদ্ধতি থেকে বেছে নিতে পারেন, একটি স্টুডিও ডোমেন তৈরি করার সবচেয়ে সহজ উপায় হল অনুসরণ করা দ্রুত শুরু নির্দেশাবলী. কুইক স্টার্ট স্ট্যান্ডার্ড স্টুডিও সেটআপের মতো একই ডিফল্ট সেটিংস ব্যবহার করে। এছাড়াও আপনি ব্যবহার করে অনবোর্ড নির্বাচন করতে পারেন AWS আইডেন্টিটি অ্যান্ড অ্যাকসেস ম্যানেজমেন্ট (IAM) আইডেন্টিটি সেন্টার (AWS একক সাইন-অনের উত্তরসূরি) প্রমাণীকরণের জন্য (দেখুন আইএএম আইডেন্টিটি সেন্টার ব্যবহার করে অ্যামাজন সেজমেকার ডোমেনে অনবোর্ড).

সমাধান ওয়াকথ্রু

আপনার শুরু সেজমেকার স্টুডিও পরিবেশ এবং একটি নতুন তৈরি ডেটা র‍্যাংলার প্রবাহ. আপনি হয় আপনার নিজস্ব ডেটাসেট আমদানি করতে পারেন বা একটি নমুনা ডেটাসেট ব্যবহার করতে পারেন (বিরাটকায়) নিচের ছবিতে দেখা যাচ্ছে। এই দুটি নোড ( উৎস নোড এবং উপাত্ত টাইপ নোড) ক্লিকযোগ্য - যখন আপনি এই দুটি নোডকে ডাবল-ক্লিক করেন, ডেটা র্যাংলার টেবিলটি প্রদর্শন করবে।

আমাদের ক্ষেত্রে, এর উপর ডান-ক্লিক করা যাক তথ্যের ধরণ আইকন এবং একটি রূপান্তর যোগ করুন:

আপনার এখন প্রতিটি কলামের উপরে ভিজ্যুয়ালাইজেশন দেখতে হবে। চার্ট লোড করার জন্য কিছু সময়ের জন্য অনুমতি দিন. লেটেন্সি ডেটাসেটের আকারের উপর নির্ভর করে (টাইটানিক ডেটাসেটের জন্য, এটি ডিফল্ট উদাহরণে 1-2 সেকেন্ড সময় নেওয়া উচিত)।

অ্যামাজন সেজমেকার ডেটা র্যাংলারের নতুন এমবেডেড ভিজ্যুয়ালাইজেশন প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের সাথে পরিচয় করিয়ে দেওয়া হচ্ছে। উল্লম্ব অনুসন্ধান. আ.

টুলটিপের উপর হোভার করে অনুভূমিক শীর্ষ বারে স্ক্রোল করুন। এখন চার্টগুলি লোড হয়েছে, আপনি ডেটা বিতরণ, অবৈধ মান এবং অনুপস্থিত মানগুলি দেখতে পারেন৷ আউটলিয়ার এবং অনুপস্থিত মানগুলি ভুল ডেটার বৈশিষ্ট্য, এবং তাদের সনাক্ত করা গুরুত্বপূর্ণ কারণ তারা আপনার ফলাফলগুলিকে প্রভাবিত করতে পারে। এর মানে হল যেহেতু আপনার ডেটা একটি প্রতিনিধিত্বহীন নমুনা থেকে এসেছে, আপনার ফলাফলগুলি আপনার অধ্যয়নের বাইরের পরিস্থিতিতে সাধারণীকরণযোগ্য নাও হতে পারে। মানের শ্রেণীবিভাগ নীচের চার্টে দেখা যাবে যেখানে বৈধ মানগুলি সাদা রঙে উপস্থাপিত হয়, অকার্যকর নীল রঙের মান, এবং অনুপস্থিত বেগুনি মধ্যে মান. এছাড়াও আপনি দেখতে পারেন বহিরাগত একটি চার্টের বাম বা ডানে নীল বিন্দু দ্বারা চিত্রিত।

অ্যামাজন সেজমেকার ডেটা র্যাংলারের নতুন এমবেডেড ভিজ্যুয়ালাইজেশন প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের সাথে পরিচয় করিয়ে দেওয়া হচ্ছে। উল্লম্ব অনুসন্ধান. আ.

সমস্ত ভিজ্যুয়ালাইজেশন হিস্টোগ্রাম আকারে আসে। অ-শ্রেণীগত ডেটার জন্য, প্রতিটি বিনের জন্য একটি বালতি সেট সংজ্ঞায়িত করা হয়। সুনির্দিষ্ট তথ্যের জন্য, প্রতিটি অনন্য মান একটি বিন হিসাবে বিবেচিত হয়। হিস্টোগ্রামের উপরে, একটি বার চার্ট রয়েছে যা আপনাকে অবৈধ এবং অনুপস্থিত মানগুলি দেখায়। আমরা সংখ্যাসূচক, শ্রেণিবদ্ধ, বাইনারি, পাঠ্য এবং তারিখের প্রকারের জন্য বৈধ মানের অনুপাত দেখতে পারি, সেইসাথে মোট শূন্য এবং খালি ঘরের উপর ভিত্তি করে অনুপস্থিত মানগুলির অনুপাত এবং অবশেষে, অবৈধ মানগুলির অনুপাত দেখতে পারি৷ আপনি এই ব্যবহার করে দেখতে পারেন কিভাবে বুঝতে কিছু উদাহরণ তাকান ডেটা র‍্যাংলারের প্রি-লোড করা নমুনা টাইটানিক ডেটাসেট.

উদাহরণ 1 - আমরা এর জন্য 20% অনুপস্থিত মান দেখতে পারি বয়স বৈশিষ্ট্য/কলাম। ডেটা-সম্পর্কিত গবেষণা/ML এর ক্ষেত্রে অনুপস্থিত ডেটা মোকাবেলা করা অত্যন্ত গুরুত্বপূর্ণ, হয় এটিকে সরিয়ে দিয়ে বা এটিকে অভিযুক্ত করে (কিছু অনুমান সহ অনুপস্থিত মানগুলি পরিচালনা করা)।

অ্যামাজন সেজমেকার ডেটা র্যাংলারের নতুন এমবেডেড ভিজ্যুয়ালাইজেশন প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের সাথে পরিচয় করিয়ে দেওয়া হচ্ছে। উল্লম্ব অনুসন্ধান. আ.
আপনি ব্যবহার করে অনুপস্থিত মান প্রক্রিয়া করতে পারেন অনুপস্থিত মান পরিচালনা করুন গ্রুপ রূপান্তর। ব্যবহার অনুপস্থিত অভিযুক্ত অনুপস্থিত মান উৎপন্ন করতে রূপান্তর করুন যেখানে ইনপুট কলামে অনুপস্থিত মান পাওয়া গেছে। কনফিগারেশন আপনার ডেটা প্রকারের উপর নির্ভর করে।

অ্যামাজন সেজমেকার ডেটা র্যাংলারের নতুন এমবেডেড ভিজ্যুয়ালাইজেশন প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের সাথে পরিচয় করিয়ে দেওয়া হচ্ছে। উল্লম্ব অনুসন্ধান. আ.

এই উদাহরণে, বয়স কলামে সাংখ্যিক ডেটা টাইপ আছে। ইম্পিউটিং কৌশলের জন্য, আমরা অভিযুক্ত করতে বেছে নিতে পারি গড় অথবা আনুমানিক মধ্যম আপনার ডেটাসেটে উপস্থিত মানগুলির উপরে।

অ্যামাজন সেজমেকার ডেটা র্যাংলারের নতুন এমবেডেড ভিজ্যুয়ালাইজেশন প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের সাথে পরিচয় করিয়ে দেওয়া হচ্ছে। উল্লম্ব অনুসন্ধান. আ.

এখন আমরা রূপান্তর যোগ করেছি, আমরা দেখতে পাচ্ছি যে বয়স কলামে আর অনুপস্থিত মান নেই।

অ্যামাজন সেজমেকার ডেটা র্যাংলারের নতুন এমবেডেড ভিজ্যুয়ালাইজেশন প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের সাথে পরিচয় করিয়ে দেওয়া হচ্ছে। উল্লম্ব অনুসন্ধান. আ.

উদাহরণ 2 - আমরা এর জন্য 27% অবৈধ মান দেখতে পারি টিকেট বৈশিষ্ট্য/কলাম যা এর STRING এর টাইপ অবৈধ ডেটা পক্ষপাতমূলক অনুমান তৈরি করতে পারে, যা একটি মডেলের যথার্থতা হ্রাস করতে পারে এবং ফলস্বরূপ মিথ্যা সিদ্ধান্তে আসতে পারে। আসুন কিছু রূপান্তর অন্বেষণ করি যা আমরা ব্যবহার করতে পারি এর মধ্যে অবৈধ ডেটা পরিচালনা করতে টিকেট কলাম।

স্ক্রিনশটটি দেখে, আমরা দেখতে পাচ্ছি যে কিছু ইনপুট এমন একটি বিন্যাসে লেখা হয়েছে যাতে সংখ্যার আগে বর্ণমালা রয়েছে “পিসি 17318"এবং অন্যান্যগুলি কেবলমাত্র সংখ্যা যেমন "11769".

"পিসি" এবং তাদের প্রতিস্থাপন করুন। পরবর্তী, আমরা আমাদের নিক্ষেপ করতে পারেন স্ট্রিং একটি নতুন ধরনের কলাম যেমন দীর্ঘ ব্যবহারের সুবিধার জন্য।

অ্যামাজন সেজমেকার ডেটা র্যাংলারের নতুন এমবেডেড ভিজ্যুয়ালাইজেশন প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের সাথে পরিচয় করিয়ে দেওয়া হচ্ছে। উল্লম্ব অনুসন্ধান. আ.

অ্যামাজন সেজমেকার ডেটা র্যাংলারের নতুন এমবেডেড ভিজ্যুয়ালাইজেশন প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের সাথে পরিচয় করিয়ে দেওয়া হচ্ছে। উল্লম্ব অনুসন্ধান. আ.

এটি এখনও 19% অনুপস্থিত মান নিয়ে আমাদের ছেড়ে দেয়৷ টিকেট বৈশিষ্ট্য উদাহরণ 1-এর মতো, আমরা এখন গড় বা আনুমানিক মধ্যমা ব্যবহার করে অনুপস্থিত মানগুলিকে গণনা করতে পারি। বিশিষ্ট সমূহ টিকেট নীচের চিত্র অনুসারে আর অবৈধ বা অনুপস্থিত মান থাকা উচিত নয়।

অ্যামাজন সেজমেকার ডেটা র্যাংলারের নতুন এমবেডেড ভিজ্যুয়ালাইজেশন প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের সাথে পরিচয় করিয়ে দেওয়া হচ্ছে। উল্লম্ব অনুসন্ধান. আ.

এই টিউটোরিয়ালটি অনুসরণ করার পরে আপনাকে যে কোনও চার্জ দিতে হবে না তা নিশ্চিত করতে, নিশ্চিত করুন যে আপনি ডাটা র্যাংলার অ্যাপটি বন্ধ করুন.

উপসংহার  

এই পোস্টে, আমরা নতুন উপস্থাপন আমাজন সেজমেকার ডেটা র্যাংলার উইজেট যা অপসারণ করতে সাহায্য করবে অভেদহীন ভারী উত্তোলন প্রতিটি বৈশিষ্ট্যের জন্য স্বয়ংক্রিয়ভাবে সারফেসিং ভিজ্যুয়ালাইজেশন এবং ডেটা প্রোফাইলিং অন্তর্দৃষ্টি সহ ডেটা প্রস্তুতির সময় শেষ ব্যবহারকারীদের জন্য। এই উইজেটটি ডেটা ভিজ্যুয়ালাইজ করা সহজ করে তোলে (উদাহরণস্বরূপ, শ্রেণীবদ্ধ/অ-শ্রেণীগত হিস্টোগ্রাম), ডেটা মানের সমস্যাগুলি সনাক্ত করে (উদাহরণস্বরূপ, অনুপস্থিত মান এবং অবৈধ মান) এবং পৃষ্ঠের ডেটা অন্তর্দৃষ্টি (উদাহরণস্বরূপ, আউটলিয়ার এবং শীর্ষ N আইটেম)।

SageMaker স্টুডিও পাওয়া যায় এমন সমস্ত অঞ্চলে আপনি আজ এই ক্ষমতা ব্যবহার শুরু করতে পারেন। একবার চেষ্টা করে দেখো, এবং আমাদের আপনি কী মনে করেন. আমরা সবসময় আপনার প্রতিক্রিয়ার অপেক্ষায় থাকি, হয় আপনার সাধারণ AWS সহায়তা পরিচিতির মাধ্যমে বা AWS ফোরাম সেজমেকারের জন্য।


লেখক সম্পর্কে

অ্যামাজন সেজমেকার ডেটা র্যাংলারের নতুন এমবেডেড ভিজ্যুয়ালাইজেশন প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের সাথে পরিচয় করিয়ে দেওয়া হচ্ছে। উল্লম্ব অনুসন্ধান. আ.ইশার দুআ সান ফ্রান্সিসকো বে এরিয়াতে অবস্থিত একজন সিনিয়র সলিউশন আর্কিটেক্ট। তিনি AWS এন্টারপ্রাইজ গ্রাহকদের তাদের লক্ষ্য এবং চ্যালেঞ্জগুলি বোঝার মাধ্যমে বৃদ্ধি পেতে সাহায্য করেন এবং তারা কীভাবে তাদের অ্যাপ্লিকেশনগুলিকে ক্লাউড-নেটিভ পদ্ধতিতে আর্কিটেক্ট করতে পারেন এবং তারা স্থিতিস্থাপক এবং পরিমাপযোগ্য তা নিশ্চিত করে তাদের নির্দেশনা দেন৷ তিনি মেশিন লার্নিং প্রযুক্তি এবং পরিবেশগত স্থায়িত্ব সম্পর্কে উত্সাহী।

অ্যামাজন সেজমেকার ডেটা র্যাংলারের নতুন এমবেডেড ভিজ্যুয়ালাইজেশন প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের সাথে পরিচয় করিয়ে দেওয়া হচ্ছে। উল্লম্ব অনুসন্ধান. আ.পার্থ প্যাটেল সান ফ্রান্সিসকো বে এরিয়াতে AWS-এর একজন সমাধান স্থপতি। পার্থ গ্রাহকদের ক্লাউডে তাদের যাত্রা ত্বরান্বিত করতে গাইড করে এবং তাদের AWS ক্লাউড সফলভাবে গ্রহণ করতে সহায়তা করে। তিনি এমএল এবং অ্যাপ্লিকেশন আধুনিকীকরণের দিকে মনোনিবেশ করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

অ্যামাজন কেন্দ্র স্ল্যাক সংযোগকারী ব্যবহার করে বুদ্ধিমান অনুসন্ধানের মাধ্যমে স্ল্যাক ওয়ার্কস্পেসগুলিতে জ্ঞানের উন্মোচন করুন

উত্স নোড: 1216424
সময় স্ট্যাম্প: মার্চ 15, 2022

সোফোস কীভাবে অ্যামাজন সেজমেকারের সাথে আল্ট্রা স্কেলে একটি শক্তিশালী, হালকা ওজনের পিডিএফ ম্যালওয়্যার আবিষ্কারককে প্রশিক্ষণ দেয়

উত্স নোড: 1705967
সময় স্ট্যাম্প: সেপ্টেম্বর 29, 2022