অ্যামাজন সেজমেকার ডেটা র্যাংলার মেশিন লার্নিং (এমএল) এর জন্য একটি উদ্দেশ্য-নির্মিত ডেটা একত্রীকরণ এবং প্রস্তুতির সরঞ্জাম। এটি আপনাকে ডেটা অ্যাক্সেস করতে এবং অনুসন্ধানমূলক ডেটা বিশ্লেষণ (EDA) এবং বৈশিষ্ট্য প্রকৌশল করতে একটি ভিজ্যুয়াল ইন্টারফেস ব্যবহার করতে দেয়। EDA বৈশিষ্ট্যটি চার্টের জন্য অন্তর্নির্মিত ডেটা বিশ্লেষণ ক্ষমতা (যেমন স্ক্যাটার প্লট বা হিস্টোগ্রাম) এবং সময়-সংরক্ষণ মডেল বিশ্লেষণ ক্ষমতা যেমন বৈশিষ্ট্যের গুরুত্ব, লক্ষ্য ফাঁস এবং মডেল ব্যাখ্যাযোগ্যতার সাথে আসে। ফিচার ইঞ্জিনিয়ারিং ক্ষমতায় 300 টির বেশি বিল্ট-ইন ট্রান্সফর্ম রয়েছে এবং Python, PySpark, বা Spark SQL রানটাইম ব্যবহার করে কাস্টম রূপান্তর করতে পারে।
কাস্টম ভিজ্যুয়ালাইজেশন এবং রূপান্তরের জন্য, ডেটা র্যাংলার এখন সাধারণ ধরনের ভিজ্যুয়ালাইজেশন এবং রূপান্তরের জন্য উদাহরণ কোড স্নিপেট প্রদান করে। এই পোস্টে, আমরা প্রদর্শন করি কিভাবে ডেটা র্যাংলারে আপনার EDA দ্রুত শুরু করতে এই কোড স্নিপেটগুলি ব্যবহার করতে হয়।
সমাধান ওভারভিউ
এই লেখার সময়, আপনি ডেটা র্যাংলার থেকে ডেটাসেটগুলি আমদানি করতে পারেন আমাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস 3), অ্যামাজন অ্যাথেনা, আমাজন রেডশিফ্ট, Databricks, এবং Snowflake. এই পোস্টের জন্য, আমরা 3 অ্যামাজন সংরক্ষণ করতে Amazon S2014 ব্যবহার করি ডেটাসেট পর্যালোচনা করে. নিম্নলিখিত ডেটাসেটের একটি নমুনা:
এই পোস্টে, আমরা তিনটি কলাম ব্যবহার করে EDA সম্পাদন করি-asin
, reviewTime
, এবং overall
—যা যথাক্রমে পণ্যের আইডি, পর্যালোচনার সময় তারিখ এবং সামগ্রিক পর্যালোচনা স্কোরের সাথে মানচিত্র করে। আমরা মাস এবং বছর জুড়ে পর্যালোচনার সংখ্যার গতিবিদ্যা কল্পনা করতে এই ডেটা ব্যবহার করি।
ডেটা র্যাংলারে EDA-র জন্য উদাহরণ কোড স্নিপেট ব্যবহার করা
ডেটা র্যাংলারে EDA সঞ্চালন শুরু করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- ডাউনলোড ডিজিটাল মিউজিক রিভিউ ডেটাসেট JSON এবং এটি Amazon S3 এ আপলোড করুন।
আমরা এটিকে EDA-এর কাঁচা ডেটাসেট হিসেবে ব্যবহার করি। - খোলা অ্যামাজন সেজমেকার স্টুডিও এবং একটি নতুন ডেটা র্যাংলার ফ্লো তৈরি করুন এবং Amazon S3 থেকে ডেটাসেট আমদানি করুন।
এই ডেটাসেটের নয়টি কলাম আছে, কিন্তু আমরা শুধুমাত্র তিনটি ব্যবহার করি:
asin
,reviewTime
, এবংoverall
. আমাদের অন্য ছয়টি কলাম ড্রপ করতে হবে। - একটি কাস্টম রূপান্তর তৈরি করুন এবং চয়ন করুন পাইথন (PySpark).
- বিস্তৃত করা উদাহরণ স্নিপেট অনুসন্ধান করুন এবং নির্বাচন করুন কয়েকটি ছাড়া সব কলাম বাদ দিন.
- আপনার কাস্টম ট্রান্সফর্মে প্রদত্ত স্নিপেটটি লিখুন এবং কোডটি পরিবর্তন করতে নির্দেশাবলী অনুসরণ করুন।
এখন যেহেতু আমাদের প্রয়োজনীয় সমস্ত কলাম আছে, আসুন শুধুমাত্র 2000-2020 এর মধ্যে পর্যালোচনাগুলি রাখতে ডেটা ফিল্টার করি।
- ব্যবহার সীমার বাইরে টাইমস্ট্যাম্প ফিল্টার করুন 2000 সালের আগে এবং 2020 এর পরে ডেটা ড্রপ করার স্নিপেট:
এরপরে, আমরা পর্যালোচনার সময় কলাম থেকে বছর এবং মাস বের করি।
- ব্যবহার তারিখ/সময় বৈশিষ্ট্যযুক্ত করুন রূপান্তর
- জন্য কলাম বের করুননির্বাচন বছর এবং মাস.
এর পরে, আমরা পূর্ববর্তী ধাপে তৈরি করা বছর এবং মাস অনুসারে পর্যালোচনার সংখ্যা একত্রিত করতে চাই।
- ব্যবহার গ্রুপে পরিসংখ্যান গণনা করুন স্নিপেট:
- থেকে আগের ধাপের সমষ্টির নাম পরিবর্তন করুন
count(overall)
থেকেreviews_num
পছন্দের দ্বারা কলাম পরিচালনা করুন এবং কলামটির নাম পরিবর্তন করুন রূপান্তর
পরিশেষে, আমরা একটি হিটম্যাপ তৈরি করতে চাই যাতে বছর এবং মাস অনুসারে পর্যালোচনার বন্টন কল্পনা করা যায়। - বিশ্লেষণ ট্যাবে, নির্বাচন করুন কাস্টম ভিজ্যুয়ালাইজেশন.
- বিস্তৃত করা স্নিপেট জন্য অনুসন্ধান এবং নির্বাচন করুন তাপ মানচিত্র ড্রপ-ডাউন মেনুতে।
- আপনার কাস্টম ভিজ্যুয়ালাইজেশনে প্রদত্ত স্নিপেট লিখুন:
আমরা নিম্নলিখিত ভিজ্যুয়ালাইজেশন পেতে.
আপনি যদি হিটম্যাপটিকে আরও উন্নত করতে চান, আপনি শুধুমাত্র 2011 সালের আগের পর্যালোচনাগুলি দেখানোর জন্য ডেটা স্লাইস করতে পারেন৷ 2012 সাল থেকে প্রচুর পরিমাণে পর্যালোচনার কারণে আমরা এইমাত্র যে হিটম্যাপ তৈরি করেছি তাতে এগুলি সনাক্ত করা কঠিন৷ - আপনার কাস্টম ভিজ্যুয়ালাইজেশনে কোডের একটি লাইন যোগ করুন:
আমরা নিম্নলিখিত হিটম্যাপ পেতে.
এখন হিটম্যাপ 2011 সালের আগের পর্যালোচনাগুলিকে আরও দৃশ্যমানভাবে প্রতিফলিত করে: আমরা ঋতুগত প্রভাবগুলি পর্যবেক্ষণ করতে পারি (বছরের শেষটি আরও বেশি কেনাকাটা নিয়ে আসে এবং তাই আরও বেশি রিভিউ নিয়ে আসে) এবং অক্টোবর 2003 এবং মার্চ 2005 এর মতো অস্বাভাবিক মাসগুলি সনাক্ত করতে পারি৷ এটি আরও তদন্ত করার মতো এই অসঙ্গতির কারণ নির্ণয় করতে।
উপসংহার
ডেটা র্যাংলার হল ML-এর জন্য একটি উদ্দেশ্য-নির্মিত ডেটা একত্রীকরণ এবং প্রস্তুতির সরঞ্জাম। এই পোস্টে, আমরা দেখিয়েছি কিভাবে EDA সঞ্চালন করা যায় এবং ডেটা র্যাংলার দ্বারা প্রদত্ত কোড স্নিপেট ব্যবহার করে আপনার ডেটা দ্রুত রূপান্তর করা যায়। আপনাকে শুধু একটি স্নিপেট খুঁজে বের করতে হবে, কোড লিখতে হবে এবং আপনার ডেটাসেটের সাথে মেলে পরামিতিগুলি সামঞ্জস্য করতে হবে। আপনি আরও জটিল ভিজ্যুয়ালাইজেশন এবং রূপান্তর তৈরি করতে আপনার স্ক্রিপ্টে পুনরাবৃত্তি করা চালিয়ে যেতে পারেন।
ডেটা র্যাংলার সম্পর্কে আরও জানতে, পড়ুন একটি ডেটা র্যাংলার ফ্লো তৈরি করুন এবং ব্যবহার করুন.
লেখক সম্পর্কে
নিকিতা ইভকিন একজন ফলিত বিজ্ঞানী, অ্যামাজন সেজমেকার ডেটা র্যাংলার।
হায়দার নকভি AWS-এর একজন সলিউশন আর্কিটেক্ট। তার রয়েছে ব্যাপক সফটওয়্যার ডেভেলপমেন্ট এবং এন্টারপ্রাইজ আর্কিটেকচারের অভিজ্ঞতা। তিনি গ্রাহকদের AWS-এর মাধ্যমে ব্যবসায়িক ফলাফল অর্জন করতে সক্ষম করার দিকে মনোনিবেশ করেন। তিনি নিউ ইয়র্কের বাইরে অবস্থিত।
হরিশ রাজাগোপালন আমাজন ওয়েব সার্ভিসের একজন সিনিয়র সলিউশন আর্কিটেক্ট। হরিশ এন্টারপ্রাইজ গ্রাহকদের সাথে কাজ করে এবং তাদের ক্লাউড যাত্রায় সাহায্য করে।
জেমস উ AWS-এর একজন সিনিয়র AI/ML বিশেষজ্ঞ এসএ। তিনি গ্রাহকদের সাথে তাদের ক্লাউড যাত্রা ত্বরান্বিত করতে এবং তাদের ব্যবসায়িক মূল্য উপলব্ধি দ্রুত-ট্র্যাক করার জন্য কাজ করেন। এছাড়াও, জেমস বিভিন্ন ডোমেন জুড়ে বৃহৎ AI/ML সলিউশন তৈরি এবং স্কেল করার বিষয়েও আগ্রহী। AWS-এ যোগদানের আগে, তিনি ML ইঞ্জিনিয়ার এবং সফ্টওয়্যার ডেভেলপারদের সাথে বাজার এবং বিজ্ঞাপন শিল্পে একটি শীর্ষ বিশ্বব্যাপী ফার্মের জন্য একটি বহু-শৃঙ্খলা উদ্ভাবন প্রযুক্তি দলের নেতৃত্ব দেন।
- Coinsmart. ইউরোপের সেরা বিটকয়েন এবং ক্রিপ্টো এক্সচেঞ্জ।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. বিনামূল্যে এক্সেস.
- ক্রিপ্টোহক। Altcoin রাডার। বিনামূল্যে ট্রায়াল.
- সূত্র: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- সম্পর্কে
- দ্রুততর করা
- প্রবেশ
- অর্জন করা
- দিয়ে
- যোগ
- বিজ্ঞাপন
- সব
- অনুমতি
- মর্দানী স্ত্রীলোক
- অ্যামাজন ওয়েব সার্ভিসেস
- বিশ্লেষণ
- ফলিত
- স্থাপত্য
- সহজলভ্য
- ডেস্কটপ AWS
- অক্ষ
- কারণ
- আগে
- মধ্যে
- বিল্ট-ইন
- ব্যবসায়
- ক্ষমতা
- কারণ
- চার্ট
- বেছে নিন
- মেঘ
- কোড
- স্তম্ভ
- সাধারণ
- সম্পূর্ণ
- জটিল
- অবিরত
- নিয়ন্ত্রণগুলি
- সৃষ্টি
- নির্মিত
- প্রথা
- গ্রাহকদের
- উপাত্ত
- তথ্য বিশ্লেষণ
- প্রদর্শন
- প্রদর্শিত
- নির্ধারণ
- ডেভেলপারদের
- উন্নয়নশীল
- উন্নয়ন
- বিতরণ
- ডোমেইনের
- নিচে
- ড্রপ
- গতিবিদ্যা
- প্রভাব
- সক্রিয়
- প্রকৌশল
- প্রকৌশলী
- প্রবেশ করান
- উদ্যোগ
- উদাহরণ
- ছাড়া
- অভিজ্ঞতা
- ব্যাপক
- দ্রুত
- বৈশিষ্ট্য
- পরিশেষে
- দৃঢ়
- প্রথম
- প্রবাহ
- গুরুত্ত্ব
- অনুসরণ করা
- অনুসরণ
- থেকে
- ক্রিয়া
- ক্রিয়াকলাপ
- অধিকতর
- বিশ্বব্যাপী
- মহান
- গ্রুপের
- জমিদারি
- সহায়ক
- সাহায্য
- কিভাবে
- কিভাবে
- HTTPS দ্বারা
- সনাক্ত করা
- গুরুত্ব
- শিল্প
- ইনোভেশন
- ইন্টারফেস
- IT
- যাত্রা
- রাখা
- বড়
- শিখতে
- শিক্ষা
- বরফ
- লাইন
- তালিকা
- মেশিন
- মেশিন লার্নিং
- মানচিত্র
- মার্চ
- বাজার
- ম্যাচ
- ML
- মডেল
- মাস
- মাসের
- অধিক
- সঙ্গীত
- নাম
- নিউ ইয়র্ক
- সংখ্যা
- অন্যান্য
- সামগ্রিক
- কামুক
- করণ
- কেলি
- প্রস্তুত করা
- আগে
- পণ্য
- প্রদান
- প্রদত্ত
- উপলব্ধ
- ক্রয়
- কেনাকাটা
- মাত্রিক
- দ্রুত
- কাঁচা
- রেকর্ড
- প্রতিফলিত
- এখানে ক্লিক করুন
- পর্যালোচনা
- আরোহী
- বিজ্ঞানী
- সেবা
- সহজ
- থেকে
- ছয়
- সফটওয়্যার
- সফটওয়্যার উন্নয়ন
- সলিউশন
- বিশেষজ্ঞ
- শুরু
- পরিসংখ্যান
- স্টোরেজ
- দোকান
- লক্ষ্য
- টীম
- প্রযুক্তিঃ
- সার্জারির
- অতএব
- তিন
- সময়
- টুল
- শীর্ষ
- রুপান্তর
- রূপান্তরের
- ধরনের
- ব্যবহার
- মূল্য
- বিভিন্ন
- কল্পনা
- ভলিউম
- ওয়েব
- ওয়েব সার্ভিস
- হু
- বিস্ময়কর
- কাজ
- মূল্য
- লেখা
- X
- বছর
- বছর
- আপনার