অ্যামাজন সেজমেকার ডেটা র্যাংলারে পাইস্পার্ক এবং অল্টেয়ার কোড স্নিপেটগুলির সাথে দ্রুত ডেটা প্রস্তুত করুন

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

অ্যামাজন সেজমেকার ডেটা র্যাংলার মেশিন লার্নিং (এমএল) এর জন্য একটি উদ্দেশ্য-নির্মিত ডেটা একত্রীকরণ এবং প্রস্তুতির সরঞ্জাম। এটি আপনাকে ডেটা অ্যাক্সেস করতে এবং অনুসন্ধানমূলক ডেটা বিশ্লেষণ (EDA) এবং বৈশিষ্ট্য প্রকৌশল করতে একটি ভিজ্যুয়াল ইন্টারফেস ব্যবহার করতে দেয়। EDA বৈশিষ্ট্যটি চার্টের জন্য অন্তর্নির্মিত ডেটা বিশ্লেষণ ক্ষমতা (যেমন স্ক্যাটার প্লট বা হিস্টোগ্রাম) এবং সময়-সংরক্ষণ মডেল বিশ্লেষণ ক্ষমতা যেমন বৈশিষ্ট্যের গুরুত্ব, লক্ষ্য ফাঁস এবং মডেল ব্যাখ্যাযোগ্যতার সাথে আসে। ফিচার ইঞ্জিনিয়ারিং ক্ষমতায় 300 টির বেশি বিল্ট-ইন ট্রান্সফর্ম রয়েছে এবং Python, PySpark, বা Spark SQL রানটাইম ব্যবহার করে কাস্টম রূপান্তর করতে পারে।

কাস্টম ভিজ্যুয়ালাইজেশন এবং রূপান্তরের জন্য, ডেটা র্যাংলার এখন সাধারণ ধরনের ভিজ্যুয়ালাইজেশন এবং রূপান্তরের জন্য উদাহরণ কোড স্নিপেট প্রদান করে। এই পোস্টে, আমরা প্রদর্শন করি কিভাবে ডেটা র্যাংলারে আপনার EDA দ্রুত শুরু করতে এই কোড স্নিপেটগুলি ব্যবহার করতে হয়।

সমাধান ওভারভিউ

এই লেখার সময়, আপনি ডেটা র্যাংলার থেকে ডেটাসেটগুলি আমদানি করতে পারেন আমাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস 3), অ্যামাজন অ্যাথেনা, আমাজন রেডশিফ্ট, Databricks, এবং Snowflake. এই পোস্টের জন্য, আমরা 3 অ্যামাজন সংরক্ষণ করতে Amazon S2014 ব্যবহার করি ডেটাসেট পর্যালোচনা করে. নিম্নলিখিত ডেটাসেটের একটি নমুনা:

{ "reviewerID": "A2SUAM1J3GNN3B", "asin": "0000013714", "reviewerName": "J. McDonald", "helpful": [2, 3], "reviewText": "I bought this for my husband who plays the piano. He is having a wonderful time playing these old hymns. The music is sometimes hard to read because we think the book was published for singing from more than playing from. Great purchase though!", "overall": 5.0, "summary": "Heavenly Highway Hymns", "unixReviewTime": 1252800000, "reviewTime": "09 13, 2009" }

এই পোস্টে, আমরা তিনটি কলাম ব্যবহার করে EDA সম্পাদন করি-asin, reviewTime, এবং overall—যা যথাক্রমে পণ্যের আইডি, পর্যালোচনার সময় তারিখ এবং সামগ্রিক পর্যালোচনা স্কোরের সাথে মানচিত্র করে। আমরা মাস এবং বছর জুড়ে পর্যালোচনার সংখ্যার গতিবিদ্যা কল্পনা করতে এই ডেটা ব্যবহার করি।

ডেটা র্যাংলারে EDA-র জন্য উদাহরণ কোড স্নিপেট ব্যবহার করা

ডেটা র‍্যাংলারে EDA সঞ্চালন শুরু করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

ডাউনলোড ডিজিটাল মিউজিক রিভিউ ডেটাসেট JSON এবং এটি Amazon S3 এ আপলোড করুন।
আমরা এটিকে EDA-এর কাঁচা ডেটাসেট হিসেবে ব্যবহার করি।
খোলা অ্যামাজন সেজমেকার স্টুডিও এবং একটি নতুন ডেটা র্যাংলার ফ্লো তৈরি করুন এবং Amazon S3 থেকে ডেটাসেট আমদানি করুন।

এই ডেটাসেটের নয়টি কলাম আছে, কিন্তু আমরা শুধুমাত্র তিনটি ব্যবহার করি: asin, reviewTime, এবং overall. আমাদের অন্য ছয়টি কলাম ড্রপ করতে হবে।
একটি কাস্টম রূপান্তর তৈরি করুন এবং চয়ন করুন পাইথন (PySpark).
বিস্তৃত করা উদাহরণ স্নিপেট অনুসন্ধান করুন এবং নির্বাচন করুন কয়েকটি ছাড়া সব কলাম বাদ দিন.
আপনার কাস্টম ট্রান্সফর্মে প্রদত্ত স্নিপেটটি লিখুন এবং কোডটি পরিবর্তন করতে নির্দেশাবলী অনুসরণ করুন।
```
# Specify the subset of columns to keep
cols = ["asin", "reviewTime", "overall"] cols_to_drop = set(df.columns).difference(cols) df = df.drop(*cols_to_drop)
```
এখন যেহেতু আমাদের প্রয়োজনীয় সমস্ত কলাম আছে, আসুন শুধুমাত্র 2000-2020 এর মধ্যে পর্যালোচনাগুলি রাখতে ডেটা ফিল্টার করি।
ব্যবহার সীমার বাইরে টাইমস্ট্যাম্প ফিল্টার করুন 2000 সালের আগে এবং 2020 এর পরে ডেটা ড্রপ করার স্নিপেট:
```
from pyspark.sql.functions import col
from datetime import datetime # specify the start and the stop timestamp
timestamp_start = datetime.strptime("2000-01-01 12:00:00", "%Y-%m-%d %H:%M:%S")
timestamp_stop = datetime.strptime("2020-01-01 12:00:00", "%Y-%m-%d %H:%M:%S") df = df.filter(col("reviewTime").between(timestamp_start, timestamp_stop))
```
এরপরে, আমরা পর্যালোচনার সময় কলাম থেকে বছর এবং মাস বের করি।
ব্যবহার তারিখ/সময় বৈশিষ্ট্যযুক্ত করুন রূপান্তর
জন্য কলাম বের করুননির্বাচন বছর এবং মাস.

এর পরে, আমরা পূর্ববর্তী ধাপে তৈরি করা বছর এবং মাস অনুসারে পর্যালোচনার সংখ্যা একত্রিত করতে চাই।

ব্যবহার গ্রুপে পরিসংখ্যান গণনা করুন স্নিপেট:

# Table is available as variable `df`
from pyspark.sql.functions import sum, avg, max, min, mean, count # Provide the list of columns defining groups
groupby_cols = ["reviewTime_year", "reviewTime_month"] # Specify the map of aggregate function to the list of colums
# aggregates to use: sum, avg, max, min, mean, count
aggregate_map = {count: ["overall"]} all_aggregates = []
for a, cols in aggregate_map.items(): all_aggregates += [a(col) for col in cols] df = df.groupBy(groupby_cols).agg(*all_aggregates)

থেকে আগের ধাপের সমষ্টির নাম পরিবর্তন করুন count(overall) থেকে reviews_num পছন্দের দ্বারা কলাম পরিচালনা করুন এবং কলামটির নাম পরিবর্তন করুন রূপান্তর
পরিশেষে, আমরা একটি হিটম্যাপ তৈরি করতে চাই যাতে বছর এবং মাস অনুসারে পর্যালোচনার বন্টন কল্পনা করা যায়।
বিশ্লেষণ ট্যাবে, নির্বাচন করুন কাস্টম ভিজ্যুয়ালাইজেশন.
বিস্তৃত করা স্নিপেট জন্য অনুসন্ধান এবং নির্বাচন করুন তাপ মানচিত্র ড্রপ-ডাউন মেনুতে।
আপনার কাস্টম ভিজ্যুয়ালাইজেশনে প্রদত্ত স্নিপেট লিখুন:
```
# Table is available as variable `df`
# Table is available as variable `df`
import altair as alt # Takes first 1000 records of the Dataframe
df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
)
```
আমরা নিম্নলিখিত ভিজ্যুয়ালাইজেশন পেতে.

আপনি যদি হিটম্যাপটিকে আরও উন্নত করতে চান, আপনি শুধুমাত্র 2011 সালের আগের পর্যালোচনাগুলি দেখানোর জন্য ডেটা স্লাইস করতে পারেন৷ 2012 সাল থেকে প্রচুর পরিমাণে পর্যালোচনার কারণে আমরা এইমাত্র যে হিটম্যাপ তৈরি করেছি তাতে এগুলি সনাক্ত করা কঠিন৷

আপনার কাস্টম ভিজ্যুয়ালাইজেশনে কোডের একটি লাইন যোগ করুন:

# Table is available as variable `df`
import altair as alt df = df[df.reviewTime_year < 2011]
# Takes first 1000 records of the Dataframe
df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
)

আমরা নিম্নলিখিত হিটম্যাপ পেতে.

এখন হিটম্যাপ 2011 সালের আগের পর্যালোচনাগুলিকে আরও দৃশ্যমানভাবে প্রতিফলিত করে: আমরা ঋতুগত প্রভাবগুলি পর্যবেক্ষণ করতে পারি (বছরের শেষটি আরও বেশি কেনাকাটা নিয়ে আসে এবং তাই আরও বেশি রিভিউ নিয়ে আসে) এবং অক্টোবর 2003 এবং মার্চ 2005 এর মতো অস্বাভাবিক মাসগুলি সনাক্ত করতে পারি৷ এটি আরও তদন্ত করার মতো এই অসঙ্গতির কারণ নির্ণয় করতে।

উপসংহার

ডেটা র্যাংলার হল ML-এর জন্য একটি উদ্দেশ্য-নির্মিত ডেটা একত্রীকরণ এবং প্রস্তুতির সরঞ্জাম। এই পোস্টে, আমরা দেখিয়েছি কিভাবে EDA সঞ্চালন করা যায় এবং ডেটা র‍্যাংলার দ্বারা প্রদত্ত কোড স্নিপেট ব্যবহার করে আপনার ডেটা দ্রুত রূপান্তর করা যায়। আপনাকে শুধু একটি স্নিপেট খুঁজে বের করতে হবে, কোড লিখতে হবে এবং আপনার ডেটাসেটের সাথে মেলে পরামিতিগুলি সামঞ্জস্য করতে হবে। আপনি আরও জটিল ভিজ্যুয়ালাইজেশন এবং রূপান্তর তৈরি করতে আপনার স্ক্রিপ্টে পুনরাবৃত্তি করা চালিয়ে যেতে পারেন।
ডেটা র্যাংলার সম্পর্কে আরও জানতে, পড়ুন একটি ডেটা র্যাংলার ফ্লো তৈরি করুন এবং ব্যবহার করুন.

লেখক সম্পর্কে

নিকিতা ইভকিন একজন ফলিত বিজ্ঞানী, অ্যামাজন সেজমেকার ডেটা র্যাংলার।

হায়দার নকভি AWS-এর একজন সলিউশন আর্কিটেক্ট। তার রয়েছে ব্যাপক সফটওয়্যার ডেভেলপমেন্ট এবং এন্টারপ্রাইজ আর্কিটেকচারের অভিজ্ঞতা। তিনি গ্রাহকদের AWS-এর মাধ্যমে ব্যবসায়িক ফলাফল অর্জন করতে সক্ষম করার দিকে মনোনিবেশ করেন। তিনি নিউ ইয়র্কের বাইরে অবস্থিত।

হরিশ রাজাগোপালন আমাজন ওয়েব সার্ভিসের একজন সিনিয়র সলিউশন আর্কিটেক্ট। হরিশ এন্টারপ্রাইজ গ্রাহকদের সাথে কাজ করে এবং তাদের ক্লাউড যাত্রায় সাহায্য করে।

জেমস উ AWS-এর একজন সিনিয়র AI/ML বিশেষজ্ঞ এসএ। তিনি গ্রাহকদের সাথে তাদের ক্লাউড যাত্রা ত্বরান্বিত করতে এবং তাদের ব্যবসায়িক মূল্য উপলব্ধি দ্রুত-ট্র্যাক করার জন্য কাজ করেন। এছাড়াও, জেমস বিভিন্ন ডোমেন জুড়ে বৃহৎ AI/ML সলিউশন তৈরি এবং স্কেল করার বিষয়েও আগ্রহী। AWS-এ যোগদানের আগে, তিনি ML ইঞ্জিনিয়ার এবং সফ্টওয়্যার ডেভেলপারদের সাথে বাজার এবং বিজ্ঞাপন শিল্পে একটি শীর্ষ বিশ্বব্যাপী ফার্মের জন্য একটি বহু-শৃঙ্খলা উদ্ভাবন প্রযুক্তি দলের নেতৃত্ব দেন।

সময় স্ট্যাম্প: জুন 15, 2022

সময় স্ট্যাম্প: নভেম্বর 30, 2022

Amazon SageMaker Data Wrangler-এ PySpark এবং Altair কোড স্নিপেট দিয়ে দ্রুত ডেটা প্রস্তুত করুন

প্লেটো দ্বারা প্রকাশিত

সমাধান ওভারভিউ

ডেটা র্যাংলারে EDA-র জন্য উদাহরণ কোড স্নিপেট ব্যবহার করা

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

শ্বেতপত্র: স্বাস্থ্যসেবা এবং জীবন বিজ্ঞানে মেশিন লার্নিং সেরা অনুশীলন

Amazon SageMaker Data Wrangler দিয়ে ইমেজ ডেটা প্রস্তুত করুন

AWS Trainium এবং Amazon SageMaker-এর মাধ্যমে কর্মক্ষমতা বাড়ান এবং আপনার গভীর শিক্ষার প্রশিক্ষণ খরচ কমিয়ে দিন

AI21 Jurassic-1 ফাউন্ডেশন মডেল এখন Amazon SageMaker-এ উপলব্ধ

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব