Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এ PySpark এবং Altair কোড স্নিপেট দিয়ে দ্রুত ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.

Amazon SageMaker Data Wrangler-এ PySpark এবং Altair কোড স্নিপেট দিয়ে দ্রুত ডেটা প্রস্তুত করুন

অ্যামাজন সেজমেকার ডেটা র্যাংলার মেশিন লার্নিং (এমএল) এর জন্য একটি উদ্দেশ্য-নির্মিত ডেটা একত্রীকরণ এবং প্রস্তুতির সরঞ্জাম। এটি আপনাকে ডেটা অ্যাক্সেস করতে এবং অনুসন্ধানমূলক ডেটা বিশ্লেষণ (EDA) এবং বৈশিষ্ট্য প্রকৌশল করতে একটি ভিজ্যুয়াল ইন্টারফেস ব্যবহার করতে দেয়। EDA বৈশিষ্ট্যটি চার্টের জন্য অন্তর্নির্মিত ডেটা বিশ্লেষণ ক্ষমতা (যেমন স্ক্যাটার প্লট বা হিস্টোগ্রাম) এবং সময়-সংরক্ষণ মডেল বিশ্লেষণ ক্ষমতা যেমন বৈশিষ্ট্যের গুরুত্ব, লক্ষ্য ফাঁস এবং মডেল ব্যাখ্যাযোগ্যতার সাথে আসে। ফিচার ইঞ্জিনিয়ারিং ক্ষমতায় 300 টির বেশি বিল্ট-ইন ট্রান্সফর্ম রয়েছে এবং Python, PySpark, বা Spark SQL রানটাইম ব্যবহার করে কাস্টম রূপান্তর করতে পারে।

কাস্টম ভিজ্যুয়ালাইজেশন এবং রূপান্তরের জন্য, ডেটা র্যাংলার এখন সাধারণ ধরনের ভিজ্যুয়ালাইজেশন এবং রূপান্তরের জন্য উদাহরণ কোড স্নিপেট প্রদান করে। এই পোস্টে, আমরা প্রদর্শন করি কিভাবে ডেটা র্যাংলারে আপনার EDA দ্রুত শুরু করতে এই কোড স্নিপেটগুলি ব্যবহার করতে হয়।

সমাধান ওভারভিউ

এই লেখার সময়, আপনি ডেটা র্যাংলার থেকে ডেটাসেটগুলি আমদানি করতে পারেন আমাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস 3), অ্যামাজন অ্যাথেনা, আমাজন রেডশিফ্ট, Databricks, এবং Snowflake. এই পোস্টের জন্য, আমরা 3 অ্যামাজন সংরক্ষণ করতে Amazon S2014 ব্যবহার করি ডেটাসেট পর্যালোচনা করে. নিম্নলিখিত ডেটাসেটের একটি নমুনা:

{ "reviewerID": "A2SUAM1J3GNN3B", "asin": "0000013714", "reviewerName": "J. McDonald", "helpful": [2, 3], "reviewText": "I bought this for my husband who plays the piano. He is having a wonderful time playing these old hymns. The music is sometimes hard to read because we think the book was published for singing from more than playing from. Great purchase though!", "overall": 5.0, "summary": "Heavenly Highway Hymns", "unixReviewTime": 1252800000, "reviewTime": "09 13, 2009" } 

এই পোস্টে, আমরা তিনটি কলাম ব্যবহার করে EDA সম্পাদন করি-asin, reviewTime, এবং overall—যা যথাক্রমে পণ্যের আইডি, পর্যালোচনার সময় তারিখ এবং সামগ্রিক পর্যালোচনা স্কোরের সাথে মানচিত্র করে। আমরা মাস এবং বছর জুড়ে পর্যালোচনার সংখ্যার গতিবিদ্যা কল্পনা করতে এই ডেটা ব্যবহার করি।

ডেটা র্যাংলারে EDA-র জন্য উদাহরণ কোড স্নিপেট ব্যবহার করা

ডেটা র‍্যাংলারে EDA সঞ্চালন শুরু করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. ডাউনলোড ডিজিটাল মিউজিক রিভিউ ডেটাসেট JSON এবং এটি Amazon S3 এ আপলোড করুন।
    আমরা এটিকে EDA-এর কাঁচা ডেটাসেট হিসেবে ব্যবহার করি।
  2. খোলা অ্যামাজন সেজমেকার স্টুডিও এবং একটি নতুন ডেটা র্যাংলার ফ্লো তৈরি করুন এবং Amazon S3 থেকে ডেটাসেট আমদানি করুন।

    এই ডেটাসেটের নয়টি কলাম আছে, কিন্তু আমরা শুধুমাত্র তিনটি ব্যবহার করি: asin, reviewTime, এবং overall. আমাদের অন্য ছয়টি কলাম ড্রপ করতে হবে।

  3. একটি কাস্টম রূপান্তর তৈরি করুন এবং চয়ন করুন পাইথন (PySpark).
  4. বিস্তৃত করা উদাহরণ স্নিপেট অনুসন্ধান করুন এবং নির্বাচন করুন কয়েকটি ছাড়া সব কলাম বাদ দিন.
  5. আপনার কাস্টম ট্রান্সফর্মে প্রদত্ত স্নিপেটটি লিখুন এবং কোডটি পরিবর্তন করতে নির্দেশাবলী অনুসরণ করুন।
    # Specify the subset of columns to keep
    cols = ["asin", "reviewTime", "overall"] cols_to_drop = set(df.columns).difference(cols) df = df.drop(*cols_to_drop)

    এখন যেহেতু আমাদের প্রয়োজনীয় সমস্ত কলাম আছে, আসুন শুধুমাত্র 2000-2020 এর মধ্যে পর্যালোচনাগুলি রাখতে ডেটা ফিল্টার করি।

  6. ব্যবহার সীমার বাইরে টাইমস্ট্যাম্প ফিল্টার করুন 2000 সালের আগে এবং 2020 এর পরে ডেটা ড্রপ করার স্নিপেট:
    from pyspark.sql.functions import col
    from datetime import datetime # specify the start and the stop timestamp
    timestamp_start = datetime.strptime("2000-01-01 12:00:00", "%Y-%m-%d %H:%M:%S")
    timestamp_stop = datetime.strptime("2020-01-01 12:00:00", "%Y-%m-%d %H:%M:%S") df = df.filter(col("reviewTime").between(timestamp_start, timestamp_stop))

    এরপরে, আমরা পর্যালোচনার সময় কলাম থেকে বছর এবং মাস বের করি।

  7. ব্যবহার তারিখ/সময় বৈশিষ্ট্যযুক্ত করুন রূপান্তর
  8. জন্য কলাম বের করুননির্বাচন বছর এবং মাস.

    এর পরে, আমরা পূর্ববর্তী ধাপে তৈরি করা বছর এবং মাস অনুসারে পর্যালোচনার সংখ্যা একত্রিত করতে চাই।

  9. ব্যবহার গ্রুপে পরিসংখ্যান গণনা করুন স্নিপেট:
    # Table is available as variable `df`
    from pyspark.sql.functions import sum, avg, max, min, mean, count # Provide the list of columns defining groups
    groupby_cols = ["reviewTime_year", "reviewTime_month"] # Specify the map of aggregate function to the list of colums
    # aggregates to use: sum, avg, max, min, mean, count
    aggregate_map = {count: ["overall"]} all_aggregates = []
    for a, cols in aggregate_map.items(): all_aggregates += [a(col) for col in cols] df = df.groupBy(groupby_cols).agg(*all_aggregates)

  10. থেকে আগের ধাপের সমষ্টির নাম পরিবর্তন করুন count(overall) থেকে reviews_num পছন্দের দ্বারা কলাম পরিচালনা করুন এবং কলামটির নাম পরিবর্তন করুন রূপান্তর
    পরিশেষে, আমরা একটি হিটম্যাপ তৈরি করতে চাই যাতে বছর এবং মাস অনুসারে পর্যালোচনার বন্টন কল্পনা করা যায়।
  11. বিশ্লেষণ ট্যাবে, নির্বাচন করুন কাস্টম ভিজ্যুয়ালাইজেশন.
  12. বিস্তৃত করা স্নিপেট জন্য অনুসন্ধান এবং নির্বাচন করুন তাপ মানচিত্র ড্রপ-ডাউন মেনুতে।
  13. আপনার কাস্টম ভিজ্যুয়ালাইজেশনে প্রদত্ত স্নিপেট লিখুন:
    # Table is available as variable `df`
    # Table is available as variable `df`
    import altair as alt # Takes first 1000 records of the Dataframe
    df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
    )

    আমরা নিম্নলিখিত ভিজ্যুয়ালাইজেশন পেতে.

    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এ PySpark এবং Altair কোড স্নিপেট দিয়ে দ্রুত ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.
    আপনি যদি হিটম্যাপটিকে আরও উন্নত করতে চান, আপনি শুধুমাত্র 2011 সালের আগের পর্যালোচনাগুলি দেখানোর জন্য ডেটা স্লাইস করতে পারেন৷ 2012 সাল থেকে প্রচুর পরিমাণে পর্যালোচনার কারণে আমরা এইমাত্র যে হিটম্যাপ তৈরি করেছি তাতে এগুলি সনাক্ত করা কঠিন৷

  14. আপনার কাস্টম ভিজ্যুয়ালাইজেশনে কোডের একটি লাইন যোগ করুন:
    # Table is available as variable `df`
    import altair as alt df = df[df.reviewTime_year < 2011]
    # Takes first 1000 records of the Dataframe
    df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
    )

আমরা নিম্নলিখিত হিটম্যাপ পেতে.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এ PySpark এবং Altair কোড স্নিপেট দিয়ে দ্রুত ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.

এখন হিটম্যাপ 2011 সালের আগের পর্যালোচনাগুলিকে আরও দৃশ্যমানভাবে প্রতিফলিত করে: আমরা ঋতুগত প্রভাবগুলি পর্যবেক্ষণ করতে পারি (বছরের শেষটি আরও বেশি কেনাকাটা নিয়ে আসে এবং তাই আরও বেশি রিভিউ নিয়ে আসে) এবং অক্টোবর 2003 এবং মার্চ 2005 এর মতো অস্বাভাবিক মাসগুলি সনাক্ত করতে পারি৷ এটি আরও তদন্ত করার মতো এই অসঙ্গতির কারণ নির্ণয় করতে।

উপসংহার

ডেটা র্যাংলার হল ML-এর জন্য একটি উদ্দেশ্য-নির্মিত ডেটা একত্রীকরণ এবং প্রস্তুতির সরঞ্জাম। এই পোস্টে, আমরা দেখিয়েছি কিভাবে EDA সঞ্চালন করা যায় এবং ডেটা র‍্যাংলার দ্বারা প্রদত্ত কোড স্নিপেট ব্যবহার করে আপনার ডেটা দ্রুত রূপান্তর করা যায়। আপনাকে শুধু একটি স্নিপেট খুঁজে বের করতে হবে, কোড লিখতে হবে এবং আপনার ডেটাসেটের সাথে মেলে পরামিতিগুলি সামঞ্জস্য করতে হবে। আপনি আরও জটিল ভিজ্যুয়ালাইজেশন এবং রূপান্তর তৈরি করতে আপনার স্ক্রিপ্টে পুনরাবৃত্তি করা চালিয়ে যেতে পারেন।
ডেটা র্যাংলার সম্পর্কে আরও জানতে, পড়ুন একটি ডেটা র্যাংলার ফ্লো তৈরি করুন এবং ব্যবহার করুন.


লেখক সম্পর্কে

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এ PySpark এবং Altair কোড স্নিপেট দিয়ে দ্রুত ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.নিকিতা ইভকিন একজন ফলিত বিজ্ঞানী, অ্যামাজন সেজমেকার ডেটা র্যাংলার।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এ PySpark এবং Altair কোড স্নিপেট দিয়ে দ্রুত ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.হায়দার নকভি AWS-এর একজন সলিউশন আর্কিটেক্ট। তার রয়েছে ব্যাপক সফটওয়্যার ডেভেলপমেন্ট এবং এন্টারপ্রাইজ আর্কিটেকচারের অভিজ্ঞতা। তিনি গ্রাহকদের AWS-এর মাধ্যমে ব্যবসায়িক ফলাফল অর্জন করতে সক্ষম করার দিকে মনোনিবেশ করেন। তিনি নিউ ইয়র্কের বাইরে অবস্থিত।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এ PySpark এবং Altair কোড স্নিপেট দিয়ে দ্রুত ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.হরিশ রাজাগোপালন আমাজন ওয়েব সার্ভিসের একজন সিনিয়র সলিউশন আর্কিটেক্ট। হরিশ এন্টারপ্রাইজ গ্রাহকদের সাথে কাজ করে এবং তাদের ক্লাউড যাত্রায় সাহায্য করে।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এ PySpark এবং Altair কোড স্নিপেট দিয়ে দ্রুত ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.জেমস উ AWS-এর একজন সিনিয়র AI/ML বিশেষজ্ঞ এসএ। তিনি গ্রাহকদের সাথে তাদের ক্লাউড যাত্রা ত্বরান্বিত করতে এবং তাদের ব্যবসায়িক মূল্য উপলব্ধি দ্রুত-ট্র্যাক করার জন্য কাজ করেন। এছাড়াও, জেমস বিভিন্ন ডোমেন জুড়ে বৃহৎ AI/ML সলিউশন তৈরি এবং স্কেল করার বিষয়েও আগ্রহী। AWS-এ যোগদানের আগে, তিনি ML ইঞ্জিনিয়ার এবং সফ্টওয়্যার ডেভেলপারদের সাথে বাজার এবং বিজ্ঞাপন শিল্পে একটি শীর্ষ বিশ্বব্যাপী ফার্মের জন্য একটি বহু-শৃঙ্খলা উদ্ভাবন প্রযুক্তি দলের নেতৃত্ব দেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং