Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence میں PySpark اور Altair کوڈ کے ٹکڑوں کے ساتھ تیزی سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

Amazon SageMaker Data Wrangler میں PySpark اور Altair کوڈ کے ٹکڑوں کے ساتھ تیزی سے ڈیٹا تیار کریں۔

ایمیزون سیج میکر ڈیٹا رینگلر مشین لرننگ (ML) کے لیے ایک مقصد سے تیار کردہ ڈیٹا اکٹھا کرنے اور تیاری کا ٹول ہے۔ یہ آپ کو ڈیٹا تک رسائی اور ایکسپلوریٹری ڈیٹا اینالیسس (EDA) اور فیچر انجینئرنگ انجام دینے کے لیے ایک بصری انٹرفیس استعمال کرنے کی اجازت دیتا ہے۔ EDA فیچر چارٹس کے لیے بلٹ ان ڈیٹا تجزیہ کی صلاحیتوں کے ساتھ آتا ہے (جیسے سکیٹر پلاٹ یا ہسٹوگرام) اور وقت بچانے والے ماڈل کے تجزیہ کی صلاحیتوں جیسے فیچر کی اہمیت، ہدف کا رساو، اور ماڈل کی وضاحت۔ فیچر انجینئرنگ کی صلاحیت میں 300 سے زیادہ بلٹ ان ٹرانسفارمز ہیں اور Python، PySpark، یا Spark SQL رن ٹائم کا استعمال کرتے ہوئے اپنی مرضی کے مطابق تبدیلیاں کر سکتے ہیں۔

حسب ضرورت تصورات اور تبدیلیوں کے لیے، ڈیٹا رینگلر اب عام قسم کے تصورات اور تبدیلیوں کے لیے مثال کوڈ کے ٹکڑوں کو فراہم کرتا ہے۔ اس پوسٹ میں، ہم یہ ظاہر کرتے ہیں کہ ڈیٹا رینگلر میں اپنے EDA کو فوری شروع کرنے کے لیے ان کوڈ کے ٹکڑوں کو کیسے استعمال کیا جائے۔

حل جائزہ

اس تحریر کے وقت، آپ ڈیٹا سیٹس کو ڈیٹا رینگلر میں درآمد کر سکتے ہیں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)، ایمیزون ایتینا, ایمیزون ریڈ شفٹ، ڈیٹابرکس، اور سنو فلیک۔ اس پوسٹ کے لیے، ہم 3 Amazon کو اسٹور کرنے کے لیے Amazon S2014 کا استعمال کرتے ہیں۔ ڈیٹا سیٹ کا جائزہ لیتا ہے۔. درج ذیل ڈیٹاسیٹ کا نمونہ ہے:

{ "reviewerID": "A2SUAM1J3GNN3B", "asin": "0000013714", "reviewerName": "J. McDonald", "helpful": [2, 3], "reviewText": "I bought this for my husband who plays the piano. He is having a wonderful time playing these old hymns. The music is sometimes hard to read because we think the book was published for singing from more than playing from. Great purchase though!", "overall": 5.0, "summary": "Heavenly Highway Hymns", "unixReviewTime": 1252800000, "reviewTime": "09 13, 2009" } 

اس پوسٹ میں، ہم تین کالموں کا استعمال کرتے ہوئے EDA انجام دیتے ہیں۔asin, reviewTime، اور overall- جو بالترتیب پروڈکٹ ID، جائزہ لینے کے وقت کی تاریخ، اور مجموعی جائزہ سکور کا نقشہ بناتا ہے۔ ہم اس ڈیٹا کا استعمال مہینوں اور سالوں کے جائزوں کی تعداد کے لیے حرکیات کو دیکھنے کے لیے کرتے ہیں۔

ڈیٹا رینگلر میں EDA کے لیے مثال کوڈ کا ٹکڑا استعمال کرنا

ڈیٹا رینگلر میں EDA کی کارکردگی شروع کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:

  1. ڈاؤن لوڈ، اتارنا ڈیجیٹل میوزک ڈیٹاسیٹ کا جائزہ لیتا ہے۔ JSON اور اسے Amazon S3 پر اپ لوڈ کریں۔
    ہم اسے EDA کے لیے خام ڈیٹاسیٹ کے طور پر استعمال کرتے ہیں۔
  2. اوپن ایمیزون سیج میکر اسٹوڈیو اور ایک نیا ڈیٹا رینگلر فلو بنائیں اور Amazon S3 سے ڈیٹاسیٹ درآمد کریں۔

    اس ڈیٹاسیٹ میں نو کالم ہیں، لیکن ہم صرف تین استعمال کرتے ہیں: asin, reviewTime، اور overall. ہمیں باقی چھ کالم چھوڑنے کی ضرورت ہے۔

  3. اپنی مرضی کے مطابق تبدیلی بنائیں اور منتخب کریں۔ Python (PySpark).
  4. توسیع مثال کے ٹکڑوں کو تلاش کریں۔ اور منتخب کریں کئی کے علاوہ تمام کالم چھوڑ دیں۔.
  5. فراہم کردہ ٹکڑا اپنی حسب ضرورت تبدیلی میں درج کریں اور کوڈ میں ترمیم کرنے کے لیے ہدایات پر عمل کریں۔
    # Specify the subset of columns to keep
    cols = ["asin", "reviewTime", "overall"] cols_to_drop = set(df.columns).difference(cols) df = df.drop(*cols_to_drop)

    اب جب کہ ہمارے پاس مطلوبہ تمام کالم موجود ہیں، آئیے صرف 2000-2020 کے درمیان جائزے رکھنے کے لیے ڈیٹا کو فلٹر کریں۔

  6. استعمال کریں رینج سے باہر ٹائم اسٹیمپ کو فلٹر کریں۔ سال 2000 سے پہلے اور 2020 کے بعد ڈیٹا چھوڑنے کا ٹکڑا:
    from pyspark.sql.functions import col
    from datetime import datetime # specify the start and the stop timestamp
    timestamp_start = datetime.strptime("2000-01-01 12:00:00", "%Y-%m-%d %H:%M:%S")
    timestamp_stop = datetime.strptime("2020-01-01 12:00:00", "%Y-%m-%d %H:%M:%S") df = df.filter(col("reviewTime").between(timestamp_start, timestamp_stop))

    اگلا، ہم ریویو ٹائم کالم سے سال اور مہینہ نکالتے ہیں۔

  7. استعمال کریں تاریخ/وقت کو نمایاں کریں۔ تبدیل
  8. کے لئے کالم نکالیں۔منتخب کریں سال اور مہینے.

    اگلا، ہم سال اور مہینے کے حساب سے جائزوں کی تعداد کو جمع کرنا چاہتے ہیں جو ہم نے پچھلے مرحلے میں بنائے تھے۔

  9. استعمال کریں گروپس میں شماریات کی گنتی کریں۔ ٹکڑا:
    # Table is available as variable `df`
    from pyspark.sql.functions import sum, avg, max, min, mean, count # Provide the list of columns defining groups
    groupby_cols = ["reviewTime_year", "reviewTime_month"] # Specify the map of aggregate function to the list of colums
    # aggregates to use: sum, avg, max, min, mean, count
    aggregate_map = {count: ["overall"]} all_aggregates = []
    for a, cols in aggregate_map.items(): all_aggregates += [a(col) for col in cols] df = df.groupBy(groupby_cols).agg(*all_aggregates)

  10. سے پچھلے مرحلے کی جمع کا نام تبدیل کریں۔ count(overall) کرنے کے لئے reviews_num منتخب کر کے کالموں کا نظم کریں۔ اور کالم کا نام تبدیل کریں۔ تبدیل
    آخر میں، ہم سال اور مہینے کے حساب سے جائزوں کی تقسیم کو دیکھنے کے لیے ایک ہیٹ میپ بنانا چاہتے ہیں۔
  11. تجزیہ ٹیب پر، منتخب کریں۔ حسب ضرورت تصور.
  12. توسیع ٹکڑا تلاش کریں۔ اور منتخب کریں حرارت کا نقشہ ڈراپ ڈاؤن مینو پر۔
  13. اپنے حسب ضرورت تصور میں فراہم کردہ ٹکڑا درج کریں:
    # Table is available as variable `df`
    # Table is available as variable `df`
    import altair as alt # Takes first 1000 records of the Dataframe
    df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
    )

    ہمیں مندرجہ ذیل تصور ملتا ہے۔

    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence میں PySpark اور Altair کوڈ کے ٹکڑوں کے ساتھ تیزی سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی
    اگر آپ ہیٹ میپ کو مزید بڑھانا چاہتے ہیں، تو آپ صرف 2011 سے پہلے کے جائزے دکھانے کے لیے ڈیٹا کو کاٹ سکتے ہیں۔ 2012 سے بڑے پیمانے پر جائزوں کی وجہ سے ہم نے جو ہیٹ میپ بنایا ہے اس میں ان کی شناخت کرنا مشکل ہے۔

  14. اپنے حسب ضرورت تصور میں کوڈ کی ایک لائن شامل کریں:
    # Table is available as variable `df`
    import altair as alt df = df[df.reviewTime_year < 2011]
    # Takes first 1000 records of the Dataframe
    df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
    )

ہمیں درج ذیل ہیٹ میپ ملتا ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence میں PySpark اور Altair کوڈ کے ٹکڑوں کے ساتھ تیزی سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

اب ہیٹ میپ 2011 سے پہلے کے جائزوں کی زیادہ واضح طور پر عکاسی کرتا ہے: ہم موسمی اثرات کا مشاہدہ کر سکتے ہیں (سال کے آخر میں زیادہ خریداریاں آتی ہیں اور اس وجہ سے مزید جائزے آتے ہیں) اور غیر معمولی مہینوں کی نشاندہی کر سکتے ہیں، جیسے اکتوبر 2003 اور مارچ 2005۔ یہ مزید تفتیش کے قابل ہے۔ ان بے ضابطگیوں کی وجہ کا تعین کرنے کے لیے۔

نتیجہ

ڈیٹا رینگلر ML کے لیے ایک مقصد سے بنایا گیا ڈیٹا اکٹھا کرنے اور تیاری کا ٹول ہے۔ اس پوسٹ میں، ہم نے EDA کو انجام دینے اور ڈیٹا رینگلر کے فراہم کردہ کوڈ کے ٹکڑوں کا استعمال کرتے ہوئے اپنے ڈیٹا کو تیزی سے تبدیل کرنے کا طریقہ دکھایا ہے۔ آپ کو صرف ایک ٹکڑا تلاش کرنے، کوڈ درج کرنے اور اپنے ڈیٹا سیٹ سے ملنے کے لیے پیرامیٹرز کو ایڈجسٹ کرنے کی ضرورت ہے۔ آپ مزید پیچیدہ تصورات اور تبدیلیاں تخلیق کرنے کے لیے اپنی اسکرپٹ پر تکرار جاری رکھ سکتے ہیں۔
ڈیٹا رینگلر کے بارے میں مزید جاننے کے لیے، رجوع کریں۔ ڈیٹا رینگلر فلو بنائیں اور استعمال کریں۔.


مصنفین کے بارے میں

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence میں PySpark اور Altair کوڈ کے ٹکڑوں کے ساتھ تیزی سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عینکیتا ایوکن ایک اپلائیڈ سائنٹسٹ، ایمیزون سیج میکر ڈیٹا رینگلر ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence میں PySpark اور Altair کوڈ کے ٹکڑوں کے ساتھ تیزی سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عیحیدر نقوی AWS میں ایک حل آرکیٹیکٹ ہے۔ اس کے پاس سافٹ ویئر ڈویلپمنٹ اور انٹرپرائز آرکیٹیکچر کا وسیع تجربہ ہے۔ وہ صارفین کو AWS کے ساتھ کاروباری نتائج حاصل کرنے کے قابل بنانے پر توجہ مرکوز کرتا ہے۔ وہ نیویارک سے باہر مقیم ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence میں PySpark اور Altair کوڈ کے ٹکڑوں کے ساتھ تیزی سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عیہریش راجگوپالن ایمیزون ویب سروسز میں ایک سینئر حل آرکیٹیکٹ ہے۔ ہریش انٹرپرائز صارفین کے ساتھ کام کرتا ہے اور ان کے کلاؤڈ سفر میں ان کی مدد کرتا ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence میں PySpark اور Altair کوڈ کے ٹکڑوں کے ساتھ تیزی سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عیجیمز وو AWS میں ایک سینئر AI/ML ماہر SA ہے۔ وہ گاہکوں کے ساتھ کام کرتا ہے تاکہ ان کے کلاؤڈ سفر کو تیز کیا جا سکے اور ان کی کاروباری قدر کے حصول کو تیزی سے ٹریک کیا جا سکے۔ اس کے علاوہ، جیمز مختلف ڈومینز میں بڑے AI/ML سلوشنز تیار کرنے اور اسکیل کرنے کا بھی پرجوش ہے۔ AWS میں شامل ہونے سے پہلے، اس نے مارکیٹ اور ایڈورٹائزنگ انڈسٹری میں ایک اعلی عالمی فرم کے لیے ML انجینئرز اور سافٹ ویئر ڈویلپرز کے ساتھ ملٹی ڈسپلن انوویشن ٹیکنالوجی ٹیم کی قیادت کی۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ