ایمیزون سیج میکر ڈیٹا رینگلر میں پی اسپارک اور الٹیر کوڈ کے ٹکڑوں کے ساتھ تیزی سے ڈیٹا تیار کریں۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

ایمیزون سیج میکر ڈیٹا رینگلر مشین لرننگ (ML) کے لیے ایک مقصد سے تیار کردہ ڈیٹا اکٹھا کرنے اور تیاری کا ٹول ہے۔ یہ آپ کو ڈیٹا تک رسائی اور ایکسپلوریٹری ڈیٹا اینالیسس (EDA) اور فیچر انجینئرنگ انجام دینے کے لیے ایک بصری انٹرفیس استعمال کرنے کی اجازت دیتا ہے۔ EDA فیچر چارٹس کے لیے بلٹ ان ڈیٹا تجزیہ کی صلاحیتوں کے ساتھ آتا ہے (جیسے سکیٹر پلاٹ یا ہسٹوگرام) اور وقت بچانے والے ماڈل کے تجزیہ کی صلاحیتوں جیسے فیچر کی اہمیت، ہدف کا رساو، اور ماڈل کی وضاحت۔ فیچر انجینئرنگ کی صلاحیت میں 300 سے زیادہ بلٹ ان ٹرانسفارمز ہیں اور Python، PySpark، یا Spark SQL رن ٹائم کا استعمال کرتے ہوئے اپنی مرضی کے مطابق تبدیلیاں کر سکتے ہیں۔

حسب ضرورت تصورات اور تبدیلیوں کے لیے، ڈیٹا رینگلر اب عام قسم کے تصورات اور تبدیلیوں کے لیے مثال کوڈ کے ٹکڑوں کو فراہم کرتا ہے۔ اس پوسٹ میں، ہم یہ ظاہر کرتے ہیں کہ ڈیٹا رینگلر میں اپنے EDA کو فوری شروع کرنے کے لیے ان کوڈ کے ٹکڑوں کو کیسے استعمال کیا جائے۔

حل جائزہ

اس تحریر کے وقت، آپ ڈیٹا سیٹس کو ڈیٹا رینگلر میں درآمد کر سکتے ہیں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)، ایمیزون ایتینا, ایمیزون ریڈ شفٹ، ڈیٹابرکس، اور سنو فلیک۔ اس پوسٹ کے لیے، ہم 3 Amazon کو اسٹور کرنے کے لیے Amazon S2014 کا استعمال کرتے ہیں۔ ڈیٹا سیٹ کا جائزہ لیتا ہے۔. درج ذیل ڈیٹاسیٹ کا نمونہ ہے:

{ "reviewerID": "A2SUAM1J3GNN3B", "asin": "0000013714", "reviewerName": "J. McDonald", "helpful": [2, 3], "reviewText": "I bought this for my husband who plays the piano. He is having a wonderful time playing these old hymns. The music is sometimes hard to read because we think the book was published for singing from more than playing from. Great purchase though!", "overall": 5.0, "summary": "Heavenly Highway Hymns", "unixReviewTime": 1252800000, "reviewTime": "09 13, 2009" }

اس پوسٹ میں، ہم تین کالموں کا استعمال کرتے ہوئے EDA انجام دیتے ہیں۔asin, reviewTime، اور overall- جو بالترتیب پروڈکٹ ID، جائزہ لینے کے وقت کی تاریخ، اور مجموعی جائزہ سکور کا نقشہ بناتا ہے۔ ہم اس ڈیٹا کا استعمال مہینوں اور سالوں کے جائزوں کی تعداد کے لیے حرکیات کو دیکھنے کے لیے کرتے ہیں۔

ڈیٹا رینگلر میں EDA کے لیے مثال کوڈ کا ٹکڑا استعمال کرنا

ڈیٹا رینگلر میں EDA کی کارکردگی شروع کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:

ڈاؤن لوڈ، اتارنا ڈیجیٹل میوزک ڈیٹاسیٹ کا جائزہ لیتا ہے۔ JSON اور اسے Amazon S3 پر اپ لوڈ کریں۔
ہم اسے EDA کے لیے خام ڈیٹاسیٹ کے طور پر استعمال کرتے ہیں۔
اوپن ایمیزون سیج میکر اسٹوڈیو اور ایک نیا ڈیٹا رینگلر فلو بنائیں اور Amazon S3 سے ڈیٹاسیٹ درآمد کریں۔

اس ڈیٹاسیٹ میں نو کالم ہیں، لیکن ہم صرف تین استعمال کرتے ہیں: asin, reviewTime، اور overall. ہمیں باقی چھ کالم چھوڑنے کی ضرورت ہے۔
اپنی مرضی کے مطابق تبدیلی بنائیں اور منتخب کریں۔ Python (PySpark).
توسیع مثال کے ٹکڑوں کو تلاش کریں۔ اور منتخب کریں کئی کے علاوہ تمام کالم چھوڑ دیں۔.
فراہم کردہ ٹکڑا اپنی حسب ضرورت تبدیلی میں درج کریں اور کوڈ میں ترمیم کرنے کے لیے ہدایات پر عمل کریں۔
```
# Specify the subset of columns to keep
cols = ["asin", "reviewTime", "overall"] cols_to_drop = set(df.columns).difference(cols) df = df.drop(*cols_to_drop)
```
اب جب کہ ہمارے پاس مطلوبہ تمام کالم موجود ہیں، آئیے صرف 2000-2020 کے درمیان جائزے رکھنے کے لیے ڈیٹا کو فلٹر کریں۔

استعمال کریں رینج سے باہر ٹائم اسٹیمپ کو فلٹر کریں۔ سال 2000 سے پہلے اور 2020 کے بعد ڈیٹا چھوڑنے کا ٹکڑا:

from pyspark.sql.functions import col
from datetime import datetime # specify the start and the stop timestamp
timestamp_start = datetime.strptime("2000-01-01 12:00:00", "%Y-%m-%d %H:%M:%S")
timestamp_stop = datetime.strptime("2020-01-01 12:00:00", "%Y-%m-%d %H:%M:%S") df = df.filter(col("reviewTime").between(timestamp_start, timestamp_stop))

اگلا، ہم ریویو ٹائم کالم سے سال اور مہینہ نکالتے ہیں۔

استعمال کریں تاریخ/وقت کو نمایاں کریں۔ تبدیل
کے لئے کالم نکالیں۔منتخب کریں سال اور مہینے.

اگلا، ہم سال اور مہینے کے حساب سے جائزوں کی تعداد کو جمع کرنا چاہتے ہیں جو ہم نے پچھلے مرحلے میں بنائے تھے۔

استعمال کریں گروپس میں شماریات کی گنتی کریں۔ ٹکڑا:

# Table is available as variable `df`
from pyspark.sql.functions import sum, avg, max, min, mean, count # Provide the list of columns defining groups
groupby_cols = ["reviewTime_year", "reviewTime_month"] # Specify the map of aggregate function to the list of colums
# aggregates to use: sum, avg, max, min, mean, count
aggregate_map = {count: ["overall"]} all_aggregates = []
for a, cols in aggregate_map.items(): all_aggregates += [a(col) for col in cols] df = df.groupBy(groupby_cols).agg(*all_aggregates)

سے پچھلے مرحلے کی جمع کا نام تبدیل کریں۔ count(overall) کرنے کے لئے reviews_num منتخب کر کے کالموں کا نظم کریں۔ اور کالم کا نام تبدیل کریں۔ تبدیل
آخر میں، ہم سال اور مہینے کے حساب سے جائزوں کی تقسیم کو دیکھنے کے لیے ایک ہیٹ میپ بنانا چاہتے ہیں۔
تجزیہ ٹیب پر، منتخب کریں۔ حسب ضرورت تصور.
توسیع ٹکڑا تلاش کریں۔ اور منتخب کریں حرارت کا نقشہ ڈراپ ڈاؤن مینو پر۔
اپنے حسب ضرورت تصور میں فراہم کردہ ٹکڑا درج کریں:
```
# Table is available as variable `df`
# Table is available as variable `df`
import altair as alt # Takes first 1000 records of the Dataframe
df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
)
```
ہمیں مندرجہ ذیل تصور ملتا ہے۔

اگر آپ ہیٹ میپ کو مزید بڑھانا چاہتے ہیں، تو آپ صرف 2011 سے پہلے کے جائزے دکھانے کے لیے ڈیٹا کو کاٹ سکتے ہیں۔ 2012 سے بڑے پیمانے پر جائزوں کی وجہ سے ہم نے جو ہیٹ میپ بنایا ہے اس میں ان کی شناخت کرنا مشکل ہے۔

اپنے حسب ضرورت تصور میں کوڈ کی ایک لائن شامل کریں:

# Table is available as variable `df`
import altair as alt df = df[df.reviewTime_year < 2011]
# Takes first 1000 records of the Dataframe
df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
)

ہمیں درج ذیل ہیٹ میپ ملتا ہے۔

اب ہیٹ میپ 2011 سے پہلے کے جائزوں کی زیادہ واضح طور پر عکاسی کرتا ہے: ہم موسمی اثرات کا مشاہدہ کر سکتے ہیں (سال کے آخر میں زیادہ خریداریاں آتی ہیں اور اس وجہ سے مزید جائزے آتے ہیں) اور غیر معمولی مہینوں کی نشاندہی کر سکتے ہیں، جیسے اکتوبر 2003 اور مارچ 2005۔ یہ مزید تفتیش کے قابل ہے۔ ان بے ضابطگیوں کی وجہ کا تعین کرنے کے لیے۔

نتیجہ

ڈیٹا رینگلر ML کے لیے ایک مقصد سے بنایا گیا ڈیٹا اکٹھا کرنے اور تیاری کا ٹول ہے۔ اس پوسٹ میں، ہم نے EDA کو انجام دینے اور ڈیٹا رینگلر کے فراہم کردہ کوڈ کے ٹکڑوں کا استعمال کرتے ہوئے اپنے ڈیٹا کو تیزی سے تبدیل کرنے کا طریقہ دکھایا ہے۔ آپ کو صرف ایک ٹکڑا تلاش کرنے، کوڈ درج کرنے اور اپنے ڈیٹا سیٹ سے ملنے کے لیے پیرامیٹرز کو ایڈجسٹ کرنے کی ضرورت ہے۔ آپ مزید پیچیدہ تصورات اور تبدیلیاں تخلیق کرنے کے لیے اپنی اسکرپٹ پر تکرار جاری رکھ سکتے ہیں۔
ڈیٹا رینگلر کے بارے میں مزید جاننے کے لیے، رجوع کریں۔ ڈیٹا رینگلر فلو بنائیں اور استعمال کریں۔.

مصنفین کے بارے میں

نکیتا ایوکن ایک اپلائیڈ سائنٹسٹ، ایمیزون سیج میکر ڈیٹا رینگلر ہے۔

حیدر نقوی AWS میں ایک حل آرکیٹیکٹ ہے۔ اس کے پاس سافٹ ویئر ڈویلپمنٹ اور انٹرپرائز آرکیٹیکچر کا وسیع تجربہ ہے۔ وہ صارفین کو AWS کے ساتھ کاروباری نتائج حاصل کرنے کے قابل بنانے پر توجہ مرکوز کرتا ہے۔ وہ نیویارک سے باہر مقیم ہے۔

ہریش راجگوپالن ایمیزون ویب سروسز میں ایک سینئر حل آرکیٹیکٹ ہے۔ ہریش انٹرپرائز صارفین کے ساتھ کام کرتا ہے اور ان کے کلاؤڈ سفر میں ان کی مدد کرتا ہے۔

جیمز وو AWS میں ایک سینئر AI/ML ماہر SA ہے۔ وہ گاہکوں کے ساتھ کام کرتا ہے تاکہ ان کے کلاؤڈ سفر کو تیز کیا جا سکے اور ان کی کاروباری قدر کے حصول کو تیزی سے ٹریک کیا جا سکے۔ اس کے علاوہ، جیمز مختلف ڈومینز میں بڑے AI/ML سلوشنز تیار کرنے اور اسکیل کرنے کا بھی پرجوش ہے۔ AWS میں شامل ہونے سے پہلے، اس نے مارکیٹ اور ایڈورٹائزنگ انڈسٹری میں ایک اعلی عالمی فرم کے لیے ML انجینئرز اور سافٹ ویئر ڈویلپرز کے ساتھ ملٹی ڈسپلن انوویشن ٹیکنالوجی ٹیم کی قیادت کی۔

ٹائم اسٹیمپ: جون 15، 2022

ٹائم اسٹیمپ: اکتوبر 12، 2022

Amazon SageMaker Data Wrangler میں PySpark اور Altair کوڈ کے ٹکڑوں کے ساتھ تیزی سے ڈیٹا تیار کریں۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

حل جائزہ

ڈیٹا رینگلر میں EDA کے لیے مثال کوڈ کا ٹکڑا استعمال کرنا

نتیجہ

مصنفین کے بارے میں

سے زیادہ AWS مشین لرننگ

IMDb علمی گراف کا استعمال کرتے ہوئے طاقت کی سفارشات اور تلاش - حصہ 2

Amazon Kendra ذہین تلاش کے ساتھ Zendesk سے بصیرتیں دریافت کریں۔

ایمیزون سیج میکر ڈیٹا رینگلر کے ساتھ گیتھب نمونے استعمال کریں۔

Amazon Translate کا استعمال کرتے ہوئے Salesforce Service Cloud پر کثیر لسانی کسٹمر سپورٹ ترجمہ آسان بنا دیا گیا۔

Amazon Kendra میں Spell Checker کے ساتھ تلاش کی درستگی کو بہتر بنائیں

انسانی جائزے اور BI ویژولائزیشن کے ساتھ ذہین دستاویز پروسیسنگ کے لیے کاروباری اصولوں کو حسب ضرورت بنائیں

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ