ایمیزون سیج میکر ڈیٹا رینگلر کے ساتھ گیتھب نمونے استعمال کریں۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

ایمیزون سیج میک ڈیٹا رینگلر UI پر مبنی ڈیٹا کی تیاری کا ٹول ہے جو ڈیٹا کو صاف کرنے، تبدیل کرنے اور تیزی سے تیار کرنے کے لیے خصوصیات کے ساتھ ڈیٹا کے تجزیہ، پری پروسیسنگ، اور ویژولائزیشن کو انجام دینے میں مدد کرتا ہے۔ ڈیٹا رینگلر پہلے سے تیار کردہ فلو ٹیمپلیٹس ڈیٹا سائنسدانوں اور مشین لرننگ (ML) پریکٹیشنرز کے لیے ڈیٹا کی تیاری کو تیز تر بنانے میں مدد کرتے ہیں اور عام ڈیٹا سیٹس کا استعمال کرتے ہوئے ڈیٹا کے بہاؤ کے لیے بہترین پریکٹس پیٹرن کو تیز کرنے اور سمجھنے میں آپ کی مدد کرتے ہیں۔

آپ درج ذیل کاموں کو انجام دینے کے لیے ڈیٹا رینگلر فلو استعمال کر سکتے ہیں۔

ڈیٹا کی نمائش - ڈیٹاسیٹ میں ہر کالم کے لیے شماریاتی خصوصیات کی جانچ کرنا، ہسٹوگرام بنانا، آؤٹ لیرز کا مطالعہ کرنا
ڈیٹا کی صفائی - ڈپلیکیٹس کو ہٹانا، گمشدہ اقدار کے ساتھ اندراجات کو چھوڑنا یا بھرنا، آؤٹ لیرز کو ہٹانا
ڈیٹا کی افزودگی اور فیچر انجینئرنگ - تربیت کے لیے فیچرز کے ذیلی سیٹ کو منتخب کرتے ہوئے، مزید تاثراتی خصوصیات بنانے کے لیے کالم پر کارروائی کرنا

یہ پوسٹ آپ کو ڈیٹا رینگلر کو سمجھنے میں مدد کرے گی جو درج ذیل نمونے کے پہلے سے بنائے گئے بہاؤ کو استعمال کرتی ہے۔ GitHub کے. ریپوزٹری ٹیبلر ڈیٹا ٹرانسفارمیشن، ٹائم سیریز ڈیٹا ٹرانسفارمیشنز، اور جوائنڈ ڈیٹا سیٹ ٹرانسفارمز کو ظاہر کرتی ہے۔ ہر ایک کو اپنی بنیادی نوعیت کی وجہ سے مختلف قسم کی تبدیلیوں کی ضرورت ہوتی ہے۔ معیاری ٹیبلر یا کراس سیکشنل ڈیٹا وقت کے ایک خاص مقام پر جمع کیا جاتا ہے۔ اس کے برعکس، ٹائم سیریز کا ڈیٹا وقت کے ساتھ ساتھ بار بار پکڑا جاتا ہے، ہر ایک لگاتار ڈیٹا پوائنٹ اس کی ماضی کی اقدار پر منحصر ہوتا ہے۔

آئیے ایک مثال دیکھتے ہیں کہ ہم ٹیبلر ڈیٹا کے لیے نمونے کے ڈیٹا کے بہاؤ کو کس طرح استعمال کر سکتے ہیں۔

شرائط

ڈیٹا رینگلر ایک ہے۔ ایمیزون سیج میکر کے اندر دستیاب خصوصیت ایمیزون سیج میکر اسٹوڈیو، لہذا ہمیں اسٹوڈیو کے ماحول اور نوٹ بکس کو گھماؤ دینے کے لیے اسٹوڈیو آن بورڈنگ کے عمل کی پیروی کرنے کی ضرورت ہے۔ اگرچہ آپ تصدیق کے چند طریقوں میں سے انتخاب کر سکتے ہیں، لیکن اسٹوڈیو ڈومین بنانے کا آسان ترین طریقہ یہ ہے کہ فورا شروع کرنا ہدایات کوئیک اسٹارٹ وہی ڈیفالٹ سیٹنگز استعمال کرتا ہے۔ معیاری اسٹوڈیو سیٹ اپ. آپ آن بورڈ کا استعمال بھی کر سکتے ہیں۔ AWS IAM شناختی مرکز (AWS سنگل سائن آن کا جانشین) توثیق کے لیے (دیکھیں۔ IAM شناختی مرکز کا استعمال کرتے ہوئے Amazon SageMaker ڈومین پر آن بورڈ).

سٹوڈیو کا استعمال کرتے ہوئے ڈیٹا سیٹ اور فلو فائلوں کو ڈیٹا رینگلر میں درآمد کریں۔

درج ذیل اقدامات اس بات کا خاکہ پیش کرتے ہیں کہ ڈیٹا رینگلر کے ذریعے استعمال کرنے کے لیے SageMaker میں ڈیٹا کیسے درآمد کیا جائے:

اسٹوڈیو UI کے ذریعے ڈیٹا رینگلر کو منتخب کرکے شروع کریں۔ نیا ڈیٹا فلو.

کلون GitHub repo فلو فائلوں کو اپنے اسٹوڈیو ماحول میں ڈاؤن لوڈ کرنے کے لیے۔