Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عی

ایمیزون سیج میکر ڈیٹا رینگلر کے ساتھ گیتھب نمونے استعمال کریں۔

ایمیزون سیج میکڈیٹا رینگلر UI پر مبنی ڈیٹا کی تیاری کا ٹول ہے جو ڈیٹا کو صاف کرنے، تبدیل کرنے اور تیزی سے تیار کرنے کے لیے خصوصیات کے ساتھ ڈیٹا کے تجزیہ، پری پروسیسنگ، اور ویژولائزیشن کو انجام دینے میں مدد کرتا ہے۔ ڈیٹا رینگلر پہلے سے تیار کردہ فلو ٹیمپلیٹس ڈیٹا سائنسدانوں اور مشین لرننگ (ML) پریکٹیشنرز کے لیے ڈیٹا کی تیاری کو تیز تر بنانے میں مدد کرتے ہیں اور عام ڈیٹا سیٹس کا استعمال کرتے ہوئے ڈیٹا کے بہاؤ کے لیے بہترین پریکٹس پیٹرن کو تیز کرنے اور سمجھنے میں آپ کی مدد کرتے ہیں۔

آپ درج ذیل کاموں کو انجام دینے کے لیے ڈیٹا رینگلر فلو استعمال کر سکتے ہیں۔

  • ڈیٹا کی نمائش - ڈیٹاسیٹ میں ہر کالم کے لیے شماریاتی خصوصیات کی جانچ کرنا، ہسٹوگرام بنانا، آؤٹ لیرز کا مطالعہ کرنا
  • ڈیٹا کی صفائی - ڈپلیکیٹس کو ہٹانا، گمشدہ اقدار کے ساتھ اندراجات کو چھوڑنا یا بھرنا، آؤٹ لیرز کو ہٹانا
  • ڈیٹا کی افزودگی اور فیچر انجینئرنگ - تربیت کے لیے فیچرز کے ذیلی سیٹ کو منتخب کرتے ہوئے، مزید تاثراتی خصوصیات بنانے کے لیے کالم پر کارروائی کرنا

یہ پوسٹ آپ کو ڈیٹا رینگلر کو سمجھنے میں مدد کرے گی جو درج ذیل نمونے کے پہلے سے بنائے گئے بہاؤ کو استعمال کرتی ہے۔ GitHub کے. ریپوزٹری ٹیبلر ڈیٹا ٹرانسفارمیشن، ٹائم سیریز ڈیٹا ٹرانسفارمیشنز، اور جوائنڈ ڈیٹا سیٹ ٹرانسفارمز کو ظاہر کرتی ہے۔ ہر ایک کو اپنی بنیادی نوعیت کی وجہ سے مختلف قسم کی تبدیلیوں کی ضرورت ہوتی ہے۔ معیاری ٹیبلر یا کراس سیکشنل ڈیٹا وقت کے ایک خاص مقام پر جمع کیا جاتا ہے۔ اس کے برعکس، ٹائم سیریز کا ڈیٹا وقت کے ساتھ ساتھ بار بار پکڑا جاتا ہے، ہر ایک لگاتار ڈیٹا پوائنٹ اس کی ماضی کی اقدار پر منحصر ہوتا ہے۔

آئیے ایک مثال دیکھتے ہیں کہ ہم ٹیبلر ڈیٹا کے لیے نمونے کے ڈیٹا کے بہاؤ کو کس طرح استعمال کر سکتے ہیں۔

شرائط

ڈیٹا رینگلر ایک ہے۔ ایمیزون سیج میکر کے اندر دستیاب خصوصیت ایمیزون سیج میکر اسٹوڈیو، لہذا ہمیں اسٹوڈیو کے ماحول اور نوٹ بکس کو گھماؤ دینے کے لیے اسٹوڈیو آن بورڈنگ کے عمل کی پیروی کرنے کی ضرورت ہے۔ اگرچہ آپ تصدیق کے چند طریقوں میں سے انتخاب کر سکتے ہیں، لیکن اسٹوڈیو ڈومین بنانے کا آسان ترین طریقہ یہ ہے کہ فورا شروع کرنا ہدایات کوئیک اسٹارٹ وہی ڈیفالٹ سیٹنگز استعمال کرتا ہے۔ معیاری اسٹوڈیو سیٹ اپ. آپ آن بورڈ کا استعمال بھی کر سکتے ہیں۔ AWS IAM شناختی مرکز (AWS سنگل سائن آن کا جانشین) توثیق کے لیے (دیکھیں۔ IAM شناختی مرکز کا استعمال کرتے ہوئے Amazon SageMaker ڈومین پر آن بورڈ).

سٹوڈیو کا استعمال کرتے ہوئے ڈیٹا سیٹ اور فلو فائلوں کو ڈیٹا رینگلر میں درآمد کریں۔

درج ذیل اقدامات اس بات کا خاکہ پیش کرتے ہیں کہ ڈیٹا رینگلر کے ذریعے استعمال کرنے کے لیے SageMaker میں ڈیٹا کیسے درآمد کیا جائے:

اسٹوڈیو UI کے ذریعے ڈیٹا رینگلر کو منتخب کرکے شروع کریں۔ نیا ڈیٹا فلو.

کلون GitHub repo فلو فائلوں کو اپنے اسٹوڈیو ماحول میں ڈاؤن لوڈ کرنے کے لیے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عی

کلون مکمل ہونے پر، آپ کو بائیں پین میں مخزن کا مواد دیکھنے کے قابل ہونا چاہیے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عی

فائل کا انتخاب کریں۔ ہوٹل کی بکنگ۔ درجہ بندی۔ بہاؤ بہاؤ فائل کو ڈیٹا رینگلر میں درآمد کرنے کے لیے۔

اگر آپ ٹائم سیریز یا جوائنڈ ڈیٹا فلو استعمال کرتے ہیں، تو فلو ایک مختلف نام کے طور پر ظاہر ہوگا۔ فلو امپورٹ ہونے کے بعد، آپ کو درج ذیل اسکرین شاٹ دیکھنا چاہیے۔ یہ ہمیں غلطیاں دکھاتا ہے کیونکہ ہمیں یہ یقینی بنانا ہوگا کہ فلو فائل درست ڈیٹا سورس کی طرف اشارہ کرتی ہے۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عی

میں سے انتخاب کریں ڈیٹاسیٹ میں ترمیم کریں۔ اپنی تمام S3 بالٹیاں لانے کے لیے۔ اگلا، ڈیٹاسیٹ کا انتخاب کریں۔ hotel_bookings.csv کے ذریعے چلانے کے لئے آپ کی S3 بالٹی سے ٹیبلولر ڈیٹا کا بہاؤ.

نوٹ کریں کہ اگر آپ استعمال کر رہے ہیں۔ ڈیٹا کے بہاؤ میں شامل ہوا۔، آپ کو ڈیٹا رینگلر میں متعدد ڈیٹاسیٹس درآمد کرنے پڑ سکتے ہیں۔Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عی

دائیں پین میں، یقینی بنائیں کوما حد بندی کے طور پر منتخب کیا جاتا ہے اور سیمپلنگ کرنے کے لئے مقرر کیا گیا ہے پہلے K. ہمارا ڈیٹا سیٹ اتنا چھوٹا ہے کہ مکمل ڈیٹا سیٹ پر ڈیٹا رینگلر ٹرانسفارمیشنز چلا سکے، لیکن ہم اس بات کو اجاگر کرنا چاہتے تھے کہ آپ ڈیٹا سیٹ کو کیسے درآمد کر سکتے ہیں۔ اگر آپ کے پاس بڑا ڈیٹاسیٹ ہے تو نمونے لینے پر غور کریں۔ منتخب کریں۔ درآمد کریں اس ڈیٹاسیٹ کو ڈیٹا رینگلر میں درآمد کرنے کے لیے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عی

ڈیٹا سیٹ کے درآمد ہونے کے بعد، ڈیٹا رینگلر خود بخود ڈیٹاسیٹ کی توثیق کرتا ہے اور ڈیٹا کی اقسام کا پتہ لگاتا ہے۔ آپ دیکھ سکتے ہیں کہ غلطیاں دور ہو گئی ہیں کیونکہ ہم درست ڈیٹا سیٹ کی طرف اشارہ کر رہے ہیں۔ فلو ایڈیٹر اب دو بلاکس دکھاتا ہے جس میں یہ ظاہر ہوتا ہے کہ ڈیٹا کسی ماخذ سے درآمد کیا گیا تھا اور ڈیٹا کی اقسام کو تسلیم کیا گیا تھا۔ اگر ضرورت ہو تو آپ ڈیٹا کی اقسام میں ترمیم بھی کر سکتے ہیں۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عی

درج ذیل اسکرین شاٹ ہمارے ڈیٹا کی اقسام کو ظاہر کرتا ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عی

آئیے اس ٹیبلر بہاؤ کے ایک حصے کے طور پر کی گئی کچھ تبدیلیوں کو دیکھیں۔ اگر آپ استعمال کر رہے ہیں۔ وقت کا سلسلہ or شامل ہو گئے ڈیٹا بہاؤ، پر کچھ عام تبدیلیوں کو چیک کریں GitHub repo. ہم نے ڈیٹا بصیرت کی رپورٹس کا استعمال کرتے ہوئے کچھ بنیادی تحقیقی ڈیٹا کا تجزیہ کیا جس میں ڈیٹاسیٹ میں ہدف کے رساو اور خصوصیت کے ہم آہنگی، جدول کے خلاصے کے تجزیوں، اور فوری ماڈلنگ کی صلاحیت کا مطالعہ کیا گیا۔ پر اقدامات کو دریافت کریں۔ GitHub repo.

اب ہم ڈیٹا انسائٹس اور کوالٹی رپورٹ کی فراہم کردہ سفارشات پر مبنی کالم چھوڑتے ہیں۔

  • ہدف کے رساو کے لیے، گرا دیں۔ ریزرویشن_اسٹیٹس.
  • بے کار کالموں کے لیے، ڈراپ کریں۔ دن_میں_انتظار_کی_لسٹ، ہوٹل، محفوظ_کمرے_کی قسم، آمد_تاریخ_مہینہ، ریزرویشن_اسٹیٹس_تاریخ، بچے، اور آمد_تاریخ_ماہ_کے_دن.
  • لکیری ارتباط کے نتائج کی بنیاد پر، کالم ڈراپ کریں۔ آمد_تاریخ_ہفتہ_نمبر اور آمد_تاریخ_سال کیونکہ ان فیچر (کالم) جوڑوں کے لیے ارتباط کی قدریں 0.90 کی تجویز کردہ حد سے زیادہ ہیں۔
  • غیر لکیری ارتباط کے نتائج کی بنیاد پر، ڈراپ ریزرویشن_اسٹیٹس. ہدف کے رساو کے تجزیہ کی بنیاد پر اس کالم کو پہلے ہی چھوڑے جانے کے لیے نشان زد کیا گیا تھا۔
  • کے لیے عددی اقدار (کم از کم زیادہ سے زیادہ اسکیلنگ) پر کارروائی کریں۔ لیڈ_ٹائم، قیام_ہفتہ_میں_ہفتہ_رات، قیام_ہفتہ_کے_دن_رات، ہے_دوہرایا ہوا_مہمان، پہلے_منسوخات، سابقہ_بکنگ_نہیں_منسوخ، بکنگ_تبدیلیاں، adr، کل_آف_خصوصی_درخواستیں، اور درکار_کار_پارکنگ_اسپیسز.
  • ون ہاٹ انکوڈ دوٹوک متغیرات جیسے کھانا، is_repeated_guest، market_segment, assigned_room_type, deposit_type, اور customer_type.
  • طبقاتی عدم توازن کے لیے ہدف کے متغیر رینڈم اوور نمونے کو متوازن رکھیں۔ آؤٹ لیرز اور گمشدہ اقدار کو سنبھالنے کے لیے فوری ماڈلنگ کی صلاحیت کا استعمال کریں۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عی

ایمیزون S3 کو برآمد کریں۔

اب ہم مختلف تبدیلیوں سے گزر چکے ہیں اور ڈیٹا کو Amazon S3 میں ایکسپورٹ کرنے کے لیے تیار ہیں۔ یہ آپشن سیج میکر پروسیسنگ جاب بناتا ہے، جو ڈیٹا رینگلر پروسیسنگ فلو کو چلاتا ہے اور نتیجے میں ڈیٹا سیٹ کو ایک مخصوص S3 بالٹی میں محفوظ کرتا ہے۔ ایمیزون S3 پر ایکسپورٹ سیٹ اپ کرنے کے لیے اگلے مراحل پر عمل کریں:

تبدیلی کے عناصر کے مجموعے کے آگے جمع کا نشان منتخب کریں اور منتخب کریں۔ منزل شامل کریں۔، تو ایمیزون S3.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عی

  • کے لئے ڈیٹا سیٹ کا نام، مثال کے طور پر، نئے ڈیٹاسیٹ کے لیے ایک نام درج کریں۔ NYC_export.
  • کے لئے فائل کی قسممنتخب کریں CSV.
  • کے لئے ڈیلیمیٹرمنتخب کریں کما.
  • کے لئے سمپیڑنمنتخب کریں کوئی بھی نہیں.
  • کے لئے ایمیزون S3 مقام، وہی بالٹی نام استعمال کریں جو ہم نے پہلے بنایا تھا۔
  • میں سے انتخاب کریں منزل شامل کریں۔.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عی

میں سے انتخاب کریں نوکری پیدا کریں۔.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عی

کے لئے نوکری کا نام، نام درج کریں یا خود کار طریقے سے تیار کردہ آپشن رکھیں اور منتخب کریں۔ منزل. ہماری ایک ہی منزل ہے S3:testingtabulardata، لیکن آپ کے ورک فلو میں مختلف مراحل سے متعدد منزلیں ہوسکتی ہیں۔ چھوڑدیں KMS کلید ARN فیلڈ خالی کریں اور منتخب کریں۔ اگلے.

اب آپ کو کسی کام کے لیے کمپیوٹ کی صلاحیت کو ترتیب دینا ہوگا۔ آپ اس مثال کے لیے تمام ڈیفالٹ اقدار رکھ سکتے ہیں۔

  • کے لئے مثال کی قسم، ml.m5.4xlarge استعمال کریں۔
  • کے لئے مثال کی گنتی، 2 استعمال کریں۔
  • آپ دریافت کر سکتے ہیں۔ اضافی ترتیب، لیکن پہلے سے طے شدہ ترتیبات رکھیں۔
  • میں سے انتخاب کریں رن.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عی

اب آپ کا کام شروع ہو گیا ہے، اور ہمارے ڈیٹا رینگلر پروسیسنگ فلو کے مطابق 6 GB ڈیٹا پر کارروائی کرنے میں کچھ وقت لگتا ہے۔ اس کام کی قیمت لگ بھگ $2 USD ہوگی، کیونکہ ml.m5.4xlarge کی قیمت $0.922 USD فی گھنٹہ ہے اور ہم ان میں سے دو استعمال کر رہے ہیں۔

اگر آپ نوکری کا نام منتخب کرتے ہیں، تو آپ کو نوکری کی تفصیلات کے ساتھ ایک نئی ونڈو پر بھیج دیا جائے گا۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عی

ملازمت کی تفصیلات کے صفحہ پر، آپ پچھلے مراحل کے تمام پیرامیٹرز دیکھ سکتے ہیں۔

جب کام کی حیثیت مکمل میں تبدیل ہو جاتی ہے، تو آپ بھی چیک کر سکتے ہیں۔ پروسیسنگ کا وقت (سیکنڈ) قدر. پروسیسنگ کے اس کام کو مکمل ہونے میں تقریباً 5-10 منٹ لگتے ہیں۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عی

کام مکمل ہونے پر، ٹرین اور ٹیسٹ آؤٹ پٹ فائلیں متعلقہ S3 آؤٹ پٹ فولڈرز میں دستیاب ہوتی ہیں۔ آپ پروسیسنگ جاب کنفیگریشنز سے آؤٹ پٹ لوکیشن تلاش کر سکتے ہیں۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عی

ڈیٹا رینگلر پروسیسنگ کا کام مکمل ہونے کے بعد، ہم اپنی S3 بالٹی میں محفوظ کردہ نتائج کو چیک کر سکتے ہیں۔ اپ ڈیٹ کرنا نہ بھولیں۔ job_name آپ کے کام کے نام کے ساتھ متغیر۔

اب آپ اس برآمد شدہ ڈیٹا کو ایم ایل ماڈل چلانے کے لیے استعمال کر سکتے ہیں۔

صاف کرو

اپنی S3 بالٹیاں حذف کریں۔ آپ کے اور ڈیٹا رینگلر کا بہاؤ بنیادی وسائل کو حذف کرنے اور تجربہ ختم کرنے کے بعد ناپسندیدہ اخراجات کو روکنے کے لیے۔

نتیجہ

اس پوسٹ میں، ہم نے دکھایا کہ آپ ڈیٹا رینگلر میں ٹیبلر پری بلٹ ڈیٹا فلو کو کس طرح درآمد کر سکتے ہیں، اسے ہمارے ڈیٹاسیٹ کے ساتھ لگا سکتے ہیں، اور نتائج کو Amazon S3 پر ایکسپورٹ کر سکتے ہیں۔ اگر آپ کے استعمال کے معاملات میں آپ کو ٹائم سیریز کے ڈیٹا میں ہیرا پھیری کرنے یا ایک سے زیادہ ڈیٹا سیٹس میں شامل ہونے کی ضرورت ہوتی ہے، تو آپ پہلے سے بنائے گئے دوسرے نمونوں کے بہاؤ سے گزر سکتے ہیں۔ GitHub repo.

پہلے سے بنایا ہوا ڈیٹا پریپ ورک فلو درآمد کرنے کے بعد، آپ اسے ایمیزون سیج میکر پروسیسنگ کے ساتھ ضم کر سکتے ہیں، ایمیزون سیج میکر پائپ لائنز، اور ایمیزون سیج میکر فیچر اسٹور ایم ایل ٹریننگ ڈیٹا کو پروسیسنگ، شیئرنگ اور اسٹور کرنے کے کام کو آسان بنانے کے لیے۔ آپ اس نمونے کے ڈیٹا فلو کو Python اسکرپٹ میں ایکسپورٹ بھی کر سکتے ہیں اور اپنی مرضی کے مطابق ML ڈیٹا پریپ پائپ لائن بنا سکتے ہیں، اس طرح آپ کی ریلیز کی رفتار تیز ہو جاتی ہے۔

ہم آپ کو ہمارے چیک کرنے کی ترغیب دیتے ہیں۔ GitHub ذخیرہ ہینڈ آن پریکٹس حاصل کرنے اور ماڈل کی درستگی کو بہتر بنانے کے نئے طریقے تلاش کرنے کے لیے! سیج میکر کے بارے میں مزید جاننے کے لیے، ملاحظہ کریں۔ ایمیزون سیج میکر ڈویلپر گائیڈ.


مصنفین کے بارے میں

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ Github کے نمونے استعمال کریں۔ عمودی تلاش۔ عیعشاء کی دعا سان فرانسسکو بے ایریا میں مقیم ایک سینئر سولیوشن آرکیٹیکٹ ہے۔ وہ AWS انٹرپرائز کے صارفین کو ان کے اہداف اور چیلنجوں کو سمجھ کر بڑھنے میں مدد کرتی ہے، اور ان کی رہنمائی کرتی ہے کہ وہ کس طرح اپنی ایپلی کیشنز کو کلاؤڈ-نیٹیو انداز میں آرکیٹیکٹ کر سکتے ہیں جبکہ یہ یقینی بناتے ہوئے کہ وہ لچکدار اور قابل توسیع ہیں۔ وہ مشین لرننگ ٹیکنالوجیز اور ماحولیاتی پائیداری کے بارے میں پرجوش ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ