ایمیزون سیج میکر ڈیٹا رینگلر کے ساتھ ڈیٹا کے بے ترتیب اور مستحکم نمونے بنائیں

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

اس پوسٹ میں، ہم آپ کو نمونے لینے کی دو تکنیکوں سے آگاہ کرتے ہیں۔ ایمیزون سیج میکر ڈیٹا رینگلر تاکہ آپ اپنے ڈیٹا کے لیے تیزی سے پروسیسنگ ورک فلوز بنا سکیں۔ ہم آپ کی مخصوص ضروریات کی بنیاد پر آپ کے ڈیٹا کا نمونہ لینے میں آپ کی مدد کرنے کے لیے بے ترتیب نمونے لینے اور ترتیب شدہ نمونے لینے کی تکنیک دونوں کا احاطہ کرتے ہیں۔

ڈیٹا رینگلر مشین لرننگ (ML) کے لیے ڈیٹا کو جمع کرنے اور تیار کرنے میں لگنے والے وقت کو ہفتوں سے منٹ تک کم کر دیتا ہے۔ آپ ڈیٹا کی تیاری اور فیچر انجینئرنگ کے عمل کو آسان بنا سکتے ہیں، اور ڈیٹا کی تیاری کے کام کے فلو کے ہر مرحلے کو مکمل کر سکتے ہیں، بشمول ڈیٹا کا انتخاب، کلینزنگ، ایکسپلوریشن، اور ویژولائزیشن، ایک ہی بصری انٹرفیس سے۔ ڈیٹا رینگلر کے ڈیٹا سلیکشن ٹول کے ساتھ، آپ مختلف ڈیٹا ذرائع سے مطلوبہ ڈیٹا کا انتخاب کر سکتے ہیں اور اسے ایک کلک کے ساتھ درآمد کر سکتے ہیں۔ ڈیٹا رینگلر میں 300 سے زیادہ بلٹ ان ڈیٹا ٹرانسفارمیشنز شامل ہیں تاکہ آپ کوڈ لکھے بغیر فیچرز کو تیزی سے نارمل، تبدیل اور یکجا کر سکیں۔ ڈیٹا رینگلر کے ویژولائزیشن ٹیمپلیٹس کے ساتھ، آپ فوری طور پر پیش نظارہ اور معائنہ کر سکتے ہیں کہ یہ تبدیلیاں آپ کے ارادے کے مطابق مکمل ہو گئی ہیں ایمیزون سیج میکر اسٹوڈیوML کے لیے پہلا مکمل طور پر مربوط ترقیاتی ماحول (IDE)۔ آپ کا ڈیٹا تیار ہونے کے بعد، آپ اس کے ساتھ مکمل طور پر خودکار ایم ایل ورک فلوز بنا سکتے ہیں۔ ایمیزون سیج میکر پائپ لائنز اور انہیں دوبارہ استعمال کے لیے محفوظ کریں۔ ایمیزون سیج میکر فیچر اسٹور.

سیمپلنگ کیا ہے اور اس سے کیسے مدد مل سکتی ہے۔

شماریاتی تجزیہ میں، مشاہدات کے کل سیٹ کو کہا جاتا ہے۔ آبادی. ڈیٹا کے ساتھ کام کرتے وقت، آبادی کے ہر مشاہدے کی پیمائش کرنا اکثر حسابی طور پر ممکن نہیں ہوتا ہے۔ شماریاتی نمونے لینے ایک ایسا طریقہ کار ہے جو آپ کو آبادی سے سب سیٹ منتخب کرکے اپنے ڈیٹا کو سمجھنے کی اجازت دیتا ہے۔

نمونہ سازی ایک عملی حل پیش کرتا ہے جو عملی اور آسانی کی خاطر کچھ درستگی کی قربانی دیتا ہے۔ اس بات کو یقینی بنانے کے لیے کہ آپ کا نمونہ مجموعی آبادی کی اچھی نمائندگی کرتا ہے، آپ نمونے لینے کی حکمت عملی استعمال کر سکتے ہیں۔ ڈیٹا رینگلر دو عام حکمت عملیوں کی حمایت کرتا ہے: بے ترتیب سیمپلنگ اور مصنوعی نمونے لینے.

بے ترتیب سیمپلنگ

اگر آپ کے پاس ایک بڑا ڈیٹاسیٹ ہے، تو اس ڈیٹاسیٹ پر تجربہ کرنے میں وقت لگ سکتا ہے۔ ڈیٹا رینگلر بے ترتیب نمونے فراہم کرتا ہے تاکہ آپ اپنے ڈیٹا کو مؤثر طریقے سے پروسیس اور تصور کر سکیں۔ مثال کے طور پر، آپ ایک وقت کے فریم کے اندر کسی گاہک کے لیے خریداریوں کی اوسط تعداد کا حساب لگانا چاہتے ہیں، یا آپ کسی سبسکرائبر کی اٹریشن ریٹ کا حساب لگا سکتے ہیں۔ آپ ان میٹرکس کے تخمینے کو دیکھنے کے لیے بے ترتیب نمونہ استعمال کر سکتے ہیں۔

آپ کے ڈیٹاسیٹ سے ایک بے ترتیب نمونہ منتخب کیا جاتا ہے تاکہ ہر عنصر کے منتخب ہونے کا مساوی امکان ہو۔ یہ آپریشن بڑے ڈیٹا سیٹس کے لیے موزوں طریقے سے انجام دیا جاتا ہے، اس لیے واپس کیے گئے نمونے کا سائز تقریباً درخواست کردہ سائز کا ہے، اور ضروری نہیں کہ درخواست کردہ سائز کے برابر ہو۔

اگر آپ اپنے ڈیٹا سیٹ کو سمجھنے کے لیے فوری تخمینی حسابات کرنا چاہتے ہیں تو آپ بے ترتیب نمونے استعمال کر سکتے ہیں۔ جیسے جیسے نمونے کا سائز بڑا ہوتا جاتا ہے، بے ترتیب نمونہ پورے ڈیٹاسیٹ کا بہتر انداز میں اندازہ لگا سکتا ہے، لیکن جب تک آپ تمام ڈیٹا پوائنٹس کو شامل نہیں کرتے، آپ کے بے ترتیب نمونے میں تمام آؤٹ لیرز اور ایج کیسز شامل نہیں ہوسکتے ہیں۔ اگر آپ اپنا پورا ڈیٹا سیٹ انٹرایکٹو طریقے سے تیار کرنا چاہتے ہیں، تو آپ ایک بڑی مثال کی قسم پر بھی سوئچ کر سکتے ہیں۔

عام اصول کے طور پر، آبادی کی گنتی میں نمونے لینے کی غلطی کا مطلب ہے کہ بے ترتیب نمونہ استعمال کرنے کا رجحان 0 ہوتا ہے کیونکہ نمونہ بڑا ہوتا ہے۔ جیسے جیسے نمونہ کا سائز بڑھتا ہے، نمونے کے سائز کے مربع جڑ کے الٹا ہونے کی وجہ سے خرابی کم ہوتی جاتی ہے۔ ٹیک وے ہونے کا، نمونہ جتنا بڑا ہوگا، قریب قریب اتنا ہی بہتر ہوگا۔

سطحی نمونے لینے

بعض صورتوں میں، آپ کی آبادی کو طبقوں میں تقسیم کیا جا سکتا ہے، یا باہمی طور پر مخصوص بالٹی، جیسے پتے کے لیے جغرافیائی محل وقوع، گانوں کے لیے اشاعت کا سال، یا آمدنی کے لیے ٹیکس بریکٹ۔ رینڈم سیمپلنگ سب سے مشہور سیمپلنگ تکنیک ہے، لیکن اگر آپ کی آبادی میں کچھ طبقے غیر معمولی ہیں، تو آپ ڈیٹا رینگلر میں اسٹریٹیفائیڈ سیمپلنگ کا استعمال کر سکتے ہیں تاکہ یہ یقینی بنایا جا سکے کہ ہر طبقے کو آپ کے نمونے میں متناسب طور پر دکھایا گیا ہے۔ یہ نمونے لینے کی غلطیوں کو کم کرنے کے ساتھ ساتھ اس بات کو یقینی بنانے کے لیے بھی کارآمد ثابت ہو سکتا ہے کہ آپ اپنے تجربے کے دوران ایج کیسز کیپچر کر رہے ہیں۔

حقیقی دنیا میں، دھوکہ دہی والے کریڈٹ کارڈ کے لین دین غیر معمولی واقعات ہیں اور عام طور پر آپ کے ڈیٹا کا 1% سے بھی کم ہوتے ہیں۔ اگر ہم تصادفی طور پر نمونہ لیتے ہیں، تو نمونے میں بہت کم یا کوئی دھوکہ دہی والے لین دین کا ہونا کوئی معمولی بات نہیں ہے۔ نتیجے کے طور پر، ایک ماڈل کو تربیت دیتے وقت، ہمارے پاس درست ماڈل سیکھنے کے لیے بہت کم جعلی مثالیں ہوں گی۔ ہم اس بات کو یقینی بنانے کے لیے درجہ بندی کے نمونے استعمال کر سکتے ہیں کہ ہمارے پاس جعلی لین دین کی متناسب نمائندگی ہے۔

سطحی نمونے لینے میں، نمونے میں ہر طبقے کا سائز آبادی میں طبقے کے سائز کے متناسب ہوتا ہے۔ یہ آپ کے مخصوص کالم کی بنیاد پر آپ کے ڈیٹا کو طبقوں میں تقسیم کرکے، ہر طبقے سے صحیح تناسب کے ساتھ بے ترتیب نمونوں کا انتخاب کرکے، اور ان نمونوں کو آبادی کے سطحی نمونے میں ملا کر کام کرتا ہے۔

جب آپ یہ سمجھنا چاہتے ہیں کہ آپ کے ڈیٹا میں مختلف گروپس ایک دوسرے کے ساتھ کس طرح موازنہ کرتے ہیں، اور آپ اس بات کو یقینی بنانا چاہتے ہیں کہ آپ کو ہر گروپ سے مناسب نمائندگی حاصل ہو۔

Amazon S3 سے درآمد کرتے وقت بے ترتیب نمونے لینا

اس سیکشن میں، ہم ایک ڈیٹا سیٹ کے ساتھ بے ترتیب نمونے لینے کا استعمال کرتے ہیں جس میں ہمارے دھوکہ دہی کا پتہ لگانے کے نظام سے دھوکہ دہی اور غیر فریب دونوں واقعات شامل ہیں۔ آپ کر سکتے ہیں۔ ڈاؤن لوڈ، اتارنا اس پوسٹ کے ساتھ فالو کرنے کے لیے ڈیٹا سیٹ (CC 4.0 بین الاقوامی انتساب لائسنس).

اس تحریر کے وقت، آپ اس سے ڈیٹاسیٹ درآمد کر سکتے ہیں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)، ایمیزون ایتینا, ایمیزون ریڈ شفٹ، اور سنو فلیک۔ ہمارا ڈیٹا سیٹ بہت بڑا ہے، جس میں 1 ملین قطاریں ہیں۔ اس صورت میں، ہم ڈیٹا رینگلر کے اندر کچھ انٹرایکٹو تجربات کے لیے Amazon S1,0000 سے درآمد پر 3 قطاروں کا نمونہ لینا چاہتے ہیں۔

سیج میکر اسٹوڈیو کھولیں اور ایک نیا ڈیٹا رینگلر فلو بنائیں۔
کے تحت ڈیٹا درآمد کریں۔منتخب کریں ایمیزون S3.
درآمد کرنے کے لیے ڈیٹا سیٹ کا انتخاب کریں۔
میں تفصیلات دیکھیں پین، اپنے ڈیٹاسیٹ کا نام اور فائل کی قسم فراہم کریں۔
کے لئے سیمپلنگمنتخب کریں رینڈم.
کے لئے نمونہ سائز، داخل کریں 10000.
میں سے انتخاب کریں درآمد کریں ڈیٹا سیٹ کو ڈیٹا رینگلر میں لوڈ کرنے کے لیے۔

آپ ڈیٹا رینگلر میں ڈیٹا فلو پیج پر دو الگ الگ مراحل کو دیکھ سکتے ہیں۔ پہلا قدم نمونہ لینے کی حکمت عملی کی بنیاد پر نمونہ ڈیٹاسیٹ کی لوڈنگ کی طرف اشارہ کرتا ہے جس کی آپ نے وضاحت کی ہے۔ ڈیٹا لوڈ ہونے کے بعد، ڈیٹا رینگلر ڈیٹاسیٹ میں موجود ہر کالم کے لیے ڈیٹا کی قسموں کا خود بخود پتہ لگاتا ہے۔ یہ مرحلہ تمام ڈیٹاسیٹس کے لیے بطور ڈیفالٹ شامل کیا جاتا ہے۔

اب آپ تجزیہ شامل کرکے ڈیٹا رینگلر میں بے ترتیب نمونے والے ڈیٹا کا جائزہ لے سکتے ہیں۔

آگے جمع کا نشان منتخب کریں۔ ڈیٹا کی اقسام اور منتخب کریں تجزیہ.
کے لئے تجزیہ کی قسممنتخب کریں سکیٹر پلاٹ.
میں سے انتخاب کریں feat_1 اور feat_2 کے طور پر ایکس محور اور Y محوربالترتیب.
کے لئے کی طرف سے رنگمنتخب کریں فراڈ ہے.

جب آپ ڈیٹا سیٹ کے ساتھ آرام دہ ہوں تو، ML کے لیے اپنا ڈیٹا تیار کرنے کے لیے اپنی کاروباری ضرورت کے مطابق ڈیٹا کی مزید تبدیلیاں کرنے کے لیے آگے بڑھیں۔

مندرجہ ذیل اسکرین شاٹ میں، ہم اپنے تجزیے میں دھوکہ دہی پر مبنی (گہرا نیلا) اور غیر فراڈ (ہلکے نیلے) لین دین کا مشاہدہ کر سکتے ہیں۔

اگلے حصے میں، ہم اس بات کو یقینی بنانے کے لیے اسٹریٹیفائیڈ سیمپلنگ کے استعمال پر بات کرتے ہیں کہ دھوکہ دہی کے کیسوں کا متناسب انتخاب کیا جائے۔

ٹرانسفارم کے ساتھ سٹرٹیفائیڈ سیمپلنگ

ڈیٹا رینگلر آپ کو درآمد پر نمونہ لینے کے ساتھ ساتھ ٹرانسفارم کے ذریعے نمونے لینے کی اجازت دیتا ہے۔ اس سیکشن میں، ہم آپ کے ڈیٹا سیٹ کو ڈیٹا رینگلر میں درآمد کرنے کے بعد ٹرانسفارم کے ذریعے سٹرٹیفائیڈ سیمپلنگ کے استعمال پر تبادلہ خیال کرتے ہیں۔

نمونے لینے کے لیے، پر ڈیٹا کے بہاؤ ٹیب، درآمد شدہ ڈیٹاسیٹ کے آگے جمع کا نشان منتخب کریں اور منتخب کریں۔ ٹرانسفارم شامل کریں۔.

اس تحریر کے وقت، ڈیٹا رینگلر اس سے زیادہ فراہم کرتا ہے۔ 300 بلٹ ان ٹرانسفارمیشنز. بلٹ ان ٹرانسفارمز کے علاوہ، آپ پانڈاس یا پی اسپارک میں اپنی مرضی کی تبدیلیاں لکھ سکتے ہیں۔

سے تبدیلی شامل کریں۔ فہرست، منتخب کریں سیمپلنگ.

اب آپ تین الگ الگ نمونے لینے کی حکمت عملی استعمال کر سکتے ہیں: حد، بے ترتیب، اور سطحی۔

کے لئے نمونے لینے کا طریقہمنتخب کریں بنا ہوا.
استعمال کریں is_fraud کالم کو اسٹریٹیفائی کالم کے طور پر۔
میں سے انتخاب کریں پیش نظارہ تبدیلی کا پیش نظارہ کرنے کے لیے، پھر منتخب کریں۔ شامل کریں اس تبدیلی کو اپنی تبدیلی کی ترکیب میں ایک قدم کے طور پر شامل کرنے کے لیے۔

آپ کے ڈیٹا کا بہاؤ اب اضافی نمونے لینے کے مرحلے کی عکاسی کرتا ہے۔

اب ہم تجزیہ شامل کر کے بے ترتیب نمونے کے ڈیٹا کا جائزہ لے سکتے ہیں۔

جمع کا نشان منتخب کریں اور منتخب کریں۔ تجزیہ.
کے لئے تجزیہ کی قسممنتخب کریں ہسٹگرام.
میں سے انتخاب کریں فراڈ ہے دونوں کیلئے ایکس محور اور کی طرف سے رنگ.
میں سے انتخاب کریں پیش نظارہ.

مندرجہ ذیل اسکرین شاٹ میں، ہم 20% دھوکہ دہی اور 80% غیر دھوکہ دہی کے صحیح تناسب میں سٹرٹیفائیڈ سیمپلنگ کے ذریعے منتخب کردہ فراڈ (گہرا نیلا) اور غیر فراڈ (ہلکا نیلا) کیسز کی خرابی کا مشاہدہ کر سکتے ہیں۔

نتیجہ

انتہائی بڑے ڈیٹاسیٹس کے ساتھ کام کرتے وقت ڈیٹا کا صحیح نمونہ لینا اور اپنی کاروباری ضروریات کو پورا کرنے کے لیے نمونے لینے کی صحیح حکمت عملی کا انتخاب کرنا ضروری ہے۔ آپ کے نمونے لینے کی تاثیر مختلف عوامل پر منحصر ہے، بشمول کاروباری نتائج، ڈیٹا کی دستیابی، اور تقسیم۔ اس پوسٹ میں، ہم نے آپ کے ڈیٹا کو تیار کرنے کے لیے ڈیٹا رینگلر اور اس کے اندر موجود نمونے لینے کی حکمت عملیوں کو استعمال کرنے کا طریقہ بتایا ہے۔

آپ آج ہی اس صلاحیت کا استعمال ان تمام خطوں میں شروع کر سکتے ہیں جہاں SageMaker Studio دستیاب ہے۔ شروع کرنے کے لیے، ملاحظہ کریں۔ ایمیزون سیج میکر ڈیٹا رینگلر کے ساتھ ایم ایل ڈیٹا تیار کریں۔.

منظوریاں

مصنفین اس مضمون پر ان کے جائزے اور قیمتی آراء کے لیے جوناتھن چنگ (اپلائیڈ سائنٹسٹ) کا شکریہ ادا کرنا چاہیں گے۔

مصنفین کے بارے میں

بین ہیرس ایک سافٹ ویئر انجینئر ہے جس میں مختلف ڈومینز میں توسیع پذیر ڈیٹا پائپ لائنز اور مشین لرننگ سلوشنز کو ڈیزائن کرنے، تعینات کرنے اور برقرار رکھنے کا تجربہ ہے۔

وشال کپور AWS AI کے ساتھ ایک سینئر اپلائیڈ سائنٹسٹ ہے۔ وہ ڈیٹا رینگلر میں صارفین کو ان کے ڈیٹا کو سمجھنے میں مدد کرنے کا پرجوش ہے۔ اپنے فارغ وقت میں، وہ پہاڑی بائیک، سنو بورڈز، اور اپنے خاندان کے ساتھ وقت گزارتا ہے۔

میناکشی سندرم تھنڈاورائن AWS کے ساتھ ایک سینئر AI/ML ماہر ہے۔ وہ ہائی ٹیک اسٹریٹجک اکاؤنٹس کو ان کے AI اور ML سفر میں مدد کرتا ہے۔ وہ ڈیٹا سے چلنے والی AI کے بارے میں بہت پرجوش ہے۔

اجے شرما ایمیزون سیج میکر کے پرنسپل پروڈکٹ مینیجر ہیں جہاں وہ ڈیٹا رینگلر پر توجہ مرکوز کرتے ہیں، جو ڈیٹا سائنسدانوں کے لیے بصری ڈیٹا کی تیاری کا آلہ ہے۔ AWS سے پہلے، Ajai McKinsey and Company میں ڈیٹا سائنس کے ماہر تھے، جہاں انہوں نے دنیا بھر میں معروف فنانس اور انشورنس فرموں کے لیے ML پر مرکوز مصروفیات کی قیادت کی۔ اجائی ڈیٹا سائنس کے بارے میں پرجوش ہے اور جدید ترین الگورتھم اور مشین لرننگ تکنیکوں کو دریافت کرنا پسند کرتا ہے۔

ٹائم اسٹیمپ: اپریل 26، 2022

ٹائم اسٹیمپ: جنوری 12، 2023

تاریخ محفوظ کریں: NVIDIA GTC پر AWS میں شامل ہوں، ستمبر 19-22

ماخذ کلسٹر:

AWS مشین لرننگ

ماخذ نوڈ: 1662304

ٹائم اسٹیمپ: ستمبر 12، 2022

Amazon SageMaker Data Wrangler کے ساتھ ڈیٹا کے بے ترتیب اور مرتب شدہ نمونے بنائیں

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

سیمپلنگ کیا ہے اور اس سے کیسے مدد مل سکتی ہے۔

بے ترتیب سیمپلنگ

سطحی نمونے لینے

Amazon S3 سے درآمد کرتے وقت بے ترتیب نمونے لینا

ٹرانسفارم کے ساتھ سٹرٹیفائیڈ سیمپلنگ

نتیجہ

منظوریاں

مصنفین کے بارے میں

سے زیادہ AWS مشین لرننگ

ایمیزون سیج میکر آٹو پائلٹ تجربات براہ راست ایمیزون سیج میکر پائپ لائنز کے اندر سے شروع کریں تاکہ ایم ایل او پی کے ورک فلو کو آسانی سے خودکار کیا جاسکے۔

ایمیزون بیڈرک میں ایمیزون ٹائٹن ٹیکسٹ ایمبیڈنگز کے ساتھ شروع کرنا | ایمیزون ویب سروسز

Amazon SageMaker میں مصنوعی ڈیٹا کا استعمال کرتے ہوئے دھوکہ دہی کے لین دین میں اضافہ کریں۔

Intel Habana Gaudi-based DL1 EC2 مثالوں کے ساتھ بڑے لینگویج ماڈلز کو تربیت دینے کے لیے ڈیپ اسپیڈ کے ساتھ PyTorch کو تیز کریں۔ ایمیزون ویب سروسز

The Very Group میں Amazon Comprehend کے ساتھ PII ڈیٹا کو درست کرنا

تاریخ محفوظ کریں: NVIDIA GTC پر AWS میں شامل ہوں، ستمبر 19-22

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ