اس پوسٹ میں، ہم آپ کو نمونے لینے کی دو تکنیکوں سے آگاہ کرتے ہیں۔ ایمیزون سیج میکر ڈیٹا رینگلر تاکہ آپ اپنے ڈیٹا کے لیے تیزی سے پروسیسنگ ورک فلوز بنا سکیں۔ ہم آپ کی مخصوص ضروریات کی بنیاد پر آپ کے ڈیٹا کا نمونہ لینے میں آپ کی مدد کرنے کے لیے بے ترتیب نمونے لینے اور ترتیب شدہ نمونے لینے کی تکنیک دونوں کا احاطہ کرتے ہیں۔
ڈیٹا رینگلر مشین لرننگ (ML) کے لیے ڈیٹا کو جمع کرنے اور تیار کرنے میں لگنے والے وقت کو ہفتوں سے منٹ تک کم کر دیتا ہے۔ آپ ڈیٹا کی تیاری اور فیچر انجینئرنگ کے عمل کو آسان بنا سکتے ہیں، اور ڈیٹا کی تیاری کے کام کے فلو کے ہر مرحلے کو مکمل کر سکتے ہیں، بشمول ڈیٹا کا انتخاب، کلینزنگ، ایکسپلوریشن، اور ویژولائزیشن، ایک ہی بصری انٹرفیس سے۔ ڈیٹا رینگلر کے ڈیٹا سلیکشن ٹول کے ساتھ، آپ مختلف ڈیٹا ذرائع سے مطلوبہ ڈیٹا کا انتخاب کر سکتے ہیں اور اسے ایک کلک کے ساتھ درآمد کر سکتے ہیں۔ ڈیٹا رینگلر میں 300 سے زیادہ بلٹ ان ڈیٹا ٹرانسفارمیشنز شامل ہیں تاکہ آپ کوڈ لکھے بغیر فیچرز کو تیزی سے نارمل، تبدیل اور یکجا کر سکیں۔ ڈیٹا رینگلر کے ویژولائزیشن ٹیمپلیٹس کے ساتھ، آپ فوری طور پر پیش نظارہ اور معائنہ کر سکتے ہیں کہ یہ تبدیلیاں آپ کے ارادے کے مطابق مکمل ہو گئی ہیں ایمیزون سیج میکر اسٹوڈیوML کے لیے پہلا مکمل طور پر مربوط ترقیاتی ماحول (IDE)۔ آپ کا ڈیٹا تیار ہونے کے بعد، آپ اس کے ساتھ مکمل طور پر خودکار ایم ایل ورک فلوز بنا سکتے ہیں۔ ایمیزون سیج میکر پائپ لائنز اور انہیں دوبارہ استعمال کے لیے محفوظ کریں۔ ایمیزون سیج میکر فیچر اسٹور.
سیمپلنگ کیا ہے اور اس سے کیسے مدد مل سکتی ہے۔
شماریاتی تجزیہ میں، مشاہدات کے کل سیٹ کو کہا جاتا ہے۔ آبادی. ڈیٹا کے ساتھ کام کرتے وقت، آبادی کے ہر مشاہدے کی پیمائش کرنا اکثر حسابی طور پر ممکن نہیں ہوتا ہے۔ شماریاتی نمونے لینے ایک ایسا طریقہ کار ہے جو آپ کو آبادی سے سب سیٹ منتخب کرکے اپنے ڈیٹا کو سمجھنے کی اجازت دیتا ہے۔
نمونہ سازی ایک عملی حل پیش کرتا ہے جو عملی اور آسانی کی خاطر کچھ درستگی کی قربانی دیتا ہے۔ اس بات کو یقینی بنانے کے لیے کہ آپ کا نمونہ مجموعی آبادی کی اچھی نمائندگی کرتا ہے، آپ نمونے لینے کی حکمت عملی استعمال کر سکتے ہیں۔ ڈیٹا رینگلر دو عام حکمت عملیوں کی حمایت کرتا ہے: بے ترتیب سیمپلنگ اور مصنوعی نمونے لینے.
بے ترتیب سیمپلنگ
اگر آپ کے پاس ایک بڑا ڈیٹاسیٹ ہے، تو اس ڈیٹاسیٹ پر تجربہ کرنے میں وقت لگ سکتا ہے۔ ڈیٹا رینگلر بے ترتیب نمونے فراہم کرتا ہے تاکہ آپ اپنے ڈیٹا کو مؤثر طریقے سے پروسیس اور تصور کر سکیں۔ مثال کے طور پر، آپ ایک وقت کے فریم کے اندر کسی گاہک کے لیے خریداریوں کی اوسط تعداد کا حساب لگانا چاہتے ہیں، یا آپ کسی سبسکرائبر کی اٹریشن ریٹ کا حساب لگا سکتے ہیں۔ آپ ان میٹرکس کے تخمینے کو دیکھنے کے لیے بے ترتیب نمونہ استعمال کر سکتے ہیں۔
آپ کے ڈیٹاسیٹ سے ایک بے ترتیب نمونہ منتخب کیا جاتا ہے تاکہ ہر عنصر کے منتخب ہونے کا مساوی امکان ہو۔ یہ آپریشن بڑے ڈیٹا سیٹس کے لیے موزوں طریقے سے انجام دیا جاتا ہے، اس لیے واپس کیے گئے نمونے کا سائز تقریباً درخواست کردہ سائز کا ہے، اور ضروری نہیں کہ درخواست کردہ سائز کے برابر ہو۔
اگر آپ اپنے ڈیٹا سیٹ کو سمجھنے کے لیے فوری تخمینی حسابات کرنا چاہتے ہیں تو آپ بے ترتیب نمونے استعمال کر سکتے ہیں۔ جیسے جیسے نمونے کا سائز بڑا ہوتا جاتا ہے، بے ترتیب نمونہ پورے ڈیٹاسیٹ کا بہتر انداز میں اندازہ لگا سکتا ہے، لیکن جب تک آپ تمام ڈیٹا پوائنٹس کو شامل نہیں کرتے، آپ کے بے ترتیب نمونے میں تمام آؤٹ لیرز اور ایج کیسز شامل نہیں ہوسکتے ہیں۔ اگر آپ اپنا پورا ڈیٹا سیٹ انٹرایکٹو طریقے سے تیار کرنا چاہتے ہیں، تو آپ ایک بڑی مثال کی قسم پر بھی سوئچ کر سکتے ہیں۔
عام اصول کے طور پر، آبادی کی گنتی میں نمونے لینے کی غلطی کا مطلب ہے کہ بے ترتیب نمونہ استعمال کرنے کا رجحان 0 ہوتا ہے کیونکہ نمونہ بڑا ہوتا ہے۔ جیسے جیسے نمونہ کا سائز بڑھتا ہے، نمونے کے سائز کے مربع جڑ کے الٹا ہونے کی وجہ سے خرابی کم ہوتی جاتی ہے۔ ٹیک وے ہونے کا، نمونہ جتنا بڑا ہوگا، قریب قریب اتنا ہی بہتر ہوگا۔
سطحی نمونے لینے
بعض صورتوں میں، آپ کی آبادی کو طبقوں میں تقسیم کیا جا سکتا ہے، یا باہمی طور پر مخصوص بالٹی، جیسے پتے کے لیے جغرافیائی محل وقوع، گانوں کے لیے اشاعت کا سال، یا آمدنی کے لیے ٹیکس بریکٹ۔ رینڈم سیمپلنگ سب سے مشہور سیمپلنگ تکنیک ہے، لیکن اگر آپ کی آبادی میں کچھ طبقے غیر معمولی ہیں، تو آپ ڈیٹا رینگلر میں اسٹریٹیفائیڈ سیمپلنگ کا استعمال کر سکتے ہیں تاکہ یہ یقینی بنایا جا سکے کہ ہر طبقے کو آپ کے نمونے میں متناسب طور پر دکھایا گیا ہے۔ یہ نمونے لینے کی غلطیوں کو کم کرنے کے ساتھ ساتھ اس بات کو یقینی بنانے کے لیے بھی کارآمد ثابت ہو سکتا ہے کہ آپ اپنے تجربے کے دوران ایج کیسز کیپچر کر رہے ہیں۔
حقیقی دنیا میں، دھوکہ دہی والے کریڈٹ کارڈ کے لین دین غیر معمولی واقعات ہیں اور عام طور پر آپ کے ڈیٹا کا 1% سے بھی کم ہوتے ہیں۔ اگر ہم تصادفی طور پر نمونہ لیتے ہیں، تو نمونے میں بہت کم یا کوئی دھوکہ دہی والے لین دین کا ہونا کوئی معمولی بات نہیں ہے۔ نتیجے کے طور پر، ایک ماڈل کو تربیت دیتے وقت، ہمارے پاس درست ماڈل سیکھنے کے لیے بہت کم جعلی مثالیں ہوں گی۔ ہم اس بات کو یقینی بنانے کے لیے درجہ بندی کے نمونے استعمال کر سکتے ہیں کہ ہمارے پاس جعلی لین دین کی متناسب نمائندگی ہے۔
سطحی نمونے لینے میں، نمونے میں ہر طبقے کا سائز آبادی میں طبقے کے سائز کے متناسب ہوتا ہے۔ یہ آپ کے مخصوص کالم کی بنیاد پر آپ کے ڈیٹا کو طبقوں میں تقسیم کرکے، ہر طبقے سے صحیح تناسب کے ساتھ بے ترتیب نمونوں کا انتخاب کرکے، اور ان نمونوں کو آبادی کے سطحی نمونے میں ملا کر کام کرتا ہے۔
جب آپ یہ سمجھنا چاہتے ہیں کہ آپ کے ڈیٹا میں مختلف گروپس ایک دوسرے کے ساتھ کس طرح موازنہ کرتے ہیں، اور آپ اس بات کو یقینی بنانا چاہتے ہیں کہ آپ کو ہر گروپ سے مناسب نمائندگی حاصل ہو۔
Amazon S3 سے درآمد کرتے وقت بے ترتیب نمونے لینا
اس سیکشن میں، ہم ایک ڈیٹا سیٹ کے ساتھ بے ترتیب نمونے لینے کا استعمال کرتے ہیں جس میں ہمارے دھوکہ دہی کا پتہ لگانے کے نظام سے دھوکہ دہی اور غیر فریب دونوں واقعات شامل ہیں۔ آپ کر سکتے ہیں۔ ڈاؤن لوڈ، اتارنا اس پوسٹ کے ساتھ فالو کرنے کے لیے ڈیٹا سیٹ (CC 4.0 بین الاقوامی انتساب لائسنس).
اس تحریر کے وقت، آپ اس سے ڈیٹاسیٹ درآمد کر سکتے ہیں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)، ایمیزون ایتینا, ایمیزون ریڈ شفٹ، اور سنو فلیک۔ ہمارا ڈیٹا سیٹ بہت بڑا ہے، جس میں 1 ملین قطاریں ہیں۔ اس صورت میں، ہم ڈیٹا رینگلر کے اندر کچھ انٹرایکٹو تجربات کے لیے Amazon S1,0000 سے درآمد پر 3 قطاروں کا نمونہ لینا چاہتے ہیں۔
- سیج میکر اسٹوڈیو کھولیں اور ایک نیا ڈیٹا رینگلر فلو بنائیں۔
- کے تحت ڈیٹا درآمد کریں۔منتخب کریں ایمیزون S3.
- درآمد کرنے کے لیے ڈیٹا سیٹ کا انتخاب کریں۔
- میں تفصیلات دیکھیں پین، اپنے ڈیٹاسیٹ کا نام اور فائل کی قسم فراہم کریں۔
- کے لئے سیمپلنگمنتخب کریں رینڈم.
- کے لئے نمونہ سائز، داخل کریں
10000
. - میں سے انتخاب کریں درآمد کریں ڈیٹا سیٹ کو ڈیٹا رینگلر میں لوڈ کرنے کے لیے۔
آپ ڈیٹا رینگلر میں ڈیٹا فلو پیج پر دو الگ الگ مراحل کو دیکھ سکتے ہیں۔ پہلا قدم نمونہ لینے کی حکمت عملی کی بنیاد پر نمونہ ڈیٹاسیٹ کی لوڈنگ کی طرف اشارہ کرتا ہے جس کی آپ نے وضاحت کی ہے۔ ڈیٹا لوڈ ہونے کے بعد، ڈیٹا رینگلر ڈیٹاسیٹ میں موجود ہر کالم کے لیے ڈیٹا کی قسموں کا خود بخود پتہ لگاتا ہے۔ یہ مرحلہ تمام ڈیٹاسیٹس کے لیے بطور ڈیفالٹ شامل کیا جاتا ہے۔
اب آپ تجزیہ شامل کرکے ڈیٹا رینگلر میں بے ترتیب نمونے والے ڈیٹا کا جائزہ لے سکتے ہیں۔
- آگے جمع کا نشان منتخب کریں۔ ڈیٹا کی اقسام اور منتخب کریں تجزیہ.
- کے لئے تجزیہ کی قسممنتخب کریں سکیٹر پلاٹ.
- میں سے انتخاب کریں feat_1 اور feat_2 کے طور پر ایکس محور اور Y محوربالترتیب.
- کے لئے کی طرف سے رنگمنتخب کریں فراڈ ہے.
جب آپ ڈیٹا سیٹ کے ساتھ آرام دہ ہوں تو، ML کے لیے اپنا ڈیٹا تیار کرنے کے لیے اپنی کاروباری ضرورت کے مطابق ڈیٹا کی مزید تبدیلیاں کرنے کے لیے آگے بڑھیں۔
مندرجہ ذیل اسکرین شاٹ میں، ہم اپنے تجزیے میں دھوکہ دہی پر مبنی (گہرا نیلا) اور غیر فراڈ (ہلکے نیلے) لین دین کا مشاہدہ کر سکتے ہیں۔
اگلے حصے میں، ہم اس بات کو یقینی بنانے کے لیے اسٹریٹیفائیڈ سیمپلنگ کے استعمال پر بات کرتے ہیں کہ دھوکہ دہی کے کیسوں کا متناسب انتخاب کیا جائے۔
ٹرانسفارم کے ساتھ سٹرٹیفائیڈ سیمپلنگ
ڈیٹا رینگلر آپ کو درآمد پر نمونہ لینے کے ساتھ ساتھ ٹرانسفارم کے ذریعے نمونے لینے کی اجازت دیتا ہے۔ اس سیکشن میں، ہم آپ کے ڈیٹا سیٹ کو ڈیٹا رینگلر میں درآمد کرنے کے بعد ٹرانسفارم کے ذریعے سٹرٹیفائیڈ سیمپلنگ کے استعمال پر تبادلہ خیال کرتے ہیں۔
- نمونے لینے کے لیے، پر ڈیٹا کے بہاؤ ٹیب، درآمد شدہ ڈیٹاسیٹ کے آگے جمع کا نشان منتخب کریں اور منتخب کریں۔ ٹرانسفارم شامل کریں۔.
اس تحریر کے وقت، ڈیٹا رینگلر اس سے زیادہ فراہم کرتا ہے۔ 300 بلٹ ان ٹرانسفارمیشنز. بلٹ ان ٹرانسفارمز کے علاوہ، آپ پانڈاس یا پی اسپارک میں اپنی مرضی کی تبدیلیاں لکھ سکتے ہیں۔
اب آپ تین الگ الگ نمونے لینے کی حکمت عملی استعمال کر سکتے ہیں: حد، بے ترتیب، اور سطحی۔
- کے لئے نمونے لینے کا طریقہمنتخب کریں بنا ہوا.
- استعمال کریں
is_fraud
کالم کو اسٹریٹیفائی کالم کے طور پر۔ - میں سے انتخاب کریں پیش نظارہ تبدیلی کا پیش نظارہ کرنے کے لیے، پھر منتخب کریں۔ شامل کریں اس تبدیلی کو اپنی تبدیلی کی ترکیب میں ایک قدم کے طور پر شامل کرنے کے لیے۔
آپ کے ڈیٹا کا بہاؤ اب اضافی نمونے لینے کے مرحلے کی عکاسی کرتا ہے۔
اب ہم تجزیہ شامل کر کے بے ترتیب نمونے کے ڈیٹا کا جائزہ لے سکتے ہیں۔
- جمع کا نشان منتخب کریں اور منتخب کریں۔ تجزیہ.
- کے لئے تجزیہ کی قسممنتخب کریں ہسٹگرام.
- میں سے انتخاب کریں فراڈ ہے دونوں کیلئے ایکس محور اور کی طرف سے رنگ.
- میں سے انتخاب کریں پیش نظارہ.
مندرجہ ذیل اسکرین شاٹ میں، ہم 20% دھوکہ دہی اور 80% غیر دھوکہ دہی کے صحیح تناسب میں سٹرٹیفائیڈ سیمپلنگ کے ذریعے منتخب کردہ فراڈ (گہرا نیلا) اور غیر فراڈ (ہلکا نیلا) کیسز کی خرابی کا مشاہدہ کر سکتے ہیں۔
نتیجہ
انتہائی بڑے ڈیٹاسیٹس کے ساتھ کام کرتے وقت ڈیٹا کا صحیح نمونہ لینا اور اپنی کاروباری ضروریات کو پورا کرنے کے لیے نمونے لینے کی صحیح حکمت عملی کا انتخاب کرنا ضروری ہے۔ آپ کے نمونے لینے کی تاثیر مختلف عوامل پر منحصر ہے، بشمول کاروباری نتائج، ڈیٹا کی دستیابی، اور تقسیم۔ اس پوسٹ میں، ہم نے آپ کے ڈیٹا کو تیار کرنے کے لیے ڈیٹا رینگلر اور اس کے اندر موجود نمونے لینے کی حکمت عملیوں کو استعمال کرنے کا طریقہ بتایا ہے۔
آپ آج ہی اس صلاحیت کا استعمال ان تمام خطوں میں شروع کر سکتے ہیں جہاں SageMaker Studio دستیاب ہے۔ شروع کرنے کے لیے، ملاحظہ کریں۔ ایمیزون سیج میکر ڈیٹا رینگلر کے ساتھ ایم ایل ڈیٹا تیار کریں۔.
منظوریاں
مصنفین اس مضمون پر ان کے جائزے اور قیمتی آراء کے لیے جوناتھن چنگ (اپلائیڈ سائنٹسٹ) کا شکریہ ادا کرنا چاہیں گے۔
مصنفین کے بارے میں
بین ہیرس ایک سافٹ ویئر انجینئر ہے جس میں مختلف ڈومینز میں توسیع پذیر ڈیٹا پائپ لائنز اور مشین لرننگ سلوشنز کو ڈیزائن کرنے، تعینات کرنے اور برقرار رکھنے کا تجربہ ہے۔
وشال کپور AWS AI کے ساتھ ایک سینئر اپلائیڈ سائنٹسٹ ہے۔ وہ ڈیٹا رینگلر میں صارفین کو ان کے ڈیٹا کو سمجھنے میں مدد کرنے کا پرجوش ہے۔ اپنے فارغ وقت میں، وہ پہاڑی بائیک، سنو بورڈز، اور اپنے خاندان کے ساتھ وقت گزارتا ہے۔
میناکشی سندرم تھنڈاورائن AWS کے ساتھ ایک سینئر AI/ML ماہر ہے۔ وہ ہائی ٹیک اسٹریٹجک اکاؤنٹس کو ان کے AI اور ML سفر میں مدد کرتا ہے۔ وہ ڈیٹا سے چلنے والی AI کے بارے میں بہت پرجوش ہے۔
اجے شرما ایمیزون سیج میکر کے پرنسپل پروڈکٹ مینیجر ہیں جہاں وہ ڈیٹا رینگلر پر توجہ مرکوز کرتے ہیں، جو ڈیٹا سائنسدانوں کے لیے بصری ڈیٹا کی تیاری کا آلہ ہے۔ AWS سے پہلے، Ajai McKinsey and Company میں ڈیٹا سائنس کے ماہر تھے، جہاں انہوں نے دنیا بھر میں معروف فنانس اور انشورنس فرموں کے لیے ML پر مرکوز مصروفیات کی قیادت کی۔ اجائی ڈیٹا سائنس کے بارے میں پرجوش ہے اور جدید ترین الگورتھم اور مشین لرننگ تکنیکوں کو دریافت کرنا پسند کرتا ہے۔
- "
- 100
- ہمارے بارے میں
- درست
- کے پار
- اس کے علاوہ
- پتے
- AI
- یلگوردمز
- تمام
- ایمیزون
- تجزیہ
- مناسب
- تقریبا
- مضمون
- مصنفین
- آٹو
- آٹومیٹڈ
- دستیابی
- دستیاب
- اوسط
- AWS
- کیا جا رہا ہے
- تعمیر
- تعمیر میں
- کاروبار
- مقدمات
- میں سے انتخاب کریں
- کوڈ
- کالم
- کامن
- کمپنی کے
- کمپیوٹنگ
- کمپیوٹنگ
- پر مشتمل ہے
- تخلیق
- کریڈٹ
- کریڈٹ کارڈ
- اپنی مرضی کے
- گاہک
- گاہکوں
- اعداد و شمار
- ڈیٹا سائنس
- تعینات
- ڈیزائننگ
- کھوج
- ترقی
- مختلف
- بات چیت
- تقسیم
- ڈومینز
- ایج
- تاثیر
- ہنر
- مؤثر طریقے سے
- انجینئر
- انجنیئرنگ
- درج
- ماحولیات
- ضروری
- واقعات
- مثال کے طور پر
- خصوصی
- تجربہ
- کی تلاش
- تلاش
- عوامل
- خاندان
- نمایاں کریں
- خصوصیات
- آراء
- کی مالی اعانت
- پہلا
- بہاؤ
- توجہ مرکوز
- پر عمل کریں
- کے بعد
- فریم
- دھوکہ دہی
- مزید
- جنرل
- اچھا
- گروپ
- ہونے
- مدد
- مدد
- مدد کرتا ہے
- کس طرح
- کیسے
- HTTPS
- درآمد
- شامل
- سمیت
- انشورنس
- ضم
- انٹرایکٹو
- انٹرفیس
- بین الاقوامی سطح پر
- IT
- جانا جاتا ہے
- بڑے
- بڑے
- تازہ ترین
- معروف
- جانیں
- سیکھنے
- قیادت
- روشنی
- لسٹ
- لوڈ
- محل وقوع
- مشین
- مشین لرننگ
- مینیجر
- انداز
- پیمائش
- پیمائش کا معیار
- دس لاکھ
- ML
- ماڈل
- زیادہ
- سب سے زیادہ
- سب سے زیادہ مقبول
- ضروری ہے
- تعداد
- تجویز
- آپریشن
- دیگر
- مجموعی طور پر
- خود
- جذباتی
- پوائنٹس
- مقبول
- آبادی
- تیار
- پیش نظارہ
- پرنسپل
- عمل
- پروسیسنگ
- مصنوعات
- فراہم
- فراہم کرتا ہے
- خریداریوں
- فوری
- جلدی سے
- حقیقی دنیا
- کو کم
- نمائندگی
- ضروریات
- کا جائزہ لینے کے
- توسیع پذیر
- سائنس
- سائنسدان
- سائنسدانوں
- منتخب
- مقرر
- سادہ
- سائز
- So
- سافٹ ویئر کی
- سافٹ ویئر انجنیئر
- حل
- حل
- کچھ
- ماہر
- چوک میں
- شروع کریں
- شروع
- شماریات
- ذخیرہ
- حکمت عملی
- حکمت عملیوں
- حکمت عملی
- سٹوڈیو
- کی حمایت کرتا ہے
- سوئچ کریں
- کے نظام
- ٹیکس
- تکنیک
- سانچے
- کے ذریعے
- وقت
- وقت لگتا
- آج
- کے آلے
- ٹریننگ
- معاملات
- تبدیل
- تبدیلی
- عام طور پر
- سمجھ
- استعمال کی شرائط
- مختلف اقسام کے
- مختلف
- تصور
- کے اندر
- بغیر
- کام کر
- کام کرتا ہے
- دنیا
- دنیا بھر
- گا
- تحریری طور پر
- سال