ایمیزون سیج میکر ڈیٹا رینگلر مشین لرننگ (ML) کے لیے ڈیٹا کو جمع کرنے اور تیار کرنے کا وقت ہفتوں سے منٹ تک کم کر دیتا ہے۔ ڈیٹا رینگلر کے ساتھ، آپ صرف چند کلکس کے ساتھ ڈیٹا کو منتخب اور استفسار کر سکتے ہیں، 300 سے زیادہ بلٹ ان ڈیٹا ٹرانسفارمیشنز کے ساتھ ڈیٹا کو تیزی سے تبدیل کر سکتے ہیں، اور بغیر کسی کوڈ کو لکھے بلٹ ان ویژولائزیشن کے ساتھ اپنے ڈیٹا کو سمجھ سکتے ہیں۔
اس کے علاوہ، آپ بنا سکتے ہیں اپنی مرضی کے مطابق تبدیلیاں آپ کی ضروریات کے مطابق منفرد۔ اپنی مرضی کی تبدیلیاں آپ کو PySpark، Pandas، یا SQL کا استعمال کرتے ہوئے اپنی مرضی کے مطابق تبدیلیاں لکھنے کی اجازت دیتی ہیں۔
ڈیٹا رینگلر اب ایک کسٹم کی حمایت کرتا ہے۔ پانڈا صارف کی طرف سے طے شدہ فنکشن (UDF) ٹرانسفارم جو بڑے ڈیٹاسیٹس کو مؤثر طریقے سے پروسیس کر سکتا ہے۔ آپ دو حسب ضرورت پانڈاس UDF طریقوں میں سے انتخاب کر سکتے ہیں: پانڈاس اور ازگر۔ دونوں موڈز ڈیٹاسیٹس پر کارروائی کرنے کے لیے ایک موثر حل فراہم کرتے ہیں، اور آپ جو موڈ منتخب کرتے ہیں وہ آپ کی ترجیح پر منحصر ہے۔
اس پوسٹ میں، ہم یہ ظاہر کرتے ہیں کہ نئے پانڈا یو ڈی ایف ٹرانسفارم کو کسی بھی موڈ میں کیسے استعمال کیا جائے۔
حل جائزہ
اس تحریر کے وقت، آپ ڈیٹا سیٹس کو ڈیٹا رینگلر میں درآمد کر سکتے ہیں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)، ایمیزون ایتینا, ایمیزون ریڈ شفٹ، ڈیٹابرکس، اور سنو فلیک۔ اس پوسٹ کے لیے، ہم 3 کو اسٹور کرنے کے لیے Amazon S2014 کا استعمال کرتے ہیں۔ ایمیزون ڈیٹاسیٹ کا جائزہ لیتا ہے۔.
ڈیٹا میں ایک کالم ہوتا ہے۔ reviewText
صارف کے تیار کردہ متن پر مشتمل ہے۔ متن بھی متعدد پر مشتمل ہے۔ الفاظ روکیں، جو عام الفاظ ہیں جو زیادہ معلومات فراہم نہیں کرتے ہیں، جیسے کہ "a," "an" اور "the." اسٹاپ الفاظ کو ہٹانا قدرتی زبان کی پروسیسنگ (NLP) پائپ لائنوں میں ایک عام پری پروسیسنگ مرحلہ ہے۔ ہم جائزوں سے سٹاپ الفاظ کو ہٹانے کے لیے ایک حسب ضرورت فنکشن بنا سکتے ہیں۔
اپنی مرضی کے مطابق پانڈاس یو ڈی ایف ٹرانسفارم بنائیں
آئیے پانڈا اور ازگر کے طریقوں کا استعمال کرتے ہوئے دو ڈیٹا رینگلر کسٹم پانڈاس UDF ٹرانسفارمز بنانے کے عمل پر چلتے ہیں۔
- ڈاؤن لوڈ، اتارنا ڈیجیٹل میوزک ڈیٹاسیٹ کا جائزہ لیتا ہے۔ اور اسے Amazon S3 پر اپ لوڈ کریں۔
- اوپن ایمیزون سیج میکر اسٹوڈیو اور ایک نیا ڈیٹا رینگلر فلو بنائیں۔
- کے تحت ڈیٹا درآمد کریں۔منتخب کریں ایمیزون S3 اور ڈیٹا سیٹ کے مقام پر جائیں۔
- کے لئے فائل کی قسممنتخب کریں jsonl.
ڈیٹا کا ایک پیش نظارہ ٹیبل میں دکھایا جانا چاہئے۔
- میں سے انتخاب کریں درآمد کریں آگے بڑھنے کے لئے.
- آپ کا ڈیٹا درآمد ہونے کے بعد، آگے موجود پلس کا نشان منتخب کریں۔ ڈیٹا کی اقسام اور منتخب کریں تبدیلی شامل کریں۔.
- میں سے انتخاب کریں اپنی مرضی کی تبدیلی.
- ڈراپ ڈاؤن مینو پر، Python (صارف کی طرف سے طے شدہ فنکشن).
اب ہم سٹاپ الفاظ کو ہٹانے کے لیے اپنی مرضی کی تبدیلی بناتے ہیں۔
- اپنے ان پٹ کالم، آؤٹ پٹ کالم، واپسی کی قسم، اور موڈ کی وضاحت کریں۔
درج ذیل مثال پانڈاس موڈ کا استعمال کرتی ہے۔ اس کا مطلب ہے کہ فنکشن کو اسی لمبائی کی پانڈاس سیریز کو قبول کرنا اور واپس کرنا چاہیے۔ آپ پانڈاس سیریز کے بارے میں کسی ٹیبل میں کالم یا کالم کے ایک حصے کے طور پر سوچ سکتے ہیں۔ یہ سب سے زیادہ کارکردگی کا مظاہرہ کرنے والا پانڈاس یو ڈی ایف موڈ ہے کیونکہ پانڈاس ایک وقت میں ایک کے برعکس اقدار کے بیچوں میں آپریشن کو ویکٹرائز کر سکتے ہیں۔ دی pd.Series
پانڈاس موڈ میں قسم کے اشارے درکار ہیں۔
اگر آپ Pandas API کے برعکس خالص Python استعمال کرنے کو ترجیح دیتے ہیں، Python موڈ آپ کو ایک خالص Python فنکشن کی وضاحت کرنے کی اجازت دیتا ہے جو ایک دلیل کو قبول کرتا ہے اور ایک ہی قدر واپس کرتا ہے۔ مندرجہ ذیل مثال آؤٹ پٹ کے لحاظ سے پچھلے پانڈاس کوڈ کے برابر ہے۔ Python موڈ میں قسم کے اشارے کی ضرورت نہیں ہے۔
- میں سے انتخاب کریں شامل کریں اپنی مرضی کی تبدیلی کو شامل کرنے کے لیے۔
نتیجہ
ڈیٹا رینگلر میں 300 سے زیادہ بلٹ ان ٹرانسفارمز ہیں، اور آپ اپنی ضروریات کے مطابق اپنی مرضی کے مطابق تبدیلیاں بھی شامل کر سکتے ہیں۔ اس پوسٹ میں، ہم نے دکھایا کہ ڈیٹا رینگلر کے نئے کسٹم پانڈاس UDF ٹرانسفارم کے ساتھ، پانڈاس اور ازگر دونوں طریقوں کا استعمال کرتے ہوئے ڈیٹا سیٹس کو کیسے پروسیس کیا جائے۔ آپ اپنی ترجیح کی بنیاد پر یا تو موڈ استعمال کر سکتے ہیں۔ ڈیٹا رینگلر کے بارے میں مزید جاننے کے لیے، رجوع کریں۔ ڈیٹا رینگلر فلو بنائیں اور استعمال کریں۔.
مصنفین کے بارے میں
بین ہیرس ایک سافٹ ویئر انجینئر ہے جس میں مختلف ڈومینز میں توسیع پذیر ڈیٹا پائپ لائنز اور مشین لرننگ سلوشنز کو ڈیزائن، تعینات اور برقرار رکھنے کا تجربہ ہے۔ بین نے ڈیٹا اکٹھا کرنے اور لیبلنگ، امیج اور ٹیکسٹ کی درجہ بندی، ترتیب سے ترتیب ماڈلنگ، ایمبیڈنگ، اور کلسٹرنگ کے لیے نظام بنائے ہیں۔
حیدر نقوی AWS میں ایک حل آرکیٹیکٹ ہے۔ اس کے پاس سافٹ ویئر ڈویلپمنٹ اور انٹرپرائز آرکیٹیکچر کا وسیع تجربہ ہے۔ وہ صارفین کو AWS کے ساتھ کاروباری نتائج حاصل کرنے کے قابل بنانے پر توجہ مرکوز کرتا ہے۔ وہ نیویارک سے باہر مقیم ہے۔
وشال سریواستو AWS میں ٹیکنیکل اکاؤنٹ مینیجر ہے۔ سافٹ ویئر ڈویلپمنٹ اور تجزیات میں پس منظر کے ساتھ، وہ بنیادی طور پر مالیاتی خدمات کے شعبے اور ڈیجیٹل مقامی کاروباری صارفین کے ساتھ کام کرتا ہے اور ان کے کلاؤڈ سفر کی حمایت کرتا ہے۔ اپنے فارغ وقت میں، وہ اپنے خاندان کے ساتھ سفر کرنا پسند کرتا ہے۔
- "
- 10
- 100
- 9
- ہمارے بارے میں
- اکاؤنٹ
- کے پار
- ایمیزون
- کے درمیان
- تجزیاتی
- اے پی آئی
- فن تعمیر
- دستیاب
- AWS
- پس منظر
- تعمیر میں
- کاروبار
- میں سے انتخاب کریں
- درجہ بندی
- بادل
- کوڈ
- مجموعہ
- کالم
- کامن
- پر مشتمل ہے
- تخلیق
- تخلیق
- اپنی مرضی کے
- گاہکوں
- اعداد و شمار
- مظاہرہ
- demonstrated,en
- انحصار کرتا ہے
- تعینات
- ڈیزائننگ
- ترقی
- ڈیجیٹل
- ڈومینز
- ہنر
- مؤثر طریقے سے
- کو فعال کرنا
- انجینئر
- انٹرپرائز
- مثال کے طور پر
- تجربہ
- وسیع
- خاندان
- مالی
- مالیاتی خدمات
- بہاؤ
- توجہ مرکوز
- کے بعد
- مفت
- تقریب
- کس طرح
- کیسے
- HTTPS
- تصویر
- معلومات
- ان پٹ
- IT
- کے ساتھ گفتگو
- لیبل
- زبان
- بڑے
- جانیں
- سیکھنے
- محل وقوع
- مشین
- مشین لرننگ
- مینیجر
- میچ
- ML
- زیادہ
- سب سے زیادہ
- موسیقی
- قدرتی
- NY
- آپریشنز
- تیار
- پیش نظارہ
- عمل
- پروسیسنگ
- فراہم
- فوری
- جلدی سے
- ضرورت
- ضروریات
- واپسی
- واپسی
- جائزہ
- توسیع پذیر
- شعبے
- سیریز
- سروسز
- سادہ
- سافٹ ویئر کی
- سوفٹ ویئر کی نشوونما
- سافٹ ویئر انجنیئر
- حل
- حل
- خالی جگہیں
- ذخیرہ
- ذخیرہ
- کی حمایت کرتا ہے
- سسٹمز
- ٹیکنیکل
- کے ذریعے
- وقت
- ٹوکن
- ٹوکن
- تبدیل
- سفر
- سمجھ
- منفرد
- استعمال کی شرائط
- قیمت
- مختلف اقسام کے
- بغیر
- الفاظ
- کام کرتا ہے
- تحریری طور پر