ایمیزون سیج میکر کے اخراجات کا تجزیہ کریں اور استعمال کی بنیاد پر لاگت کو بہتر بنانے کے مواقع کا تعین کریں، حصہ 3: پروسیسنگ اور ڈیٹا رینگلر جابز | ایمیزون ویب سروسز

ایمیزون سیج میکر کے اخراجات کا تجزیہ کریں اور استعمال کی بنیاد پر لاگت کو بہتر بنانے کے مواقع کا تعین کریں، حصہ 3: پروسیسنگ اور ڈیٹا رینگلر جابز | ایمیزون ویب سروسز

2021 میں، ہم نے لانچ کیا۔ AWS سپورٹ پرو ایکٹو سروسز کے حصہ کے طور پر AWS انٹرپرائز سپورٹ منصوبہ اس کے تعارف کے بعد سے، ہم نے سینکڑوں صارفین کو ان کے کام کے بوجھ کو بہتر بنانے، گارڈریل سیٹ کرنے، اور ان کے مشین لرننگ (ML) کام کے بوجھ کی لاگت اور استعمال کی مرئیت کو بہتر بنانے میں مدد کی ہے۔

پوسٹس کی اس سیریز میں، ہم لاگت کو بہتر بنانے کے بارے میں سیکھے گئے اسباق کا اشتراک کرتے ہیں۔ ایمیزون سیج میکر. اس پوسٹ میں، ہم استعمال کرتے ہوئے ڈیٹا پری پروسیسنگ پر توجہ مرکوز کرتے ہیں۔ ایمیزون سیج میکر پروسیسنگ اور ایمیزون سیج میکر ڈیٹا رینگلر ملازمتیں

ڈیٹا پری پروسیسنگ ڈیٹا سینٹرک AI اپروچ میں ایک اہم کردار رکھتی ہے۔ تاہم، ایم ایل کی تربیت اور تشخیص کے لیے خام ڈیٹا تیار کرنا اکثر حسابی وسائل، وقت اور انسانی کوششوں کے لحاظ سے ایک مشکل اور مشکل کام ہوتا ہے۔ ڈیٹا کی تیاری کو عام طور پر مختلف ذرائع سے مربوط کرنے کی ضرورت ہوتی ہے اور گمشدہ یا شور والی اقدار، آؤٹ لیرز وغیرہ سے نمٹنے کی ضرورت ہوتی ہے۔

مزید برآں، عام ایکسٹریکٹ، ٹرانسفارم، اور لوڈ (ETL) کاموں کے علاوہ، ML ٹیموں کو کبھی کبھار زیادہ جدید صلاحیتوں کی ضرورت ہوتی ہے جیسے ڈیٹا کا جائزہ لینے کے لیے فوری ماڈل بنانا اور فیچر اہمیت کے اسکور تیار کرنا یا MLOps پائپ لائن کے حصے کے طور پر ٹریننگ کے بعد کے ماڈل کی تشخیص۔

سیج میکر دو خصوصیات پیش کرتا ہے جو خاص طور پر ان مسائل میں مدد کے لیے ڈیزائن کیے گئے ہیں: سیج میکر پروسیسنگ اور ڈیٹا رینگلر۔ سیج میکر پروسیسنگ آپ کو مکمل طور پر منظم انفراسٹرکچر پر پری پروسیسنگ، پوسٹ پروسیسنگ، اور ماڈل کی تشخیص کو آسانی سے چلانے کے قابل بناتی ہے۔ ڈیٹا رینگلر ایک واحد بصری انٹرفیس اور مکمل طور پر تقسیم شدہ ڈیٹا پروسیسنگ ماحول کا استعمال کرتے ہوئے ڈیٹا سورس انضمام اور فیچر انجینئرنگ کے عمل کو آسان بنا کر ڈیٹا کو جمع کرنے اور تیار کرنے میں لگنے والے وقت کو کم کرتا ہے۔

SageMaker کی دونوں خصوصیات I/O، اسٹوریج، اور کمپیوٹیشن کے لیے کئی اختیارات کے ساتھ زبردست لچک فراہم کرتی ہیں۔ تاہم، ان اختیارات کو غلط طریقے سے ترتیب دینا غیر ضروری لاگت کا باعث بن سکتا ہے، خاص طور پر جب بڑے ڈیٹا سیٹس سے نمٹ رہے ہوں۔

اس پوسٹ میں، ہم قیمتوں کے تعین کے عوامل کا تجزیہ کرتے ہیں اور SageMaker پروسیسنگ اور ڈیٹا رینگلر جابز کے لیے لاگت کو بہتر بنانے کی رہنمائی فراہم کرتے ہیں۔

سیج میکر پروسیسنگ

سیج میکر پروسیسنگ ڈیٹا پروسیسنگ اور ماڈل کی تشخیص کے کام کے بوجھ کو چلانے کا ایک منظم حل ہے۔ آپ اسے ڈیٹا پروسیسنگ کے مراحل میں استعمال کر سکتے ہیں جیسے کہ فیچر انجینئرنگ، ڈیٹا کی توثیق، ماڈل کی تشخیص، اور ML ورک فلوز میں ماڈل کی تشریح۔ سیج میکر پروسیسنگ کے ساتھ، آپ اپنی مرضی کے مطابق پروسیسنگ اسکرپٹس لا سکتے ہیں اور اپنی مرضی کے مطابق کنٹینر بنانے کا انتخاب کر سکتے ہیں یا عام فریم ورک جیسے سکیٹ لرن، لائم، اسپارک وغیرہ کے ساتھ سیج میکر کے زیر انتظام کنٹینر کا استعمال کر سکتے ہیں۔

SageMaker پروسیسنگ آپ سے اس مثال کے ساتھ منسلک استعمال کی مدت اور پروویژن شدہ سٹوریج کی بنیاد پر، آپ کے منتخب کردہ مثال کی قسم کے لیے چارج کرتی ہے۔ حصہ 1 میں، ہم نے دکھایا کہ کس طرح استعمال کرنا شروع کیا جائے۔ AWS لاگت ایکسپلورر سیج میکر میں لاگت کو بہتر بنانے کے مواقع کی نشاندہی کرنا۔

آپ استعمال کی قسم پر فلٹر لگا کر پروسیسنگ کے اخراجات کو فلٹر کر سکتے ہیں۔ ان استعمال کی اقسام کے نام درج ذیل ہیں:

  • REGION-Processing:instanceType (مثال کے طور پر، USE1-Processing:ml.m5.large)
  • REGION-Processing:VolumeUsage.gp2 (مثال کے طور پر، USE1-Processing:VolumeUsage.gp2)

Cost Explorer میں اپنی SageMaker پروسیسنگ لاگت کا جائزہ لینے کے لیے، SageMaker کے ساتھ فلٹر کرکے شروع کریں سروس، کے لئے استعمال کی قسم، آپ درج کرکے تمام پروسیسنگ مثالوں کو چلانے کے اوقات کا انتخاب کرسکتے ہیں۔ processing:ml سابقہ ​​اور مینو پر فہرست کو منتخب کرنا۔

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

پروسیسنگ اور پائپ لائن کی ترقی میں لاگت سے بچیں

سیج میکر پروسیسنگ جاب کے چلنے کے دورانیے کو درست کرنے اور بہتر بنانے سے پہلے، ہم تاریخی جاب کی دوڑ کے بارے میں اعلیٰ سطحی میٹرکس کی جانچ کرتے ہیں۔ آپ ایسا کرنے کے لیے دو طریقوں میں سے انتخاب کر سکتے ہیں۔

سب سے پہلے، آپ تک رسائی حاصل کر سکتے ہیں پروسیسنگ سیج میکر کنسول پر صفحہ۔

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

متبادل طور پر، آپ استعمال کرسکتے ہیں list_processing_jobs API.

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ایک پروسیسنگ کام کی حیثیت ہو سکتی ہے InProgress, Completed, Failed, Stopping، یا Stopped.

نئی MLOps پائپ لائنز تیار کرتے وقت ناکام ملازمتوں کی ایک بڑی تعداد عام ہے۔ تاہم، آپ کو SageMaker پر نوکریوں کو لانچ کرنے سے پہلے ہمیشہ جانچ اور ان کی توثیق کرنے کی ہر ممکن کوشش کرنی چاہیے کیونکہ استعمال شدہ وسائل کے چارجز ہیں۔ اس مقصد کے لیے، آپ SageMaker Processing in استعمال کر سکتے ہیں۔ مقامی طرز. لوکل موڈ ایک SageMaker SDK خصوصیت ہے جو آپ کو تخمینہ لگانے والے، پروسیسرز، اور پائپ لائنز بنانے اور انہیں اپنے مقامی ترقیاتی ماحول میں تعینات کرنے کی اجازت دیتی ہے۔ سیج میکر کے زیر انتظام ماحول میں اپنے اسکرپٹس کو چلانے سے پہلے ان کی جانچ کرنے کا یہ ایک بہترین طریقہ ہے۔ لوکل موڈ کو SageMaker کے زیر انتظام کنٹینرز اور آپ خود سپلائی کرنے والے کنٹینرز کے ذریعے سپورٹ کرتے ہیں۔ کے ساتھ لوکل موڈ استعمال کرنے کے بارے میں مزید جاننے کے لیے ایمیزون سیج میکر پائپ لائنز، کا حوالہ دیتے ہیں مقامی طرز.

I/O سے متعلقہ لاگت کو بہتر بنائیں

سیج میکر پروسیسنگ ملازمتیں انتظام کے حصے کے طور پر تین ڈیٹا ذرائع تک رسائی کی پیش کش کرتی ہیں۔ پروسیسنگ ان پٹ: ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)، ایمیزون ایتینا، اور ایمیزون ریڈ شفٹ. مزید معلومات کے لیے رجوع کریں۔ پروسیسنگ ایس 3 ان پٹ, ایتھینا ڈیٹا سیٹ ڈیفینیشن، اور ریڈ شفٹ ڈیٹا سیٹ ڈیفینیشنبالترتیب.

اصلاح پر غور کرنے سے پہلے، یہ نوٹ کرنا ضروری ہے کہ اگرچہ SageMaker پروسیسنگ جابز ان ڈیٹا ذرائع کو سپورٹ کرتی ہیں، لیکن وہ لازمی نہیں ہیں۔ آپ کے پروسیسنگ کوڈ میں، آپ کسی بھی ذریعہ سے رسائی حاصل کرنے والے ڈیٹا کو ڈاؤن لوڈ کرنے کے لیے کسی بھی طریقے کو نافذ کر سکتے ہیں (بشرطیکہ پروسیسنگ مثال اس تک رسائی حاصل کر سکے)۔

پروسیسنگ کی کارکردگی اور اصلاح کے مواقع کا پتہ لگانے کے بارے میں بہتر بصیرت حاصل کرنے کے لیے، ہم مندرجہ ذیل تجویز کرتے ہیں۔ لاگنگ کے بہترین طریقے آپ کی پروسیسنگ اسکرپٹ میں۔ سیج میکر آپ کے پروسیسنگ لاگز کو شائع کرتا ہے۔ ایمیزون کلاؤڈ واچ.

مندرجہ ذیل مثال کے جاب لاگ میں، ہم دیکھتے ہیں کہ اسکرپٹ پروسیسنگ میں 15 منٹ لگے (کے درمیان Start custom script اور End custom script).

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

تاہم، SageMaker کنسول پر، ہم دیکھتے ہیں کہ اس کام میں 4 اضافی منٹ لگے (جاب کے کل رن ٹائم کا تقریباً 25%)۔

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

یہ اس حقیقت کی وجہ سے ہے کہ ہماری پروسیسنگ اسکرپٹ کے وقت کے علاوہ، SageMaker کے زیر انتظام ڈیٹا ڈاؤن لوڈ اور اپ لوڈ کرنے میں بھی وقت (4 منٹ) لگا۔ اگر یہ لاگت کا ایک بڑا حصہ ثابت ہوتا ہے تو، ڈاؤن لوڈنگ کے وقت کو تیز کرنے کے متبادل طریقوں پر غور کریں، جیسے فائلوں کو بیک وقت ڈاؤن لوڈ کرنے کے لیے ملٹی پروسیسنگ کے ساتھ Boto3 API کا استعمال، یا Amazon S5 سے تیز تر ڈاؤن لوڈ کے لیے WebDataset یا s3cmd کے طور پر تھرڈ پارٹی لائبریریوں کا استعمال۔ . مزید معلومات کے لیے رجوع کریں۔ S3 ورک بوجھ کو s5cmd کے ساتھ متوازی کرنا. نوٹ کریں کہ اس طرح کے طریقوں کی وجہ سے ایمیزون S3 میں چارجز متعارف کرائے جا سکتے ہیں۔ مواد کی منتقلی.

پروسیسنگ ملازمتیں بھی معاونت کرتی ہیں۔ پائپ موڈ. اس طریقہ کے ساتھ، SageMaker ML اسٹوریج والیوم کا استعمال کیے بغیر ماخذ سے ان پٹ ڈیٹا کو براہ راست آپ کے پروسیسنگ کنٹینر میں نامزد پائپوں میں منتقل کرتا ہے، اس طرح ڈیٹا ڈاؤن لوڈ کا وقت اور ایک چھوٹا ڈسک والیوم ختم ہو جاتا ہے۔ تاہم، اس کے لیے ڈسک پر موجود فائلوں کو پڑھنے سے زیادہ پیچیدہ پروگرامنگ ماڈل کی ضرورت ہوتی ہے۔

جیسا کہ پہلے ذکر کیا گیا ہے، سیج میکر پروسیسنگ ڈیٹا کے ذرائع کے طور پر ایتھینا اور ایمیزون ریڈ شفٹ کو بھی سپورٹ کرتی ہے۔ ان ذرائع کے ساتھ پروسیسنگ جاب ترتیب دیتے وقت، SageMaker خود بخود ڈیٹا کو Amazon S3 میں کاپی کرتا ہے، اور پروسیسنگ مثال Amazon S3 کے مقام سے ڈیٹا حاصل کرتی ہے۔ تاہم، جب کام ختم ہو جاتا ہے، وہاں کوئی منظم صفائی کا عمل نہیں ہوتا ہے اور کاپی کیا گیا ڈیٹا اب بھی Amazon S3 میں رہے گا اور اس کے لیے غیر مطلوبہ سٹوریج چارجز لگ سکتے ہیں۔ لہذا، ایتھینا اور ایمیزون ریڈ شفٹ ڈیٹا کے ذرائع استعمال کرتے وقت، صفائی کے طریقہ کار کو یقینی بنائیں، جیسے کہ لیمبڈا فنکشن ایک شیڈول پر چلتا ہے یا ایک میں لیمبڈا مرحلہ سیج میکر پائپ لائن کے حصے کے طور پر۔

ڈاؤن لوڈ کرنے کی طرح، پروسیسنگ آرٹفیکٹس کو اپ لوڈ کرنا بھی اصلاح کا موقع ہو سکتا ہے۔ جب پروسیسنگ جاب کا آؤٹ پٹ استعمال کرتے ہوئے ترتیب دیا جاتا ہے۔ ProcessingS3Output پیرامیٹر، آپ وضاحت کر سکتے ہیں کہ کون سا S3UploadMode استمال کے لیے. دی S3UploadMode پیرامیٹر کی ڈیفالٹ قدر ہے۔ EndOfJob، جو کام مکمل ہونے کے بعد نتائج کو اپ لوڈ کرنے کے لیے SageMaker حاصل کرے گا۔ تاہم، اگر آپ کا پروسیسنگ کام متعدد فائلیں تیار کرتا ہے، تو آپ سیٹ کر سکتے ہیں۔ S3UploadMode کرنے کے لئے Continuous، اس طرح پروسیسنگ جاری رہنے کے ساتھ ساتھ فن پاروں کو اپ لوڈ کرنے کے قابل بناتا ہے، اور کام کے رن ٹائم کو کم کرتا ہے۔

دائیں سائز کی پروسیسنگ جاب کی مثالیں۔

سیج میکر پروسیسنگ جابز کی لاگت کو بہتر بنانے میں صحیح مثال کی قسم اور سائز کا انتخاب ایک اہم عنصر ہے۔ آپ ایک ہی مثال کے خاندان کے اندر ایک مختلف ورژن میں منتقل کر کے یا کسی دوسرے مثال کے خاندان میں منتقل کر کے کسی مثال کو درست کر سکتے ہیں۔ ایک ہی مثال کے خاندان کے اندر منتقل ہونے پر، آپ کو صرف CPU/GPU اور میموری پر غور کرنے کی ضرورت ہے۔ صحیح پروسیسنگ وسائل کے انتخاب کے بارے میں مزید معلومات اور عمومی رہنمائی کے لیے، رجوع کریں۔ ایمیزون سیج میکر پر کمپیوٹ کے موثر وسائل کو یقینی بنائیں.

مثال کے انتخاب کو بہتر بنانے کے لیے، ہم کلاؤڈ واچ میں پروسیسنگ جاب میٹرکس کا تجزیہ کرکے شروعات کرتے ہیں۔ مزید معلومات کے لیے رجوع کریں۔ Amazon CloudWatch کے ساتھ Amazon SageMaker کی نگرانی کریں۔.

CloudWatch SageMaker سے خام ڈیٹا اکٹھا کرتا ہے اور اسے پڑھنے کے قابل، قریب قریب ریئل ٹائم میٹرکس میں پروسیس کرتا ہے۔ اگرچہ یہ اعدادوشمار 15 مہینوں کے لیے رکھے جاتے ہیں، CloudWatch کنسول تلاش کو ان میٹرکس تک محدود کرتا ہے جو پچھلے 2 ہفتوں میں اپ ڈیٹ کیے گئے تھے (یہ یقینی بناتا ہے کہ صرف موجودہ ملازمتیں دکھائی جائیں گی)۔ پروسیسنگ جابز کے میٹرکس /aws/sagemaker/ProcessingJobs نام کی جگہ میں مل سکتے ہیں اور جمع کردہ میٹرکس یہ ہیں CPUUtilization, MemoryUtilization, GPUUtilization, GPUMemoryUtilization، اور DiskUtilization.

مندرجہ ذیل اسکرین شاٹ پروسیسنگ جاب کی کلاؤڈ واچ میں ایک مثال دکھاتا ہے جو ہم نے پہلے دیکھا تھا۔

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

اس مثال میں، ہم اوسط CPU اور میموری کی قدریں دیکھتے ہیں (جو CloudWatch میں پہلے سے طے شدہ ہے): اوسط CPU استعمال 0.04%، میموری 1.84%، اور ڈسک کا استعمال 13.7% ہے۔ دائیں سائز کے لیے، ہمیشہ زیادہ سے زیادہ CPU اور میموری کے استعمال پر غور کریں (اس مثال میں، پہلے 98 منٹ میں CPU کا زیادہ سے زیادہ استعمال 3% تھا)۔ عام اصول کے طور پر، اگر آپ کا زیادہ سے زیادہ CPU اور میموری کا استعمال مستقل طور پر 40% سے کم ہے، تو آپ مشین کو محفوظ طریقے سے نصف میں کاٹ سکتے ہیں۔ مثال کے طور پر، اگر آپ ml.c5.4xlarge مثال استعمال کر رہے تھے، تو آپ ml.c5.2xlarge پر جا سکتے ہیں، جو آپ کی لاگت میں 50% تک کمی کر سکتا ہے۔

ڈیٹا رینگلر کی نوکریاں

ڈیٹا رینگلر کی ایک خصوصیت ہے۔ ایمیزون سیج میکر اسٹوڈیو جو ڈیٹا ایکسپلوریشن اور پروسیسنگ کے لیے ایک قابل تکرار اور قابل توسیع حل فراہم کرتا ہے۔ آپ ڈیٹا رینگلر انٹرفیس کو انٹرایکٹو طریقے سے درآمد کرنے، تجزیہ کرنے، تبدیل کرنے اور اپنے ڈیٹا کو نمایاں کرنے کے لیے استعمال کرتے ہیں۔ وہ اقدامات ایک ترکیب (ایک .flow فائل) میں کیپچر کیے گئے ہیں جسے آپ ڈیٹا رینگلر جاب میں استعمال کر سکتے ہیں۔ اس سے آپ کو اپنے ڈیٹا پر وہی ڈیٹا ٹرانسفارمیشن دوبارہ لاگو کرنے میں مدد ملتی ہے اور تقسیم شدہ بیچ ڈیٹا پروسیسنگ جاب کے لیے پیمانہ بھی ملتا ہے، یا تو ایم ایل پائپ لائن کے حصے کے طور پر یا آزادانہ طور پر۔

اسٹوڈیو میں اپنی ڈیٹا رینگلر ایپ کو بہتر بنانے کے لیے رہنمائی کے لیے، اس سیریز میں حصہ 2 دیکھیں۔

اس سیکشن میں، ہم ڈیٹا رینگلر جابز کو بہتر بنانے پر توجہ دیتے ہیں۔

ڈیٹا رینگلر استعمال کرتا ہے۔ سیج میکر اسپارک پروسیسنگ کی نوکریاں ڈیٹا رینگلر کے زیر انتظام کنٹینر کے ساتھ۔ یہ کنٹینر کام میں .flow فائل سے ہدایات چلاتا ہے۔ کسی بھی پروسیسنگ جاب کی طرح، ڈیٹا رینگلر آپ سے ان مثالوں کے لیے چارج کرتا ہے جو آپ نے منتخب کیے ہیں، استعمال کی مدت اور اس مثال کے ساتھ منسلک اسٹوریج کی بنیاد پر۔

Cost Explorer میں، آپ استعمال کی قسم پر فلٹر لگا کر ڈیٹا رینگلر کی ملازمتوں کے اخراجات کو فلٹر کر سکتے ہیں۔ ان استعمال کی اقسام کے نام یہ ہیں:

  • REGION-processing_DW:instanceType (مثال کے طور پر، USE1-processing_DW:ml.m5.large)
  • REGION-processing_DW:VolumeUsage.gp2 (مثال کے طور پر، USE1-processing_DW:VolumeUsage.gp2)

کوسٹ ایکسپلورر میں اپنی ڈیٹا رینگلر کی قیمت دیکھنے کے لیے، SageMaker استعمال کرنے کے لیے سروس کو فلٹر کریں، اور استعمال کی قسم، منتخب کیجئیے processing_DW prefix اور مینو پر فہرست کو منتخب کریں۔ یہ آپ کو مثال کے طور پر استعمال (گھنٹے) اور اسٹوریج والیوم (GB) سے متعلقہ اخراجات دونوں دکھائے گا۔ (اگر آپ اسٹوڈیو ڈیٹا رینگلر کے اخراجات دیکھنا چاہتے ہیں تو آپ استعمال کی قسم کو فلٹر کر سکتے ہیں۔ Studio_DW سابقہ۔)

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

دائیں سائز اور شیڈول ڈیٹا رینگلر جاب کی مثالیں۔

اس وقت، ڈیٹا رینگلر مندرجہ ذیل مثال کے سائز کے ساتھ صرف m5 مثالوں کو سپورٹ کرتا ہے: ml.m5.4xlarge، ml.m5.12xlarge، اور ml.m5.24xlarge۔ آپ اپنی ملازمت کی لاگت کو ٹھیک کرنے کے لیے تقسیم شدہ جاب کی خصوصیت کا استعمال کر سکتے ہیں۔ مثال کے طور پر، فرض کریں کہ آپ کو ایک ڈیٹاسیٹ پر کارروائی کرنے کی ضرورت ہے جس کے لیے RAM میں 350 GiB درکار ہے۔ ہو سکتا ہے کہ 4xlarge (128 GiB) اور 12xlarge (256 GiB) پروسیس نہ کر سکے اور آپ کو m5.24xlarge مثال (768 GiB) استعمال کرنے کی طرف لے جائے۔ تاہم، آپ دو m5.12x بڑی مثالیں (2 * 256 GiB = 512 GiB) استعمال کر سکتے ہیں اور لاگت میں 40% یا تین m5.4x بڑے مثالوں (3 * 128 GiB = 384 GiB) کو کم کر سکتے ہیں اور m50xlarge کا 5.24% بچا سکتے ہیں۔ مثال کی لاگت. آپ کو نوٹ کرنا چاہیے کہ یہ تخمینے ہیں اور یہ تقسیم شدہ پروسیسنگ کچھ اوور ہیڈ متعارف کر سکتی ہے جو مجموعی رن ٹائم کو متاثر کرے گی۔

مثال کی قسم کو تبدیل کرتے وقت، یقینی بنائیں کہ آپ اپ ڈیٹ کر رہے ہیں۔ چنگاری کی تشکیل اس کے مطابق مثال کے طور پر، اگر آپ کے پاس ابتدائی ml.m5.4xlarge مثالی جاب ہے جو پراپرٹیز کے ساتھ کنفیگر کی گئی ہے spark.driver.memory 2048 پر سیٹ کریں اور spark.executor.memory 55742 پر سیٹ کریں، اور بعد میں ml.m5.12xlarge تک پیمانہ کریں، ان کنفیگریشن ویلیوز کو بڑھانے کی ضرورت ہے، ورنہ وہ پروسیسنگ کے کام میں رکاوٹ بنیں گے۔ آپ ان متغیرات کو ڈیٹا رینگلر GUI میں یا کنفیگریشن فائل میں کنفیگریشن پاتھ میں شامل کر سکتے ہیں (مندرجہ ذیل مثالیں دیکھیں)۔

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ڈیٹا رینگلر میں ایک اور زبردست خصوصیت کرنے کی صلاحیت ہے۔ ایک طے شدہ کام مقرر کریں. اگر آپ وقتاً فوقتاً ڈیٹا پر کارروائی کر رہے ہیں، تو آپ پروسیسنگ جاب کو خود بخود چلانے کے لیے ایک شیڈول بنا سکتے ہیں۔ مثال کے طور پر، آپ ایک ایسا شیڈول بنا سکتے ہیں جو پروسیسنگ کا کام خود بخود چلاتا ہے جب آپ کو نیا ڈیٹا ملتا ہے (مثال کے طور پر، دیکھیں ایمیزون S3 کو برآمد کریں۔ or ایمیزون سیج میکر فیچر اسٹور پر برآمد کریں۔)۔ تاہم، آپ کو یاد رکھنا چاہیے کہ جب آپ شیڈول بناتے ہیں، تو ڈیٹا رینگلر ایک تخلیق کرتا ہے۔ eventRule ایونٹ برج میں۔ اس کا مطلب ہے کہ آپ سے ایونٹ کے ان قوانین کے لیے بھی چارج کیا جائے گا جو آپ بناتے ہیں (نیز پروسیسنگ جاب کو چلانے کے لیے استعمال ہونے والی مثالیں)۔ مزید معلومات کے لیے دیکھیں ایمیزون ایونٹ برج کی قیمتوں کا تعین.

نتیجہ

اس پوسٹ میں، ہم نے پری پروسیسنگ کے دوران لاگت کے تجزیہ اور بہترین طریقوں پر رہنمائی فراہم کی ہے۔

سیج میکر پروسیسنگ اور ڈیٹا رینگلر جابز کا استعمال کرتے ہوئے ڈیٹا۔ پری پروسیسنگ کی طرح، ایم ایل ماڈلز کی تعمیر، تربیت، اور چلانے میں بہت سے اختیارات اور ترتیب کی ترتیبات ہیں جو غیر ضروری اخراجات کا باعث بن سکتی ہیں۔ لہذا، چونکہ مشین لرننگ خود کو صنعتوں میں ایک طاقتور ٹول کے طور پر قائم کرتی ہے، ML ورک بوجھ کو لاگت سے موثر رہنے کی ضرورت ہے۔

سیج میکر ایم ایل پائپ لائن میں ہر قدم کو آسان بنانے کے لیے ایک وسیع اور گہرا فیچر سیٹ پیش کرتا ہے۔

یہ مضبوطی کارکردگی یا چستی پر سمجھوتہ کیے بغیر لاگت کو بہتر بنانے کے مسلسل مواقع فراہم کرتی ہے۔


مصنفین کے بارے میں

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.دیپالی راجلے AWS میں ایک سینئر AI/ML ماہر ہے۔ وہ انٹرپرائز صارفین کے ساتھ کام کرتی ہے جو AWS ماحولیاتی نظام میں AI/ML سلوشنز کی تعیناتی اور برقرار رکھنے کے لیے بہترین طریقوں کے ساتھ تکنیکی رہنمائی فراہم کرتی ہے۔ اس نے این ایل پی اور کمپیوٹر ویژن پر مشتمل مختلف گہرے سیکھنے کے استعمال کے معاملات پر تنظیموں کی ایک وسیع رینج کے ساتھ کام کیا ہے۔ وہ تنظیموں کو بااختیار بنانے کے بارے میں پرجوش ہیں تاکہ ان کے استعمال کے تجربے کو بڑھانے کے لیے جنریٹو AI کا فائدہ اٹھائیں۔ اپنے فارغ وقت میں، وہ فلموں، موسیقی اور ادب سے لطف اندوز ہوتی ہیں۔

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 3: Processing and Data Wrangler jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.یوری روزنبرگ یورپ، مشرق وسطیٰ اور افریقہ کے لیے AI اور ML ماہر تکنیکی مینیجر ہے۔ اسرائیل سے باہر کی بنیاد پر، Uri انٹرپرائز کے صارفین کو ML کو ڈیزائن، تعمیر، اور پیمانے پر چلانے کے لیے تمام چیزوں پر بااختیار بنانے کے لیے کام کرتا ہے۔ اپنے فارغ وقت میں، وہ سائیکلنگ، پیدل سفر، اور غروب آفتاب دیکھنے سے لطف اندوز ہوتا ہے (دن میں کم از کم ایک بار)۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ