Get More Control Of Your Amazon SageMaker Data Wrangler Workloads With Parameterized Datasets And Scheduled Jobs

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

ڈیٹا ہر شعبے اور ہر کاروبار کو تبدیل کر رہا ہے۔ تاہم، زیادہ تر کمپنیاں اس سے زیادہ تیزی سے بڑھتے ہوئے ڈیٹا کے ساتھ، ڈیٹا اکٹھا کرنا اور اس ڈیٹا کی قدر حاصل کرنا ایک مشکل کام ہے۔ اے جدید ڈیٹا کی حکمت عملی ڈیٹا کے ساتھ بہتر کاروباری نتائج پیدا کرنے میں آپ کی مدد کر سکتے ہیں۔ AWS خدمات کا سب سے مکمل سیٹ فراہم کرتا ہے۔ آخر سے آخر تک ڈیٹا کا سفر آپکی مدد کے لئے اپنے ڈیٹا سے قدر کو غیر مقفل کریں۔ اور اسے بصیرت میں تبدیل کریں.

ڈیٹا سائنسدان مشین لرننگ (ML) پروجیکٹس کے لیے ڈیٹا کی تیاری میں اپنا 80% وقت خرچ کر سکتے ہیں۔ تیاری کا یہ عمل بڑی حد تک غیر امتیازی اور تھکا دینے والا کام ہے، اور اس میں متعدد پروگرامنگ APIs اور کسٹم لائبریریاں شامل ہو سکتی ہیں۔ ایمیزون سیج میکر ڈیٹا رینگلر ڈیٹا سائنسدانوں اور ڈیٹا انجینئرز کو بصری انٹرفیس کے ذریعے ٹیبلر اور ٹائم سیریز ڈیٹا کی تیاری اور فیچر انجینئرنگ کو آسان اور تیز کرنے میں مدد کرتا ہے۔ آپ متعدد ڈیٹا ذرائع سے ڈیٹا درآمد کر سکتے ہیں، جیسے ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)، ایمیزون ایتینا, ایمیزون ریڈ شفٹ، یا یہاں تک کہ تیسری پارٹی کے حل جیسے میں Snowflake or ڈیٹا برکس، اور 300 سے زیادہ بلٹ ان ڈیٹا ٹرانسفارمیشنز اور کوڈ کے ٹکڑوں کی لائبریری کے ساتھ اپنے ڈیٹا پر کارروائی کریں، تاکہ آپ بغیر کوئی کوڈ لکھے فیچرز کو تیزی سے نارمل، تبدیل اور یکجا کر سکیں۔ آپ PySpark، SQL، یا Pandas میں اپنی مرضی کے مطابق تبدیلیاں بھی لا سکتے ہیں۔

یہ پوسٹ ظاہر کرتی ہے کہ آپ اپنے ڈیٹا کی تیاری کے کاموں کو خود بخود چلانے کے لیے کس طرح شیڈول کر سکتے ہیں۔ ہم پیرامیٹرائزڈ ڈیٹاسیٹس کی نئی ڈیٹا رینگلر کی صلاحیت کو بھی دریافت کرتے ہیں، جو آپ کو پیرامیٹرائزڈ URIs کے ذریعے ڈیٹا فلو میں شامل کی جانے والی فائلوں کی وضاحت کرنے کی اجازت دیتا ہے۔

حل جائزہ

ڈیٹا رینگلر اب پیرامیٹرائزڈ یو آر آئی کا استعمال کرتے ہوئے ڈیٹا درآمد کرنے کی حمایت کرتا ہے۔ یہ مزید لچک پیدا کرنے کی اجازت دیتا ہے کیونکہ اب آپ مخصوص پیرامیٹرز سے مماثل تمام ڈیٹاسیٹس درآمد کر سکتے ہیں، جو URI میں String، Number، Datetime، اور Pattern کے ہو سکتے ہیں۔ مزید برآں، اب آپ اپنی ڈیٹا رینگلر ٹرانسفارمیشن جابز کو شیڈول کے مطابق متحرک کر سکتے ہیں۔

اس پوسٹ میں، ہم ٹائٹینک ڈیٹاسیٹ کے ساتھ ایک نمونہ بہاؤ بناتے ہیں تاکہ یہ ظاہر کیا جا سکے کہ آپ ڈیٹا رینگلر کی ان دو نئی خصوصیات کے ساتھ کس طرح تجربہ کرنا شروع کر سکتے ہیں۔ ڈیٹاسیٹ ڈاؤن لوڈ کرنے کے لیے، رجوع کریں۔ ٹائٹینک - تباہی سے مشین لرننگ.

شرائط

اس پوسٹ میں بیان کردہ تمام خصوصیات حاصل کرنے کے لیے، آپ کو ڈیٹا رینگلر کا تازہ ترین کرنل ورژن چلانے کی ضرورت ہے۔ مزید معلومات کے لیے رجوع کریں۔ ڈیٹا رینگلر کو اپ ڈیٹ کریں۔. اس کے علاوہ، آپ کو چلانے کی ضرورت ہے ایمیزون سیج میکر اسٹوڈیو JupyterLab 3۔ موجودہ ورژن دیکھنے اور اسے اپ ڈیٹ کرنے کے لیے، رجوع کریں۔ JupyterLab ورژننگ.

فائل کا ڈھانچہ

اس مظاہرے کے لیے، ہم فائل کے ایک سادہ ڈھانچے کی پیروی کرتے ہیں جسے آپ کو اس پوسٹ میں بیان کردہ مراحل کو دوبارہ پیش کرنے کے لیے نقل کرنا ہوگا۔

اسٹوڈیو میں، ایک نئی نوٹ بک بنائیں.

فولڈر کا ڈھانچہ بنانے کے لیے درج ذیل کوڈ کا ٹکڑا چلائیں جسے ہم استعمال کرتے ہیں (یقینی بنائیں کہ آپ اپنی فائل ٹری میں مطلوبہ فولڈر میں ہیں):

!mkdir titanic_dataset
!mkdir titanic_dataset/datetime_data
!mkdir titanic_dataset/datetime_data/2021
!mkdir titanic_dataset/datetime_data/2022

!mkdir titanic_dataset/datetime_data/2021/01 titanic_dataset/datetime_data/2021/02 titanic_dataset/datetime_data/2021/03 
!mkdir titanic_dataset/datetime_data/2021/04 titanic_dataset/datetime_data/2021/05 titanic_dataset/datetime_data/2021/06
!mkdir titanic_dataset/datetime_data/2022/01 titanic_dataset/datetime_data/2022/02 titanic_dataset/datetime_data/2022/03 
!mkdir titanic_dataset/datetime_data/2022/04 titanic_dataset/datetime_data/2022/05 titanic_dataset/datetime_data/2022/06

!mkdir titanic_dataset/datetime_data/2021/01/01 titanic_dataset/datetime_data/2021/02/01 titanic_dataset/datetime_data/2021/03/01 
!mkdir titanic_dataset/datetime_data/2021/04/01 titanic_dataset/datetime_data/2021/05/01 titanic_dataset/datetime_data/2021/06/01
!mkdir titanic_dataset/datetime_data/2022/01/01 titanic_dataset/datetime_data/2022/02/01 titanic_dataset/datetime_data/2022/03/01 
!mkdir titanic_dataset/datetime_data/2022/04/01 titanic_dataset/datetime_data/2022/05/01 titanic_dataset/datetime_data/2022/06/01

!mkdir titanic_dataset/train_1 titanic_dataset/train_2 titanic_dataset/train_3 titanic_dataset/train_4 titanic_dataset/train_5
!mkdir titanic_dataset/train titanic_dataset/test

کاپی train.csv اور test.csv فائلیں اصل ٹائٹینک ڈیٹاسیٹ سے فولڈرز تک titanic_dataset/train اور titanic_dataset/testبالترتیب.

ضروری فائلوں کے ساتھ فولڈرز کو آباد کرنے کے لیے درج ذیل کوڈ کا ٹکڑا چلائیں۔

import os
import math
import pandas as pd
batch_size = 100

#Get a list of all the leaf nodes in the folder structure
leaf_nodes = []

for root, dirs, files in os.walk('titanic_dataset'):
    if not dirs:
        if root != "titanic_dataset/test" and root != "titanic_dataset/train":
            leaf_nodes.append(root)
            
titanic_df = pd.read_csv('titanic_dataset/train/train.csv')

#Create the mini batch files
for i in range(math.ceil(titanic_df.shape[0]/batch_size)):
    batch_df = titanic_df[i*batch_size:(i+1)*batch_size]
    
    #Place a copy of each mini batch in each one of the leaf folders
    for node in leaf_nodes:
        batch_df.to_csv(node+'/part_{}.csv'.format(i), index=False)

ہم نے تقسیم کیا۔ train.csv ٹائٹینک ڈیٹاسیٹ کی فائل کو نو مختلف فائلوں میں، نام دیا گیا۔ part_x، جہاں x حصہ کا نمبر ہے۔ حصہ 0 میں پہلے 100 ریکارڈز ہیں، حصہ 1 اگلا 100، اور اسی طرح حصہ 8 تک۔ فائل ٹری کے ہر نوڈ فولڈر میں ٹریننگ ڈیٹا کے نو حصوں کی ایک کاپی ہوتی ہے سوائے اس کے۔ train اور test فولڈرز، جن پر مشتمل ہے۔ train.csv اور test.csv.

پیرامیٹرائزڈ ڈیٹاسیٹس

ڈیٹا رینگلر صارفین اب ایمیزون S3 سے درآمد کردہ ڈیٹا سیٹس کے لیے پیرامیٹرز کی وضاحت کر سکتے ہیں۔ ڈیٹا سیٹ کے پیرامیٹرز وسائل کے URI پر بیان کیے گئے ہیں، اور اس کی قدر کو متحرک طور پر تبدیل کیا جا سکتا ہے، جس سے ان فائلوں کو منتخب کرنے کے لیے مزید لچک پیدا کی جا سکتی ہے جنہیں ہم درآمد کرنا چاہتے ہیں۔ پیرامیٹرز چار ڈیٹا اقسام کے ہو سکتے ہیں:

نمبر - کسی بھی عدد کی قدر لے سکتا ہے۔
سلک - کسی بھی ٹیکسٹ سٹرنگ کی قدر لے سکتا ہے۔
پاٹرن - کسی بھی ریگولر ایکسپریشن کی قدر لے سکتے ہیں۔
تاریخ کا وقت - تعاون یافتہ تاریخ/وقت فارمیٹس میں سے کسی کی قیمت لے سکتا ہے۔

اس سیکشن میں، ہم اس نئی خصوصیت کا واک تھرو فراہم کرتے ہیں۔ یہ تب ہی دستیاب ہوتا ہے جب آپ اپنا ڈیٹا سیٹ اپنے موجودہ فلو میں درآمد کرتے ہیں اور صرف Amazon S3 سے درآمد کردہ ڈیٹا سیٹس کے لیے۔

اپنے ڈیٹا کے بہاؤ سے، درآمد کے مرحلے کے آگے جمع (+) کا نشان منتخب کریں اور منتخب کریں۔ ڈیٹاسیٹ میں ترمیم کریں۔.
نئے پیرامیٹرز بنانے کا ترجیحی (اور سب سے آسان) طریقہ یہ ہے کہ آپ URI کے ایک حصے کو نمایاں کریں اور منتخب کریں حسب ضرورت پیرامیٹر بنائیں ڈراپ ڈاؤن مینو پر۔ آپ کو ہر پیرامیٹر کے لیے چار چیزیں بتانے کی ضرورت ہے جو آپ بنانا چاہتے ہیں:
1. نام
2. قسم
3. پہلے سے طے شدہ قیمت
4. Description
یہاں ہم نے String قسم کا پیرامیٹر بنایا ہے جسے کہتے ہیں۔ filename_param کی ڈیفالٹ قدر کے ساتھ train.csv. اب آپ پیرامیٹر کا نام ڈبل بریکٹ میں بند دیکھ سکتے ہیں، URI کے اس حصے کو بدلتے ہوئے جسے ہم نے پہلے ہائی لائٹ کیا تھا۔ کیونکہ اس پیرامیٹر کے لیے متعین قدر تھی۔ train.csv، اب ہم فائل دیکھتے ہیں۔ train.csv درآمد کی میز پر درج ہے۔
جب ہم تبدیلی کا کام بنانے کی کوشش کرتے ہیں، کام کو ترتیب دیں۔ قدم، اب ہم دیکھتے ہیں a پیرامیٹر سیکشن، جہاں ہم اپنے تمام متعین پیرامیٹرز کی فہرست دیکھ سکتے ہیں۔
پیرامیٹر کا انتخاب ہمیں پیرامیٹر کی قدر کو تبدیل کرنے کا اختیار فراہم کرتا ہے، اس صورت میں، ان پٹ ڈیٹاسیٹ کو متعین بہاؤ کے مطابق تبدیل کرنے کے لیے تبدیل کرنا۔
فرض کرتے ہوئے کہ ہم کی قدر کو تبدیل کرتے ہیں۔ filename_param سے train.csv کرنے کے لئے part_0.csv، تبدیلی کا کام اب لیتا ہے۔ part_0.csv (بشرطیکہ نام کے ساتھ ایک فائل part_0.csv اس کے نئے ان پٹ ڈیٹا کے طور پر اسی فولڈر کے تحت موجود ہے۔
مزید برآں، اگر آپ اپنے بہاؤ کو Amazon S3 کی منزل (ایک Jupyter نوٹ بک کے ذریعے) پر برآمد کرنے کی کوشش کرتے ہیں، تو اب آپ کو ایک نیا سیل نظر آئے گا جس میں آپ نے وضاحت کی ہے۔
نوٹ کریں کہ پیرامیٹر اپنی ڈیفالٹ ویلیو لیتا ہے، لیکن آپ اس کی قدر کو تبدیل کر کے اسے تبدیل کر سکتے ہیں۔ parameter_overrides ڈکشنری (لغت کی چابیاں بغیر تبدیلی کے چھوڑتے ہوئے)۔

مزید برآں، آپ سے نئے پیرامیٹرز بنا سکتے ہیں۔ پیرامیٹر UI
پیرامیٹرز آئیکن کو منتخب کرکے اسے کھولیں ({{}}) کے ساتھ واقع ہے۔ Go اختیار؛ یہ دونوں URI پاتھ ویلیو کے آگے واقع ہیں۔
ایک ٹیبل ان تمام پیرامیٹرز کے ساتھ کھلتا ہے جو فی الحال آپ کی فلو فائل پر موجود ہیں (filename_param اس مقام پر).
آپ منتخب کرکے اپنے بہاؤ کے لیے نئے پیرامیٹرز بنا سکتے ہیں۔ پیرامیٹر بنائیں.

آپ کو ایک نیا کسٹم پیرامیٹر بنانے کے لیے ایک پاپ اپ ونڈو کھلتی ہے۔
یہاں، ہم نے ایک نیا بنایا ہے۔ example_parameter 0 کی ڈیفالٹ قدر کے ساتھ نمبر کی قسم کے طور پر۔ یہ نیا بنایا ہوا پیرامیٹر اب میں درج ہے۔ پیرامیٹر ٹیبل. پیرامیٹر پر منڈلانے سے اختیارات ظاہر ہوتے ہیں۔ ترمیم کریں, خارج کر دیں، اور داخل.
کے اندر سے پیرامیٹر UI، آپ مطلوبہ پیرامیٹر کو منتخب کرکے اور منتخب کرکے URI میں اپنا ایک پیرامیٹر داخل کرسکتے ہیں۔ داخل.
یہ پیرامیٹر کو آپ کے URI کے آخر میں شامل کرتا ہے۔ آپ کو اسے اپنے URI کے اندر مطلوبہ سیکشن میں منتقل کرنے کی ضرورت ہے۔
پیرامیٹر کی ڈیفالٹ ویلیو کو تبدیل کریں، تبدیلی لاگو کریں (موڈل سے)، منتخب کریں۔ Go، اور نئے بیان کردہ پیرامیٹر کی قدر کی بنیاد پر منتخب ڈیٹا سیٹ کا استعمال کرتے ہوئے پیش نظارہ فہرست کو اپ ڈیٹ کرنے کے لیے ریفریش آئیکن کا انتخاب کریں۔آئیے اب پیرامیٹر کی دیگر اقسام کو دریافت کریں۔ فرض کریں کہ اب ہمارے پاس ڈیٹاسیٹ کو متعدد حصوں میں تقسیم کیا گیا ہے، جہاں ہر فائل کا ایک حصہ نمبر ہے۔
اگر ہم فائل نمبر کو متحرک طور پر تبدیل کرنا چاہتے ہیں، تو ہم نمبر پیرامیٹر کی وضاحت کر سکتے ہیں جیسا کہ درج ذیل اسکرین شاٹ میں دکھایا گیا ہے۔نوٹ کریں کہ منتخب فائل وہ ہے جو پیرامیٹر میں بیان کردہ نمبر سے میل کھاتی ہے۔
اب آئیے یہ ظاہر کرتے ہیں کہ پیٹرن پیرامیٹر کو کیسے استعمال کیا جائے۔ فرض کریں کہ ہم تمام درآمد کرنا چاہتے ہیں۔ part_1.csv کے تحت تمام فولڈرز میں فائلیں titanic-dataset/ فولڈر پیٹرن پیرامیٹرز کوئی بھی درست ریگولر ایکسپریشن لے سکتے ہیں۔ مثال کے طور پر دکھائے گئے کچھ ریجیکس پیٹرن ہیں۔
نامی ایک پیٹرن پیرامیٹر بنائیں any_pattern کے تحت کسی بھی فولڈر یا فائل سے ملنے کے لیے titanic-dataset/ پہلے سے طے شدہ قدر کے ساتھ فولڈر .*.نوٹ کریں کہ وائلڈ کارڈ واحد * (نجمہ) نہیں ہے بلکہ اس میں ایک ڈاٹ بھی ہے۔
نمایاں کریں titanic-dataset/ راستے کا حصہ بنائیں اور ایک حسب ضرورت پیرامیٹر بنائیں۔ اس بار ہم انتخاب کرتے ہیں۔ پاٹرن قسمیہ پیٹرن تمام فائلوں کو منتخب کرتا ہے جسے کہا جاتا ہے part-1.csv کسی بھی فولڈر کے نیچے سے titanic-dataset/.
ایک پیرامیٹر کو راستے میں ایک سے زیادہ بار استعمال کیا جا سکتا ہے۔ درج ذیل مثال میں، ہم اپنا نیا بنایا ہوا پیرامیٹر استعمال کرتے ہیں۔ any_pattern ہمارے URI میں دو بار کسی بھی حصے کی فائلوں کے نیچے کسی بھی فولڈر سے ملنے کے لیے titanic-dataset/.
آخر میں، آئیے ڈیٹ ٹائم پیرامیٹر بنائیں۔ ڈیٹ ٹائم پیرامیٹرز اس وقت کارآمد ہوتے ہیں جب ہم ان راستوں سے نمٹ رہے ہوتے ہیں جو تاریخ اور وقت کے لحاظ سے تقسیم ہوتے ہیں، جیسے کہ ایمیزون کائنیسس ڈیٹا فائر ہوز (ملاحظہ کریں Kinesis ڈیٹا فائر ہوز میں متحرک تقسیم)۔ اس مظاہرے کے لیے، ہم ڈیٹ ٹائم ڈیٹا فولڈر کے تحت ڈیٹا استعمال کرتے ہیں۔
اپنے راستے کا وہ حصہ منتخب کریں جو تاریخ/وقت ہے اور حسب ضرورت پیرامیٹر بنائیں۔ منتخب کیجئیے تاریخ کا وقت پیرامیٹر کی قسم
ڈیٹ ٹائم ڈیٹا کی قسم کا انتخاب کرتے وقت، آپ کو مزید تفصیلات بھرنے کی ضرورت ہے۔
سب سے پہلے، آپ کو تاریخ کا فارمیٹ فراہم کرنا ہوگا۔ آپ پہلے سے طے شدہ تاریخ/وقت فارمیٹس میں سے کسی کا انتخاب کر سکتے ہیں یا اپنی مرضی کے مطابق بنا سکتے ہیں۔
پہلے سے طے شدہ تاریخ/وقت کے فارمیٹس کے لیے، لیجنڈ منتخب فارمیٹ سے مماثل تاریخ کی ایک مثال فراہم کرتا ہے۔ اس مظاہرے کے لیے، ہم فارمیٹ کا انتخاب کرتے ہیں۔ yyyy/MM/dd.
اگلا، تاریخ/وقت کی قدروں کے لیے ٹائم زون کی وضاحت کریں۔
مثال کے طور پر، موجودہ تاریخ ایک ٹائم زون میں 1 جنوری 2022 ہو سکتی ہے، لیکن دوسرے ٹائم زون میں 2 جنوری 2022 ہو سکتی ہے۔
آخر میں، آپ وقت کی حد منتخب کر سکتے ہیں، جو آپ کو فائلوں کی رینج کو منتخب کرنے دیتا ہے جسے آپ اپنے ڈیٹا فلو میں شامل کرنا چاہتے ہیں۔
آپ اپنے وقت کی حد گھنٹوں، دنوں، ہفتوں، مہینوں یا سالوں میں بتا سکتے ہیں۔ اس مثال کے لیے، ہم پچھلے سال کی تمام فائلیں حاصل کرنا چاہتے ہیں۔
پیرامیٹر کی تفصیل فراہم کریں اور منتخب کریں۔ تخلیق کریں.
اگر آپ مختلف ٹائم زونز کے ساتھ متعدد ڈیٹا سیٹس استعمال کر رہے ہیں، تو وقت خود بخود تبدیل نہیں ہوتا ہے۔ آپ کو ہر فائل یا سورس کو ایک ٹائم زون میں تبدیل کرنے کے لیے پہلے سے پروسیس کرنے کی ضرورت ہے۔منتخب فائلیں پچھلے سال کے ڈیٹا سے متعلقہ فولڈرز کے نیچے کی تمام فائلیں ہیں۔
اب اگر ہم ڈیٹا ٹرانسفارمیشن جاب بناتے ہیں، تو ہم اپنے تمام متعین پیرامیٹرز کی فہرست دیکھ سکتے ہیں، اور ہم ان کی ڈیفالٹ ویلیوز کو اوور رائیڈ کر سکتے ہیں تاکہ ہماری ٹرانسفارمیشن جاب مخصوص فائلوں کو چن سکیں۔

پراسیسنگ کے کاموں کو شیڈول کریں۔

اب آپ ڈیٹا ٹرانسفارمیشن جابز کو خود کار طریقے سے چلانے اور اپنے تبدیل شدہ ڈیٹا کو Amazon S3 یا ایکسپورٹ کرنے کے لیے پروسیسنگ جابز کو شیڈول کر سکتے ہیں۔ ایمیزون سیج میکر فیچر اسٹور. آپ اپنی ضروریات کے مطابق وقت اور وقفہ کے ساتھ ملازمتوں کا شیڈول بنا سکتے ہیں۔

شیڈول پروسیسنگ ملازمتوں کا استعمال ایمیزون ایونٹ برج قوانین کام کے رن کو شیڈول کرنے کے لیے۔ لہذا، ایک شرط کے طور پر، آپ کو یہ یقینی بنانا ہوگا کہ AWS شناخت اور رسائی کا انتظام (IAM) کا کردار ڈیٹا رینگلر کے ذریعہ استعمال کیا جا رہا ہے، یعنی ایمیزون سیج میکر عملدرآمد کا کردار اسٹوڈیو مثال کے طور پر، ایونٹ برج کے قواعد بنانے کی اجازت ہے۔

IAM کو ترتیب دیں۔

اسٹوڈیو مثال کے مطابق جہاں ڈیٹا رینگلر کا بہاؤ چل رہا ہے، IAM سیج میکر کے عمل درآمد کے کردار پر درج ذیل اپ ڈیٹس کے ساتھ آگے بڑھیں۔

منسلک کریں AmazonEventBridgeFullAccess منظم پالیسی.

پروسیسنگ جاب بنانے کی اجازت دینے کے لیے پالیسی منسلک کریں:

{
	"Version": "2012-10-17",
	"Statement": [
		{
			"Effect": "Allow",
			"Action": "sagemaker:StartPipelineExecution",
			"Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*"
		}
	]
}

درج ذیل ٹرسٹ پالیسی کو شامل کرکے EventBridge کو کردار سنبھالنے کی اجازت دیں:
```
{
	"Effect": "Allow",
	"Principal": {
		"Service": "events.amazonaws.com"
	},
	"Action": "sts:AssumeRole"
}
```

متبادل طور پر، اگر آپ پروسیسنگ جاب کو چلانے کے لیے کوئی مختلف کردار استعمال کر رہے ہیں، تو اس کردار پر اقدامات 2 اور 3 میں بیان کردہ پالیسیوں کا اطلاق کریں۔ IAM کنفیگریشن کے بارے میں تفصیلات کے لیے رجوع کریں۔ نئے ڈیٹا کو خودکار طور پر پروسیس کرنے کے لیے ایک شیڈول بنائیں.

ایک شیڈول بنائیں

شیڈول بنانے کے لیے، ڈیٹا رینگلر فلو ایڈیٹر میں اپنا فلو کھولیں۔

پر ڈیٹا کے بہاؤ ٹیب، منتخب کریں نوکری پیدا کریں۔.
مطلوبہ فیلڈز کو ترتیب دیں اور منتخب کریں۔ اگلا، 2. جاب کو کنفیگر کریں۔.
توسیع ایسوسی ایٹ شیڈولز.
میں سے انتخاب کریں نیا شیڈول بنائیں.

۔ نیا شیڈول بنائیں ڈائیلاگ کھلتا ہے، جہاں آپ پروسیسنگ جاب شیڈول کی تفصیلات بیان کرتے ہیں۔
ڈائیلاگ آپ کو شیڈول کی وضاحت کرنے میں مدد کرنے کے لیے بڑی لچک پیش کرتا ہے۔ آپ، مثال کے طور پر، ہفتے کے مخصوص دنوں میں، ایک مخصوص وقت یا ہر X گھنٹے میں پروسیسنگ کا کام کر سکتے ہیں۔
وقفہ منٹ کی سطح تک دانے دار ہو سکتا ہے۔
شیڈول کا نام اور وقفہ کی وضاحت کریں، پھر منتخب کریں۔ تخلیق کریں شیڈول کو بچانے کے لئے.
آپ کے پاس شیڈولنگ کے ساتھ ساتھ پروسیسنگ کا کام فوراً شروع کرنے کا اختیار ہے، جو مستقبل کی دوڑ کا خیال رکھتا ہے، یا کام کو صرف شیڈول کے مطابق چلانے کے لیے چھوڑ دیں۔
آپ اسی پروسیسنگ کام کے لیے ایک اضافی شیڈول بھی متعین کر سکتے ہیں۔
پروسیسنگ کام کے لیے شیڈول کو ختم کرنے کے لیے، منتخب کریں۔ تخلیق کریں.
آپ کو "کامیابی سے کام کا شیڈول" کا پیغام نظر آتا ہے۔ مزید برآں، اگر آپ نے صرف شیڈول کے مطابق چلانے کے لیے نوکری چھوڑنے کا انتخاب کیا ہے، تو آپ کو ایونٹ برج کے اصول کا ایک لنک نظر آئے گا جو آپ نے ابھی بنایا ہے۔

اگر آپ شیڈول لنک کا انتخاب کرتے ہیں، تو براؤزر میں ایک نیا ٹیب کھلتا ہے، جو EventBridge کا اصول دکھاتا ہے۔ اس صفحہ پر، آپ اصول میں مزید ترمیم کر سکتے ہیں اور اس کی درخواست کی تاریخ کو ٹریک کر سکتے ہیں۔ اپنی طے شدہ پروسیسنگ جاب کو چلنے سے روکنے کے لیے، ایونٹ کے اصول کو حذف کریں جس میں شیڈول کا نام شامل ہے۔

EventBridge قاعدہ SageMaker پائپ لائن کو اپنے ہدف کے طور پر دکھاتا ہے، جو طے شدہ شیڈول کے مطابق ٹرگر ہوتی ہے، اور پائپ لائن کے حصے کے طور پر پروسیسنگ کا کام شروع کیا جاتا ہے۔

سیج میکر پائپ لائن کے رنز کو ٹریک کرنے کے لیے، آپ اسٹوڈیو پر واپس جا سکتے ہیں، منتخب کریں۔ سیج میکر کے وسائل آئیکن، منتخب کریں۔ پائپ لائنز، اور پائپ لائن کا نام منتخب کریں جسے آپ ٹریک کرنا چاہتے ہیں۔ اب آپ ایک ٹیبل دیکھ سکتے ہیں جس میں تمام موجودہ اور ماضی کے رن اور اس پائپ لائن کی حیثیت ہے۔

آپ کسی مخصوص اندراج پر ڈبل کلک کرکے مزید تفصیلات دیکھ سکتے ہیں۔

صاف کرو

جب آپ ڈیٹا رینگلر کا استعمال نہیں کر رہے ہیں، تو یہ تجویز کی جاتی ہے کہ اس مثال کو بند کر دیا جائے جس پر یہ چلتا ہے تاکہ اضافی فیس لینے سے بچا جا سکے۔

کام کھونے سے بچنے کے لیے، ڈیٹا رینگلر کو بند کرنے سے پہلے اپنے ڈیٹا کے بہاؤ کو محفوظ کریں۔

اسٹوڈیو میں اپنے ڈیٹا کے بہاؤ کو بچانے کے لیے، منتخب کریں۔ فائل، پھر منتخب کریں ڈیٹا رینگلر فلو کو محفوظ کریں۔. ڈیٹا رینگلر ہر 60 سیکنڈ میں آپ کے ڈیٹا کے بہاؤ کو خود بخود محفوظ کرتا ہے۔
ڈیٹا رینگلر مثال کو بند کرنے کے لیے، اسٹوڈیو میں، منتخب کریں۔ رننگ انسٹینسز اور دانا.
کے تحت چل رہی ایپس، کے آگے شٹ ڈاؤن آئیکن کا انتخاب کریں۔ sagemaker-data-wrangler-1.0 اپلی کیشن.
میں سے انتخاب کریں سب بند کرو تصدیق کے لئے.

ڈیٹا رینگلر ایک ml.m5.4xlarge مثال پر چلتا ہے۔ یہ مثال غائب ہو جاتی ہے۔ مثالیں چل رہی ہیں۔ جب آپ ڈیٹا رینگلر ایپ کو بند کرتے ہیں۔

ڈیٹا رینگلر ایپ کو بند کرنے کے بعد، اگلی بار جب آپ ڈیٹا رینگلر فلو فائل کھولیں گے تو اسے دوبارہ شروع کرنا ہوگا۔ اس میں چند منٹ لگ سکتے ہیں۔

نتیجہ

اس پوسٹ میں، ہم نے دکھایا کہ آپ ڈیٹا رینگلر فلو کا استعمال کرتے ہوئے اپنے ڈیٹا سیٹس کو درآمد کرنے کے لیے پیرامیٹرز کا استعمال کیسے کر سکتے ہیں اور ان پر ڈیٹا ٹرانسفارمیشن جابز تخلیق کر سکتے ہیں۔ پیرامیٹرائزڈ ڈیٹاسیٹس آپ کے استعمال کردہ ڈیٹاسیٹس پر مزید لچک پیدا کرنے کی اجازت دیتے ہیں اور آپ کو اپنے بہاؤ کو دوبارہ استعمال کرنے کی اجازت دیتے ہیں۔ ہم نے یہ بھی دکھایا کہ آپ اپنے ڈیٹا کی تبدیلیوں کو خودکار بنانے اور ایمیزون S3 یا فیچر اسٹور پر ایکسپورٹ کرنے کے لیے شیڈول جابز کیسے ترتیب دے سکتے ہیں، اس وقت اور وقفے پر جو آپ کی ضروریات کے مطابق ہے، براہ راست ڈیٹا رینگلر کے صارف انٹرفیس کے اندر سے۔

ڈیٹا رینگلر کے ساتھ ڈیٹا فلو استعمال کرنے کے بارے میں مزید جاننے کے لیے، دیکھیں ڈیٹا رینگلر فلو بنائیں اور استعمال کریں۔ اور ایمیزون سیج میکر قیمتوں کا تعین. ڈیٹا رینگلر کے ساتھ شروع کرنے کے لیے، دیکھیں ایمیزون سیج میکر ڈیٹا رینگلر کے ساتھ ایم ایل ڈیٹا تیار کریں۔.

مصنفین کے بارے میں

ڈیوڈ لاریڈو ایمیزون ویب سروسز میں پروٹو ٹائپنگ اور کلاؤڈ انجینئرنگ ٹیم کے لیے ایک پروٹو ٹائپنگ آرکیٹیکٹ ہے، جہاں اس نے AWS صارفین کے لیے متعدد مشین لرننگ پروٹو ٹائپ تیار کرنے میں مدد کی ہے۔ وہ پچھلے 6 سالوں سے مشین لرننگ میں کام کر رہا ہے، ایم ایل ماڈلز کو ٹریننگ اور فائن ٹیوننگ کر رہا ہے اور ان ماڈلز کو تیار کرنے کے لیے اینڈ ٹو اینڈ پائپ لائنوں کو لاگو کر رہا ہے۔ اس کی دلچسپی کے شعبے NLP، ML ایپلیکیشنز، اور اینڈ ٹو اینڈ ML ہیں۔

جیوانیلڈو الویس ایمیزون ویب سروسز میں پروٹوٹائپنگ اور کلاؤڈ انجینئرنگ ٹیم کے ساتھ ایک پروٹو ٹائپنگ آرکیٹیکٹ ہے، جو کہ مصنوعی ذہانت کے ارد گرد کئی پروٹو ٹائپس کو پہلے ہی لاگو کرچکا ہے، AWS پر ممکنہ فن کو دکھا کر کلائنٹس کو اختراع اور تیز کرنے میں مدد کرتا ہے۔ اس کا سوفٹ ویئر انجینئرنگ میں طویل کیریئر ہے اور اس نے پہلے Amazon.com.br پر سافٹ ویئر ڈویلپمنٹ انجینئر کے طور پر کام کیا ہے۔

ایڈرین فوینٹس ایمیزون ویب سروسز میں پروٹو ٹائپنگ اور کلاؤڈ انجینئرنگ ٹیم کے ساتھ ایک پروگرام مینیجر ہے، جو صارفین کے لیے مشین لرننگ، IoT، اور blockchain میں اختراعات کر رہا ہے۔ اس کے پاس پروجیکٹوں کے انتظام اور نفاذ کا 15 سال سے زیادہ کا تجربہ ہے اور AWS پر 1 سال کی مدت ملازمت ہے۔

ٹائم اسٹیمپ: نومبر 15، 2022نومبر 15، 2022

ٹائم اسٹیمپ: فروری 16، 2023

پیرامیٹرائزڈ ڈیٹاسیٹس اور طے شدہ ملازمتوں کے ساتھ اپنے ایمیزون سیج میکر ڈیٹا رینگلر ورک بوجھ پر مزید کنٹرول حاصل کریں۔

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

حل جائزہ

شرائط

فائل کا ڈھانچہ

پیرامیٹرائزڈ ڈیٹاسیٹس

پراسیسنگ کے کاموں کو شیڈول کریں۔

IAM کو ترتیب دیں۔

ایک شیڈول بنائیں

صاف کرو

نتیجہ

مصنفین کے بارے میں

سے زیادہ AWS مشین لرننگ

PyTorch Model Zoo کا استعمال کرتے ہوئے Amazon SageMaker ماڈل بنائیں

ThirdAI اور AWS Graviton کے ساتھ CPUs پر بڑے پیمانے پر نیورل نیٹ ورک کی تربیت کو تیز کرنا | ایمیزون ویب سروسز

جنریٹیو AI اور Amazon SageMaker Canvas کا استعمال کرتے ہوئے بغیر کوڈ کے ڈیٹا کی تیاری کے ساتھ تیزی سے سیکیورٹی کے نتائج کا تجزیہ کریں۔ ایمیزون ویب سروسز

AWS Inferentia اور AWS Trainium کے ساتھ Amazon SageMaker جمپ سٹارٹ میں لاما 2 ماڈلز کو فائن ٹیون اور لاگت سے لاگو کریں۔ ایمیزون ویب سروسز

ایمیزون سیج میکر ڈیٹا متوازی لائبریری کے ساتھ تیز تر تربیت کو فعال کریں۔ ایمیزون ویب سروسز

ایمیزون سیج میکر شیڈو ٹیسٹنگ کے ساتھ ایم ایل ماڈل اپ ڈیٹس کے پیداواری اثر کو کم سے کم کریں۔

ایمیزون کیندر میں نئے توسیع شدہ ڈیٹا فارمیٹ سپورٹ

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ