اس پوسٹ میں، ہم دکھاتے ہیں کہ استعمال کرنے کے لیے OAuth پر مبنی ایک نئی تصدیقی خصوصیت کو کیسے ترتیب دیا جائے۔ میں Snowflake in ایمیزون سیج میکر ڈیٹا رینگلر. Snowflake ایک کلاؤڈ ڈیٹا پلیٹ فارم ہے جو ڈیٹا سائنس کو ڈیٹا گودام کے لیے ڈیٹا حل فراہم کرتا ہے۔ Snowflake ایک ہے AWS پارٹنر AWS کی متعدد منظوریوں کے ساتھ، بشمول مشین لرننگ (ML)، خوردہ، اور ڈیٹا اور تجزیات میں AWS کی قابلیت۔
ڈیٹا رینگلر ڈیٹا کی تیاری اور فیچر انجینئرنگ کے عمل کو آسان بناتا ہے، ڈیٹا سائنسدانوں کو ڈیٹا کو منتخب کرنے اور صاف کرنے، خصوصیات بنانے، اور ML ورک فلوز میں بغیر کسی کوڈ کے ڈیٹا کی تیاری کو خودکار کرنے کے لیے ایک واحد بصری انٹرفیس فراہم کر کے ہفتوں سے منٹوں میں لگنے والے وقت کو کم کرتا ہے۔ آپ متعدد ڈیٹا ذرائع سے ڈیٹا درآمد کر سکتے ہیں، جیسے ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)، ایمیزون ایتینا, ایمیزون ریڈ شفٹ, ایمیزون ای ایم آر، اور سنو فلیک۔ اس نئی خصوصیت کے ساتھ، آپ اپنا شناختی فراہم کنندہ (آئی ڈی پی) استعمال کرسکتے ہیں جیسے اوکاٹا, Azure AD، یا پنگ فیڈریٹ ڈیٹا رینگلر کے ذریعے Snowflake سے جڑنے کے لیے۔
حل جائزہ
مندرجہ ذیل حصوں میں، ہم ایڈمنسٹریٹر کے لیے IDP، Snowflake، اور Studio کو ترتیب دینے کے لیے اقدامات فراہم کرتے ہیں۔ ہم ان اقدامات کی بھی تفصیل دیتے ہیں جو ڈیٹا سائنسدان ڈیٹا کے بہاؤ کو ترتیب دینے، ڈیٹا کے معیار کا تجزیہ کرنے، اور ڈیٹا کی تبدیلیوں کو شامل کرنے کے لیے اٹھا سکتے ہیں۔ آخر میں، ہم دکھاتے ہیں کہ ڈیٹا فلو کو کیسے ایکسپورٹ کیا جائے اور اس کا استعمال کرتے ہوئے ایک ماڈل کو تربیت دی جائے۔ سیج میکر آٹو پائلٹ.
شرائط
اس واک تھرو کے لیے، آپ کے پاس درج ذیل شرائط ہونی چاہئیں:
- ایڈمن کے لیے:
- Snowflake صارف جس کے پاس Snowflake میں اسٹوریج انٹیگریشن، اور سیکیورٹی انٹیگریشن بنانے کی اجازت ہے۔
- AWS اکاؤنٹ بنانے کی اجازت کے ساتھ AWS شناخت اور رسائی کا انتظام (IAM) کی پالیسیاں اور کردار۔
- ڈیٹا رینگلر ایپلیکیشن کو رجسٹر کرنے اور اجازت دینے والے سرور یا API کو ترتیب دینے کے لیے IDP کو ترتیب دینے کے لیے رسائی اور اجازتیں۔
- ڈیٹا سائنسدان کے لیے:
ایڈمنسٹریٹر سیٹ اپ
اس کے بجائے کہ آپ کے صارفین اپنے اسنو فلیک کی اسناد کو ڈیٹا رینگلر میں براہ راست درج کریں، آپ ان سے اسنو فلیک تک رسائی کے لیے آئی ڈی پی استعمال کر سکتے ہیں۔
Snowflake تک Data Wrangler OAuth کی رسائی کو فعال کرنے کے لیے درج ذیل اقدامات شامل ہیں:
- IDP کو ترتیب دیں۔
- Snowflake کو ترتیب دیں۔
- سیج میکر اسٹوڈیو کو ترتیب دیں۔
IDP کو ترتیب دیں۔
اپنا آئی ڈی پی سیٹ اپ کرنے کے لیے، آپ کو ڈیٹا رینگلر ایپلیکیشن کو رجسٹر کرنا ہوگا اور اپنا اتھارٹی سرور یا API سیٹ کرنا ہوگا۔
آئی ڈی پی کے اندر ڈیٹا رینگلر کی درخواست رجسٹر کریں۔
IdPs کے لیے درج ذیل دستاویزات سے رجوع کریں جن کی ڈیٹا رینگلر سپورٹ کرتا ہے:
اپنی ڈیٹا رینگلر ایپلیکیشن کو رجسٹر کرنے کے لیے اپنے IDP کی فراہم کردہ دستاویزات کا استعمال کریں۔ اس سیکشن میں معلومات اور طریقہ کار آپ کو یہ سمجھنے میں مدد کرتے ہیں کہ آپ کے آئی ڈی پی کی طرف سے فراہم کردہ دستاویزات کو صحیح طریقے سے کیسے استعمال کیا جائے۔
متعلقہ گائیڈز کے مراحل کے علاوہ مخصوص تخصیصات کو ذیلی حصوں میں بلایا جاتا ہے۔
- وہ کنفیگریشن منتخب کریں جو ڈیٹا رینگلر کو بطور ایپلیکیشن رجسٹر کرنے کا عمل شروع کرتی ہے۔
- آئی ڈی پی کے اندر موجود صارفین کو ڈیٹا رینگلر تک رسائی فراہم کریں۔
- کلائنٹ کی اسناد کو سیکرٹس مینیجر کے راز کے طور پر اسٹور کرکے OAuth کلائنٹ کی تصدیق کو فعال کریں۔
- درج ذیل فارمیٹ کا استعمال کرتے ہوئے ری ڈائریکٹ URL کی وضاحت کریں:
https://domain-ID.studio.AWS Region.sagemaker.aws/jupyter/default/lab
.
آپ SageMaker ڈومین ID اور AWS ریجن کی وضاحت کر رہے ہیں جسے آپ ڈیٹا رینگلر چلانے کے لیے استعمال کر رہے ہیں۔ آپ کو ہر اس ڈومین اور علاقے کے لیے ایک URL رجسٹر کرنا چاہیے جہاں آپ ڈیٹا رینگلر چلا رہے ہیں۔ ایسے ڈومین اور ریجن کے صارفین جن کے لیے ری ڈائریکٹ یو آر ایل سیٹ اپ نہیں ہیں وہ Snowflake کنکشن تک رسائی کے لیے IdP کے ساتھ تصدیق نہیں کر سکیں گے۔
- یقینی بنائیں کہ آپ کی ڈیٹا رینگلر ایپلیکیشن کے لیے اجازت نامے کوڈ اور ریفریش ٹوکن گرانٹ کی اقسام کی اجازت ہے۔
IdP کے اندر اجازت دینے والے سرور یا API کو ترتیب دیں۔
اپنے آئی ڈی پی کے اندر، آپ کو اجازت دینے والا سرور یا ایپلیکیشن پروگرامنگ انٹرفیس (API) ترتیب دینا چاہیے۔ ہر صارف کے لیے، اجازت دینے والا سرور یا API سامعین کے بطور Snowflake کے ساتھ ڈیٹا رینگلر کو ٹوکن بھیجتا ہے۔
Snowflake کا تصور استعمال کرتا ہے۔ کردار جو AWS میں استعمال ہونے والے IAM کرداروں سے الگ ہیں۔ Snowflake اکاؤنٹ سے وابستہ ڈیفالٹ کردار کو استعمال کرنے کے لیے آپ کو کسی بھی کردار کو استعمال کرنے کے لیے IDP کو کنفیگر کرنا چاہیے۔ مثال کے طور پر، اگر کسی صارف کے پاس ہے۔ systems administrator
ان کے Snowflake پروفائل میں پہلے سے طے شدہ کردار کے طور پر، ڈیٹا رینگلر سے Snowflake تک کنکشن استعمال کرتا ہے systems administrator
کردار کے طور پر.
اپنے آئی ڈی پی میں اجازت دینے والے سرور یا API کو ترتیب دینے کے لیے درج ذیل طریقہ کار کا استعمال کریں:
- اپنے آئی ڈی پی سے، سرور یا API کو ترتیب دینے کا عمل شروع کریں۔
- اجازت کا کوڈ استعمال کرنے اور ٹوکن گرانٹ کی اقسام کو ریفریش کرنے کے لیے اجازت دینے والے سرور کو کنفیگر کریں۔
- رسائی ٹوکن کی زندگی بھر کی وضاحت کریں۔
- ریفریش ٹوکن کا آئیڈل ٹائم آؤٹ سیٹ کریں۔
بیکار ٹائم آؤٹ وہ وقت ہے جب ریفریش ٹوکن استعمال نہ ہونے کی صورت میں اس کی میعاد ختم ہو جاتی ہے۔ اگر آپ ڈیٹا رینگلر میں ملازمتوں کا شیڈول بنا رہے ہیں، تو ہم تجویز کرتے ہیں کہ غیر فعال ٹائم آؤٹ ٹائم کو پروسیسنگ جاب کی فریکوئنسی سے زیادہ کریں۔ بصورت دیگر، کچھ پروسیسنگ جابز ناکام ہو سکتی ہیں کیونکہ ریفریش ٹوکن کے چلنے سے پہلے ہی ان کی میعاد ختم ہو گئی ہے۔ ریفریش ٹوکن کی میعاد ختم ہونے پر، صارف کو اس کنکشن تک رسائی حاصل کرکے دوبارہ تصدیق کرنی ہوگی جو اس نے ڈیٹا رینگلر کے ذریعے سنو فلیک سے بنایا ہے۔
نوٹ کریں کہ ڈیٹا رینگلر گھومنے والے ریفریش ٹوکن کو سپورٹ نہیں کرتا ہے۔ گھومنے والے ریفریش ٹوکنز کے استعمال کے نتیجے میں رسائی میں ناکامی ہو سکتی ہے یا صارفین کو بار بار لاگ ان کرنے کی ضرورت پڑ سکتی ہے۔
اگر ریفریش ٹوکن کی میعاد ختم ہوجاتی ہے، تو آپ کے صارفین کو اس کنکشن تک رسائی حاصل کرکے دوبارہ تصدیق کرنی ہوگی جو انہوں نے ڈیٹا رینگلر کے ذریعے سنو فلیک سے بنایا ہے۔
- وضاحت کریں
session:role-any
نئے دائرہ کار کے طور پر.
Azure AD کے لیے، آپ کو دائرہ کار کے لیے ایک منفرد شناخت کنندہ بھی بتانا چاہیے۔
OAuth فراہم کنندہ کو ترتیب دینے کے بعد، آپ ڈیٹا رینگلر کو وہ معلومات فراہم کرتے ہیں جس کی اسے فراہم کنندہ سے منسلک ہونے کی ضرورت ہوتی ہے۔ آپ درج ذیل فیلڈز کی قدریں حاصل کرنے کے لیے اپنے آئی ڈی پی سے دستاویزات استعمال کر سکتے ہیں۔
- ٹوکن URL – اس ٹوکن کا URL جسے IDP ڈیٹا رینگلر کو بھیجتا ہے۔
- اجازت دینے کا URL - IDP کے اجازت دینے والے سرور کا URL
- کلائنٹ کی شناخت - آئی ڈی پی کی شناخت
- کلائنٹ کا راز - وہ راز جسے صرف اجازت دینے والا سرور یا API تسلیم کرتا ہے۔
- OAuth دائرہ کار - یہ صرف Azure AD کے لیے ہے۔
Snowflake کو ترتیب دیں۔
Snowflake کو ترتیب دینے کے لیے، ہدایات کو مکمل کریں۔ Snowflake سے ڈیٹا درآمد کریں۔.
Snowflake میں ایک بیرونی OAuth انٹیگریشن ترتیب دینے کے لیے اپنے IdP کے لیے Snowflake دستاویزات کا استعمال کریں۔ پچھلا حصہ دیکھیں آئی ڈی پی کے اندر ڈیٹا رینگلر کی درخواست رجسٹر کریں۔ بیرونی OAuth انضمام کو ترتیب دینے کے طریقے کے بارے میں مزید معلومات کے لیے۔
جب آپ Snowflake میں سیکیورٹی انٹیگریشن کو ترتیب دے رہے ہیں، تو یقینی بنائیں کہ آپ فعال ہیں۔ external_oauth_any_role_mode
.
سیج میکر اسٹوڈیو کو ترتیب دیں۔
آپ فیلڈز اور اقدار کو سیکرٹس مینیجر سیکریٹ میں اسٹور کرتے ہیں اور اسے اسٹوڈیو لائف سائیکل کنفیگریشن میں شامل کرتے ہیں جسے آپ ڈیٹا رینگلر کے لیے استعمال کر رہے ہیں۔ لائف سائیکل کنفیگریشن ایک شیل اسکرپٹ ہے جو صارف کے اسٹوڈیو میں لاگ ان ہونے پر خفیہ میں محفوظ کردہ اسناد کو خود بخود لوڈ کر دیتا ہے۔ راز بنانے کے بارے میں معلومات کے لیے، دیکھیں ہارڈ کوڈ شدہ رازوں کو AWS سیکرٹس مینیجر میں منتقل کریں۔. اسٹوڈیو میں لائف سائیکل کنفیگریشنز استعمال کرنے کے بارے میں معلومات کے لیے، دیکھیں ایمیزون سیج میکر اسٹوڈیو کے ساتھ لائف سائیکل کنفیگریشنز کا استعمال کریں۔.
Snowflake اسناد کے لیے ایک راز بنائیں
Snowflake اسناد کے لیے اپنا راز بنانے کے لیے، درج ذیل مراحل کو مکمل کریں:
- سیکرٹس مینیجر کنسول پر، منتخب کریں۔ ایک نیا راز ذخیرہ کریں۔.
- کے لئے خفیہ قسممنتخب راز کی دوسری قسم.
- اپنے راز کی تفصیلات کو کلیدی قدر کے جوڑوں کے طور پر بیان کریں۔
کیس کی حساسیت کی وجہ سے کلیدی ناموں کو چھوٹے حروف کی ضرورت ہوتی ہے۔ اگر آپ ان میں سے کسی کو بھی غلط طریقے سے درج کرتے ہیں تو ڈیٹا رینگلر ایک انتباہ دیتا ہے۔ اگر آپ چاہیں تو خفیہ اقدار کو کلیدی قدر کے جوڑے کلید/قدر کے طور پر داخل کریں، یا استعمال کریں۔ سادہ متن آپشن.
Okta کے لیے استعمال ہونے والے راز کی شکل درج ذیل ہے۔ اگر آپ Azure AD استعمال کر رہے ہیں، تو آپ کو شامل کرنے کی ضرورت ہے۔ datasource_oauth_scope
میدان.
- اپنی پسند کی آئی ڈی پی اور درخواست کے اندراج کے بعد جمع ہونے والی معلومات کے ساتھ سابقہ اقدار کو اپ ڈیٹ کریں۔
- میں سے انتخاب کریں اگلے.
- کے لئے خفیہ نام، سابقہ شامل کریں۔
AmazonSageMaker
(مثال کے طور پر، ہمارا راز ہےAmazonSageMaker-DataWranglerSnowflakeCreds
). - میں ٹیگز سیکشن، کلید کے ساتھ ایک ٹیگ شامل کریں۔
SageMaker
اور قدرtrue
. - میں سے انتخاب کریں اگلے.
- باقی فیلڈز اختیاری ہیں۔ منتخب کریں اگلے جب تک آپ کے پاس انتخاب کرنے کا اختیار نہ ہو۔ سٹور راز کو ذخیرہ کرنے کے لئے.
راز کو ذخیرہ کرنے کے بعد، آپ کو سیکرٹس مینیجر کنسول پر واپس کر دیا جائے گا۔
- اس راز کو منتخب کریں جو آپ نے ابھی بنایا ہے، پھر خفیہ ARN بازیافت کریں۔
- جب آپ ڈیٹا رینگلر ڈیٹا سورس بناتے ہیں تو بعد میں استعمال کے لیے اسے اپنے پسندیدہ ٹیکسٹ ایڈیٹر میں اسٹور کریں۔
اسٹوڈیو لائف سائیکل کنفیگریشن بنائیں
اسٹوڈیو میں لائف سائیکل کنفیگریشن بنانے کے لیے، درج ذیل مراحل کو مکمل کریں:
- سیج میکر کنسول پر، منتخب کریں۔ لائف سائیکل کنفیگریشنز نیوی گیشن پین میں.
- میں سے انتخاب کریں کنفیگریشن بنائیں.
- میں سے انتخاب کریں Jupyter سرور ایپ.
- ایک نئی لائف سائیکل کنفیگریشن بنائیں یا درج ذیل مواد کے ساتھ موجودہ کو شامل کریں:
کنفیگریشن نام کے ساتھ ایک فائل بناتی ہے۔ ".snowflake_identity_provider_oauth_config"
، صارف کے ہوم فولڈر میں راز پر مشتمل ہے۔
- میں سے انتخاب کریں کنفیگریشن بنائیں.
ڈیفالٹ لائف سائیکل کنفیگریشن سیٹ کریں۔
لائف سائیکل کنفیگریشن کو سیٹ کرنے کے لیے درج ذیل مراحل کو مکمل کریں جسے آپ نے ابھی ڈیفالٹ کے طور پر بنایا ہے۔
- سیج میکر کنسول پر، منتخب کریں۔ ڈومینز نیوی گیشن پین میں.
- وہ اسٹوڈیو ڈومین منتخب کریں جسے آپ اس مثال کے لیے استعمال کریں گے۔
- پر ماحولیات ٹیب، میں ذاتی اسٹوڈیو ایپس کے لیے لائف سائیکل کنفیگریشنز سیکشن کا انتخاب کریں، منسلک کریں.
- کے لئے ماخذمنتخب موجودہ کنفیگریشن.
- جو ترتیب آپ نے ابھی بنائی ہے اسے منتخب کریں، پھر منتخب کریں۔ ڈومین سے منسلک کریں۔.
- نئی ترتیب کو منتخب کریں اور منتخب کریں۔ ڈیفالٹ کے طور پر مقرر، پھر منتخب کریں ڈیفالٹ کے طور پر مقرر دوبارہ پاپ اپ پیغام میں۔
آپ کی نئی ترتیبات اب نیچے نظر آنی چاہئیں ذاتی اسٹوڈیو ایپس کے لیے لائف سائیکل کنفیگریشنز بطور ڈیفالٹ۔
- اسٹوڈیو ایپ کو بند کریں اور تبدیلیوں کے اثر میں آنے کے لیے دوبارہ لانچ کریں۔
ڈیٹا سائنسدان کا تجربہ
اس سیکشن میں، ہم اس بات کا احاطہ کرتے ہیں کہ ڈیٹا سائنسدان کیسے ڈیٹا رینگلر میں ڈیٹا سورس کے طور پر Snowflake سے منسلک ہو سکتے ہیں اور ML کے لیے ڈیٹا تیار کر سکتے ہیں۔
ایک نیا ڈیٹا فلو بنائیں
اپنا ڈیٹا فلو بنانے کے لیے، درج ذیل مراحل کو مکمل کریں:
- سیج میکر کنسول پر، منتخب کریں۔ ایمیزون سیج میکر اسٹوڈیو نیوی گیشن پین میں.
- میں سے انتخاب کریں سٹوڈیو کھولیں۔.
- اسٹوڈیو پر ہوم پیج (-) صفحہ، منتخب کریں ڈیٹا کو بصری طور پر درآمد اور تیار کریں۔. متبادل طور پر، پر فائل ڈراپ ڈاؤن، منتخب کریں۔ نئی، پھر منتخب کریں سیج میکر ڈیٹا رینگلر فلو.
ایک نیا بہاؤ بنانے میں چند منٹ لگ سکتے ہیں۔
- پر ڈیٹا درآمد کریں۔ صفحہ، منتخب کریں کنکشن بنائیں.
- میں سے انتخاب کریں میں Snowflake ڈیٹا کے ذرائع کی فہرست سے۔
- کے لئے توثیق کا طریقہمنتخب کریں سے OAuth.
اگر آپ کو OAuth نظر نہیں آتا ہے، تو لائف سائیکل کنفیگریشن کے پچھلے مراحل کی تصدیق کریں۔
- کے لیے تفصیلات درج کریں۔ Snowflake اکاؤنٹ کا نام اور اسٹوریج انضمام.
- کنکشن کا نام درج کریں اور منتخب کریں۔ رابطہ قائم کریں.
آپ کو ایک IDP تصدیقی صفحہ پر بھیج دیا گیا ہے۔ اس مثال کے لیے، ہم Okta استعمال کر رہے ہیں۔
- اپنا صارف نام اور پاس ورڈ درج کریں، پھر منتخب کریں۔ داخلہ.
تصدیق کے کامیاب ہونے کے بعد، آپ کو اسٹوڈیو ڈیٹا فلو صفحہ پر بھیج دیا جاتا ہے۔
- پر Snowflake سے ڈیٹا درآمد کریں۔ صفحہ، ڈیٹا بیس آبجیکٹ کو براؤز کریں، یا ٹارگٹڈ ڈیٹا کے لیے استفسار چلائیں۔
- استفسار ایڈیٹر میں، ایک سوال درج کریں اور نتائج کا پیش نظارہ کریں۔
مندرجہ ذیل مثال میں، ہم لوڈ کرتے ہیں لون ڈیٹا اور 5,000 قطاروں سے تمام کالم بازیافت کریں۔
- میں سے انتخاب کریں درآمد کریں.
- ڈیٹا سیٹ کا نام درج کریں (اس پوسٹ کے لیے، ہم استعمال کرتے ہیں۔
snowflake_loan_dataset
) اور منتخب کریں۔ شامل کریں.
آپ کو پر ری ڈائریکٹ کیا گیا ہے۔ تیار صفحہ، جہاں آپ ڈیٹا میں تبدیلیاں اور تجزیے شامل کر سکتے ہیں۔
ڈیٹا رینگلر ڈیٹا کو ہضم کرنا اور ڈیٹا کی تیاری کے کاموں کو انجام دینا آسان بناتا ہے جیسے کہ تحقیقی ڈیٹا کا تجزیہ، فیچر کا انتخاب، اور فیچر انجینئرنگ۔ ہم نے ڈیٹا کی تیاری پر اس پوسٹ میں ڈیٹا رینگلر کی صرف چند صلاحیتوں کا احاطہ کیا ہے۔ آپ ڈیٹا رینگلر کو مزید جدید ڈیٹا تجزیہ کے لیے استعمال کر سکتے ہیں جیسے کہ فیچر کی اہمیت، ٹارگٹ لیکیج، اور آسان اور بدیہی یوزر انٹرفیس کا استعمال کرتے ہوئے ماڈل کی وضاحت۔
ڈیٹا کے معیار کا تجزیہ کریں۔
استعمال کریں ڈیٹا کوالٹی اور بصیرت کی رپورٹ ڈیٹا کا تجزیہ کرنے کے لیے جسے آپ نے ڈیٹا رینگلر میں درآمد کیا ہے۔ ڈیٹا رینگلر نمونے کے ڈیٹا سے رپورٹ بناتا ہے۔
- ڈیٹا رینگلر فلو پیج پر، آگے جمع کا نشان منتخب کریں۔ ڈیٹا کی اقسام، پھر منتخب کریں ڈیٹا کی بصیرت حاصل کریں۔.
- میں سے انتخاب کریں ڈیٹا کوالٹی اور بصیرت کی رپورٹ لیے تجزیہ کی قسم.
- کے لئے ٹارگٹ کالم، اپنا ہدف کالم منتخب کریں۔
- کے لئے مسئلہ کی قسممنتخب کی درجہ بندی.
- میں سے انتخاب کریں تخلیق کریں.
بصیرت کی رپورٹ میں ڈیٹا کا ایک مختصر خلاصہ ہوتا ہے، جس میں عمومی معلومات شامل ہوتی ہیں جیسے کہ گمشدہ اقدار، غلط اقدار، خصوصیت کی اقسام، آؤٹ لئیر شمار، اور بہت کچھ۔ آپ یا تو رپورٹ ڈاؤن لوڈ کر سکتے ہیں یا اسے آن لائن دیکھ سکتے ہیں۔
ڈیٹا میں تبدیلیاں شامل کریں۔
ڈیٹا رینگلر میں 300 سے زیادہ بلٹ ان ٹرانسفارمیشنز ہیں۔ اس سیکشن میں، ہم ان میں سے کچھ تبدیلیوں کو ML ماڈل کے لیے ڈیٹا سیٹ تیار کرنے کے لیے استعمال کرتے ہیں۔
- ڈیٹا رینگلر فلو پیج پر، جمع کا نشان منتخب کریں، پھر منتخب کریں۔ تبدیلی شامل کریں۔.
اگر آپ پوسٹ میں درج مراحل کی پیروی کر رہے ہیں، تو آپ کو اپنا ڈیٹا سیٹ شامل کرنے کے بعد خود بخود یہاں بھیج دیا جائے گا۔
- کالم کے ڈیٹا کی قسم کی تصدیق اور ترمیم کریں۔
کالموں کو دیکھ کر، ہم اس کی نشاندہی کرتے ہیں۔ MNTHS_SINCE_LAST_DELINQ
اور MNTHS_SINCE_LAST_RECORD
زیادہ تر ممکنہ طور پر اسٹرنگ کے بجائے نمبر کی قسم کے طور پر پیش کیا جانا چاہئے۔
- تبدیلیوں کو لاگو کرنے اور مرحلہ شامل کرنے کے بعد، آپ تصدیق کر سکتے ہیں کہ کالم ڈیٹا کی قسم فلوٹ میں تبدیل ہو گئی ہے۔
اعداد و شمار کے ذریعے تلاش کر رہے ہیں، ہم دیکھ سکتے ہیں کہ فیلڈز EMP_TITLE
, URL
, DESCRIPTION
، اور TITLE
ممکنہ طور پر ہمارے استعمال کے معاملے میں ہمارے ماڈل کو قدر فراہم نہیں کرے گا، لہذا ہم انہیں چھوڑ سکتے ہیں۔
- میں سے انتخاب کریں قدم شامل کریں، پھر منتخب کریں کالموں کا نظم کریں۔.
- کے لئے تبدیلمنتخب کریں ڈراپ کالم.
- کے لئے چھوڑنے کے لیے کالم، کی وضاحت
EMP_TITLE
,URL
,DESCRIPTION
، اورTITLE
. - میں سے انتخاب کریں پیش نظارہ اور شامل کریں.
اگلا، ہم اپنے ڈیٹاسیٹ میں واضح ڈیٹا تلاش کرنا چاہتے ہیں۔ ڈیٹا رینگلر میں آرڈینل اور ون ہاٹ انکوڈنگز دونوں کا استعمال کرتے ہوئے واضح ڈیٹا کو انکوڈ کرنے کے لیے ایک بلٹ ان فعالیت ہے۔ ہمارے ڈیٹاسیٹ کو دیکھ کر، ہم دیکھ سکتے ہیں کہ TERM
, HOME_OWNERSHIP
، اور PURPOSE
تمام کالم فطرت کے لحاظ سے واضح نظر آتے ہیں۔
- ایک اور مرحلہ شامل کریں اور منتخب کریں۔ واضح انکوڈ کریں۔.
- کے لئے تبدیلمنتخب کریں ایک گرم انکوڈ.
- کے لئے ان پٹ کالممنتخب کریں
TERM
. - کے لئے آؤٹ پٹ اسٹائلمنتخب کریں کالم.
- دیگر تمام ترتیبات کو بطور ڈیفالٹ چھوڑ دیں، پھر منتخب کریں۔ پیش نظارہ اور شامل کریں.
۔ HOME_OWNERSHIP
کالم کی چار ممکنہ قدریں ہیں: RENT
, MORTGAGE
, OWN
، اور دیگر.
- ان اقدار پر ایک گرم انکوڈنگ اپروچ کو لاگو کرنے کے لیے پچھلے اقدامات کو دہرائیں۔
آخر میں، PURPOSE
کالم کی کئی ممکنہ قدریں ہیں۔ اس ڈیٹا کے لیے، ہم ون ہاٹ انکوڈنگ اپروچ بھی استعمال کرتے ہیں، لیکن ہم آؤٹ پٹ کو کالم کے بجائے ویکٹر پر سیٹ کرتے ہیں۔
- کے لئے تبدیلمنتخب کریں ایک گرم انکوڈ.
- کے لئے ان پٹ کالممنتخب کریں
PURPOSE
. - کے لئے آؤٹ پٹ اسٹائلمنتخب کریں ویکٹر.
- کے لئے آؤٹ پٹ کالم، ہم اس کالم کو کہتے ہیں۔
PURPOSE_VCTR
.
یہ اصل رکھتا ہے PURPOSE
کالم، اگر ہم اسے بعد میں استعمال کرنے کا فیصلہ کرتے ہیں۔
- دیگر تمام ترتیبات کو بطور ڈیفالٹ چھوڑ دیں، پھر منتخب کریں۔ پیش نظارہ اور شامل کریں.
ڈیٹا فلو ایکسپورٹ کریں۔
آخر میں، ہم اس پورے ڈیٹا کے بہاؤ کو SageMaker پروسیسنگ جاب کے ساتھ فیچر اسٹور میں ایکسپورٹ کرتے ہیں، جو پہلے سے پاپولڈ کوڈ کے ساتھ Jupyter نوٹ بک بناتا ہے۔
- ڈیٹا فلو پیج پر، جمع کا نشان منتخب کریں اور برآمد کریں.
- منتخب کریں کہ کہاں برآمد کرنا ہے۔ ہمارے استعمال کے کیس کے لیے، ہم منتخب کرتے ہیں۔ سیج میکر فیچر اسٹور.
برآمد شدہ نوٹ بک اب چلنے کے لیے تیار ہے۔
ڈیٹا ایکسپورٹ کریں اور آٹو پائلٹ کے ساتھ ماڈل کو تربیت دیں۔
اب ہم استعمال کرتے ہوئے ماڈل کو تربیت دے سکتے ہیں۔ ایمیزون سیج میکر آٹو پائلٹ.
- ڈیٹا فلو پیج پر، منتخب کریں۔ ٹریننگ ٹیب.
- کے لئے ایمیزون S3 مقامڈیٹا کو محفوظ کرنے کے لیے ایک مقام درج کریں۔
- میں سے انتخاب کریں ایکسپورٹ اور ٹرین.
- میں ترتیبات کی وضاحت کریں۔ ہدف اور خصوصیات, تربیت کا طریقہ, تعیناتی اور پیشگی ترتیبات، اور جائزہ لیں اور تخلیق کریں۔ حصوں.
- میں سے انتخاب کریں تجربہ بنائیں اپنے مسئلے کے لیے بہترین ماڈل تلاش کرنے کے لیے۔
صاف کرو
اگر ڈیٹا رینگلر کے ساتھ آپ کا کام مکمل ہو گیا ہے، اپنے ڈیٹا رینگلر مثال کو بند کریں۔ اضافی فیسوں سے بچنے کے لیے۔
نتیجہ
اس پوسٹ میں، ہم نے منسلک ہونے کا مظاہرہ کیا۔ OAuth کا استعمال کرتے ہوئے Snowflake سے ڈیٹا رینگلرڈیٹا سیٹ کو تبدیل کرنا اور اس کا تجزیہ کرنا، اور آخر میں اسے ڈیٹا فلو میں ایکسپورٹ کرنا تاکہ اسے Jupyter نوٹ بک میں استعمال کیا جا سکے۔ سب سے خاص بات یہ ہے کہ ہم نے ڈیٹا کی تیاری کے لیے ایک پائپ لائن بنائی ہے بغیر کوئی کوڈ لکھے۔
ڈیٹا رینگلر کے ساتھ شروع کرنے کے لیے، دیکھیں ایمیزون سیج میکر ڈیٹا رینگلر کے ساتھ ایم ایل ڈیٹا تیار کریں۔.
مصنفین کے بارے میں
اجے گووندرام AWS میں ایک سینئر سولیوشن آرکیٹیکٹ ہے۔ وہ اسٹریٹجک صارفین کے ساتھ کام کرتا ہے جو پیچیدہ کاروباری مسائل کو حل کرنے کے لیے AI/ML استعمال کر رہے ہیں۔ اس کا تجربہ تکنیکی سمت فراہم کرنے کے ساتھ ساتھ معمولی سے بڑے پیمانے پر AI/ML ایپلیکیشن کی تعیناتیوں کے لیے ڈیزائن مدد فراہم کرنے میں ہے۔ اس کا علم ایپلی کیشن آرکیٹیکچر سے لے کر بڑے ڈیٹا، تجزیات اور مشین لرننگ تک ہے۔ وہ آرام کرتے ہوئے موسیقی سننے، باہر کا تجربہ کرنے اور اپنے پیاروں کے ساتھ وقت گزارنے سے لطف اندوز ہوتا ہے۔
Bosco Albuquerque AWS میں ایک سینئر پارٹنر سولیوشن آرکیٹیکٹ ہے اور اسے انٹرپرائز ڈیٹابیس وینڈرز اور کلاؤڈ پرووائیڈرز کے ڈیٹا بیس اور اینالیٹکس پروڈکٹس کے ساتھ کام کرنے کا 20 سال سے زیادہ کا تجربہ ہے۔ اس نے بڑی ٹیکنالوجی کمپنیوں کو ڈیٹا اینالیٹکس سلوشنز ڈیزائن کرنے میں مدد کی ہے اور ڈیٹا اینالیٹکس پلیٹ فارمز اور ڈیٹا پروڈکٹس کو ڈیزائن اور لاگو کرنے میں انجینئرنگ ٹیموں کی قیادت کی ہے۔
میٹ مارزیلو Snowflake میں ایک سینئر پارٹنر سیلز انجینئر ہے۔ اس کے پاس ڈیٹا سائنس اور مشین لرننگ کے کرداروں میں مشاورت اور صنعتی تنظیموں کے ساتھ 10 سال کا تجربہ ہے۔ Matt کو مارکیٹنگ، سیلز، آپریشنز، کلینیکل، اور فنانس جیسے شعبوں میں AI اور ML ماڈلز کو بہت سے مختلف اداروں میں تیار کرنے اور تعینات کرنے کا تجربہ ہے، نیز مشاورتی کرداروں میں مشورہ دینے کا۔
ہوونگ Nguyen AWS میں Amazon SageMaker Data Wrangler کے لیے پروڈکٹ لیڈر ہے۔ اس کے پاس 15 سال کا تجربہ ہے کہ وہ انٹرپرائز اور کنزیومر دونوں جگہوں کے لیے گاہک کے جنون اور ڈیٹا سے چلنے والی مصنوعات تیار کرتی ہے۔ اپنے فارغ وقت میں، وہ آڈیو کتابوں، باغبانی، پیدل سفر، اور اپنے خاندان اور دوستوں کے ساتھ وقت گزارنے سے لطف اندوز ہوتی ہے۔
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- پلیٹو بلاک چین۔ Web3 Metaverse Intelligence. علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://aws.amazon.com/blogs/machine-learning/access-snowflake-data-using-oauth-based-authentication-in-amazon-sagemaker-data-wrangler/
- : ہے
- $UP
- 000
- 10
- 100
- 15 سال
- 20 سال
- 7
- 8
- 9
- a
- قابلیت
- ہمارے بارے میں
- تک رسائی حاصل
- ڈیٹا تک رسائی۔
- تک رسائی حاصل
- اکاؤنٹ
- کے پار
- Ad
- اس کے علاوہ
- ایڈیشنل
- منتظم
- آگے بڑھانے کے
- اعلی درجے کی
- مشورہ دینے
- کے بعد
- AI
- AI / ML
- تمام
- ایمیزون
- ایمیزون سیج میکر
- ایمیزون سیج میکر ڈیٹا رینگلر
- تجزیہ
- تجزیہ
- تجزیاتی
- تجزیے
- تجزیہ
- اور
- ایک اور
- اے پی آئی
- اپلی کیشن
- ظاہر
- درخواست
- کا اطلاق کریں
- درخواست دینا
- نقطہ نظر
- ایپس
- فن تعمیر
- کیا
- علاقوں
- AS
- اسسٹنس
- منسلک
- At
- منسلک کریں
- سامعین
- آڈیو
- تصدیق
- کی توثیق
- اجازت
- خود کار طریقے سے
- خود کار طریقے سے
- AWS
- Azure
- BE
- کیونکہ
- اس سے پہلے
- شروع کریں
- BEST
- بگ
- بگ ڈیٹا
- جسم
- کتب
- تعمیر میں
- کاروبار
- by
- فون
- کہا جاتا ہے
- کر سکتے ہیں
- صلاحیتوں
- کیس
- CAT
- تبدیلیاں
- انتخاب
- میں سے انتخاب کریں
- کلائنٹ
- کلینکل
- بادل
- کوڈ
- کالم
- کالم
- کمپنیاں
- مکمل
- پیچیدہ
- تصور
- ترتیب
- رابطہ قائم کریں
- مربوط
- کنکشن
- کنسول
- مشاورت
- صارفین
- مواد
- سکتا ہے
- احاطہ
- احاطہ کرتا ہے
- تخلیق
- بنائی
- پیدا
- تخلیق
- اسناد
- گاہکوں
- اعداد و شمار
- ڈیٹا تجزیہ
- ڈیٹا تجزیات
- ڈیٹا پلیٹ فارم
- ڈیٹا کی تیاری
- ڈیٹا سائنس
- ڈیٹا سائنسدان
- اعداد و شمار پر مبنی ہے
- ڈیٹا بیس
- فیصلہ کرنا
- پہلے سے طے شدہ
- demonstrated,en
- تعینات
- تعینات
- ڈیزائن
- ڈیزائننگ
- تفصیل
- تفصیلات
- ترقی
- مختلف
- سمت
- براہ راست
- مختلف
- دستاویزات
- نہیں کرتا
- ڈومین
- نہیں
- نیچے
- ڈاؤن لوڈ، اتارنا
- چھوڑ
- ہر ایک
- ایڈیٹر
- اثر
- یا تو
- کو چالو کرنے کے
- انجینئر
- انجنیئرنگ
- درج
- انٹرپرائز
- ماحولیات
- مثال کے طور پر
- موجودہ
- تجربہ
- تجربہ کرنا
- تحقیقی ڈیٹا کا تجزیہ
- برآمد
- بیرونی
- FAIL
- خاندان
- نمایاں کریں
- خصوصیات
- فیس
- چند
- میدان
- قطعات
- فائل
- آخر
- کی مالی اعانت
- مل
- فلوٹ
- بہاؤ
- کے بعد
- کے لئے
- فارمیٹ
- فرکوےنسی
- اکثر
- دوست
- سے
- فعالیت
- جنرل
- حاصل
- فراہم کرتا ہے
- عطا
- زیادہ سے زیادہ
- ہدایات
- ہے
- ہونے
- مدد
- مدد
- یہاں
- ہوم پیج (-)
- کس طرح
- کیسے
- HTML
- HTTP
- HTTPS
- ID
- شناخت
- شناخت
- شناختی
- ناقابل یقین
- پر عمل درآمد
- درآمد
- اہمیت
- in
- شامل ہیں
- سمیت
- غلط طریقے سے
- صنعت
- معلومات
- ان پٹ
- بصیرت
- بصیرت
- ہدایات
- انضمام
- انضمام
- انٹرفیس
- بدیہی
- ملوث
- IT
- ایوب
- نوکریاں
- فوٹو
- کلیدی
- علم
- بڑے
- بڑے پیمانے پر
- رہنما
- سیکھنے
- قیادت
- جھوٹ ہے
- زندگی کا دورانیہ
- زندگی
- کی طرح
- امکان
- لسٹ
- سن
- لوڈ
- بوجھ
- محل وقوع
- دیکھو
- تلاش
- محبت کرتا تھا
- مشین
- مشین لرننگ
- بنا
- بنا
- بناتا ہے
- بنانا
- مینیجر
- بہت سے
- مارکیٹنگ
- پیغام
- شاید
- منٹ
- لاپتہ
- ML
- ماڈل
- ماڈل
- نظر ثانی کرنے
- زیادہ
- سب سے زیادہ
- ایک سے زیادہ
- موسیقی
- نام
- نام
- فطرت، قدرت
- سمت شناسی
- ضرورت ہے
- ضرورت ہے
- ضروریات
- نئی
- اگلے
- خاص طور پر
- نوٹ بک
- تعداد
- اوہ
- اشیاء
- of
- اوکے ٹی اے
- on
- ایک
- آن لائن
- آپریشنز
- اختیار
- تنظیمیں
- اصل
- دیگر
- دوسری صورت میں
- باہر
- پیداوار
- خود
- صفحہ
- جوڑے
- پین
- پارٹنر
- پاس ورڈ
- انجام دیں
- اجازتیں
- ذاتی
- پائپ لائن
- پلیٹ فارم
- پلیٹ فارم
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- علاوہ
- پالیسیاں
- پاپ اپ
- ممکن
- پوسٹ
- کو ترجیح دی
- تیار
- ضروریات
- پیش نظارہ
- پچھلا
- مسئلہ
- مسائل
- طریقہ کار
- عمل
- پروسیسنگ
- مصنوعات
- حاصل
- پروفائل
- پروگرامنگ
- مناسب طریقے سے
- فراہم
- فراہم
- فراہم کنندہ
- فراہم کرنے والے
- فراہم کرتا ہے
- فراہم کرنے
- معیار
- بلکہ
- تیار
- سفارش
- ری ڈائریکٹ
- کو کم کرنے
- خطے
- رجسٹر
- رجسٹر
- رجسٹریشن
- دوبارہ لانچ
- رپورٹ
- نمائندگی
- کی ضرورت
- متعلقہ
- باقی
- نتیجہ
- نتائج کی نمائش
- خوردہ
- کردار
- کردار
- رن
- چل رہا ہے
- sagemaker
- فروخت
- شیڈولنگ
- سائنس
- سائنسدان
- سائنسدانوں
- گنجائش
- خفیہ
- سیکشن
- سیکشنز
- سیکورٹی
- انتخاب
- سینئر
- حساسیت
- مقرر
- قائم کرنے
- ترتیبات
- کئی
- شیل
- ہونا چاہئے
- دکھائیں
- سائن ان کریں
- سادہ
- ایک
- So
- حل
- حل
- کچھ
- ماخذ
- ذرائع
- خالی جگہیں
- خرچ کرنا۔
- شروع
- شروع ہوتا ہے
- مرحلہ
- مراحل
- ذخیرہ
- ذخیرہ
- ذخیرہ
- ذخیرہ کرنے
- حکمت عملی
- سلک
- سٹوڈیو
- کامیاب
- اس طرح
- خلاصہ
- حمایت
- کی حمایت کرتا ہے
- TAG
- لے لو
- لیتا ہے
- ہدف
- ھدف بنائے گئے
- کاموں
- ٹیموں
- ٹیکنیکل
- ٹیکنالوجی
- ٹیکنالوجی کمپنیوں
- کہ
- ۔
- کے بارے میں معلومات
- ان
- ان
- یہ
- کے ذریعے
- وقت
- کرنے کے لئے
- ٹوکن
- ٹوکن
- ٹرین
- تبدیل
- تبدیلی
- تبدیل
- اقسام
- کے تحت
- سمجھ
- منفرد
- اپ ڈیٹ کریں
- URL
- استعمال کی شرائط
- استعمال کیس
- رکن کا
- صارف مواجہ
- صارفین
- قیمت
- اقدار
- دکانداروں
- اس بات کی تصدیق
- کی طرف سے
- لنک
- نظر
- واک تھرو
- انتباہ
- مہینے
- اچھا ہے
- جس
- جبکہ
- ڈبلیو
- پوری
- گے
- ساتھ
- کے اندر
- بغیر
- کام
- کام کے بہاؤ
- کام کر
- کام کرتا ہے
- لکھنا
- تحریری طور پر
- سال
- تم
- اور
- زیفیرنیٹ