Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

ایمیزون سیج میکر ڈیٹا رینگلر کا استعمال کرتے ہوئے مشین لرننگ کے لیے ڈیٹا برکس سے ڈیٹا تیار کریں۔

ڈیٹا سائنس اور ڈیٹا انجینئرنگ ٹیمیں اپنے وقت کا ایک اہم حصہ مشین لرننگ (ML) لائف سائیکل کے ڈیٹا کی تیاری کے مرحلے میں ڈیٹا کے انتخاب، صفائی، اور تبدیلی کے مراحل کو انجام دینے میں صرف کرتی ہیں۔ بامعنی بصیرت اور پیشین گوئیاں پیدا کرنے کے لیے یہ کسی بھی ML ورک فلو کا ایک ضروری اور اہم قدم ہے، کیونکہ خراب یا کم معیار کا ڈیٹا اخذ کردہ بصیرت کی مطابقت کو بہت حد تک کم کر دیتا ہے۔

ڈیٹا انجینئرنگ ٹیمیں روایتی طور پر ڈاون اسٹریم استعمال کے لیے خام ڈیٹا کے ادخال، استحکام اور تبدیلی کے لیے ذمہ دار ہیں۔ ڈیٹا سائنسدانوں کو اکثر ڈومین کے لیے مخصوص ML استعمال کے کیسز جیسے کہ قدرتی زبان اور ٹائم سیریز کے لیے ڈیٹا پر اضافی پروسیسنگ کرنے کی ضرورت ہوتی ہے۔ مثال کے طور پر، کچھ ML الگورتھم گمشدہ اقدار، ویرل خصوصیات، یا outliers کے لیے حساس ہو سکتے ہیں اور خاص غور کرنے کی ضرورت ہے۔ یہاں تک کہ ان صورتوں میں جہاں ڈیٹا سیٹ اچھی حالت میں ہے، ڈیٹا سائنسدان ماڈلز سے حاصل کردہ بصیرت کو زیادہ سے زیادہ کرنے کے لیے فیچر کی تقسیم کو تبدیل کرنا یا نئی خصوصیات بنانا چاہتے ہیں۔ ان مقاصد کو حاصل کرنے کے لیے، ڈیٹا سائنسدانوں کو درخواست کردہ تبدیلیوں کو ایڈجسٹ کرنے کے لیے ڈیٹا انجینئرنگ ٹیموں پر انحصار کرنا پڑتا ہے، جس کے نتیجے میں ماڈل کی ترقی کے عمل میں انحصار اور تاخیر ہوتی ہے۔ متبادل طور پر، ڈیٹا سائنس ٹیمیں مختلف پروگرامنگ پیراڈائمز کا استعمال کرتے ہوئے اندرونی طور پر ڈیٹا کی تیاری اور فیچر انجینئرنگ انجام دینے کا انتخاب کر سکتی ہیں۔ تاہم، اس کے لیے لائبریریوں اور فریم ورک کی تنصیب اور ترتیب میں وقت اور محنت کی ضرورت ہوتی ہے، جو کہ مثالی نہیں ہے کیونکہ اس وقت کو ماڈل کی کارکردگی کو بہتر بنانے میں بہتر طور پر صرف کیا جا سکتا ہے۔

ایمیزون سیج میکر ڈیٹا رینگلر ڈیٹا کی تیاری اور فیچر انجینئرنگ کے عمل کو آسان بناتا ہے، ڈیٹا سائنسدانوں کو اپنے ڈیٹاسیٹس کو منتخب کرنے، صاف کرنے اور دریافت کرنے کے لیے ایک واحد بصری انٹرفیس فراہم کرکے ML کے لیے ڈیٹا کو جمع کرنے اور تیار کرنے میں لگنے والے وقت کو ہفتوں سے منٹوں تک کم کرتا ہے۔ ڈیٹا رینگلر بغیر کسی کوڈ کو لکھے خصوصیات کو معمول پر لانے، تبدیل کرنے اور یکجا کرنے میں مدد کے لیے 300 سے زیادہ بلٹ ان ڈیٹا ٹرانسفارمیشنز پیش کرتا ہے۔ آپ متعدد ڈیٹا ذرائع سے ڈیٹا درآمد کر سکتے ہیں، جیسے ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)، ایمیزون ایتینا, ایمیزون ریڈ شفٹ، اور میں Snowflake. اب آپ بھی استعمال کر سکتے ہیں۔ ڈیٹا بکس ڈیٹا رینگلر میں ڈیٹا سورس کے طور پر ML کے لیے ڈیٹا کو آسانی سے تیار کرنے کے لیے۔

ڈیٹا برکس لیک ہاؤس پلیٹ فارم ڈیٹا لیکس اور ڈیٹا گوداموں کے بہترین عناصر کو یکجا کرتا ہے تاکہ ڈیٹا گوداموں کی بھروسے، مضبوط حکمرانی اور کارکردگی کو ڈیٹا لیکس کی کشادگی، لچک اور مشین لرننگ سپورٹ فراہم کیا جا سکے۔ ڈیٹا رینگلر کے ڈیٹا سورس کے طور پر ڈیٹا برکس کے ساتھ، آپ اب ڈیٹا برکس سے تیزی سے اور آسانی سے جڑ سکتے ہیں، ایس کیو ایل کا استعمال کرتے ہوئے ڈیٹا برکس میں ذخیرہ شدہ ڈیٹا کو انٹرایکٹو طریقے سے پوچھ سکتے ہیں، اور امپورٹ کرنے سے پہلے ڈیٹا کا پیش نظارہ کر سکتے ہیں۔ مزید برآں، آپ ڈیٹا برکس میں اپنے ڈیٹا کو Amazon S3 میں ذخیرہ کردہ ڈیٹا کے ساتھ شامل کر سکتے ہیں، اور اپنے ML استعمال کے کیس کے لیے صحیح ڈیٹا سیٹ بنانے کے لیے Amazon Athena، Amazon Redshift، اور Snowflake کے ذریعے پوچھے گئے ڈیٹا کو شامل کر سکتے ہیں۔

اس پوسٹ میں، ہم ایم ایل ماڈل ٹریننگ میں استعمال کے لیے Amazon SageMaker Data Wrangler کا استعمال کرتے ہوئے Lending Club Loan ڈیٹاسیٹ کو تبدیل کرتے ہیں۔

حل جائزہ

درج ذیل خاکہ ہمارے حل کے فن تعمیر کو واضح کرتا ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

لینڈنگ کلب لون ڈیٹاسیٹ میں 2007–2011 کے ذریعے جاری کردہ تمام قرضوں کے لیے قرض کا مکمل ڈیٹا ہوتا ہے، بشمول قرض کی موجودہ صورتحال اور ادائیگی کی تازہ ترین معلومات۔ اس میں 39,717 قطاریں، 22 فیچر کالم، اور 3 ٹارگٹ لیبل ہیں۔

ڈیٹا رینگلر کا استعمال کرتے ہوئے اپنے ڈیٹا کو تبدیل کرنے کے لیے، ہم درج ذیل اعلیٰ سطحی مراحل کو مکمل کرتے ہیں:

  1. ڈیٹاسیٹ کو ڈاؤن لوڈ اور تقسیم کریں۔
  2. ڈیٹا رینگلر فلو بنائیں۔
  3. ڈیٹا برکس سے ڈیٹا رینگلر میں ڈیٹا درآمد کریں۔
  4. ایمیزون S3 سے ڈیٹا رینگلر میں ڈیٹا درآمد کریں۔
  5. ڈیٹا میں شامل ہوں۔
  6. تبدیلیوں کا اطلاق کریں۔
  7. ڈیٹاسیٹ برآمد کریں۔

شرائط

پوسٹ فرض کرتی ہے کہ آپ کے پاس ڈیٹا برکس کلسٹر چل رہا ہے۔ اگر آپ کا کلسٹر AWS پر چل رہا ہے، تو تصدیق کریں کہ آپ کے پاس درج ذیل کنفیگر ہیں:

ڈیٹا برکس سیٹ اپ

پر عمل کریں مثال کے طور پر پروفائلز کا استعمال کرتے ہوئے S3 بالٹیوں تک محفوظ رسائی ضرورت کے لئے AWS شناخت اور رسائی کا انتظام (IAM) کردار، S3 بالٹی پالیسی، اور Databricks کلسٹر کنفیگریشن۔ یقینی بنائیں کہ ڈیٹابرکس کلسٹر مناسب طریقے سے ترتیب دیا گیا ہے۔ Instance Profileمطلوبہ S3 بالٹی تک رسائی کے لیے، اعلی درجے کے اختیارات کے تحت منتخب کیا گیا۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

ڈیٹابرکس کلسٹر تیار ہونے اور ایمیزون S3 تک مطلوبہ رسائی کے ساتھ چلنے کے بعد، آپ اسے حاصل کر سکتے ہیں۔ JDBC URL آپ کے ڈیٹا برکس کلسٹر سے ڈیٹا رینگلر اس سے منسلک ہونے کے لیے استعمال کرے گا۔

JDBC URL حاصل کریں۔

JDBC URL حاصل کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:

  1. ڈیٹابرکس میں، کلسٹرز UI پر جائیں۔
  2. اپنے کلسٹر کا انتخاب کریں۔
  3. پر ترتیب ٹیب، منتخب کریں اعلی درجے کے اختیارات.
  4. کے تحت اعلی درجے کے اختیارات، منتخب کیجئیے JDBC/ODBC ٹیب.
  5. JDBC URL کاپی کریں۔
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

اپنی ذاتی رسائی کا متبادل یقینی بنائیں ٹوکن URL میں

ڈیٹا رینگلر سیٹ اپ

یہ قدم فرض کرتا ہے کہ آپ کو ایمیزون سیج میکر تک رسائی حاصل ہے، ایک مثال ایمیزون سیج میکر اسٹوڈیو، اور ایک اسٹوڈیو صارف۔

ڈیٹا رینگلر سے ڈیٹابرکس جے ڈی بی سی کنکشن تک رسائی کی اجازت دینے کے لیے، اسٹوڈیو صارف کو درج ذیل اجازت درکار ہے:

  • secretsmanager:PutResourcePolicy

IAM انتظامی صارف کے طور پر، اوپر کی اجازت کے ساتھ اسٹوڈیو صارف کو تفویض کردہ IAM ایگزیکیوشن رول کو اپ ڈیٹ کرنے کے لیے درج ذیل مراحل پر عمل کریں۔

  1. IAM کنسول پر، منتخب کریں۔ رولز نیوی گیشن پین میں.
  2. اپنے اسٹوڈیو صارف کو تفویض کردہ کردار کا انتخاب کریں۔
  3. میں سے انتخاب کریں اجازتیں شامل کریں۔.
  4. میں سے انتخاب کریں ان لائن پالیسی بنائیں.
  5. سروس کے لیے، منتخب کریں۔ سیکرٹس مینیجر.
  6. On عواملمنتخب کریں رسائی کی سطح.
  7. میں سے انتخاب کریں اجازتوں کا انتظام.
  8. میں سے انتخاب کریں پٹ ریسورس پالیسی.
  9. کے لئے وسائلمنتخب کریں مخصوص اور منتخب کریں اس اکاؤنٹ میں کوئی بھی.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

ڈیٹاسیٹ کو ڈاؤن لوڈ اور تقسیم کریں۔

آپ کی طرف سے شروع کر سکتے ہیں ڈیٹاسیٹ ڈاؤن لوڈ کرنا. مظاہرے کے مقاصد کے لیے، ہم فیچر کالم کاپی کرکے ڈیٹاسیٹ کو تقسیم کرتے ہیں۔ id, emp_title, emp_length, home_owner، اور annual_inc ایک سیکنڈ بنانے کے لئے loans_2.csv فائل ہم اصل قرضوں کی فائل سے مذکورہ بالا کالم ہٹا دیتے ہیں سوائے اس کے id کالم کریں اور اصل فائل کا نام تبدیل کریں۔ loans_1.csv. اپ لوڈ کریں۔ loans_1.csv فائل پر ڈیٹا بکس ایک میز بنانے کے لئے loans_1 اور loans_2.csv ایک S3 بالٹی میں۔

ڈیٹا رینگلر فلو بنائیں

ڈیٹا رینگلر کی پیشگی ضروریات کے بارے میں معلومات کے لیے، دیکھیں ڈیٹا رینگلر کے ساتھ شروعات کریں۔.

آئیے ایک نیا ڈیٹا فلو بنا کر شروع کریں۔

  1. اسٹوڈیو کنسول پر، پر فائل مینو، منتخب کریں نئی.
  2. میں سے انتخاب کریں ڈیٹا رینگلر کا بہاؤ.
  3. بہاؤ کا نام حسب خواہش رکھیں۔
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

متبادل طور پر، آپ لانچر سے ایک نیا ڈیٹا فلو بنا سکتے ہیں۔

  • اسٹوڈیو کنسول پر، منتخب کریں۔ ایمیزون سیج میکر اسٹوڈیو نیوی گیشن پین میں.
  • میں سے انتخاب کریں نیا ڈیٹا فلو.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

ایک نیا فلو بنانے میں چند منٹ لگ سکتے ہیں۔ بہاؤ پیدا ہونے کے بعد، آپ دیکھیں گے۔ ڈیٹا درآمد کریں۔ صفحہ.

ڈیٹا برکس سے ڈیٹا رینگلر میں ڈیٹا درآمد کریں۔

اگلا، ہم ڈیٹا رینگلر میں ڈیٹا برکس (JDBC) کو ڈیٹا سورس کے طور پر ترتیب دیتے ہیں۔ Databricks سے ڈیٹا درآمد کرنے کے لیے، ہمیں پہلے Databricks کو ڈیٹا سورس کے طور پر شامل کرنا ہوگا۔

  1. پر ڈیٹا درآمد کریں۔ اپنے ڈیٹا رینگلر فلو کا ٹیب، منتخب کریں۔ ڈیٹا کا ماخذ شامل کریں.
  2. ڈراپ ڈاؤن مینو پر، منتخب کریں۔ ڈیٹابرکس (JDBC).
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

پر ڈیٹابرکس سے ڈیٹا درآمد کریں۔ صفحہ، آپ اپنے کلسٹر کی تفصیلات درج کریں۔

  1. کے لئے ڈیٹا سیٹ کا نامایک نام درج کریں جسے آپ فلو فائل میں استعمال کرنا چاہتے ہیں۔
  2. کے لئے ڈرائیور، ڈرائیور کا انتخاب کریں۔ com.simba.spark.jdbc.Driver.
  3. کے لئے JDBC URL، پہلے حاصل کردہ اپنے ڈیٹابرکس کلسٹر کا URL درج کریں۔

URL کو درج ذیل فارمیٹ سے مشابہ ہونا چاہیے۔ jdbc:spark://<serve- hostname>:443/default;transportMode=http;ssl=1;httpPath=<http- path>;AuthMech=3;UID=token;PWD=<personal-access-token>.

  1. SQL استفسار ایڈیٹر میں، درج ذیل SQL SELECT بیان کی وضاحت کریں:
    select * from loans_1

اگر آپ نے ڈیٹا برکس پر ڈیٹا اپ لوڈ کرتے وقت ٹیبل کے مختلف نام کا انتخاب کیا ہے، تو اس کے مطابق مندرجہ بالا SQL استفسار میں لون_1 کو تبدیل کریں۔

میں SQL استفسار ڈیٹا رینگلر کے سیکشن میں، آپ JDBC ڈیٹابرکس ڈیٹا بیس سے منسلک کسی بھی ٹیبل سے استفسار کر سکتے ہیں۔ پہلے سے منتخب کردہ نمونے لینے کو فعال کریں۔ ترتیب آپ کے ڈیٹاسیٹ کی پہلی 50,000 قطاروں کو بطور ڈیفالٹ بازیافت کرتی ہے۔ ڈیٹاسیٹ کے سائز پر منحصر ہے، غیر منتخب کرنا نمونے لینے کو فعال کریں۔ طویل درآمد کے وقت کے نتیجے میں ہو سکتا ہے.

  1. میں سے انتخاب کریں رن.

استفسار کو چلانے سے آپ کے ڈیٹا برکس ڈیٹاسیٹ کا براہ راست ڈیٹا رینگلر میں پیش نظارہ ملتا ہے۔
Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

  1. میں سے انتخاب کریں درآمد کریں.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

ڈیٹا رینگلر ایک ڈیٹا برکس کلسٹر یا ضرورت پڑنے پر ایک سے زیادہ کلسٹرز سے متعدد کنکرنٹ کنکشن قائم کرنے کے لیے لچک فراہم کرتا ہے، مشترکہ ڈیٹاسیٹس پر تجزیہ اور تیاری کو فعال کرتا ہے۔

ایمیزون S3 سے ڈیٹا رینگلر میں ڈیٹا درآمد کریں۔

اگلا، آئیے درآمد کرتے ہیں۔ loan_2.csv ایمیزون S3 سے فائل۔

  1. امپورٹ ٹیب پر، منتخب کریں۔ ایمیزون S3 ڈیٹا ماخذ کے طور پر۔
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی
  2. کے لیے S3 بالٹی پر جائیں۔ loan_2.csv فائل.

جب آپ CSV فائل کو منتخب کرتے ہیں، تو آپ ڈیٹا کا جائزہ لے سکتے ہیں۔

  1. میں تفصیلات دیکھیں پین، منتخب کریں اعلی درجے کی ترتیب بات کو یقینی بنانا نمونے لینے کو فعال کریں۔ منتخب کیا جاتا ہے اور کوما کے لیے منتخب کیا جاتا ہے۔ ڈیلیمیٹر.
  2. میں سے انتخاب کریں درآمد کریں.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

کے بعد loans_2.csv ڈیٹا سیٹ کامیابی کے ساتھ درآمد کیا گیا ہے، ڈیٹا فلو انٹرفیس ڈیٹابرکس JDBC اور Amazon S3 ڈیٹا ذرائع دونوں کو دکھاتا ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

ڈیٹا میں شامل ہوں۔

اب جبکہ ہم نے Databricks اور Amazon S3 سے ڈیٹا درآمد کیا ہے، آئیے ایک مشترکہ منفرد شناخت کنندہ کالم کا استعمال کرتے ہوئے ڈیٹا سیٹس میں شامل ہوں۔

  1. پر ڈیٹا کے بہاؤ ٹیب، کے لیے ڈیٹا کی اقسامکے لیے جمع کا نشان منتخب کریں۔ loans_1.
  2. میں سے انتخاب کریں شامل ہوں.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی
  3. منتخب کیجئیے loans_2.csv فائل کے طور پر اس وقت ڈیٹاسیٹ
  4. میں سے انتخاب کریں سیٹ کریں شمولیت کے معیار کو ترتیب دینے کے لیے۔
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی
  5. کے لئے نامشامل ہونے کے لیے ایک نام درج کریں۔
  6. کے لئے شامل ہونے کی قسممنتخب کریں اندرونی اس پوسٹ کے لئے
  7. منتخب کیجئیے id شامل ہونے کے لیے کالم۔
  8. میں سے انتخاب کریں کا اطلاق کریں شامل کردہ ڈیٹاسیٹ کا جائزہ لینے کے لیے۔
  9. میں سے انتخاب کریں شامل کریں اسے ڈیٹا کے بہاؤ میں شامل کرنے کے لیے۔
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

تبدیلیوں کا اطلاق کریں۔

ڈیٹا رینگلر 300 سے زیادہ بلٹ ان ٹرانسفارمز کے ساتھ آتا ہے، جس میں کوڈنگ کی ضرورت نہیں ہوتی ہے۔ آئیے ڈیٹا سیٹ تیار کرنے کے لیے بلٹ ان ٹرانسفارمز کا استعمال کریں۔

ڈراپ کالم

سب سے پہلے ہم فالتو ID کالم چھوڑتے ہیں۔

  1. جوائنڈ نوڈ پر، جمع کا نشان منتخب کریں۔
  2. میں سے انتخاب کریں تبدیلی شامل کریں۔.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی
  3. کے تحت تبدیل کرتا ہے، کا انتخاب + قدم شامل کریں۔.
  4. میں سے انتخاب کریں کالموں کا نظم کریں۔.
  5. کے لئے تبدیلمنتخب کریں ڈراپ کالم.
  6. کے لئے چھوڑنے کے لیے کالم، کالم کا انتخاب کریں۔ id_0.
  7. میں سے انتخاب کریں پیش نظارہ.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی
  8. میں سے انتخاب کریں شامل کریں.

فارمیٹ سٹرنگ

آئیے سے فیصد کی علامت کو ہٹانے کے لیے سٹرنگ فارمیٹنگ کا اطلاق کریں۔ int_rate اور revol_util کالم۔

  1. پر ڈیٹا ٹیب ، نیچے۔ تبدیلیاںمنتخب کریں + قدم شامل کریں۔.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی
  2. میں سے انتخاب کریں فارمیٹ سٹرنگ.
  3. کے لئے تبدیلمنتخب کریں حروف کو دائیں سے ہٹا دیں۔.

ڈیٹا رینگلر آپ کو اپنی منتخب کردہ تبدیلی کو ایک ساتھ متعدد کالموں پر لاگو کرنے کی اجازت دیتا ہے۔

  1. کے لئے ان پٹ کالمزمنتخب کریں int_rate اور revol_util.
  2. کے لئے ہٹانے کے لیے حروف، داخل کریں %.
  3. میں سے انتخاب کریں پیش نظارہ.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی
  4. میں سے انتخاب کریں شامل کریں.

متن کو نمایاں کریں۔

آئیے اب ویکٹرائز کرتے ہیں۔ verification_status، ایک ٹیکسٹ فیچر کالم۔ ہم ٹیکسٹ کالم کو ٹرم فریکوئنسی – الٹا دستاویز فریکوئنسی (TF-IDF) ویکٹر میں کاؤنٹ ویکٹرائزر اور ایک معیاری ٹوکنائزر لگا کر تبدیل کرتے ہیں جیسا کہ ذیل میں بیان کیا گیا ہے۔ ڈیٹا رینگلر اگر چاہے تو اپنا ٹوکنائزر لانے کا اختیار بھی فراہم کرتا ہے۔

  1. کے تحت ٹرانسفارمرزمنتخب کریں + قدم شامل کریں۔.
  2. میں سے انتخاب کریں متن کو نمایاں کریں۔.
  3. کے لئے تبدیلمنتخب کریں ویکٹرائز.
  4. کے لئے ان پٹ کالمزمنتخب کریں verification_status.
  5. میں سے انتخاب کریں پیش نظارہ.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی
  6. میں سے انتخاب کریں شامل کریں.

ڈیٹاسیٹ برآمد کریں۔

مختلف کالموں کی اقسام پر متعدد تبدیلیوں کو لاگو کرنے کے بعد، بشمول متن، زمرہ، اور عددی، ہم ML ماڈل کی تربیت کے لیے تبدیل شدہ ڈیٹا سیٹ کو استعمال کرنے کے لیے تیار ہیں۔ آخری مرحلہ تبدیل شدہ ڈیٹاسیٹ کو Amazon S3 میں برآمد کرنا ہے۔ ڈیٹا رینگلر میں، آپ کے پاس تبدیلیوں کے بہاو کے استعمال کے لیے انتخاب کرنے کے لیے متعدد اختیارات ہیں:

اس پوسٹ میں، ہم اس سے فائدہ اٹھاتے ہیں۔ ڈیٹا برآمد کریں۔ میں اختیار تبدیل تبدیل شدہ ڈیٹاسیٹ کو براہ راست Amazon S3 پر برآمد کرنے کے لیے دیکھیں۔

  1. میں سے انتخاب کریں ڈیٹا برآمد کریں۔.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی
  2. کے لئے S3 مقاممنتخب کریں براؤز کریں اور اپنی S3 بالٹی کا انتخاب کریں۔
  3. میں سے انتخاب کریں ڈیٹا برآمد کریں۔.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عی

صاف کرو

اگر ڈیٹا رینگلر کے ساتھ آپ کا کام مکمل ہو گیا ہے، اپنے ڈیٹا رینگلر مثال کو بند کریں۔ اضافی فیسوں سے بچنے کے لیے۔

نتیجہ

اس پوسٹ میں، ہم نے اس بات کا احاطہ کیا کہ آپ ڈیٹا رینگلر میں ڈیٹا سورس کے طور پر ڈیٹا برکس کو کس طرح تیزی سے اور آسانی سے سیٹ اپ اور منسلک کر سکتے ہیں، SQL کا استعمال کرتے ہوئے ڈیٹا برکس میں ذخیرہ شدہ ڈیٹا کو انٹرایکٹو طریقے سے پوچھ سکتے ہیں، اور درآمد کرنے سے پہلے ڈیٹا کا پیش نظارہ کر سکتے ہیں۔ مزید برآں، ہم نے دیکھا کہ آپ ڈیٹابرکس میں اپنے ڈیٹا کو ایمیزون S3 میں ذخیرہ کردہ ڈیٹا کے ساتھ کیسے شامل کر سکتے ہیں۔ اس کے بعد ہم نے ڈیٹا کی تیاری کی پائپ لائن بنانے کے لیے مشترکہ ڈیٹاسیٹ پر ڈیٹا ٹرانسفارمیشن کا اطلاق کیا۔ مزید ڈیٹا رینگلر کی تجزیہ کی صلاحیتوں کو دریافت کرنے کے لیے، بشمول ہدف کے رساو اور تعصب کی رپورٹ تیار کرنا، درج ذیل بلاگ پوسٹ کا حوالہ دیں۔ ذیابیطس کے مریض کے دوبارہ داخلے کی پیشن گوئی کے لیے ایمیزون سیج میکر ڈیٹا رینگلر کا استعمال کرتے ہوئے ڈیٹا کی تیاری کو تیز کریں.

ڈیٹا رینگلر کے ساتھ شروع کرنے کے لیے، دیکھیں ایمیزون سیج میکر ڈیٹا رینگلر کے ساتھ ایم ایل ڈیٹا تیار کریں۔، اور ڈیٹا رینگلر پر تازہ ترین معلومات دیکھیں پروڈکٹ کا صفحہ.


مصنفین کے بارے میں

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عیروپ بینس AWS میں ایک حل آرکیٹیکٹ ہے جو AI/ML پر فوکس کرتا ہے۔ وہ مصنوعی ذہانت اور مشین لرننگ کا استعمال کرتے ہوئے صارفین کو اختراع کرنے اور ان کے کاروباری مقاصد کو حاصل کرنے میں مدد کرنے کا پرجوش ہے۔ اپنے فارغ وقت میں روپ کو پڑھنا اور پیدل سفر کرنا پسند ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عیIgor Alekseev ڈیٹا اور تجزیات میں AWS میں ایک پارٹنر سلوشن آرکیٹیکٹ ہے۔ Igor سٹریٹجک شراکت داروں کے ساتھ مل کر کام کرتا ہے جو کہ پیچیدہ، AWS سے بہتر بنائے گئے فن تعمیرات کی تعمیر میں ان کی مدد کرتا ہے۔ AWS میں شامل ہونے سے پہلے، بطور ڈیٹا/سولیوشن آرکیٹیکٹ، اس نے بگ ڈیٹا میں بہت سے پروجیکٹس کو لاگو کیا، بشمول ہڈوپ ایکو سسٹم میں کئی ڈیٹا لیکس۔ ڈیٹا انجینئر کے طور پر، وہ فراڈ کا پتہ لگانے اور آفس آٹومیشن کے لیے AI/ML کا اطلاق کرنے میں ملوث تھا۔ ایگور کے منصوبے مختلف صنعتوں میں تھے جن میں مواصلات، مالیات، عوامی تحفظ، مینوفیکچرنگ، اور صحت کی دیکھ بھال شامل ہیں۔ اس سے پہلے، Igor مکمل اسٹیک انجینئر/ٹیک لیڈ کے طور پر کام کرتا تھا۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عیہوونگ Nguyen AWS میں ایک سینئر پروڈکٹ مینیجر ہے۔ وہ سیج میکر اسٹوڈیو کے لیے صارف کے تجربے کی رہنمائی کر رہی ہے۔ اس کے پاس 13 سال کا تجربہ ہے کہ وہ انٹرپرائز اور کنزیومر دونوں جگہوں کے لیے گاہک کے جنون اور ڈیٹا سے چلنے والی مصنوعات تیار کرتی ہے۔ اپنے فارغ وقت میں، وہ پڑھنے، فطرت میں رہنے اور اپنے خاندان کے ساتھ وقت گزارنے سے لطف اندوز ہوتی ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے مشین لرننگ کے لیے Databricks سے ڈیٹا تیار کریں۔ عمودی تلاش۔ عیہنری وانگ AWS میں سافٹ ویئر ڈویلپمنٹ انجینئر ہے۔ اس نے حال ہی میں UC ڈیوس سے گریجویشن کرنے کے بعد ڈیٹا رینگلر ٹیم میں شمولیت اختیار کی۔ اسے ڈیٹا سائنس اور مشین لرننگ میں دلچسپی ہے اور وہ ایک شوق کے طور پر 3D پرنٹنگ کرتا ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ