Amazon SageMaker Studio PlatoBlockchain Data Intelligence سے AWS Lake Formation اور Amazon EMR کے ساتھ عمدہ ڈیٹا تک رسائی کے کنٹرول کا اطلاق کریں۔ عمودی تلاش۔ عی

ایمیزون سیج میکر اسٹوڈیو سے AWS لیک فارمیشن اور ایمیزون EMR کے ساتھ عمدہ ڈیٹا تک رسائی کے کنٹرول کا اطلاق کریں۔

ایمیزون سیج میکر اسٹوڈیو مشین لرننگ (ML) کے لیے ایک مکمل طور پر مربوط ترقیاتی ماحول (IDE) ہے جو ڈیٹا سائنسدانوں اور ڈیولپرز کو ML ورک فلو کے ہر قدم کو انجام دینے کے قابل بناتا ہے، ڈیٹا کی تیاری سے لے کر ماڈلز کی تعمیر، تربیت، ٹیوننگ اور تعیناتی تک۔ اسٹوڈیو ایمیزون EMR کے ساتھ بلٹ ان انضمام کے ساتھ آتا ہے۔ تاکہ ڈیٹا سائنسدان سٹوڈیو نوٹ بک کے اندر سے ہی اوپن سورس فریم ورک جیسے اپاچی اسپارک، ہائیو، اور 300 پریسٹو کا استعمال کرتے ہوئے پیٹا بائٹ پیمانے پر ڈیٹا تیار کر سکیں۔ ڈیٹا اکثر ڈیٹا لیکس میں ذخیرہ کیا جاتا ہے جس کا انتظام کیا جاتا ہے۔ AWS جھیل کی تشکیل، آپ کو ایک سادہ گرانٹ یا منسوخی کے طریقہ کار کے ذریعے عمدہ رسائی کنٹرول کو لاگو کرنے کے قابل بناتا ہے۔ ہمیں یہ اعلان کرتے ہوئے خوشی ہو رہی ہے کہ اسٹوڈیو اب اس باریک ڈیٹا تک رسائی کے کنٹرول کو لیک فارمیشن کے ذریعے ڈیٹا تک رسائی کے دوران لاگو کرنے کی حمایت کرتا ہے۔ ایمیزون ای ایم آر.

اب تک، جب آپ EMR کلسٹر پر متعدد ڈیٹا پروسیسنگ جابز چلاتے تھے، تمام جابز ایک ہی استعمال کرتی تھیں۔ AWS شناخت اور رسائی کا انتظام (اے ایم آئی) کردار ڈیٹا تک رسائی کے لیے—یعنی، کلسٹرز ایمیزون لچکدار کمپیوٹ کلاؤڈ (ایمیزون EC2) مثال کا پروفائل۔ لہذا، ایسی ملازمتوں کو چلانے کے لیے جن کے لیے ڈیٹا کے مختلف ذرائع تک رسائی کی ضرورت ہوتی ہے جیسے کہ مختلف ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) بالٹی، آپ کو ایسی پالیسیوں کے ساتھ EC2 مثال کے پروفائل کو ترتیب دینا تھا جو اس طرح کے تمام ڈیٹا ذرائع کے اتحاد تک رسائی کی اجازت دیتی ہیں۔ مزید برآں، ڈیٹا تک تفریق رسائی والے صارفین کے گروپس کو فعال کرنے کے لیے، آپ کو ہر گروپ کے لیے ایک سے زیادہ علیحدہ کلسٹرز بنانے پڑتے ہیں، جس کے نتیجے میں آپریشنل اوور ہیڈز ہوتے ہیں۔ علیحدہ طور پر، سٹوڈیو نوٹ بک سے ایمیزون EMR کو جمع کرائی گئی ملازمتیں لیک فارمیشن کے ساتھ ڈیٹا تک رسائی کے عمدہ کنٹرول کو لاگو کرنے سے قاصر تھیں۔

ایمیزون EMR 6.9 کی ریلیز کے ساتھ شروع کرتے ہوئے، جب آپ اسٹوڈیو نوٹ بک سے EMR کلسٹرز سے منسلک ہوتے ہیں، تو آپ بصری طور پر براؤز کر سکتے ہیں اور فلائی پر ایک IAM رول کا انتخاب کر سکتے ہیں جسے رن ٹائم IAM کردار. اس کے بعد، آپ کی تمام Apache Spark، Apache Hive، یا Presto جابز سٹوڈیو نوٹ بک سے بنائی گئی ہیں صرف ان ڈیٹا اور وسائل تک رسائی حاصل کریں گی جو رن ٹائم رول سے منسلک پالیسیوں کے ذریعے اجازت دی گئی ہیں۔ اس کے علاوہ، جب Lake Formation کے ساتھ منظم کردہ ڈیٹا لیکس سے ڈیٹا تک رسائی حاصل کی جاتی ہے، تو آپ رن ٹائم رول سے منسلک پالیسیوں کا استعمال کرتے ہوئے ٹیبل لیول اور کالم لیول تک رسائی کو نافذ کر سکتے ہیں۔

اس نئی صلاحیت کے ساتھ، متعدد اسٹوڈیو صارفین ایک ہی EMR کلسٹر سے منسلک ہو سکتے ہیں، ہر ایک رن ٹائم IAM رول کا استعمال کرتے ہوئے ڈیٹا تک رسائی کی انفرادی سطح سے مماثل اجازتوں کے ساتھ۔ ان کے صارف کے سیشن بھی مشترکہ کلسٹر پر ایک دوسرے سے مکمل طور پر الگ تھلگ ہیں۔ اسی مشترکہ کلسٹر پر ڈیٹا تک عمدہ رسائی کو کنٹرول کرنے کی اس قابلیت کے ساتھ، آپ EMR کلسٹرز کی فراہمی کو آسان بنا سکتے ہیں، اس طرح آپریشنل اوور ہیڈ کو کم کر کے اخراجات کو بچا سکتے ہیں۔

اس پوسٹ میں، ہم دکھاتے ہیں کہ کس طرح استعمال کیا جائے۔ اسٹوڈیو نوٹ بک رن ٹائم رولز کا استعمال کرتے ہوئے EMR کلسٹر سے جڑنے کے لیے۔ ہم ایک نمونہ اسٹوڈیو لائف سائیکل کنفیگریشن فراہم کرتے ہیں جو EMR رن ٹائم رولز کو کنفیگر کرنے میں مدد کر سکتا ہے جن تک اسٹوڈیو صارف پروفائل تک رسائی حاصل ہے۔ مزید برآں، ہم EMR رن ٹائم رولز کے لیے قطار کی سطح اور کالم کی سطح کی اجازتوں کو نافذ کرکے لیک فارمیشن کے ذریعے ڈیٹا لیک میں ڈیٹا تک رسائی کا انتظام کرتے ہیں۔

حل جائزہ

ہم نمونہ ڈیٹاسیٹ کا استعمال کرتے ہوئے اختتام سے آخر تک استعمال کے کیس کے ساتھ اس حل کا مظاہرہ کرتے ہیں۔ TPC ڈیٹا ماڈل. یہ ڈیٹا مصنوعات کے لین دین کے ڈیٹا کی نمائندگی کرتا ہے اور اس میں کسٹمر ڈیموگرافکس، انوینٹری، ویب سیلز اور پروموشنز جیسی معلومات شامل ہیں۔ عمدہ ڈیٹا تک رسائی کی اجازتوں کو ظاہر کرنے کے لیے، ہم درج ذیل دو صارفین پر غور کرتے ہیں:

  • ڈیوڈ، مارکیٹنگ ٹیم میں ڈیٹا سائنسدان۔ اسے کسٹمر سیگمنٹیشن پر ایک ماڈل بنانے کا کام سونپا گیا ہے، اور اسے صرف غیر حساس کسٹمر ڈیٹا تک رسائی کی اجازت ہے۔
  • ٹینا، سیلز ٹیم میں ڈیٹا سائنسدان۔ اسے فروخت کی پیشن گوئی کا ماڈل بنانے کا کام سونپا گیا ہے، اور اسے مخصوص علاقے کے لیے سیلز ڈیٹا تک رسائی کی ضرورت ہے۔ وہ جدت طرازی کے ساتھ پروڈکٹ ٹیم کی مدد بھی کر رہی ہے، اور اس لیے پروڈکٹ ڈیٹا تک بھی رسائی کی ضرورت ہے۔

فن تعمیر کو اس طرح نافذ کیا گیا ہے:

  • لیک فارمیشن ڈیٹا لیک کا انتظام کرتی ہے، اور خام ڈیٹا S3 بالٹیوں میں دستیاب ہے۔
  • ایمیزون ای ایم آر کا استعمال ڈیٹا لیک سے ڈیٹا کو استفسار کرنے اور اسپارک کا استعمال کرتے ہوئے ڈیٹا کی تیاری کو انجام دینے کے لیے کیا جاتا ہے۔
  • IAM رولز کو Lake Formation کا استعمال کرتے ہوئے ڈیٹا تک رسائی کا انتظام کرنے کے لیے استعمال کیا جاتا ہے۔
  • اسٹوڈیو کو واحد بصری انٹرفیس کے طور پر انٹرایکٹو سوال کرنے اور ڈیٹا تیار کرنے کے لیے استعمال کیا جاتا ہے۔

مندرجہ ذیل خاکہ اس فن تعمیر کو واضح کرتا ہے۔

درج ذیل حصے موجودہ اسٹوڈیو ڈومین کے ساتھ Amazon EMR کے انضمام کے لیے رن ٹائم IAM رولز کو فعال کرنے کے لیے درکار اقدامات کے ذریعے چلتے ہیں۔ آپ فراہم کردہ استعمال کرسکتے ہیں۔ AWS کلاؤڈ فارمیشن میں اسٹیک حل تعینات کریں۔ اس حل کے لیے تعمیراتی اجزاء کو ترتیب دینے کے لیے ذیل میں سیکشن۔

شرائط

شروع کرنے سے پہلے، یقینی بنائیں کہ آپ کے پاس درج ذیل شرائط ہیں:

رن ٹائم رولز کے ساتھ Amazon EMR سیٹ اپ کریں۔

EMR کلسٹر کو IAM رن ٹائم رولز کے ساتھ بنایا جانا چاہیے۔ Amazon EMR کے ساتھ رن ٹائم رولز استعمال کرنے کے بارے میں مزید تفصیلات کے لیے، دیکھیں Amazon EMR اقدامات کے لیے رن ٹائم رولز کو ترتیب دیں۔. ایمیزون EMR 6.9 میں EMR کلسٹرز کے ساتھ رن ٹائم رولز کو منسلک کرنا معاون ہے۔ یقینی بنائیں کہ درج ذیل ترتیب موجود ہے:

  • EMR رن ٹائم رول کی ٹرسٹ پالیسی کو EMR EC2 مثالی پروفائل کو کردار سنبھالنے کی اجازت دینی چاہیے
  • EMR EC2 مثال کے طور پر پروفائل کا کردار EMR رن ٹائم کرداروں کو سنبھالنے کے قابل ہونا چاہئے۔
  • EMR کلسٹر کو ٹرانزٹ میں انکرپشن کے ساتھ بنایا جانا چاہیے۔

آپ اختیاری طور پر پاس کرنے کا انتخاب کر سکتے ہیں۔ SourceIdentity (سٹوڈیو صارف پروفائل کا نام) صارف کے وسائل تک رسائی کی نگرانی کے لیے۔ میں بیان کردہ مراحل پر عمل کریں۔ ایمیزون سیج میکر اسٹوڈیو سے صارف کے وسائل تک رسائی کی نگرانی کرنا چالو کرنے کے لئے SourceIdentity آپ کے اسٹوڈیو ڈومین کے لیے۔

آخر میں، رجوع کریں ایمیزون EMR کا استعمال کرتے ہوئے ڈیٹا تیار کریں۔ EMR کلسٹرز کے ساتھ اسٹوڈیو کو مربوط کرنے کے بارے میں تفصیلی سیٹ اپ اور نیٹ ورکنگ ہدایات کے لیے۔

کلسٹر کے لیے بوٹسٹریپ ایکشن بنائیں

رن ٹائم رولز کے ذریعے EMR کے ساتھ اسٹوڈیو نوٹ بک کے کنیکٹیوٹی کو یقینی بنانے کے لیے آپ کو کلسٹر پر بوٹسٹریپ ایکشن چلانے کی ضرورت ہے۔ درج ذیل مراحل کو مکمل کریں:

  1. سے بوٹسٹریپ اسکرپٹ ڈاؤن لوڈ کریں۔ s3://emr-data-access-control-/customer-bootstrap-actions/gcsc/replace-rpms.shآپ کے علاقے کے ساتھ خطے کو تبدیل کرنا
  2. اس RPM فائل کو یہاں سے ڈاؤن لوڈ کریں۔ s3://emr-data-access-control-/customer-bootstrap-actions/gcsc/emr-secret-agent-1.18.0-SNAPSHOT20221121212949.noarch.rpm
  3. دونوں فائلوں کو اپنے اکاؤنٹ اور علاقے میں S3 بالٹی میں اپ لوڈ کریں۔
  4. اپنا EMR کلسٹر بناتے وقت، درج ذیل بوٹسٹریپ ایکشن شامل کریں:
    --bootstrap-actions "Path=,Args=[]"

اسٹوڈیو پر عمل درآمد کے کردار کو اپ ڈیٹ کریں۔

اجازت دینے کے لیے آپ کے اسٹوڈیو کے صارف کے ایگزیکیوشن رول کو اپ ڈیٹ کرنے کی ضرورت ہے۔ GetClusterSessionCredentials API کارروائی۔ سٹوڈیو ایگزیکیوشن رول میں درج ذیل پالیسی شامل کریں، وسائل کو کلسٹر ARNs سے تبدیل کریں جس سے آپ اپنے صارفین کو منسلک ہونے کی اجازت دینا چاہتے ہیں:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "AllowEMRRuntimeRole",
            "Effect": "Allow", 
            "Action": "elasticmapreduce:GetClusterSessionCredentials",
            "Resource": [
"arn:aws:elasticmapreduce:::cluster/"
],
            "Condition": {
                "StringLike": {
                    "elasticmapreduce:ExecutionRoleArn": [
                        "arn:aws:iam:::role/"
                    ]
                }
            }
        }
    ]
}

آپ بھی استعمال کر سکتے ہیں حالات یہ کنٹرول کرنے کے لیے کہ کون سے EMR ایگزیکیوشن رولز کو اسٹوڈیو ایگزیکیوشن رول کے ذریعے استعمال کیا جا سکتا ہے۔

متبادل طور پر، آپ نیچے جیسا کردار منسلک کر سکتے ہیں، جو ریسورس ٹیگز کی بنیاد پر کلسٹرز تک رسائی کو محدود کرتا ہے۔ یہ ٹیگ پر مبنی رسائی کنٹرول کی اجازت دیتا ہے، اور آپ واضح طور پر کلسٹر ARNs کو شامل کرنے کے بجائے، صارف کے کرداروں میں ایک ہی پالیسی بیانات استعمال کر سکتے ہیں۔

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "AllowEMRRuntimeRole",
            "Effect": "Allow", 
            "Action": "elasticmapreduce:GetClusterSessionCredentials",
            "Resource": “*”,
            "Condition": {
                "StringEquals": {
                    "elasticmapreduce:ResourceTag/": ""
                }
            }
        }
    ]
}

اسٹوڈیو LCC کے ذریعے رول کنفیگریشنز ترتیب دیں۔

پہلے سے طے شدہ طور پر، اسٹوڈیو UI EMR کلسٹر سے منسلک ہونے کے لیے اسٹوڈیو ایگزیکیوشن رول کا استعمال کرتا ہے۔ اگر آپ کا صارف متعدد کرداروں تک رسائی حاصل کر سکتا ہے، تو وہ EMR کلسٹر کنکشن کمانڈز کو ARN کے رول کے ساتھ اپ ڈیٹ کر سکتے ہیں جسے وہ رن ٹائم رول کے طور پر پاس کرنا چاہتے ہیں۔ صارف کے بہتر تجربے کے لیے، آپ صارف کی ہوم ڈائرکٹری پر ایک کنفیگریشن فائل ترتیب دے سکتے ہیں۔ ایمیزون لچکدار فائل سسٹم (Amazon EFS)، جو خود بخود اسٹوڈیو UI کو ان کرداروں سے آگاہ کرتا ہے جو صارف کے لیے مربوط ہونے کے لیے دستیاب ہیں۔ آپ اس عمل کے ذریعے خودکار بھی کر سکتے ہیں۔ اسٹوڈیو لائف سائیکل کنفیگریشنز. ہم کرداروں کو ترتیب دینے کے لیے درج ذیل نمونہ لائف سائیکل کنفیگریشن اسکرپٹ فراہم کرتے ہیں:

#!/bin/bash

set -eux

FILE_DIRECTORY="/home/sagemaker-user/.sagemaker-analytics-configuration-DO_NOT_DELETE"
FILE_NAME="emr-configurations-DO_NOT_DELETE.json"
FILE="$FILE_DIRECTORY/$FILE_NAME"

mkdir -p $FILE_DIRECTORY

cat < "$FILE"
{
    "emr-execution-role-arns":
    {
      "": [
          "arn:aws:iam:::role/",
          "arn:aws:iam:::role/"
      ]
    }
}
EOF

Studio UI سے کلسٹرز سے جڑیں۔

رول اور لائف سائیکل کنفیگریشن اسکرپٹس کے سیٹ اپ ہونے کے بعد، آپ سٹوڈیو UI کو لانچ کر سکتے ہیں اور جب آپ درج ذیل داناوں میں سے کسی کا استعمال کرتے ہوئے ایک نئی نوٹ بک بناتے ہیں تو کلسٹرز سے جڑ سکتے ہیں۔

  • ڈیٹا سائنس - ازگر 3 کرنل
  • ڈیٹا سائنس 2.0 - ازگر 3 کرنل
  • ڈیٹا سائنس 3.0 - ازگر 3 کرنل
  • SparkAnalytics 1.0 - SparkMagic اور PySpark دانا
  • SparkAnalytics 2.0 - SparkMagic اور PySpark دانا
  • اسپارک میجک - پی اسپارک دانا

نوٹ: رن ٹائم رولز کا استعمال کرتے ہوئے EMR کلسٹرز سے منسلک ہونے کے لیے اسٹوڈیو UI صرف JupyterLab ورژن 3 پر کام کرتا ہے۔ Jupyter ورژننگ JL3 میں اپ گریڈ کرنے کی تفصیلات کے لیے۔

حل تعینات کریں۔

حل کے اختتام سے آخر تک جانچنے کے لیے، ہم ایک CloudFormation ٹیمپلیٹ فراہم کرتے ہیں جو فن تعمیر میں شامل خدمات کو ترتیب دیتا ہے، تاکہ دوبارہ قابل تعیناتی کو فعال کیا جا سکے۔ یہ سانچہ درج ذیل وسائل تخلیق کرتا ہے:

  • ڈیٹا لیک کے لیے ایک S3 بالٹی۔
  • EMR رن ٹائم رولز کے ساتھ ایک EMR کلسٹر فعال ہے۔
  • ڈیٹا لیک میں ڈیٹا تک رسائی کے لیے IAM کے کردار، عمدہ اجازتوں کے ساتھ:
    • Marketing-data-access-role
    • Sales-data-access-role
    • Electronics-data-access-role
  • ایک اسٹوڈیو ڈومین اور دو صارف پروفائلز۔ صارفین کے لیے اسٹوڈیو پر عمل درآمد کے کردار صارفین کو اپنے متعلقہ EMR رن ٹائم کرداروں کو سنبھالنے کی اجازت دیتے ہیں۔
  • EMR کنکشن کے لیے استعمال کیے جانے والے کردار کے انتخاب کو فعال کرنے کے لیے لائف سائیکل کنفیگریشن۔
  • ایک لیک فارمیشن ڈیٹا بیس TPC ڈیٹا کے ساتھ آباد ہے۔
  • سیٹ اپ کے لیے درکار نیٹ ورکنگ وسائل، جیسے VPC، سب نیٹس، اور سیکیورٹی گروپس۔

حل کو تعینات کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:

  1. میں سے انتخاب کریں اسٹیک لانچ کریں۔ CloudFormation اسٹیک شروع کرنے کے لیے:
    Amazon SageMaker Studio PlatoBlockchain Data Intelligence سے AWS Lake Formation اور Amazon EMR کے ساتھ عمدہ ڈیٹا تک رسائی کے کنٹرول کا اطلاق کریں۔ عمودی تلاش۔ عی
  2. اسٹیک کا نام درج کریں، درج ذیل پیرامیٹرز فراہم کریں -
    • EMR کلسٹر کے لیے ایک بیکار ٹائم آؤٹ (جب کلسٹر استعمال نہ ہو رہا ہو تو اس کی ادائیگی سے بچنے کے لیے)۔
    • EMR انکرپشن کلید کے ساتھ ایک S3 URI۔ آپ EMR دستاویزات میں درج مراحل پر عمل کر سکتے ہیں۔ یہاں اپنے علاقے کے لیے مخصوص کلید اور زپ فائل بنانے کے لیے۔ اگر آپ یو ایس ایسٹ (این. ورجینیا) میں تعینات ہیں، تو استعمال کرنا یاد رکھیں CN=*.ec2.internalجیسا کہ دستاویزات میں بیان کیا گیا ہے۔ یہاں. اس بات کو یقینی بنائیں کہ آپ کے CloudFormation اسٹیک کی تعیناتی کے ساتھ اسی علاقے میں S3 بالٹی پر زپ فائل اپ لوڈ کریں۔
  3. منتخب کریں میں تسلیم کرتا ہوں کہ AWS CloudFormation حسب ضرورت ناموں کے ساتھ IAM وسائل تخلیق کر سکتی ہے۔.
  4. میں سے انتخاب کریں اسٹیک بنائیں.

اسٹیک بننے کے بعد، Amazon EMR کو Lake Formation پر External Data Filtering کی ترتیبات کو اپ ڈیٹ کر کے Lake Formation سے استفسار کرنے کی اجازت دیں۔ لیک فارمیشن گائیڈ میں دی گئی ہدایات پر عمل کریں۔ یہاں، اور اس کے لیے 'Amazon EMR' کا انتخاب کریں۔ سیشن ٹیگ کی قدریں۔اور اس کے نیچے اپنا AWS اکاؤنٹ ID درج کریں۔ AWS اکاؤنٹ IDs۔

کردار پر مبنی ڈیٹا تک رسائی کی جانچ کریں۔

بنیادی ڈھانچے کی جگہ کے ساتھ، آپ اسٹوڈیو کے دو صارفین کے لیے ڈیٹا تک رسائی کو جانچنے کے لیے تیار ہیں۔ دوبارہ حاصل کرنے کے لیے، صارف ڈیوڈ کو صرف غیر حساس کسٹمر ڈیٹا تک رسائی حاصل کرنے کے قابل ہونا چاہیے۔ ٹینا دو ٹیبلز میں ڈیٹا تک رسائی حاصل کر سکتی ہے: سیلز اور پروڈکٹ کی معلومات۔ آئیے ہر صارف کے پروفائل کی جانچ کریں۔

ڈیوڈ کا صارف پروفائل

ڈیوڈ کے صارف پروفائل کے ساتھ اپنے ڈیٹا تک رسائی کی جانچ کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:

  1. AWS کنسول میں لاگ ان کریں۔
  2. تخلیق کردہ اسٹوڈیو ڈومین سے، صارف پروفائل سے اسٹوڈیو لانچ کریں۔ david-non-sensitive-customer.
  3. اسٹوڈیو UI میں، کسی بھی معاون کرنل کے ساتھ ایک نوٹ بک شروع کریں، مثلاً، PySpark کرنل کے ساتھ SparkMagic امیج۔

کلسٹر اکاؤنٹ میں پہلے سے بنایا گیا ہے۔

  1. منتخب کرکے کلسٹر سے جڑیں۔ کلسٹر اپنی نوٹ بک میں اور کلسٹر کا انتخاب کرنا -emr-cluster. رول سلیکٹر پاپ اپ میں، منتخب کریں۔ -marketing-data-access-role.
  2. میں سے انتخاب کریں رابطہ قائم کریں.
    یہ خود بخود ایک نوٹ بک سیل بنائے گا جس میں کلسٹر سے جڑنے کے لیے جادوئی کمانڈز ہوں گے۔ باقی مراحل کے ساتھ آگے بڑھنے سے پہلے سیل کے مکمل ہونے اور کنکشن کے قائم ہونے کا انتظار کریں۔

اب آئیے نوٹ بک سے مارکیٹنگ ٹیبل سے استفسار کرتے ہیں۔

  1. ایک نئے سیل میں، درج ذیل استفسار درج کریں اور سیل کو چلائیں:
    sqlContext.sql("show databases").show()
    # use the TPC dataset
    sqlContext.sql("use tpc")
    sqlContext.sql("select * from dl_tpc_customer limit 10").show()

سیل کے کامیابی سے چلنے کے بعد، آپ ٹیبل میں پہلے 10 ریکارڈز دیکھ سکتے ہیں۔ نوٹ کریں کہ آپ صارفین کا نام نہیں دیکھ سکتے، کیونکہ صارف کو کالم لیول فلٹرنگ کے ذریعے صرف غیر حساس ڈیٹا پڑھنے کی اجازت ہوتی ہے۔

آئیے اس بات کو یقینی بنانے کے لیے جانچ کرتے ہیں کہ ڈیوڈ کسٹمر کا کوئی حساس ڈیٹا نہیں پڑھ سکتا۔

  1. ایک نئے سیل میں، درج ذیل استفسار کو چلائیں:
    sqlContext.sql("select * from dl_tpc_customer_address limit 10").show()

اس سیل کو رسائی سے انکار کی غلطی پھینکنی چاہئے۔

ٹینا کا صارف پروفائل

ٹینا کا سٹوڈیو ایگزیکیوشن رول اسے دو EMR ایگزیکیوشن رولز کا استعمال کرتے ہوئے لیک فارمیشن ڈیٹا بیس تک رسائی کی اجازت دیتا ہے۔ یہ ٹینا کی فائل ڈائرکٹری میں کنفیگریشن فائل میں رول ARNs کی فہرست سے حاصل کیا جاتا ہے۔ ان کرداروں کا استعمال کرتے ہوئے سیٹ کیا جا سکتا ہے۔ اسٹوڈیو لائف سائیکل کنفیگریشنز تمام ایپ کے دوبارہ شروع ہونے والے کرداروں کو برقرار رکھنے کے لیے۔ ٹینا کی رسائی کو جانچنے کے لیے، درج ذیل مراحل کو مکمل کریں:

  1. صارف پروفائل سے اسٹوڈیو لانچ کریں۔ tina-sales-electronics.

صارف پروفائلز کو تبدیل کرتے وقت اپنے براؤزر پر کسی بھی پچھلے اسٹوڈیو سیشن کو بند کرنا ایک اچھا عمل ہے۔ ایک وقت میں صرف ایک فعال اسٹوڈیو صارف سیشن ہو سکتا ہے۔

  1. اسٹوڈیو UI میں، کسی بھی معاون کرنل کے ساتھ ایک نوٹ بک شروع کریں، مثلاً، PySpark کرنل کے ساتھ SparkMagic امیج۔
  2. منتخب کرکے کلسٹر سے جڑیں۔ کلسٹر اپنی نوٹ بک میں اور کلسٹر کا انتخاب کرنا -emr-cluster.
  3. میں سے انتخاب کریں رابطہ قائم کریں.

چونکہ ٹینا کا پروفائل متعدد EMR کرداروں کے ساتھ ترتیب دیا گیا ہے، آپ کو ایک UI ڈراپ ڈاؤن کے ساتھ اشارہ کیا جاتا ہے جو آپ کو متعدد کرداروں کا استعمال کرتے ہوئے جڑنے کی اجازت دیتا ہے۔

  1. کردار کا انتخاب کریں۔ -sales-data-access-role اور منتخب کریں رابطہ قائم کریں.
    Amazon SageMaker Studio PlatoBlockchain Data Intelligence سے AWS Lake Formation اور Amazon EMR کے ساتھ عمدہ ڈیٹا تک رسائی کے کنٹرول کا اطلاق کریں۔ عمودی تلاش۔ عی

اسٹوڈیو ایگزیکیوشن رول ڈراپ ڈاؤن میں بھی دستیاب ہے، کیونکہ کلسٹرز صارف کے ایگزیکیوشن رول کا استعمال کرتے ہوئے بطور ڈیفالٹ کلسٹر سے منسلک ہوتے ہیں۔

آپ براہ راست Lake Formation کو صارف کے ایگزیکیوشن رول تک رسائی فراہم کر سکتے ہیں۔ یہ منتخب کردہ رول کا استعمال کرتے ہوئے، کلسٹر سے جڑنے کے لیے جادوئی کمانڈز کے ساتھ خود بخود ایک نوٹ بک سیل بنائے گا۔ اب آئیے نوٹ بک سے سیلز ٹیبل سے استفسار کرتے ہیں۔

  1. ایک نئے سیل میں، درج ذیل استفسار درج کریں اور سیل کو چلائیں:
    sqlContext.sql("show databases").show()
    # use the TPC dataset
    sqlContext.sql("use tpc")
    sqlContext.sql("select * from dl_tpc_web_sales limit 10").show()

سیل کے کامیابی سے چلنے کے بعد، آپ ٹیبل میں پہلے 10 ریکارڈز دیکھ سکتے ہیں۔

اب آئیے پروڈکٹ ٹیبل تک رسائی حاصل کرنے کی کوشش کریں۔

  1. میں سے انتخاب کریں کلسٹر دوبارہ، اور کلسٹر کا انتخاب کریں۔
  2. رول پرامپٹ پاپ اپ میں، کردار کا انتخاب کریں۔ -electronics-data-access-role اور کلسٹر سے جڑیں۔
  3. الیکٹرانکس ڈیٹا تک رسائی کے کردار کے ساتھ کلسٹر سے کامیابی کے ساتھ جڑ جانے کے بعد، ایک نیا سیل بنائیں اور درج ذیل استفسار کو چلائیں:
    sqlContext.sql("select * from dl_tpc_item limit 10").show()

یہ سیل کامیابی کے ساتھ مکمل ہونا چاہیے، اور آپ پروڈکٹ ٹیبل میں پہلے 10 ریکارڈز دیکھ سکتے ہیں۔

ایک اسٹوڈیو صارف پروفائل کے ساتھ، اب آپ نے نوٹ بک کو دوبارہ شروع کرنے یا اضافی کلسٹرز بنانے کی ضرورت کے بغیر، ایک سے زیادہ کرداروں کو کامیابی کے ساتھ سنبھال لیا ہے، اور متعدد کرداروں کا استعمال کرتے ہوئے لیک فارمیشن میں ڈیٹا سے استفسار کیا ہے۔ اب جب کہ آپ مناسب کرداروں کا استعمال کرتے ہوئے ڈیٹا تک رسائی حاصل کرنے کے قابل ہو گئے ہیں، آپ انٹرایکٹو طریقے سے ڈیٹا کو دریافت کر سکتے ہیں، ڈیٹا کو تصور کر سکتے ہیں، اور تربیت کے لیے ڈیٹا تیار کر سکتے ہیں۔ آپ نے مختلف ٹیموں میں اپنے صارفین کو اضافی کلسٹرز کی ضرورت کے بغیر، مخصوص ٹیبل یا کالموں اور قطاروں تک رسائی فراہم کرنے کے لیے مختلف صارف پروفائلز کا بھی استعمال کیا۔

صاف کرو

جب آپ اس حل کے ساتھ تجربہ کر لیں تو اپنے وسائل کو صاف کریں:

  1. صارف پروفائلز کے لیے اسٹوڈیو ایپس کو بند کریں۔ دیکھیں بند کریں اور سیج میکر اسٹوڈیو اور اسٹوڈیو ایپس کو اپ ڈیٹ کریں۔ ہدایات کے لئے. اسٹیک کو حذف کرنے سے پہلے یقینی بنائیں کہ تمام ایپس کو حذف کر دیا گیا ہے۔

ای ایم آر کلسٹر بے کار ٹائم آؤٹ ویلیو کے بعد خود بخود حذف ہو جائے گا۔

  1. ڈومین کے لیے بنائے گئے EFS والیوم کو حذف کریں۔ آپ a کا استعمال کرکے ڈومین کے ساتھ منسلک EFS والیوم دیکھ سکتے ہیں۔ ڈومین کی وضاحت کریں۔ API کال۔
  2. . S3 بالٹیاں خالی کریں۔ اس اسٹیک کے ذریعہ بنایا گیا ہے۔
  3. اسٹیک کو حذف کریں۔ AWS CloudFormation کنسول سے۔

نتیجہ

اس پوسٹ نے آپ کو دکھایا کہ آپ رن ٹائم رولز کا استعمال کیسے کر سکتے ہیں تاکہ اسٹوڈیو کو Amazon EMR کے ساتھ جوڑنے کے لیے Lake Formation کے ساتھ ڈیٹا ایکسیس کنٹرول کو لاگو کر سکیں۔ ہم نے یہ بھی ظاہر کیا کہ اسٹوڈیو کے متعدد صارفین کس طرح ایک ہی EMR کلسٹر سے منسلک ہو سکتے ہیں، ہر ایک رن ٹائم IAM رول کا استعمال کرتے ہوئے ڈیٹا تک رسائی کی انفرادی سطح سے ملنے والی اجازتوں کے ساتھ دائرہ کار میں ہے۔ ہم نے انٹیگریشن کو دستی طور پر ترتیب دینے کے لیے درکار اقدامات کی تفصیل دی، اور بنیادی ڈھانچے کے اختتام سے آخر تک ترتیب دینے کے لیے CloudFormation ٹیمپلیٹ فراہم کیا۔ یہ خصوصیت درج ذیل AWS علاقوں میں دستیاب ہے: یورپ (پیرس)، یو ایس ایسٹ (این. ورجینیا اور اوہائیو) اور یو ایس ویسٹ (اوریگون)، اور کلاؤڈ فارمیشن ٹیمپلیٹ یو ایس ایسٹ (این. ورجینیا اور اوہائیو) اور یو ایس ویسٹ میں تعینات ہوگا۔ (اوریگون)۔

SageMaker اسٹوڈیو کے ساتھ EMR استعمال کرنے کے بارے میں مزید جاننے کے لیے، ملاحظہ کریں۔ ایمیزون EMR کا استعمال کرتے ہوئے ڈیٹا تیار کریں۔. ہم آپ کو اس نئی فعالیت کو آزمانے کی ترغیب دیتے ہیں، اور اس سے جڑیں۔ مشین لرننگ اور اے آئی کمیونٹی اگر آپ کے پاس کوئی سوال یا رائے ہے!


مصنفین کے بارے میں

Amazon SageMaker Studio PlatoBlockchain Data Intelligence سے AWS Lake Formation اور Amazon EMR کے ساتھ عمدہ ڈیٹا تک رسائی کے کنٹرول کا اطلاق کریں۔ عمودی تلاش۔ عیدرگا سوری۔ ایمیزون سیج میکر سروس SA ٹیم میں ایم ایل سلوشنز آرکیٹیکٹ ہے۔ وہ مشین لرننگ کو ہر کسی کے لیے قابل رسائی بنانے کا شوق رکھتی ہے۔ AWS میں اپنے 3 سالوں میں، اس نے انٹرپرائز صارفین کے لیے AI/ML پلیٹ فارم قائم کرنے میں مدد کی ہے۔ جب وہ کام نہیں کر رہی ہوتی ہے، تو اسے موٹرسائیکل کی سواری، پراسرار ناول، اور اپنی چار سالہ ہسکی کے ساتھ پیدل سفر کرنا پسند ہے۔

Amazon SageMaker Studio PlatoBlockchain Data Intelligence سے AWS Lake Formation اور Amazon EMR کے ساتھ عمدہ ڈیٹا تک رسائی کے کنٹرول کا اطلاق کریں۔ عمودی تلاش۔ عیسری ہرش اڈاری Amazon Web Services (AWS) میں ایک سینئر سولیوشن آرکیٹیکٹ ہے، جہاں وہ صارفین کو AWS پر جدید حل تیار کرنے کے لیے کاروباری نتائج سے پیچھے کی طرف کام کرنے میں مدد کرتا ہے۔ کئی سالوں میں، اس نے صنعتی عمودی حصوں میں ڈیٹا پلیٹ فارم کی تبدیلیوں پر متعدد صارفین کی مدد کی ہے۔ اس کی مہارت کے بنیادی شعبے میں ٹیکنالوجی کی حکمت عملی، ڈیٹا تجزیات، اور ڈیٹا سائنس شامل ہیں۔ اپنے فارغ وقت میں، وہ ٹینس کھیلنا، ٹی وی شوز دیکھنے اور طبلہ بجانا پسند کرتا ہے۔

Amazon SageMaker Studio PlatoBlockchain Data Intelligence سے AWS Lake Formation اور Amazon EMR کے ساتھ عمدہ ڈیٹا تک رسائی کے کنٹرول کا اطلاق کریں۔ عمودی تلاش۔ عیمائرہ لاڈیرہ ٹنکے اے ڈبلیو ایس میں ایم ایل اسپیشلسٹ سولیوشن آرکیٹیکٹ ہے۔ ڈیٹا سائنس میں پس منظر کے ساتھ، اس کے پاس تمام صنعتوں کے صارفین کے ساتھ آرکیٹیکٹنگ اور ایم ایل ایپلیکیشنز بنانے کا 9 سال کا تجربہ ہے۔ تکنیکی قیادت کے طور پر، وہ صارفین کو ابھرتی ہوئی ٹیکنالوجیز اور اختراعی حلوں کے ذریعے کاروباری قدر کے حصول کو تیز کرنے میں مدد کرتی ہے۔ اپنے فارغ وقت میں، مائرہ اپنے خاندان کے ساتھ کسی گرم جگہ سفر کرنے اور وقت گزارنے کا لطف اٹھاتی ہے۔

Amazon SageMaker Studio PlatoBlockchain Data Intelligence سے AWS Lake Formation اور Amazon EMR کے ساتھ عمدہ ڈیٹا تک رسائی کے کنٹرول کا اطلاق کریں۔ عمودی تلاش۔ عیسومیدھا سوامی ایمیزون ویب سروسز میں پرنسپل پروڈکٹ مینیجر ہے۔ وہ سیج میکر اسٹوڈیو ٹیم کی رہنمائی کرتا ہے تاکہ اسے انٹرایکٹو ڈیٹا سائنس اور ڈیٹا انجینئرنگ ورک فلو کے لیے پسند کے IDE میں بنایا جائے۔ اس نے پچھلے 15 سال مشین لرننگ کا استعمال کرتے ہوئے صارفین کے جنون میں مبتلا صارفین اور انٹرپرائز مصنوعات بنانے میں گزارے ہیں۔ اپنے فارغ وقت میں وہ امریکی جنوب مغرب کی حیرت انگیز ارضیات کی تصویر کشی کرنا پسند کرتا ہے۔

Amazon SageMaker Studio PlatoBlockchain Data Intelligence سے AWS Lake Formation اور Amazon EMR کے ساتھ عمدہ ڈیٹا تک رسائی کے کنٹرول کا اطلاق کریں۔ عمودی تلاش۔ عیجون لیو SageMaker Notebooks ٹیم میں سافٹ ویئر انجینئر ہے۔ انہوں نے ڈیوک یونیورسٹی سے انجینئرنگ میں ماسٹر ڈگری حاصل کی ہے۔ وہ 2015 سے Amazon کے لیے کام کر رہا ہے اور اس نے AWS سروسز جیسے Amazon Machine Learning، Amazon SageMaker Notebooks، اور Amazon SageMaker Studio میں تعاون کیا ہے۔ اپنے فارغ وقت میں، وہ اپنے خاندان کے ساتھ وقت گزارنے، پڑھنے، کھانا پکانے، اور ویڈیو گیمز کھیلنے سے لطف اندوز ہوتا ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ