অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিসেস

অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিসেস

আমাজন সেজমেকার Apache Spark এর সাথে বিতরণ করা ডেটা প্রসেসিং কাজ চালানোর বিভিন্ন উপায় অফার করে, বড় ডেটা প্রসেসিংয়ের জন্য একটি জনপ্রিয় ডিস্ট্রিবিউটেড কম্পিউটিং ফ্রেমওয়ার্ক।

আপনি স্পার্ক অ্যাপ্লিকেশনগুলিকে ইন্টারেক্টিভভাবে চালাতে পারেন অ্যামাজন সেজমেকার স্টুডিও সংযোগ দ্বারা সেজমেকার স্টুডিও নোটবুক এবং AWS গ্লু ইন্টারেক্টিভ সেশন একটি সার্ভারহীন ক্লাস্টার সহ স্পার্ক কাজ চালানোর জন্য। ইন্টারেক্টিভ সেশনগুলির সাথে, আপনি ক্লাস্টার পরিচালনার বিষয়ে চিন্তা না করে সহজেই বড় ডেটাসেটগুলি প্রক্রিয়া করতে Apache Spark বা Ray বেছে নিতে পারেন।

বিকল্পভাবে, আপনার যদি পরিবেশের উপর আরও নিয়ন্ত্রণের প্রয়োজন হয়, আপনি একটি সম্পূর্ণরূপে পরিচালিত বিতরণ করা ক্লাস্টারে ব্যাচ জব হিসাবে স্পার্ক অ্যাপ্লিকেশনগুলি চালানোর জন্য একটি পূর্ব-নির্মিত সেজমেকার স্পার্ক কন্টেইনার ব্যবহার করতে পারেন আমাজন সেজমেকার প্রসেসিং. এই বিকল্পটি আপনাকে বিভিন্ন ধরণের উদাহরণ (কম্পিউট অপ্টিমাইজ করা, মেমরি অপ্টিমাইজ করা এবং আরও অনেক কিছু), ক্লাস্টারে নোডের সংখ্যা এবং ক্লাস্টার কনফিগারেশন নির্বাচন করতে দেয়, যার ফলে ডেটা প্রক্রিয়াকরণ এবং মডেল প্রশিক্ষণের জন্য আরও নমনীয়তা সক্ষম হয়।

অবশেষে, আপনি স্টুডিও নোটবুকের সাথে সংযোগ করে স্পার্ক অ্যাপ্লিকেশন চালাতে পারেন আমাজন ইএমআর ক্লাস্টার, অথবা আপনার স্পার্ক ক্লাস্টার চালু করে অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (Amazon EC2)।

এই সমস্ত বিকল্পগুলি আপনাকে সাধারণত ওয়েব-ভিত্তিক ইউজার ইন্টারফেসের মাধ্যমে বিশ্লেষণ করার জন্য স্পার্ক ইভেন্ট লগগুলি তৈরি এবং সংরক্ষণ করতে দেয় স্পার্ক UI, যা স্পার্ক অ্যাপ্লিকেশনের অগ্রগতি, ট্র্যাক রিসোর্স ব্যবহার এবং ডিবাগ ত্রুটিগুলি নিরীক্ষণ করতে একটি স্পার্ক ইতিহাস সার্ভার চালায়।

এই পোস্টে, আমরা একটি ভাগ সমাধান সেজমেকার স্টুডিওতে স্পার্ক হিস্ট্রি সার্ভার ইনস্টল এবং চালানোর জন্য এবং সেজমেকার স্টুডিও আইডিই থেকে সরাসরি স্পার্ক UI অ্যাক্সেস করার জন্য, বিভিন্ন AWS পরিষেবা (AWS Glue Interactive Sessions, SageMaker Processing jobs, and Amazon EMR) দ্বারা উত্পাদিত স্পার্ক লগ বিশ্লেষণ করার জন্য এবং একটিতে সংরক্ষিত আমাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস 3) বালতি।

সমাধান ওভারভিউ

সমাধানটি SageMaker স্টুডিওতে জুপিটার সার্ভার অ্যাপে স্পার্ক হিস্ট্রি সার্ভারকে একীভূত করে। এটি ব্যবহারকারীদের সেজমেকার স্টুডিও আইডিই থেকে সরাসরি স্পার্ক লগ অ্যাক্সেস করতে দেয়। ইন্টিগ্রেটেড স্পার্ক ইতিহাস সার্ভার নিম্নলিখিত সমর্থন করে:

  • SageMaker প্রসেসিং স্পার্ক কাজ দ্বারা উত্পন্ন লগ অ্যাক্সেস করা
  • AWS Glue Spark অ্যাপ্লিকেশন দ্বারা উত্পন্ন লগ অ্যাক্সেস করা
  • স্ব-পরিচালিত স্পার্ক ক্লাস্টার এবং অ্যামাজন ইএমআর দ্বারা উত্পন্ন লগ অ্যাক্সেস করা

একটি ইউটিলিটি কমান্ড লাইন ইন্টারফেস (CLI) বলা হয় sm-spark-cli SageMaker স্টুডিও সিস্টেম টার্মিনাল থেকে স্পার্ক UI এর সাথে ইন্টারঅ্যাক্ট করার জন্যও প্রদান করা হয়। দ্য sm-spark-cli SageMaker স্টুডিও ছাড়াই স্পার্ক হিস্ট্রি সার্ভার পরিচালনা করতে সক্ষম করে।

অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

সমাধানটি শেল স্ক্রিপ্টগুলি নিয়ে গঠিত যা নিম্নলিখিত ক্রিয়াগুলি সম্পাদন করে:

  • জুপিটার সার্ভারে সেজমেকার স্টুডিও ব্যবহারকারী প্রোফাইলের জন্য বা সেজমেকার স্টুডিও ভাগ করা স্থানের জন্য স্পার্ক ইনস্টল করুন
  • ইনস্টল করুন sm-spark-cli একটি ব্যবহারকারীর প্রোফাইল বা ভাগ করা স্থানের জন্য

একটি SageMaker স্টুডিও ডোমেনে ম্যানুয়ালি স্পার্ক UI ইনস্টল করুন

SageMaker স্টুডিওতে স্পার্ক UI হোস্ট করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. বেছে নিন সিস্টেম টার্মিনাল সেজমেকার স্টুডিও লঞ্চার থেকে।

অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

  1. সিস্টেম টার্মিনালে নিম্নলিখিত কমান্ডগুলি চালান:
curl -LO https://github.com/aws-samples/amazon-sagemaker-spark-ui/releases/download/v0.1.0/amazon-sagemaker-spark-ui-0.1.0.tar.gz
tar -xvzf amazon-sagemaker-spark-ui-0.1.0.tar.gz cd amazon-sagemaker-spark-ui-0.1.0/install-scripts
chmod +x install-history-server.sh
./install-history-server.sh

কমান্ডগুলি সম্পূর্ণ হতে কয়েক সেকেন্ড সময় নেবে।

  1. ইনস্টলেশন সম্পূর্ণ হলে, আপনি প্রদত্ত ব্যবহার করে স্পার্ক UI শুরু করতে পারেন sm-spark-cli এবং নিম্নলিখিত কোড চালানোর মাধ্যমে একটি ওয়েব ব্রাউজার থেকে এটি অ্যাক্সেস করুন:

sm-spark-cli start s3://DOC-EXAMPLE-BUCKET/<SPARK_EVENT_LOGS_LOCATION>

S3 অবস্থান যেখানে SageMaker প্রসেসিং, AWS Glue, বা Amazon EMR দ্বারা উত্পাদিত ইভেন্ট লগগুলি সংরক্ষণ করা হয় স্পার্ক অ্যাপ্লিকেশনগুলি চালানোর সময় কনফিগার করা যেতে পারে৷

সেজমেকার স্টুডিও নোটবুক এবং AWS গ্লু ইন্টারেক্টিভ সেশনের জন্য, আপনি নোটবুক থেকে সরাসরি স্পার্ক ইভেন্ট লগ অবস্থান সেট আপ করতে পারেন sparkmagic কার্নেল

সার্জারির sparkmagic কার্নেলে নোটবুকের মাধ্যমে দূরবর্তী স্পার্ক ক্লাস্টারগুলির সাথে ইন্টারঅ্যাক্ট করার জন্য সরঞ্জামগুলির একটি সেট রয়েছে। এটি জাদু প্রদান করে (%spark, %sql) স্পার্ক কোড চালানোর জন্য, এসকিউএল কোয়েরি সম্পাদন করতে এবং নির্বাহক মেমরি এবং কোরের মতো স্পার্ক সেটিংস কনফিগার করার জন্য কমান্ড দেয়।

অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

SageMaker প্রসেসিং কাজের জন্য, আপনি SageMaker Python SDK থেকে সরাসরি স্পার্ক ইভেন্ট লগ অবস্থান কনফিগার করতে পারেন।

অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

অতিরিক্ত তথ্যের জন্য AWS ডকুমেন্টেশন পড়ুন:

অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

আপনি স্পার্ক UI অ্যাক্সেস করতে জেনারেট করা URL বেছে নিতে পারেন।

অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

নিম্নলিখিত স্ক্রিনশটটি স্পার্ক UI এর একটি উদাহরণ দেখায়।

অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

আপনি ব্যবহার করে স্পার্ক হিস্ট্রি সার্ভারের স্থিতি পরীক্ষা করতে পারেন sm-spark-cli status স্টুডিও সিস্টেম টার্মিনালে কমান্ড।

অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

প্রয়োজনে আপনি স্পার্ক হিস্ট্রি সার্ভারও বন্ধ করতে পারেন।

অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

SageMaker স্টুডিও ডোমেনে ব্যবহারকারীদের জন্য স্পার্ক UI ইনস্টলেশন স্বয়ংক্রিয় করুন

একজন আইটি প্রশাসক হিসাবে, আপনি একটি ব্যবহার করে সেজমেকার স্টুডিও ব্যবহারকারীদের জন্য ইনস্টলেশন স্বয়ংক্রিয় করতে পারেন জীবনচক্র কনফিগারেশন. এটি একটি SageMaker স্টুডিও ডোমেনের অধীনে বা নির্দিষ্টগুলির জন্য সমস্ত ব্যবহারকারী প্রোফাইলের জন্য করা যেতে পারে। দেখা লাইফসাইকেল কনফিগারেশন ব্যবহার করে Amazon SageMaker স্টুডিও কাস্টমাইজ করুন আরো বিস্তারিত জানার জন্য.

আপনি থেকে একটি জীবনচক্র কনফিগারেশন তৈরি করতে পারেন install-history-server.sh স্ক্রিপ্ট এবং এটি একটি বিদ্যমান SageMaker স্টুডিও ডোমেনে সংযুক্ত করুন। ইনস্টলেশনটি ডোমেনের সমস্ত ব্যবহারকারী প্রোফাইলের জন্য চালানো হয়।

এর সাথে কনফিগার করা একটি টার্মিনাল থেকে এডাব্লুএস কমান্ড লাইন ইন্টারফেস (AWS CLI) এবং উপযুক্ত অনুমতি, নিম্নলিখিত কমান্ডগুলি চালান:

curl -LO https://github.com/aws-samples/amazon-sagemaker-spark-ui/releases/download/v0.1.0/amazon-sagemaker-spark-ui-0.1.0.tar.gz
tar -xvzf amazon-sagemaker-spark-ui-0.1.0.tar.gz cd amazon-sagemaker-spark-ui-0.1.0/install-scripts LCC_CONTENT=`openssl base64 -A -in install-history-server.sh` aws sagemaker create-studio-lifecycle-config --studio-lifecycle-config-name install-spark-ui-on-jupyterserver --studio-lifecycle-config-content $LCC_CONTENT --studio-lifecycle-config-app-type JupyterServer --query 'StudioLifecycleConfigArn' aws sagemaker update-domain --region {YOUR_AWS_REGION} --domain-id {YOUR_STUDIO_DOMAIN_ID} --default-user-settings '{ "JupyterServerAppSettings": { "DefaultResourceSpec": { "LifecycleConfigArn": "arn:aws:sagemaker:{YOUR_AWS_REGION}:{YOUR_STUDIO_DOMAIN_ID}:studio-lifecycle-config/install-spark-ui-on-jupyterserver", "InstanceType": "system" }, "LifecycleConfigArns": [ "arn:aws:sagemaker:{YOUR_AWS_REGION}:{YOUR_STUDIO_DOMAIN_ID}:studio-lifecycle-config/install-spark-ui-on-jupyterserver" ] }}'

জুপিটার সার্ভার পুনরায় চালু হওয়ার পরে, স্পার্ক UI এবং sm-spark-cli আপনার সেজমেকার স্টুডিও পরিবেশে উপলব্ধ হবে।

পরিষ্কার কর

এই বিভাগে, আমরা আপনাকে দেখাব কিভাবে একটি SageMaker স্টুডিও ডোমেনে ম্যানুয়ালি বা স্বয়ংক্রিয়ভাবে স্পার্ক UI পরিষ্কার করতে হয়।

ম্যানুয়ালি স্পার্ক UI আনইনস্টল করুন

SageMaker স্টুডিওতে স্পার্ক UI ম্যানুয়ালি আনইনস্টল করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. বেছে নিন সিস্টেম টার্মিনাল সেজমেকার স্টুডিও লঞ্চারে।

অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

  1. সিস্টেম টার্মিনালে নিম্নলিখিত কমান্ডগুলি চালান:
cd amazon-sagemaker-spark-ui-0.1.0/install-scripts chmod +x uninstall-history-server.sh
./uninstall-history-server.sh

সমস্ত SageMaker স্টুডিও ব্যবহারকারী প্রোফাইলের জন্য স্বয়ংক্রিয়ভাবে স্পার্ক UI আনইনস্টল করুন

সমস্ত ব্যবহারকারী প্রোফাইলের জন্য SageMaker স্টুডিওতে স্পার্ক UI স্বয়ংক্রিয়ভাবে আনইনস্টল করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. সেজমেকার কনসোলে, নির্বাচন করুন ডোমেইনের নেভিগেশন প্যানে, তারপর SageMaker স্টুডিও ডোমেন নির্বাচন করুন।

অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

  1. ডোমেনের বিশদ পৃষ্ঠায়, নেভিগেট করুন পরিবেশ ট্যাব।
  2. SageMaker স্টুডিওতে স্পার্ক UI এর জন্য জীবনচক্র কনফিগারেশন নির্বাচন করুন।
  3. বেছে নিন বিচ্ছিন্ন.

অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

  1. সেজমেকার স্টুডিও ব্যবহারকারী প্রোফাইলগুলির জন্য জুপিটার সার্ভার অ্যাপগুলি মুছুন এবং পুনরায় চালু করুন।

অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

উপসংহার

এই পোস্টে, আমরা একটি সমাধান শেয়ার করেছি যা আপনি SageMaker স্টুডিওতে দ্রুত স্পার্ক UI ইনস্টল করতে ব্যবহার করতে পারেন। SageMaker-এ হোস্ট করা স্পার্ক UI-এর সাহায্যে, মেশিন লার্নিং (ML) এবং ডেটা ইঞ্জিনিয়ারিং দলগুলি যে কোনও জায়গা থেকে স্পার্ক লগগুলি অ্যাক্সেস করতে এবং বিশ্লেষণ করতে এবং তাদের প্রজেক্ট ডেলিভারির গতি বাড়াতে স্কেলযোগ্য ক্লাউড কম্পিউট ব্যবহার করতে পারে। আইটি প্রশাসকরা ক্লাউডে সমাধানের বিধানকে মানসম্মত এবং ত্বরান্বিত করতে পারে এবং এমএল প্রকল্পগুলির জন্য কাস্টম উন্নয়ন পরিবেশের বিস্তার এড়াতে পারে।

এই পোস্টের অংশ হিসাবে দেখানো সমস্ত কোড পাওয়া যায় GitHub সংগ্রহস্থল.


লেখক সম্পর্কে

অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.জিউসেপ অ্যাঞ্জেলো পোরসেলি অ্যামাজন ওয়েব পরিষেবাগুলির জন্য একজন প্রধান মেশিন লার্নিং বিশেষজ্ঞ সমাধান স্থপতি৷ কয়েক বছরের সফ্টওয়্যার ইঞ্জিনিয়ারিং এবং একটি ML ব্যাকগ্রাউন্ডের সাথে, তিনি যেকোন আকারের গ্রাহকদের সাথে তাদের ব্যবসা এবং প্রযুক্তিগত চাহিদাগুলি বোঝার জন্য এবং AI এবং ML সমাধানগুলি ডিজাইন করেন যা AWS ক্লাউড এবং Amazon মেশিন লার্নিং স্ট্যাকের সর্বোত্তম ব্যবহার করে৷ তিনি MLOps, কম্পিউটার ভিশন এবং NLP সহ বিভিন্ন ডোমেনে প্রজেক্টে কাজ করেছেন, যেখানে AWS পরিষেবার একটি বিস্তৃত সেট জড়িত। তার অবসর সময়ে, জিউসেপ ফুটবল খেলা উপভোগ করেন।

অ্যামাজন সেজমেকার স্টুডিওতে স্পার্ক UI হোস্ট করুন | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.ব্রুনো পিস্টোন মিলান ভিত্তিক AWS-এর জন্য একজন AI/ML বিশেষজ্ঞ সমাধান স্থপতি৷ তিনি যেকোন আকারের গ্রাহকদের সাথে কাজ করেন, তাদের প্রযুক্তিগত চাহিদা বুঝতে এবং AWS ক্লাউড এবং অ্যামাজন মেশিন লার্নিং স্ট্যাকের সর্বোত্তম ব্যবহার করে এমন AI এবং ML সমাধানগুলি ডিজাইন করতে সহায়তা করে। তার দক্ষতার ক্ষেত্রের মধ্যে রয়েছে মেশিন লার্নিং এন্ড টু এন্ড, মেশিন লার্নিং এন্ডস্ট্রিয়ালাইজেশন এবং জেনারেটিভ এআই। তিনি তার বন্ধুদের সাথে সময় কাটাতে এবং নতুন জায়গা অন্বেষণের পাশাপাশি নতুন গন্তব্যে ভ্রমণ উপভোগ করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং