প্রতিষ্ঠানগুলি গ্রাহকদের অভিজ্ঞতা বাড়াতে, অপারেশনাল খরচ কমাতে এবং ব্যবসায়িক ফলাফল উন্নত করতে নতুন সম্ভাবনা আনলক করতে মেশিন লার্নিং (ML) এবং AI পরিষেবা ব্যবহার করছে। ডেটা এমএল এবং এআই ব্যবহারের ক্ষেত্রে আন্ডারপিন করে এবং এটি একটি সংস্থার জন্য একটি কৌশলগত সম্পদ। যেহেতু ডেটা সূচকীয় হারে বাড়ছে, সংস্থাগুলি ডেটা প্রিপ্রসেস করার জন্য, ফিচার ইঞ্জিনিয়ারিং সঞ্চালন করতে এবং এমএল মডেলগুলিকে স্কেলে তৈরি, প্রশিক্ষণ এবং পরিচালনা করার জন্য একটি সমন্বিত, সাশ্রয়ী এবং কার্যকরী ডেটা প্ল্যাটফর্ম সেট আপ করতে চাইছে। এটি অর্জন করতে, AWS একটি ইউনিফাইড আধুনিক ডেটা প্ল্যাটফর্ম অফার করে যা দ্বারা চালিত হয় আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) বিশ্লেষণ এবং এমএল ওয়ার্কলোড সমর্থন করার জন্য উদ্দেশ্য-নির্মিত সরঞ্জাম এবং প্রক্রিয়াকরণ ইঞ্জিন সহ ডেটা লেক হিসাবে। ইউনিফাইড এমএল অভিজ্ঞতার জন্য, আপনি ব্যবহার করতে পারেন অ্যামাজন সেজমেকার স্টুডিওযা অফার করে AWS Glue ইন্টারেক্টিভ সেশনের সাথে নেটিভ ইন্টিগ্রেশন সংবেদনশীল ডেটা সুরক্ষা সহ স্কেলে বৈশিষ্ট্য প্রকৌশল সম্পাদন করতে। এই পোস্টে, আমরা এই সমাধানটি কীভাবে বাস্তবায়ন করতে পারি তা প্রদর্শন করি।
আমাজন সেজমেকার একটি সম্পূর্ণরূপে পরিচালিত ML পরিষেবা যা আপনাকে বিস্তৃত ব্যবহারের ক্ষেত্রে মডেলগুলি তৈরি করতে, প্রশিক্ষণ দিতে এবং স্থাপন করতে সক্ষম করে৷ মডেল প্রশিক্ষণের জন্য, আপনি যেকোনো একটি ব্যবহার করতে পারেন অন্তর্নির্মিত অ্যালগরিদম SageMaker-এর মধ্যে প্রশিক্ষণ শুরু করতে এবং দ্রুত ML মডেল স্থাপন করতে।
মডেল বিল্ডিং এবং উন্নয়ন প্রক্রিয়ার একটি মূল উপাদান হল বৈশিষ্ট্য প্রকৌশল। এডাব্লুএস আঠালো স্কেলে বৈশিষ্ট্য প্রকৌশল অর্জনের জন্য প্রস্তাবিত বিকল্পগুলির মধ্যে একটি। AWS Glue আপনাকে সার্ভারহীন অ্যাপাচি স্পার্ক পরিকাঠামোতে বিতরণকৃত ফ্যাশনে ডেটা ইন্টিগ্রেশন এবং রূপান্তর চালাতে সক্ষম করে এবং বৈশিষ্ট্য প্রকৌশল এবং মডেল বিকাশের জন্য জনপ্রিয় স্পার্ক এমএল লাইব্রেরি ব্যবহার করা সহজ করে তোলে। উপরন্তু, আপনি ক্রমবর্ধমান ডেটা প্রক্রিয়াকরণের জন্য AWS আঠালো ব্যবহার করতে পারেন কাজের বুকমার্ক, ব্যবহার করে 100 টিরও বেশি উত্স থেকে ডেটা গ্রহণ করুন৷ সংযোগকারীগুলিকে, এবং ব্যবহার করে স্পাইকি বা অপ্রত্যাশিত কাজের চাপ চালান স্বয়ংক্রিয় স্কেলিং.
এমএল-ভিত্তিক অ্যাপ্লিকেশনগুলির জন্য আরেকটি গুরুত্বপূর্ণ প্রয়োজনীয়তা হ'ল ডেটা সুরক্ষা এবং অ্যাক্সেস নিয়ন্ত্রণ। ফিচার ইঞ্জিনিয়ারিং এবং মডেল বিল্ডিং প্রক্রিয়ার অংশ হিসাবে ন্যূনতম বিশেষাধিকার অ্যাক্সেসের মূলনীতি অনুসরণ করে কারা সবচেয়ে সংবেদনশীল ডেটা অ্যাক্সেস করতে পারে তার উপর কঠোর নিয়ন্ত্রণ থাকা সাধারণ দাবি। এটি অর্জন করতে, আপনি AWS গ্লু ইন্টিগ্রেশন ব্যবহার করতে পারেন AWS লেক গঠন ডাটা লেক সম্পদের বর্ধিত শাসন ও ব্যবস্থাপনার জন্য। লেক ফর্মেশনের মাধ্যমে, আপনি আপনার Amazon S3 ডেটা লেকের উপরে সূক্ষ্ম-দানাযুক্ত ডেটা অ্যাক্সেস নিয়ন্ত্রণ এবং নিরাপত্তা নীতিগুলি কনফিগার করতে পারেন। নীতিগুলি একটি কেন্দ্রীয় অবস্থানে সংজ্ঞায়িত করা হয়েছে, একাধিক বিশ্লেষণ এবং ML পরিষেবাগুলিকে অনুমতি দেয়, যেমন AWS Glue, অ্যামাজন অ্যাথেনা, এবং SageMaker, Amazon S3 এ সঞ্চিত ডেটার সাথে ইন্টারঅ্যাক্ট করতে।
AWS আঠালো একটি অন্তর্ভুক্ত ব্যক্তিগতভাবে সনাক্তযোগ্য তথ্য (PII) সনাক্তকরণ রূপান্তর যা বর্ধিত সম্মতি এবং শাসনের জন্য প্রয়োজনীয় সত্তা সনাক্ত, মুখোশ বা অপসারণ করার ক্ষমতা প্রদান করে। PII রূপান্তরের সাথে, আপনি ডেটাসেটে PII ডেটা সনাক্ত করতে পারেন এবং বিভিন্ন ব্যবহারকারী গোষ্ঠীর জন্য সংবেদনশীল ডেটা সীমাবদ্ধ করতে লেক ফর্মেশন ব্যবহার করে স্বয়ংক্রিয়ভাবে সূক্ষ্ম-দানাযুক্ত অ্যাক্সেস নিয়ন্ত্রণ প্রয়োগ করতে পারেন।
ব্যবহারের ক্ষেত্রে
আমরা একটি প্রবণতা মডেল ব্যবহারের ক্ষেত্রে ফোকাস করি যাতে একটি গ্রাহক বিপণন ডেটাসেট অন্তর্ভুক্ত থাকে এবং এতে দুটি ব্যবহারকারী ব্যক্তি জড়িত থাকে: একজন ডেটা ইঞ্জিনিয়ার এবং ডেটা সায়েন্টিস্ট৷ ডেটাসেটে প্রতি-গ্রাহকের তথ্য রয়েছে, যার মধ্যে রয়েছে প্রধান উৎস, পরিচিতি নোট, কাজের ভূমিকা, কিছু পতাকা, প্রতি ভিজিটে পৃষ্ঠা দেখা এবং আরও অনেক কিছু। ডেটাসেটে ব্যক্তিগত ফোন নম্বরের মতো সংবেদনশীল তথ্যও রয়েছে।
ডেটা প্রিপারেশন, প্রিপ্রসেসিং এবং অ্যাক্সেস কন্ট্রোল সহ এন্ড-টু-এন্ড ডেটা প্রসেসিং পাইপলাইন তৈরির জন্য ডেটা ইঞ্জিনিয়ার দায়ী। ডেটা সায়েন্টিস্ট ফিচার ইঞ্জিনিয়ারিং এবং এমএল মডেলের প্রশিক্ষণ ও স্থাপনের জন্য দায়ী। উল্লেখ্য যে ডেটা সায়েন্টিস্টকে ফিচার ইঞ্জিনিয়ারিং বা এমএল মডেলের প্রশিক্ষণের জন্য কোনো PII সংবেদনশীল ডেটা অ্যাক্সেস করার অনুমতি দেওয়া হয় না।
এই ব্যবহারের ক্ষেত্রে, ডেটা ইঞ্জিনিয়ার ডেটাসেটটি প্রিপ্রসেস করার জন্য একটি ডেটা পাইপলাইন তৈরি করে, যেকোনো PII তথ্যের জন্য ডেটাসেট স্ক্যান করে এবং ডেটা বিজ্ঞানী ব্যবহারকারীর কাছে PII কলামের অ্যাক্সেস সীমাবদ্ধ করে। ফলস্বরূপ, যখন একজন ডেটা সায়েন্টিস্ট ফিচার ইঞ্জিনিয়ারিং সম্পাদন করতে এবং এমএল মডেল তৈরি করতে ডেটাসেট ব্যবহার করেন, তখন তাদের PII সংবেদনশীল কলামে (ফোন নম্বর, এই ক্ষেত্রে) অ্যাক্সেস থাকে না। ফিচার ইঞ্জিনিয়ারিং প্রক্রিয়ায় টাইপ স্ট্রিং-এর কলামগুলিকে একটি ফর্ম্যাটে রূপান্তর করা জড়িত যা ML মডেলগুলির জন্য সর্বোত্তম। একটি উন্নত ব্যবহারের ক্ষেত্রে, আপনি লেক ফর্মেশন ব্যবহার করে সারি-স্তর এবং সেল-স্তরের নিরাপত্তা বাস্তবায়নের জন্য এই অ্যাক্সেস প্যাটার্নটি প্রসারিত করতে পারেন।
সমাধান ওভারভিউ
সমাধানটিতে নিম্নলিখিত উচ্চ-স্তরের পদক্ষেপগুলি রয়েছে:
- সঙ্গে সম্পদ সেট আপ করুন এডাব্লুএস ক্লাউডফর্মেশন.
- একটি AWS Glue ইন্টারেক্টিভ সেশনে PII সনাক্তকরণ এবং সূক্ষ্ম-দানাযুক্ত অ্যাক্সেস নিয়ন্ত্রণ সহ ডেটাসেট প্রিপ্রসেস করুন।
- একটি AWS গ্লু ইন্টারেক্টিভ সেশনে বৈশিষ্ট্য প্রকৌশল সম্পাদন করুন।
- SageMaker বিল্ট-ইন XGBoost অ্যালগরিদম ব্যবহার করে একটি ML মডেলকে প্রশিক্ষণ দিন এবং স্থাপন করুন।
- ML মডেল মূল্যায়ন.
নিম্নলিখিত চিত্রটি সমাধানের স্থাপত্যকে চিত্রিত করে।
পূর্বশর্ত
এই টিউটোরিয়ালটি সম্পূর্ণ করতে, আপনার অবশ্যই নিম্নলিখিত পূর্বশর্তগুলি থাকতে হবে:
AWS CloudFormation এর সাথে সংস্থান সেট আপ করুন
এই পোস্টে একটি দ্রুত সেটআপের জন্য একটি CloudFormation টেমপ্লেট রয়েছে৷ আপনি আপনার প্রয়োজন অনুসারে এটি পর্যালোচনা এবং কাস্টমাইজ করতে পারেন। আপনি যদি রিসোর্স সেট আপ করতে পছন্দ করেন এডাব্লুএস ম্যানেজমেন্ট কনসোল এবং AWS ক্লাউডফর্মেশনের পরিবর্তে AWS CLI, এই পোস্টের শেষে পরিশিষ্টে নির্দেশাবলী দেখুন।
ক্লাউডফর্মেশন টেমপ্লেটটি নিম্নলিখিত সংস্থানগুলি উত্পন্ন করে:
- একটি নমুনা ডেটাসেট সহ S3 বালতি
- An এডাব্লুএস ল্যাম্বদা ডেটাসেট লোড করার ফাংশন
- এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (IAM) গ্রুপ, ব্যবহারকারী, ভূমিকা, এবং নীতি
- লেক গঠন ডেটা লেক সেটিংস এবং অনুমতি
- সেজমেকার ব্যবহারকারীর প্রোফাইল
আপনার সংস্থানগুলি তৈরি করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- কনসোলে সাইন ইন করুন।
- বেছে নিন স্ট্যাক চালু করুন:
- বেছে নিন পরবর্তী.
- জন্য ডেটা ইঞ্জিনিয়ার পিডব্লিউডি এবং ডেটা সায়েন্টিস্ট পিডব্লিউডি, ডেটা ইঞ্জিনিয়ার এবং ডেটা সায়েন্টিস্ট ব্যবহারকারীদের জন্য আপনার নিজের পাসওয়ার্ড লিখুন।
- জন্য আঠালো ডেটাবেস নামপ্রবেশ করান
demo
. - জন্য GlueTableNameপ্রবেশ করান
web_marketing
. - জন্য S3BucketNameForInputপ্রবেশ করান
blog-studio-pii-dataset-
. - জন্য S3BucketNameForOutputপ্রবেশ করান
blog-studio-output-
. - জন্য SageMakerDomainId, আপনার সেজমেকার ডোমেন আইডি লিখুন যা আপনি পূর্বশর্ত পদক্ষেপে প্রস্তুত করেছেন।
- বেছে নিন পরবর্তী.
- পরের পৃষ্ঠায়, চয়ন করুন পরবর্তী.
- চূড়ান্ত পৃষ্ঠায় বিশদটি পর্যালোচনা করুন এবং নির্বাচন করুন আমি স্বীকার করি যে এডাব্লুএস ক্লাউডফর্মেশন আইএএম সংস্থান তৈরি করতে পারে.
- বেছে নিন সৃষ্টি.
স্ট্যাক তৈরি করতে 10 মিনিট পর্যন্ত সময় লাগতে পারে। স্ট্যাকটি দুটি ব্যক্তিত্বের জন্য IAM ভূমিকা এবং SageMaker ব্যবহারকারী প্রোফাইল তৈরি করে: ডেটা ইঞ্জিনিয়ার এবং ডেটা সায়েন্টিস্ট৷ এটি একটি ডাটাবেস ডেমো এবং টেবিলও তৈরি করে web_marketing
একটি নমুনা ডেটাসেট সহ।
স্ট্যাক তৈরির সময়, ডেটা ইঞ্জিনিয়ার ব্যক্তিত্বের টেবিলে সম্পূর্ণ অ্যাক্সেস থাকে, কিন্তু ডেটা সায়েন্টিস্ট ব্যক্তিত্বের এখনও টেবিলে কোনো অ্যাক্সেস নেই।
ডেটাসেট প্রিপ্রসেস করুন
আসুন একটি AWS Glue ইন্টারেক্টিভ সেশনে ডেটা প্রিপ্রসেস করা শুরু করি। ডেটা ইঞ্জিনিয়ার ব্যক্তিত্ব সংবেদনশীল ডেটা আছে কি না তা দেখতে ডেটা যাচাই করতে চায় এবং ডেটা বিজ্ঞানী ব্যক্তিত্বকে ন্যূনতম অ্যাক্সেসের অনুমতি দিতে চায়। থেকে নোটবুক ডাউনলোড করতে পারেন এই অবস্থান.
- ডেটা-ইঞ্জিনিয়ার ব্যবহারকারী ব্যবহার করে কনসোলে সাইন ইন করুন।
- সেজমেকার কনসোলে, নির্বাচন করুন ব্যবহারকারীরা.
- ডেটা-ইঞ্জিনিয়ার ব্যবহারকারী নির্বাচন করুন এবং নির্বাচন করুন ওপেন স্টুডিও.
- একটি নতুন নোটবুক তৈরি করুন এবং নির্বাচন করুন স্পার্ক অ্যানালিটিক্স 1.0 উন্নত ভাবমূর্তি এবং আঠালো PySpark উন্নত শাঁস.
- Boto3 এর নতুন সংস্করণ ইন্সটল করতে নিম্নলিখিত ম্যাজিকের সাথে একটি ইন্টারেক্টিভ সেশন শুরু করুন (এটি ব্যবহার করার জন্য প্রয়োজনীয়
create_data_cells_filter
পদ্ধতি): - অধিবেশন শুরু করুন:
- নতুন তৈরি টেবিল থেকে একটি AWS গ্লু ডায়নামিক ফ্রেম তৈরি করুন, এবং পছন্দ ধরনের সমাধান করুন ক্যাটালগ স্কিমার উপর ভিত্তি করে, কারণ আমরা ডেটার উপর ভিত্তি করে স্বয়ংক্রিয়ভাবে অনুমানকৃত স্কিমার পরিবর্তে ক্যাটালগে সংজ্ঞায়িত স্কিমা ব্যবহার করতে চাই:
- AWS Glue PII সনাক্তকরণ ব্যবহার করে কোনো PII ডেটা আছে কিনা তা সারণীতে যাচাই করুন:
- PII হিসাবে শ্রেণীবদ্ধ কলামগুলিতে সংবেদনশীল ডেটা রয়েছে কিনা তা যাচাই করুন (যদি না থাকে, অ-সংবেদনশীল কলামগুলি ফেলে দিতে classified_map আপডেট করুন):
- স্বয়ংক্রিয়ভাবে সনাক্ত হওয়া কলামগুলির জন্য একটি ডেটা সেল ফিল্টার ব্যবহার করে লেক গঠনের অনুমতিগুলি সেট আপ করুন এবং কলামগুলিকে ডেটা বিজ্ঞানী ব্যক্তিত্বে সীমাবদ্ধ করুন:
- PII কলামগুলি দৃশ্যমান নয় তা দেখতে ডেটা-সায়েন্টিস্ট হিসাবে স্টুডিওতে লগ ইন করুন৷ থেকে নোটবুক ডাউনলোড করতে পারেন এই অবস্থান.
- একটি নতুন নোটবুক তৈরি করুন এবং নির্বাচন করুন স্পার্ক অ্যানালিটিক্স 1.0 উন্নত ভাবমূর্তি এবং আঠালো PySpark উন্নত শাঁস:
বৈশিষ্ট্য প্রকৌশল সঞ্চালন
ডেটা-সায়েন্টিস্ট ব্যবহারকারী হিসেবে ফিচার ইঞ্জিনিয়ারিং করার জন্য আমরা Apache Spark ML লাইব্রেরি ব্যবহার করি এবং তারপর আউটপুটটি Amazon S3 এ লিখি।
- নিম্নলিখিত কক্ষে, আমরা থেকে বৈশিষ্ট্যগুলি প্রয়োগ করি অ্যাপাচি স্পার্ক এমএল লাইব্রেরি:
StringIndexer
লেবেলের একটি স্ট্রিং কলামকে লেবেল ইনডেক্সের একটি কলামে ম্যাপ করে।OneHotEncoder
একটি শ্রেণীবদ্ধ বৈশিষ্ট্য ম্যাপ করে, একটি লেবেল সূচক হিসাবে উপস্থাপিত, একটি বাইনারি ভেক্টরে সর্বাধিক একটি একক-মান রয়েছে যা একটি নির্দিষ্ট শ্রেণীগত বৈশিষ্ট্যের উপস্থিতি নির্দেশ করে। এই রূপান্তরটি ML অ্যালগরিদমগুলির জন্য ব্যবহৃত হয় যা ক্রমাগত বৈশিষ্ট্যগুলি আশা করে৷VectorAssembler
একটি ট্রান্সফরমার যা কলামগুলির একটি প্রদত্ত তালিকাকে একটি একক ভেক্টর কলামে একত্রিত করে, যা তারপরে লজিস্টিক রিগ্রেশন এবং সিদ্ধান্ত গাছের মতো অ্যালগরিদমের জন্য এমএল মডেল প্রশিক্ষণে ব্যবহৃত হয়।
- পাইপলাইন লাইব্রেরি ব্যবহার করে চূড়ান্ত রূপান্তরিত ডেটাফ্রেম তৈরি করা যেতে পারে। একটি পাইপলাইন ধাপের ক্রম হিসাবে নির্দিষ্ট করা হয়। এই পর্যায়গুলি ক্রমানুসারে চালিত হয় এবং ইনপুট ডেটাফ্রেম প্রতিটি ধাপের মধ্য দিয়ে যাওয়ার সাথে সাথে রূপান্তরিত হয়।
- এর পরে, আমরা ডেটাসেটটিকে ট্রেনে বিভক্ত করি, যাচাই করি এবং ডেটাফ্রেম পরীক্ষা করি এবং ML মডেলকে প্রশিক্ষণ দেওয়ার জন্য এটিকে S3 বালতিতে সংরক্ষণ করি (নিম্নলিখিত কোডে আপনার AWS অ্যাকাউন্ট ID প্রদান করুন):
একটি ML মডেল ট্রেন এবং স্থাপন
পূর্ববর্তী বিভাগে, আমরা ফিচার ইঞ্জিনিয়ারিং সম্পন্ন করেছি, যার মধ্যে স্ট্রিং কলাম রূপান্তর করা অন্তর্ভুক্ত ছিল region
, jobrole
, এবং usedpromo
একটি বিন্যাসে যা ML মডেলের জন্য সর্বোত্তম। আমরা যেমন কলাম অন্তর্ভুক্ত pageviewspervisit
এবং totalwebvisits
, যা আমাদের একটি গ্রাহকের পণ্য কেনার প্রবণতা অনুমান করতে সাহায্য করবে৷
আমরা এখন SageMaker বিল্ট-ইন XGBoost অ্যালগরিদম ব্যবহার করে ট্রেন এবং বৈধতা ডেটাসেট পড়ার মাধ্যমে একটি ML মডেল প্রশিক্ষণ দিই। তারপরে আমরা মডেলটি স্থাপন করি এবং একটি নির্ভুলতা পরীক্ষা চালাই। থেকে নোটবুক ডাউনলোড করতে পারেন এই অবস্থান.
নিম্নলিখিত কক্ষে, আমরা দ্বিতীয় S3 বালতি থেকে ডেটা পড়ছি, যা আমাদের বৈশিষ্ট্য প্রকৌশল ক্রিয়াকলাপ থেকে আউটপুট অন্তর্ভুক্ত করে। তারপরে আমরা মডেলটি প্রশিক্ষণের জন্য অন্তর্নির্মিত অ্যালগরিদম XGBoost ব্যবহার করি।
- একটি নতুন নোটবুক খুলুন। পছন্দ করা ডেটা বিজ্ঞান উন্নত ভাবমূর্তি এবং পাইথন 3 উন্নত শাঁস (নিম্নলিখিত কোডে আপনার AWS অ্যাকাউন্ট আইডি প্রদান করুন):
- প্রশিক্ষণ সম্পূর্ণ হলে, আমরা SageMaker হোস্টিং পরিষেবাগুলি ব্যবহার করে মডেলটি স্থাপন করতে পারি:
ML মডেল মূল্যায়ন
আমরা মডেলের মূল্যায়ন করার জন্য পরীক্ষার ডেটাসেট ব্যবহার করি এবং কোনো চলমান চার্জ এড়াতে আমরা শেষ হয়ে গেলে অনুমান শেষ পয়েন্ট মুছে ফেলি।
- নিম্নলিখিত কোড দিয়ে মডেল মূল্যায়ন করুন:
নমুনা চালানোর জন্য নির্ভুলতা ফলাফল ছিল 84.6%। ডেটাসেটের এলোমেলো বিভাজনের কারণে এটি আপনার রানের জন্য কিছুটা আলাদা হতে পারে।
- আমরা নিম্নলিখিত কোড দিয়ে অনুমান শেষ পয়েন্ট মুছে ফেলতে পারি:
পরিষ্কার কর
এখন চূড়ান্ত ধাপে, সম্পদ পরিষ্কার করা.
- CloudFormation স্ট্যাকের মাধ্যমে তৈরি দুটি বালতি খালি করুন।
- ব্যবহারকারীর সাথে যুক্ত অ্যাপগুলি মুছুন
profiles data-scientist
এবংdata-engineer
স্টুডিওর মধ্যে। - ক্লাউডফর্মেশন স্ট্যাক মুছুন।
উপসংহার
এই পোস্টে, আমরা একটি সমাধান প্রদর্শন করেছি যা ডেটা ইঞ্জিনিয়ার এবং ডেটা সায়েন্টিস্টদের মতো ব্যক্তিদেরকে স্কেলে ফিচার ইঞ্জিনিয়ারিং করতে সক্ষম করে। AWS Glue ইন্টারেক্টিভ সেশনের সাহায্যে, আপনি কোনো অন্তর্নিহিত অবকাঠামো পরিচালনার প্রয়োজন ছাড়াই স্বয়ংক্রিয় PII সনাক্তকরণ এবং সূক্ষ্ম-দানাযুক্ত অ্যাক্সেস নিয়ন্ত্রণ সহ স্কেলে বৈশিষ্ট্য ইঞ্জিনিয়ারিং অর্জন করতে পারেন। স্টুডিওকে একক এন্ট্রি পয়েন্ট হিসাবে ব্যবহার করে, আপনি এন্ড-টু-এন্ড এমএল ওয়ার্কফ্লো তৈরি করার জন্য একটি সরলীকৃত এবং সমন্বিত অভিজ্ঞতা পেতে পারেন: ডেটা প্রস্তুত করা এবং সুরক্ষিত করা থেকে শুরু করে এমএল মডেল তৈরি, প্রশিক্ষণ, টিউনিং এবং স্থাপন করা। আরো জানতে, পরিদর্শন করুন AWS Glue ইন্টারেক্টিভ সেশন দিয়ে শুরু করা এবং অ্যামাজন সেজমেকার স্টুডিও.
আমরা এই নতুন ক্ষমতা সম্পর্কে খুব উত্তেজিত এবং আপনি এটি দিয়ে কী তৈরি করতে যাচ্ছেন তা দেখতে আগ্রহী!
পরিশিষ্ট: কনসোল এবং AWS CLI এর মাধ্যমে সংস্থানগুলি সেট আপ করুন৷
CloudFormation টেমপ্লেটের পরিবর্তে কনসোল এবং AWS CLI ব্যবহার করে সংস্থান সেট আপ করতে এই বিভাগে নির্দেশাবলী সম্পূর্ণ করুন।
পূর্বশর্ত
এই টিউটোরিয়ালটি সম্পূর্ণ করতে, আপনার অবশ্যই AWS CLI-তে অ্যাক্সেস থাকতে হবে (দেখুন AWS CLI দিয়ে শুরু করা) অথবা থেকে কমান্ড লাইন অ্যাক্সেস ব্যবহার করুন এডাব্লুএস ক্লাউডশেল.
IAM গ্রুপ, ব্যবহারকারী, ভূমিকা এবং নীতিগুলি কনফিগার করুন
এই বিভাগে, আমরা দুইজন IAM ব্যবহারকারী তৈরি করি: ডেটা-ইঞ্জিনিয়ার এবং ডেটা-সায়েন্টিস্ট, যা IAM গ্রুপ ডেটা-প্ল্যাটফর্ম-গ্রুপের অন্তর্গত। তারপরে আমরা আইএএম গ্রুপে একটি একক আইএএম নীতি যোগ করি।
- IAM কনসোলে, JSON ট্যাবে একটি নীতি তৈরি করুন নামে একটি নতুন IAM পরিচালিত নীতি তৈরি করতে
DataPlatformGroupPolicy
. নীতিটি গ্রুপের ব্যবহারকারীদের স্টুডিও অ্যাক্সেস করার অনুমতি দেয়, তবে শুধুমাত্র তাদের IAM ব্যবহারকারী নামের সাথে মেলে এমন একটি ট্যাগ সহ একটি SageMaker ব্যবহারকারী প্রোফাইল ব্যবহার করে। অনুমতি প্রদান করতে নিম্নলিখিত JSON নীতি নথি ব্যবহার করুন: - একটি IAM গ্রুপ তৈরি করুন নামক
data-platform-group
. - গ্রুপে DataPlatformGroupPolicy নামে AWS পরিচালিত নীতি অনুসন্ধান করুন এবং সংযুক্ত করুন।
- IAM ব্যবহারকারী তৈরি করুন আইএএম গ্রুপ ডেটা-প্ল্যাটফর্ম-গ্রুপের অধীনে ডেটা-ইঞ্জিনিয়ার এবং ডেটা-সায়েন্টিস্ট বলা হয়।
- একটি নতুন পরিচালিত নীতি তৈরি করুন SageMakerExecutionPolicy নামে (নিম্নলিখিত কোডে আপনার অঞ্চল এবং অ্যাকাউন্ট আইডি প্রদান করুন):
- একটি নতুন পরিচালিত নীতি তৈরি করুন নামে
SageMakerAdminPolicy
: - একটি আইএএম ভূমিকা তৈরি করুন ডেটা ইঞ্জিনিয়ার (ডেটা-ইঞ্জিনিয়ার) এর জন্য সেজমেকারের জন্য, যা সংশ্লিষ্ট ব্যবহারকারী প্রোফাইলের সম্পাদন ভূমিকা হিসাবে ব্যবহৃত হয়। উপরে অনুমতি নীতি সংযুক্ত করুন পৃষ্ঠা, AmazonSageMakerFullAccess (AWS পরিচালিত নীতি) ডিফল্টরূপে সংযুক্ত থাকে। ন্যূনতম বিশেষাধিকার বজায় রাখতে আপনি পরে এই নীতিটি সরিয়ে ফেলবেন।
- জন্য নামভূমিকা, ভূমিকা SageMakerStudioExecutionRole_data-engineer নাম দিতে এই বিভাগের শুরুতে প্রবর্তিত নামকরণের নিয়ম ব্যবহার করুন৷
- জন্য ট্যাগ, কী ব্যবহারকারীর প্রোফাইল নাম এবং মান ডেটা-ইঞ্জিনিয়ার যোগ করুন।
- বেছে নিন ভূমিকা তৈরি করুন.
- অবশিষ্ট নীতি যোগ করতে, অন ভূমিকা পৃষ্ঠা, আপনি এইমাত্র তৈরি করা ভূমিকার নাম চয়ন করুন।
- অধীনে অনুমতিসমূহ, AmazonSageMakerFullAccess নীতি সরান।
- উপরে অনুমতি নীতি সংযুক্ত করুন পৃষ্ঠায়, AWS পরিচালিত নীতি AwsGlueSessionUserRestrictedServiceRole এবং গ্রাহক পরিচালিত নীতি SageMakerExecutionPolicy এবং SageMakerAdminPolicy আপনার তৈরি করা নির্বাচন করুন৷
- বেছে নিন নীতিগুলি সংযুক্ত করুন.
- পরিবর্তন করুন আপনার ভূমিকার বিশ্বাসের সম্পর্ক:
- একটি আইএএম ভূমিকা তৈরি করুন ডেটা সায়েন্টিস্ট (ডেটা-সায়েন্টিস্ট) এর জন্য SageMaker এর জন্য, যা সংশ্লিষ্ট ব্যবহারকারী প্রোফাইলের সম্পাদন ভূমিকা হিসাবে ব্যবহৃত হয়।
- জন্য নামভূমিকা, ভূমিকার নাম SageMakerStudioExecutionRole_data-scientist.
- জন্য ট্যাগ, কী ব্যবহারকারীর প্রোফাইল নাম এবং মান ডেটা-সায়েন্টিস্ট যোগ করুন।
- বেছে নিন ভূমিকা তৈরি করুন.
- অবশিষ্ট নীতি যোগ করতে, অন ভূমিকা পৃষ্ঠা, আপনি এইমাত্র তৈরি করা ভূমিকার নাম চয়ন করুন।
- অধীনে অনুমতিসমূহ, AmazonSageMakerFullAccess নীতি সরান।
- উপরে অনুমতি নীতি সংযুক্ত করুন পৃষ্ঠায়, AWS পরিচালিত নীতি AwsGlueSessionUserRestrictedServiceRole এবং আপনার তৈরি করা গ্রাহক পরিচালিত নীতি SageMakerExecutionPolicy নির্বাচন করুন।
- বেছে নিন নীতিগুলি সংযুক্ত করুন.
- পরিবর্তন করুন আপনার ভূমিকার বিশ্বাসের সম্পর্ক:
SageMaker ব্যবহারকারী প্রোফাইল কনফিগার করুন
এর সাথে আপনার সেজমেকার ব্যবহারকারী প্রোফাইল তৈরি করতে studiouserid
ট্যাগ, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- ডেটা ইঞ্জিনিয়ারের জন্য স্টুডিও ব্যবহারকারী প্রোফাইল তৈরি করতে AWS CLI বা CloudShell ব্যবহার করুন (নিম্নলিখিত কোডে আপনার অ্যাকাউন্ট আইডি এবং স্টুডিও ডোমেন আইডি প্রদান করুন):
- অ্যাকাউন্ট আইডি এবং স্টুডিও ডোমেন আইডি প্রতিস্থাপন করে ডেটা সায়েন্টিস্টের জন্য একটি ব্যবহারকারী প্রোফাইল তৈরি করার ধাপটি পুনরাবৃত্তি করুন:
S3 বালতি তৈরি করুন এবং নমুনা ডেটাসেট আপলোড করুন
এই বিভাগে, আপনি দুটি S3 বালতি তৈরি করুন। প্রথম বালতিতে ওয়েব মার্কেটিং সম্পর্কিত একটি নমুনা ডেটাসেট রয়েছে। দ্বিতীয় বালতিটি ডেটা বিজ্ঞানী দ্বারা ফিচার ইঞ্জিনিয়ারিং কাজগুলি থেকে আউটপুট সঞ্চয় করার জন্য ব্যবহার করা হয় এবং এই আউটপুট ডেটাসেটটি এমএল মডেলকে প্রশিক্ষণ দিতে ব্যবহৃত হয়।
প্রথমে, ইনপুট ডেটার জন্য S3 বালতি তৈরি করুন:
- ডাউনলোড ডেটাসেট.
- Amazon S3 কনসোলে, নির্বাচন করুন buckets নেভিগেশন ফলকে।
- বেছে নিন বালতি তৈরি করুন.
- জন্য এলাকা, SageMaker ডোমেনের সাথে অঞ্চলটি চয়ন করুন যাতে আপনার তৈরি করা ব্যবহারকারী প্রোফাইলগুলি অন্তর্ভুক্ত থাকে।
- জন্য বালতির নামপ্রবেশ করান
blog-studio-pii-dataset-
. - বেছে নিন বালতি তৈরি করুন.
- আপনার তৈরি করা বালতি নির্বাচন করুন এবং নির্বাচন করুন আপলোড.
- মধ্যে ফাইল নির্বাচন করুন বিভাগ, চয়ন করুন ফাইল যোগ করুন এবং আপনার ডাউনলোড করা ডেটাসেট আপলোড করুন।
এখন আপনি আউটপুট ডেটার জন্য বালতি তৈরি করুন: - উপরে buckets পৃষ্ঠা, চয়ন করুন বালতি তৈরি করুন.
- জন্য এলাকা, SageMaker ডোমেনের সাথে অঞ্চলটি চয়ন করুন যাতে আপনার তৈরি করা ব্যবহারকারী প্রোফাইলগুলি অন্তর্ভুক্ত থাকে।
- জন্য বালতির নামপ্রবেশ করান
blog-studio-output-
. - বেছে নিন বালতি তৈরি করুন.
একটি AWS আঠালো ডাটাবেস এবং টেবিল তৈরি করুন
এই বিভাগে, আপনি ডেটাসেটের জন্য একটি AWS Glue ডাটাবেস এবং টেবিল তৈরি করেন।
- লেক গঠন কনসোলে, অধীনে ডেটা ক্যাটালগ নেভিগেশন ফলকে, নির্বাচন করুন ডেটাবেস.
- বেছে নিন ডাটাবেস যোগ করুন.
- জন্য নাম, ডেমো লিখুন।
- বেছে নিন ডাটাবেস তৈরি করুন.
- অধীনে ডেটা ক্যাটালগনির্বাচন টেবিল.
- জন্য নামপ্রবেশ করান
web_marketing
. - জন্য ডেটাবেস, নির্বাচন করুন
demo
. - জন্য পথ অন্তর্ভুক্ত করুন, ইনপুট ডেটার জন্য আপনার S3 বাকেটের পাথ লিখুন।
- জন্য শ্রেণীবিন্যাসনির্বাচন CSV তে.
- অধীনে স্কিমানির্বাচন স্কিমা আপলোড করুন.
- পাঠ্য বাক্সে নিম্নলিখিত JSON অ্যারেটি প্রবেশ করান:
- বেছে নিন আপলোড.
- বেছে নিন জমা দিন.
- অধীনে টেবিলের বিবরণনির্বাচন টেবিল সম্পাদনা করুন.
- অধীনে টেবিল বৈশিষ্ট্যনির্বাচন বিজ্ঞাপন.
- জন্য চাবিপ্রবেশ করান
skip.header.line.count
, এবং জন্য মূল্য, 1 লিখুন। - বেছে নিন সংরক্ষণ করুন.
লেক গঠনের অনুমতি কনফিগার করুন
এই বিভাগে, আপনি IAM ভূমিকার অনুমতি দেওয়ার জন্য লেক গঠনের অনুমতিগুলি সেট আপ করেছেন৷ SageMakerStudioExecutionRole_data-engineer
একটি ডাটাবেস তৈরি করতে এবং লেক ফর্মেশনের মধ্যে S3 অবস্থান নিবন্ধন করতে।
প্রথমে, লেক গঠনের অনুমতিতে অবস্থানের অধীনে টেবিল পরিচালনা করতে ডেটা লেকের অবস্থান নিবন্ধন করুন:
- বেছে নিন ডাটা লেকের অবস্থান.
- বেছে নিন অবস্থান নিবন্ধন করুন.
- জন্য Amazon S3 পথপ্রবেশ করান
s3://blog-studio-pii-dataset-/
(যে বালতিতে ডেটাসেট রয়েছে)। - বেছে নিন অবস্থান নিবন্ধন করুন.
এখন আপনি IAM ভূমিকাগুলির জন্য লেক ফর্মেশন ডাটাবেস এবং টেবিলের অনুমতি প্রদান করেনSageMakerStudioExecutionRole_data-engineer
এবংSageMakerStudioExecutionRole_data-scientist
.প্রথম, এর জন্য ডাটাবেসের অনুমতি দিনSageMakerStudioExecutionRole_data-engineer
: - অধীনে অনুমতিসমূহনির্বাচন ডেটা লেকের অনুমতি.
- অধীনে ডেটা অনুমতিনির্বাচন প্রদান.
- জন্য প্রিন্সিপালনির্বাচন IAM ব্যবহারকারী এবং ভূমিকা, এবং ভূমিকা নির্বাচন করুন
SageMakerStudioExecutionRole_data-engineer
. - জন্য নীতি ট্যাগ বা ক্যাটালগ সম্পদনির্বাচন নামকৃত ডেটা ক্যাটালগ সম্পদ.
- জন্য ডেটাবেস, ডেমো নির্বাচন করুন।
- জন্য ডাটাবেস অনুমতি, নির্বাচন করা সুপার.
- বেছে নিন প্রদান.
এর পরে, টেবিলের অনুমতি দিনSageMakerStudioExecutionRole_data-engineer
: - অধীনে ডেটা অনুমতিনির্বাচন প্রদান.
- জন্য প্রিন্সিপালনির্বাচন IAM ব্যবহারকারী এবং ভূমিকা, এবং ভূমিকা নির্বাচন করুন
SageMakerStudioExecutionRole_data-engineer
. - জন্য নীতি ট্যাগ বা ক্যাটালগ সম্পদনির্বাচন নামকৃত ডেটা ক্যাটালগ সম্পদ.
- জন্য ডেটাবেসনির্বাচন
demo
. - জন্য টেবিলনির্বাচন
web_marketing
. - জন্য টেবিল অনুমতি, নির্বাচন করা সুপার.
- জন্য অনুদানযোগ্য অনুমতি, নির্বাচন করা সুপার.
- বেছে নিন প্রদান.
অবশেষে, জন্য ডাটাবেস অনুমতি প্রদানSageMakerStudioExecutionRole_data-scientist
: - অধীনে ডেটা অনুমতিনির্বাচন প্রদান.
- জন্য প্রিন্সিপালনির্বাচন IAM ব্যবহারকারী এবং ভূমিকা, এবং ভূমিকা নির্বাচন করুন
SageMakerStudioExecutionRole_data-scientist
. - জন্য নীতি ট্যাগ বা ক্যাটালগ সম্পদনির্বাচন নামকৃত ডেটা ক্যাটালগ সম্পদ.
- জন্য ডেটাবেসনির্বাচন
demo
. - জন্য ডাটাবেস অনুমতি, নির্বাচন করা বর্ণনা করা.
- বেছে নিন প্রদান.
লেখক সম্পর্কে
প্রবীন কুমার ক্লাউড-নেটিভ পরিষেবাগুলি ব্যবহার করে আধুনিক ডেটা এবং অ্যানালিটিক্স প্ল্যাটফর্মগুলি ডিজাইন, নির্মাণ এবং বাস্তবায়নে দক্ষতা সহ AWS-এর একজন অ্যানালিটিক্স সলিউশন আর্কিটেক্ট৷ তার আগ্রহের ক্ষেত্রগুলি হল সার্ভারহীন প্রযুক্তি, আধুনিক ক্লাউড ডেটা গুদাম, স্ট্রিমিং এবং এমএল অ্যাপ্লিকেশন।
নরিতাকা সেকিয়ামা AWS Glue দলের একজন প্রধান বিগ ডেটা আর্কিটেক্ট। তিনি এই পোস্টের মত ফলাফল প্রদানের জন্য বিভিন্ন দলের সাথে সহযোগিতা উপভোগ করেন। তার অবসর সময়ে, তিনি তার পরিবারের সাথে ভিডিও গেম খেলতে উপভোগ করেন।
- উন্নত (300)
- AI
- ai শিল্প
- এআই আর্ট জেনারেটর
- আইআই রোবট
- আমাজন সেজমেকার
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তা সার্টিফিকেশন
- ব্যাংকিং এ কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তা সফ্টওয়্যার
- এডাব্লুএস বিগ ডেটা
- এডাব্লুএস আঠালো
- AWS লেক গঠন
- এডাব্লুএস মেশিন লার্নিং
- blockchain
- ব্লকচেইন সম্মেলন এআই
- coingenius
- কথোপকথন কৃত্রিম বুদ্ধিমত্তা
- ক্রিপ্টো সম্মেলন এআই
- ডাল-ই
- গভীর জ্ঞানার্জন
- গুগল আই
- মেশিন লার্নিং
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটো গেম
- প্লেটোডাটা
- প্লেটোগেমিং
- স্কেল ai
- বাক্য গঠন
- চিন্তা নেতৃত্ব
- zephyrnet