অ্যামাজন সেজমেকার ডেটা র্যাংলার মেশিন লার্নিং (ML) এর জন্য ডেটা একত্রিত করতে এবং প্রস্তুত করতে যে সময় লাগে তা কয়েক সপ্তাহ থেকে কয়েক মিনিটের মধ্যে কমিয়ে দেয় অ্যামাজন সেজমেকার স্টুডিও, ML-এর জন্য প্রথম সম্পূর্ণরূপে সমন্বিত উন্নয়ন পরিবেশ (IDE)। ডেটা র্যাংলারের সাহায্যে, আপনি ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশলের প্রক্রিয়াটিকে সহজ করতে পারেন এবং একটি একক ভিজ্যুয়াল ইন্টারফেস থেকে ডেটা নির্বাচন, পরিষ্কারকরণ, অন্বেষণ এবং ভিজ্যুয়ালাইজেশন সহ ডেটা প্রস্তুতির কর্মপ্রবাহের প্রতিটি ধাপ সম্পূর্ণ করতে পারেন। আপনি যেমন একাধিক ডেটা উত্স থেকে ডেটা আমদানি করতে পারেন আমাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস 3), আমাজন রেডশিফ্ট, তুষারকণা, এবং 26 ফেডারেটেড কোয়েরি ডেটা উৎস দ্বারা সমর্থিত অ্যামাজন অ্যাথেনা.
আজ থেকে, এথেনা ডেটা উত্স থেকে ডেটা আমদানি করার সময়, আপনি S3 কোয়েরি আউটপুট অবস্থান এবং ডেটা র্যাংলারে ডেটা আমদানি করার জন্য ডেটা ধারণ সময় কনফিগার করতে পারেন যাতে Athena মধ্যস্থতাকারী ডেটা কোথায় এবং কতক্ষণ সংরক্ষণ করে তা নিয়ন্ত্রণ করতে পারে৷ এই পোস্টে, আমরা আপনাকে এই নতুন বৈশিষ্ট্যের মাধ্যমে নিয়ে চলেছি।
সমাধান ওভারভিউ
এথেনা একটি ইন্টারেক্টিভ ক্যোয়ারী সার্ভিস যা ব্রাউজ করা সহজ করে তোলে এডাব্লুএস আঠালো ডেটা ক্যাটালগ, এবং স্ট্যান্ডার্ড SQL ব্যবহার করে Amazon S3 এবং 26 ফেডারেটেড কোয়েরি ডেটা উত্সগুলিতে ডেটা বিশ্লেষণ করুন। আপনি যখন ডেটা আমদানি করতে এথেনা ব্যবহার করেন, তখন আপনি এথেনা ক্যোয়ারী আউটপুটের জন্য ডেটা র্যাংলারের ডিফল্ট S3 অবস্থান ব্যবহার করতে পারেন, বা একটি কাস্টম S3 অবস্থান প্রয়োগ করতে একটি এথেনা ওয়ার্কগ্রুপ নির্দিষ্ট করতে পারেন। পূর্বে, আপনাকে এই মধ্যস্থতাকারী ডেটা অপসারণ করতে ক্লিনআপ ওয়ার্কফ্লোগুলি প্রয়োগ করতে হয়েছিল, বা স্টোরেজ খরচ নিয়ন্ত্রণ করতে এবং আপনার সংস্থার ডেটা সুরক্ষা প্রয়োজনীয়তাগুলি পূরণ করতে ম্যানুয়ালি S3 লাইফসাইকেল কনফিগারেশন সেট আপ করতে হয়েছিল। এটি একটি বড় অপারেশনাল ওভারহেড, এবং মাপযোগ্য নয়।
ডেটা র্যাংলার এখন আপনার এথেনা ক্যোয়ারী আউটপুটের জন্য কাস্টম S3 অবস্থান এবং ডেটা ধরে রাখার সময়কাল সমর্থন করে। এই নতুন বৈশিষ্ট্যের সাহায্যে, আপনি একটি কাস্টম S3 বালতিতে Athena ক্যোয়ারী আউটপুট অবস্থান পরিবর্তন করতে পারেন। আপনার কাছে এখন Athena ক্যোয়ারী আউটপুটের জন্য 5 দিনের একটি ডিফল্ট ডেটা ধারণ নীতি রয়েছে এবং আপনি আপনার সংস্থার ডেটা সুরক্ষা প্রয়োজনীয়তাগুলি পূরণ করতে এটি পরিবর্তন করতে পারেন৷ ধরে রাখার সময়কালের উপর ভিত্তি করে, S3 বালতিতে Athena ক্যোয়ারী আউটপুট স্বয়ংক্রিয়ভাবে পরিষ্কার হয়ে যায়। আপনি ডেটা আমদানি করার পরে, আপনি এই ডেটাসেটে অনুসন্ধানমূলক ডেটা বিশ্লেষণ করতে পারেন এবং পরিষ্কার ডেটা আবার Amazon S3 এ সংরক্ষণ করতে পারেন৷
নিম্নলিখিত চিত্রটি এই স্থাপত্যের চিত্র তুলে ধরেছে।
আমাদের ব্যবহারের ক্ষেত্রে, আমরা সমাধানের মধ্য দিয়ে চলার জন্য একটি নমুনা ব্যাঙ্ক ডেটাসেট ব্যবহার করি। কর্মপ্রবাহ নিম্নলিখিত পদক্ষেপ নিয়ে গঠিত:
- ডাউনলোড নমুনা ডেটাসেট এবং এটি একটি S3 বালতিতে আপলোড করুন।
- একটি AWS আঠালো সেট আপ করুন ক্রলার স্কিমা ক্রল করতে এবং মেটাডেটা স্কিমা AWS Glue ডেটা ক্যাটালগে সংরক্ষণ করতে।
- S3 বাকেট থেকে ডেটা অনুসন্ধান করতে ডেটা ক্যাটালগ অ্যাক্সেস করতে Athena ব্যবহার করুন৷
- এথেনার সাথে সংযোগ করতে একটি নতুন ডেটা র্যাংলার ফ্লো তৈরি করুন।
- সংযোগ তৈরি করার সময়, ডেটাসেটের জন্য ধরে রাখার TTL সেট করুন।
- ওয়ার্কফ্লোতে এই সংযোগটি ব্যবহার করুন এবং অন্য S3 বালতিতে পরিষ্কার ডেটা সংরক্ষণ করুন।
সরলতার জন্য, আমরা ধরে নিই যে আপনি ইতিমধ্যেই এথেনা পরিবেশ সেট আপ করেছেন (ধাপ 1-3)। আমরা এই পোস্টে পরবর্তী ধাপগুলি বিস্তারিতভাবে বর্ণনা করব।
পূর্বশর্ত
এথেনা পরিবেশ সেট আপ করতে, পড়ুন ইউজার গাইড ধাপে ধাপে নির্দেশাবলীর জন্য, এবং পূর্ববর্তী বিভাগে বর্ণিত ধাপ 1-3 সম্পূর্ণ করুন।
এথেনা থেকে ডেটা র্যাংলারে আপনার ডেটা আমদানি করুন
আপনার ডেটা আমদানি করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- স্টুডিও কনসোলে, নির্বাচন করুন Resources নেভিগেশন প্যানে আইকন।
- বেছে নিন ডেটা র্যাংলার ড্রপ-ডাউন মেনুতে।
- বেছে নিন নতুন প্রবাহ.
- উপরে আমদানি ট্যাব, চয়ন করুন অ্যামাজন অ্যাথেনা.
একটি বিশদ পৃষ্ঠা খোলে যেখানে আপনি এথেনার সাথে সংযোগ করতে পারেন এবং ডাটাবেস থেকে আমদানি করার জন্য একটি SQL ক্যোয়ারী লিখতে পারেন। - আপনার সংযোগের জন্য একটি নাম লিখুন.
- বিস্তৃত করা উন্নত কনফিগারেশন.
এথেনার সাথে সংযোগ করার সময়, ডেটা র্যাংলার জিজ্ঞাসা করা ডেটা ধাপে ধাপে Amazon S3 ব্যবহার করে। ডিফল্টরূপে, এই ডেটা S3 অবস্থানে মঞ্চস্থ করা হয়s3://sagemaker-{region}-{account_id}/athena/
5 দিন ধরে রাখার সময়কাল সহ। - জন্য ক্যোয়ারী ফলাফলের Amazon S3 অবস্থান, আপনার S3 অবস্থান লিখুন।
- নির্বাচন করা ডেটা ধরে রাখার সময়কাল এবং ডেটা ধরে রাখার সময়কাল সেট করুন (এই পোস্টের জন্য, 1 দিন)।
আপনি যদি এই বিকল্পটি অনির্বাচন করেন তবে ডেটা অনির্দিষ্টকালের জন্য থাকবে।পর্দার আড়ালে, ডেটা র্যাংলার স্বয়ংক্রিয়ভাবে পরিষ্কার করার জন্য সেই S3 অবস্থানে একটি S3 লাইফসাইকেল কনফিগারেশন নীতি সংযুক্ত করে। নিম্নলিখিত উদাহরণ নীতি দেখুন:তোমার দরকার
s3:GetLifecycleConfiguration
এবংs3:PutLifecycleConfiguration
জীবনচক্র কনফিগারেশন নীতিগুলি সঠিকভাবে প্রয়োগ করার জন্য আপনার সেজমেকার কার্যকরী ভূমিকার জন্য। এই অনুমতিগুলি ছাড়া, আপনি যখন ডেটা আমদানি করার চেষ্টা করেন তখন আপনি ত্রুটি বার্তা পান৷নিম্নলিখিত ত্রুটি বার্তাটি অনুপস্থিত হওয়ার একটি উদাহরণ
GetLifecycleConfiguration
অনুমতি নেই।নিম্নলিখিত ত্রুটি বার্তাটি অনুপস্থিত হওয়ার একটি উদাহরণ
PutLifecycleConfiguration
অনুমতি নেই। - ঐচ্ছিকভাবে, জন্য ওয়ার্কগ্রুপ, আপনি একটি Athena ওয়ার্কগ্রুপ নির্দিষ্ট করতে পারেন।
একটি এথেনা ওয়ার্কগ্রুপ ব্যবহারকারী, দল, অ্যাপ্লিকেশন, বা কাজের চাপকে গ্রুপে বিচ্ছিন্ন করে, প্রত্যেকের নিজস্ব অনুমতি এবং কনফিগারেশন সেটিংস সহ। আপনি যখন একটি ওয়ার্কগ্রুপ নির্দিষ্ট করেন, তখন ডেটা র্যাংলার অ্যাথেনায় সংজ্ঞায়িত ওয়ার্কগ্রুপ সেটিংটি উত্তরাধিকার সূত্রে পায়। উদাহরণস্বরূপ, যদি একটি ওয়ার্কগ্রুপের একটি S3 অবস্থান থাকে যা ক্যোয়ারী ফলাফল সংরক্ষণ করতে এবং সক্ষম করে ক্লায়েন্ট সাইড ওভাররাইড করুন সেটিংস, আপনি S3 ক্যোয়ারী ফলাফল অবস্থান সম্পাদনা করতে পারবেন না.ডিফল্টরূপে, ডেটা র্যাংলার আপনার জন্য এথেনা সংযোগ সংরক্ষণ করে। এটি একটি নতুন এথেনা টাইল হিসাবে প্রদর্শিত হয় আমদানি ট্যাব আপনি সর্বদা সেই সংযোগটি অনুসন্ধান করতে পুনরায় খুলতে পারেন এবং ডেটা র্যাংলারে বিভিন্ন ডেটা আনতে পারেন। - নির্বাচন না করা সংযোগ সংরক্ষণ করুন যদি আপনি সংযোগ সংরক্ষণ করতে না চান.
- এথেনা সংযোগ কনফিগার করতে, নির্বাচন করুন না উন্নত আদর্শ সম্পূর্ণ ডেটাসেট আমদানি করতে।
বড় ডেটাসেটের জন্য, ডেটা র্যাংলার আপনাকে আপনার ট্রান্সফরমেশন ওয়ার্কফ্লো তৈরি করতে আপনার ডেটার একটি সাবসেট ইম্পোর্ট করতে দেয় এবং আপনি যখন প্রস্তুত হন তখনই সম্পূর্ণ ডেটাসেট প্রক্রিয়া করেন৷ এটি পুনরাবৃত্তি চক্রের গতি বাড়ায় এবং প্রক্রিয়াকরণের সময় এবং খরচ বাঁচায়। উপলব্ধ বিভিন্ন ডেটা নমুনা বিকল্প সম্পর্কে আরও জানতে, দেখুন অ্যামাজন সেজমেকার ডেটা র্যাংলার এখন র্যান্ডম স্যাম্পলিং এবং স্তরিত নমুনা সমর্থন করে. - জন্য ডেটা ক্যাটালগপছন্দ করা AwsDataCatalog.
- জন্য ডেটাবেস, আপনার ডাটাবেস নির্বাচন করুন.
ডেটা র্যাংলার উপলব্ধ টেবিলগুলি প্রদর্শন করে। আপনি স্কিমা পরীক্ষা করতে এবং ডেটার পূর্বরূপ দেখতে প্রতিটি টেবিল বেছে নিতে পারেন। - ক্যোয়ারী ক্ষেত্রে নিম্নলিখিত কোড লিখুন:
- বেছে নিন চালান তথ্যের পূর্বরূপ দেখতে।
- সবকিছু ভাল দেখায়, নির্বাচন করুন আমদানি.
- একটি ডেটাসেটের নাম লিখুন এবং নির্বাচন করুন বিজ্ঞাপন আপনার ডেটা র্যাংলার ওয়ার্কস্পেসে ডেটা আমদানি করতে।
ডেটা র্যাংলারের সাথে ডেটা বিশ্লেষণ এবং প্রক্রিয়া করুন
আপনি ডেটা র্যাংলারে ডেটা লোড করার পরে, আপনি অনুসন্ধানমূলক ডেটা বিশ্লেষণ (EDA) করতে পারেন এবং মেশিন লার্নিংয়ের জন্য ডেটা প্রস্তুত করতে পারেন।
- এর পাশে প্লাস চিহ্নটি নির্বাচন করুন
bank-data
ডেটাসেট ডেটা ফ্লোতে এবং বেছে নিন বিশ্লেষণ যোগ করুন.
ডেটা র্যাংলার একটি ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট, ডেটা পারস্পরিক সম্পর্ক, একটি প্রাক-প্রশিক্ষণ পক্ষপাত প্রতিবেদন, আপনার ডেটাসেটের সারাংশ এবং ভিজ্যুয়ালাইজেশন (যেমন হিস্টোগ্রাম এবং স্ক্যাটার প্লট) সহ অন্তর্নির্মিত বিশ্লেষণগুলি সরবরাহ করে। উপরন্তু, আপনি আপনার নিজস্ব কাস্টম ভিজ্যুয়ালাইজেশন তৈরি করতে পারেন। - জন্য বিশ্লেষণের ধরণপছন্দ করা ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট.
এটি স্বয়ংক্রিয়ভাবে ভিজ্যুয়ালাইজেশন তৈরি করে, ডেটা মানের সমস্যা চিহ্নিত করতে বিশ্লেষণ করে এবং আপনার ডেটাসেটের জন্য প্রয়োজনীয় সঠিক রূপান্তরের জন্য সুপারিশ করে। - জন্য লক্ষ্য কলামনির্বাচন Y.
- কারণ এটি একটি শ্রেণীবিভাগ সমস্যা বিবৃতি, জন্য সমস্যার ধরণ, নির্বাচন করুন শ্রেণীবিন্যাস.
- বেছে নিন সৃষ্টি.
ডেটা র্যাংলার আপনার ডেটাসেটের উপর একটি বিশদ প্রতিবেদন তৈরি করে। আপনি আপনার স্থানীয় মেশিনে প্রতিবেদনটি ডাউনলোড করতে পারেন। - ডেটা প্রস্তুতির জন্য, ডেটা প্রবাহে ব্যাঙ্ক-ডেটা ডেটাসেটের পাশে প্লাস চিহ্নটি বেছে নিন এবং বেছে নিন রূপান্তর যোগ করুন.
- বেছে নিন ধাপ যোগ করুন আপনার রূপান্তর নির্মাণ শুরু করতে.
এই লেখার সময়, ডেটা র্যাংলার 300 টিরও বেশি অন্তর্নির্মিত রূপান্তর প্রদান করে। আপনি Pandas বা PySpark ব্যবহার করে আপনার নিজের রূপান্তরগুলিও লিখতে পারেন।
আপনি এখন আপনার ব্যবসার প্রয়োজনীয়তার উপর ভিত্তি করে আপনার রূপান্তর এবং বিশ্লেষণ তৈরি করা শুরু করতে পারেন।
পরিষ্কার কর
চলমান খরচ এড়াতে, আপনার শেষ হয়ে গেলে নীচের ধাপগুলি ব্যবহার করে ডেটা র্যাংলার সংস্থানগুলি মুছুন৷
- রানিং ইনস্ট্যান্স এবং কার্নেল আইকন নির্বাচন করুন।
- RUNNING APPS-এর অধীনে, এর পাশের শাটডাউন আইকনে ক্লিক করুন
sagemaker-data-wrangler-1.0 app
. - নিশ্চিত করতে সব বন্ধ করুন নির্বাচন করুন।
উপসংহার
এই পোস্টে, আমরা আপনার S3 অবস্থান কাস্টমাইজ করার এবং এথেনা থেকে ডেটা র্যাংলারে ডেটা আমদানির জন্য S3 লাইফসাইকেল কনফিগারেশন সক্ষম করার একটি ওভারভিউ প্রদান করেছি। এই বৈশিষ্ট্যটির সাহায্যে, আপনি একটি সুরক্ষিত S3 অবস্থানে মধ্যস্থতাকারী ডেটা সঞ্চয় করতে পারেন এবং ডেটাতে অননুমোদিত অ্যাক্সেসের ঝুঁকি কমাতে ধারণকালের পরে স্বয়ংক্রিয়ভাবে ডেটা কপি সরিয়ে ফেলতে পারেন। আমরা আপনাকে এই নতুন বৈশিষ্ট্যটি চেষ্টা করার জন্য উত্সাহিত করি। শুভ বিল্ডিং!
এথেনা এবং সেজমেকার সম্পর্কে আরও জানতে, দেখুন এথেনা ব্যবহারকারী নির্দেশিকা এবং আমাজন সেজমেকার ডকুমেন্টেশন.
লেখক সম্পর্কে
মীনাক্ষীসুন্দরম ঠাণ্ডাভারায়ণ AWS সহ একজন সিনিয়র AI/ML বিশেষজ্ঞ। তিনি তাদের AI এবং ML যাত্রায় হাই-টেক কৌশলগত অ্যাকাউন্টে সাহায্য করেন। তিনি ডেটা-চালিত AI সম্পর্কে খুব উত্সাহী।
হরিশ রাজাগোপালন আমাজন ওয়েব সার্ভিসের একজন সিনিয়র সলিউশন আর্কিটেক্ট। হরিশ এন্টারপ্রাইজ গ্রাহকদের সাথে কাজ করে এবং তাদের ক্লাউড যাত্রায় সাহায্য করে।
জেমস উ AWS-এর একজন সিনিয়র AI/ML স্পেশালিস্ট সলিউশন আর্কিটেক্ট। গ্রাহকদের এআই/এমএল সলিউশন ডিজাইন এবং তৈরি করতে সাহায্য করা। জেমসের কাজ এমএল ব্যবহারের ক্ষেত্রের একটি বিস্তৃত পরিসর কভার করে, যার মধ্যে প্রাথমিক আগ্রহ কম্পিউটার ভিশন, গভীর শিক্ষা, এবং এন্টারপ্রাইজ জুড়ে এমএল স্কেলিং। AWS-এ যোগদানের আগে, জেমস 10 বছরেরও বেশি সময় ধরে একজন স্থপতি, বিকাশকারী এবং প্রযুক্তি নেতা ছিলেন, যার মধ্যে 6 বছর ইঞ্জিনিয়ারিং এবং 4 বছর মার্কেটিং এবং বিজ্ঞাপন শিল্পে ছিল।
- AI
- ai শিল্প
- এআই আর্ট জেনারেটর
- আইআই রোবট
- অ্যামাজন অ্যাথেনা
- আমাজন সেজমেকার
- অ্যামাজন সেজমেকার ডেটা র্যাংলার
- অ্যামাজন সিম্পল স্টোরেজ সার্ভিস (S3)
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তা সার্টিফিকেশন
- ব্যাংকিং এ কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তা সফ্টওয়্যার
- এডাব্লুএস মেশিন লার্নিং
- blockchain
- ব্লকচেইন সম্মেলন এআই
- coingenius
- কথোপকথন কৃত্রিম বুদ্ধিমত্তা
- ক্রিপ্টো সম্মেলন এআই
- ডাল-ই
- গভীর জ্ঞানার্জন
- গুগল আই
- মেশিন লার্নিং
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটো গেম
- প্লেটোডাটা
- প্লেটোগেমিং
- স্কেল ai
- বাক্য গঠন
- zephyrnet