গত বছর, আমরা সাধারণ প্রাপ্যতা ঘোষণা অ্যামাজন সেজমেকারে RStudio, ক্লাউডে শিল্পের প্রথম সম্পূর্ণরূপে পরিচালিত RStudio Workbench ইন্টিগ্রেটেড ডেভেলপমেন্ট এনভায়রনমেন্ট (IDE)। আপনি দ্রুত পরিচিত RStudio IDE চালু করতে পারেন এবং আপনার কাজে বাধা না দিয়ে অন্তর্নিহিত কম্পিউট রিসোর্সগুলি ডায়াল করতে এবং ডাউন করতে পারেন, এটিকে সহজ করে মেশিন লার্নিং (ML) এবং অ্যানালিটিক্স সলিউশনগুলি R এ স্কেলে তৈরি করা সহজ করে তোলে৷
SageMaker ব্যবহারকারীদের অনেক RStudio এর ব্যবহারকারীও আমাজন রেডশিফ্ট, একটি সম্পূর্ণরূপে পরিচালিত, পেটাবাইট-স্কেল, ডেটা স্টোরেজ এবং বিশ্লেষণাত্মক কাজের চাপের জন্য ব্যাপকভাবে সমান্তরাল ডেটা গুদাম। এটি স্ট্যান্ডার্ড SQL এবং আপনার বিদ্যমান ব্যবসায়িক বুদ্ধিমত্তা (BI) সরঞ্জামগুলি ব্যবহার করে আপনার সমস্ত ডেটা বিশ্লেষণ করা দ্রুত, সহজ এবং সাশ্রয়ী করে তোলে৷ ব্যবহারকারীরা ODBC, JDBC, বা Amazon Redshift Data API-এর সাথে ডেটার সাথে যোগাযোগ করতে পারে।
SageMaker এবং Amazon Redshift-এ RStudio-এর ব্যবহার ক্লাউডে বৃহৎ ডেটা সেটগুলিতে দক্ষতার সাথে বিশ্লেষণ করার জন্য সহায়ক হতে পারে। যাইহোক, ক্লাউডে ডেটা নিয়ে কাজ করা চ্যালেঞ্জগুলি উপস্থাপন করতে পারে, যেমন সাংগঠনিক ডেটা সাইলোগুলি অপসারণ করা, সুরক্ষা এবং সম্মতি বজায় রাখা এবং টুলিংয়ের মানককরণের মাধ্যমে জটিলতা হ্রাস করা। এই চ্যালেঞ্জ মোকাবেলায় সাহায্য করার জন্য AWS SageMaker এবং Amazon Redshift-এ RStudio-এর মতো টুল অফার করে।
এই ব্লগ পোস্টে, আমরা আপনাকে দেখাব কিভাবে উপরে উল্লেখিত চ্যালেঞ্জ মোকাবেলা করার সময় ক্লাউডে বিশাল ডেটা সেটের উপর দক্ষতার সাথে বিশ্লেষণ করতে এই উভয় পরিষেবা একসাথে ব্যবহার করতে হয়। এই ব্লগটি Amazon SageMaker ভাষার Rstudio-তে ব্যবসায় বিশ্লেষক, ডেটা ইঞ্জিনিয়ার, ডেটা সায়েন্টিস্ট, এবং সকল ডেভেলপারদের সাথে লক্ষ্য করে, যারা R Language এবং Amazon Redshift ব্যবহার করে, লক্ষ্য শ্রোতা হিসেবে।
আপনি যদি Amazon Redshift এর সাথে ঐতিহ্যবাহী SageMaker স্টুডিও অভিজ্ঞতা ব্যবহার করতে চান, তাহলে পড়ুন একটি Amazon SageMaker Jupyter নোটবুক থেকে ইন্টারঅ্যাক্ট করতে Amazon Redshift Data API ব্যবহার করে.
সমাধান ওভারভিউ
আজ ব্লগে, আমরা নিম্নলিখিত পদক্ষেপগুলি সম্পাদন করব:
- প্রয়োজনীয় প্যাকেজ সহ নমুনা সংগ্রহস্থল ক্লোনিং।
- একটি সুরক্ষিত ODBC সংযোগ সহ Amazon Redshift-এর সাথে সংযোগ করা হচ্ছে৷ (ODBC হল RStudio-এর জন্য পছন্দের প্রোটোকল).
- SageMaker-এ RStudio-এর মাধ্যমে Amazon Redshift Serverless-এর মধ্যে ডেটার উপর প্রশ্ন এবং SageMaker API অ্যাকশন চালানো
এই প্রক্রিয়াটি নিম্নলিখিত সমাধান আর্কিটেকচারে চিত্রিত করা হয়েছে:
সমাধান ওয়াকথ্রু
পূর্বশর্ত
শুরু করার আগে, Amazon SageMaker এবং Amazon Redshift Serverless-এ RStudio সেট আপ করার জন্য আপনার সমস্ত প্রয়োজনীয়তা রয়েছে তা নিশ্চিত করুন, যেমন:
প্রয়োজনীয় পরিকাঠামো তৈরি করতে আমরা একটি ক্লাউডফর্মেশন স্ট্যাক ব্যবহার করব।
বিঃদ্রঃ: আপনার যদি ইতিমধ্যেই একটি RStudio ডোমেন এবং Amazon Redshift ক্লাস্টার থাকে তাহলে আপনি এই ধাপটি এড়িয়ে যেতে পারেন
এই স্ট্যাকটি চালু করা নিম্নলিখিত সংস্থানগুলি তৈরি করে:
- 3 ব্যক্তিগত সাবনেট
- 1 পাবলিক সাবনেট
- 1 NAT গেটওয়ে
- ইন্টারনেট গেটওয়ে
- অ্যামাজন রেডশিফ্ট সার্ভারহীন ক্লাস্টার
- RStudio সহ SageMaker ডোমেইন
- SageMaker RStudio ব্যবহারকারী প্রোফাইল
- SageMaker RStudio ডোমেন সম্পাদনের জন্য IAM পরিষেবার ভূমিকা
- SageMaker RStudio ব্যবহারকারী প্রোফাইল সম্পাদনের জন্য IAM পরিষেবার ভূমিকা
এই টেমপ্লেটটি একটি অঞ্চলে কাজ করার জন্য ডিজাইন করা হয়েছে (যেমন। us-east-1
, us-west-2
) তিনটি প্রাপ্যতা অঞ্চল সহ, সেজমেকারে RStudio এবং Amazon Redshift Serverless। আপনার অঞ্চলের সেই সংস্থানগুলিতে অ্যাক্সেস রয়েছে তা নিশ্চিত করুন বা সেই অনুযায়ী টেমপ্লেটগুলি সংশোধন করুন৷
প্রেস করুন স্ট্যাক চালু করুন স্ট্যাক তৈরি করতে বোতাম।
- উপরে স্ট্যাক তৈরি করুন পৃষ্ঠা, চয়ন করুন পরবর্তী.
- উপরে স্ট্যাকের বিবরণ উল্লেখ করুন পৃষ্ঠা, আপনার স্ট্যাকের জন্য একটি নাম প্রদান করুন এবং অবশিষ্ট বিকল্পগুলিকে ডিফল্ট হিসাবে ছেড়ে দিন, তারপর নির্বাচন করুন পরবর্তী.
- উপরে স্ট্যাক বিকল্পগুলি কনফিগার করুন পৃষ্ঠায়, বিকল্পগুলিকে ডিফল্ট হিসাবে ছেড়ে দিন এবং টিপুন পরবর্তী.
- উপরে পর্যালোচনা পাতা, নির্বাচন করুন
- আমি স্বীকার করি যে AWS CloudFormation কাস্টম নাম সহ IAM সংস্থান তৈরি করতে পারে
- আমি স্বীকার করি যে AWS ক্লাউডফর্মেশনের জন্য নিম্নলিখিত ক্ষমতার প্রয়োজন হতে পারে: CAPABILITY_AUTO_EXPANDচেকবক্স এবং নির্বাচন করুন জমা দিন.
টেমপ্লেটটি পাঁচটি স্ট্যাক তৈরি করবে।
স্ট্যাক স্ট্যাটাস একবার CREATE_COMPLETE, Amazon Redshift Serverless কনসোলে নেভিগেট করুন। এটি একটি নতুন ক্ষমতা যা যেকোনো স্কেলে উচ্চ কর্মক্ষমতা সহ ক্লাউডে বিশ্লেষণ চালানো অত্যন্ত সহজ করে তোলে। শুধু আপনার ডেটা লোড করুন এবং অনুসন্ধান শুরু করুন। ক্লাস্টার সেট আপ এবং পরিচালনা করার কোন প্রয়োজন নেই।
বিঃদ্রঃ: Amazon SageMaker-এ Amazon Redshift এবং RStudio সমন্বিত করার জন্য এই ব্লগে প্রদর্শিত প্যাটার্নটি Amazon Redshift ডিপ্লয়মেন্ট প্যাটার্ন নির্বিশেষে একই হবে (সার্ভারহীন বা ঐতিহ্যবাহী ক্লাস্টার)।
Amazon Redshift Serverless এ ডেটা লোড হচ্ছে
ক্লাউডফর্মেশন স্ক্রিপ্ট নামে একটি ডাটাবেস তৈরি করেছে sagemaker
. RStudio ব্যবহারকারীকে জিজ্ঞাসা করার জন্য টেবিলের সাথে এই ডাটাবেসটি তৈরি করা যাক। একটি এসকিউএল এডিটর ট্যাব তৈরি করুন এবং নিশ্চিত হন sagemaker
ডাটাবেস নির্বাচন করা হয়। আমরা ব্যবহার করা হবে সিন্থেটিক ক্রেডিট কার্ড লেনদেন ডেটা আমাদের ডাটাবেসে টেবিল তৈরি করতে। এই ডেটা SageMaker নমুনা ট্যাবুলার ডেটাসেটের অংশ s3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions
.
আমরা ক্যোয়ারী এডিটরে নিম্নলিখিত ক্যোয়ারীটি চালাতে যাচ্ছি। এটি তিনটি টেবিল তৈরি করবে, কার্ড, লেনদেন, এবং ব্যবহারকারী.
আপনি যাচাই করতে পারেন যে ক্যোয়ারীটি সফলভাবে চালানো হয়েছে ক্যোয়ারী সম্পাদকের বাম দিকের ফলকের মধ্যে তিনটি টেবিল দেখে।
একবার সমস্ত টেবিল জনবহুল হয়ে গেলে, SageMaker RStudio-এ নেভিগেট করুন এবং একটি ml.m5.xlarge উদাহরণে RSession বেস ইমেজ সহ একটি নতুন সেশন শুরু করুন৷
একবার সেশন চালু হলে, আমরা আমাদের Amazon Redshift Serverless ডাটাবেসের সাথে একটি সংযোগ তৈরি করতে এই কোডটি চালাব।
সিন্থেটিক স্কিমাতে টেবিলগুলি দেখার জন্য, আপনাকে ক্যোয়ারী এডিটরের মাধ্যমে অ্যামাজন রেডশিফ্টে অ্যাক্সেস দিতে হবে।
আর স্টুডিও সংযোগ ফলক প্রদর্শন করা উচিত sagemaker
স্কিমা সিন্থেটিক এবং টেবিল কার্ড, লেনদেন, ব্যবহারকারীদের সাথে ডাটাবেস।
আপনি 1,000 রেকর্ড দেখতে টেবিলের পাশের টেবিল আইকনে ক্লিক করতে পারেন।
দ্রষ্টব্য: আমরা একটি পূর্ব-নির্মিত আর মার্কডাউন ফাইল তৈরি করেছি যা প্রজেক্টে পাওয়া যাবে এমন সমস্ত কোড-ব্লকগুলি পূর্ব-নির্মিত। গিটহুব রেপো.
এখন এর ব্যবহার করা যাক DBI
প্যাকেজ ফাংশন dbListTables()
বিদ্যমান টেবিল দেখতে।
ডাটাবেসে SQL কোয়েরি পাস করতে dbGetQuery() ব্যবহার করুন।
আমরা এই ব্যবহার করতে পারেন dbplyr
এবং dplyr
ডাটাবেসে প্রশ্ন চালানোর জন্য প্যাকেজ। চলুন count()
লেনদেন টেবিলে কত লেনদেন আছে। কিন্তু প্রথমে, আমাদের এই প্যাকেজগুলি ইনস্টল করতে হবে।
ব্যবহার tbl()
স্কিমা নির্দিষ্ট করার সময় ফাংশন।
আসুন প্রতিটি টেবিলের জন্য সারির সংখ্যা গণনা করি।
তাই আমাদের 2,000 ব্যবহারকারী আছে; 6,146 কার্ড; এবং 24,386,900 লেনদেন। আমরা কনসোলে টেবিলগুলিও দেখতে পারি।
transactions_tbl
আমরা কি দেখতে পারেন dplyr
verbs হুড অধীনে করছেন.
চলুন চাক্ষুষভাবে বছর দ্বারা লেনদেনের সংখ্যা অন্বেষণ করা যাক.
আমরা ডাটাবেসে ডেটা সংক্ষিপ্ত করতে পারি:
ধরুন আমরা কার্ডের তথ্য ব্যবহার করে জালিয়াতি দেখতে চাই। আমাদের কেবল টেবিলে যোগদান করতে হবে এবং তারপরে তাদের বৈশিষ্ট্য অনুসারে গোষ্ঠীবদ্ধ করতে হবে।
এখন একটি ডেটাসেট প্রস্তুত করা যাক যা মেশিন লার্নিংয়ের জন্য ব্যবহার করা যেতে পারে। আসুন শুধুমাত্র কলামের একটি উপসেট রেখে ডিসকভার ক্রেডিট কার্ডগুলি অন্তর্ভুক্ত করতে লেনদেনের ডেটা ফিল্টার করি৷
এবং এখন নিম্নলিখিত রূপান্তরগুলি ব্যবহার করে কিছু পরিষ্কার করা যাক:
- রূপান্তর করুন
is_fraud
বাইনারি বৈশিষ্ট্য থেকে - থেকে লেনদেন স্ট্রিং সরান
use_chip
এবং টাইপ করার জন্য এটির নাম পরিবর্তন করুন - একটি ডেটা অবজেক্টে বছর, মাস এবং দিন একত্রিত করুন
- পরিমাণ থেকে $ সরান এবং একটি সাংখ্যিক ডেটা টাইপে রূপান্তর করুন
এখন যেহেতু আমরা আমাদের ডেটাসেট ফিল্টার এবং পরিষ্কার করেছি, আমরা এই ডেটাসেটটিকে স্থানীয় র্যামে সংগ্রহ করতে প্রস্তুত।
বৈশিষ্ট্য এবং মানানসই মডেল তৈরি শুরু করার জন্য এখন আমাদের কাছে একটি কার্যকরী ডেটাসেট রয়েছে। আমরা এই ব্লগে সেই পদক্ষেপগুলি কভার করব না, তবে আপনি যদি SageMaker-এ RStudio-তে মডেল তৈরির বিষয়ে আরও জানতে চান তাহলে দেখুন ডেটা বিজ্ঞানীদের জন্য Amazon SageMaker-এ সম্পূর্ণরূপে পরিচালিত RStudio ঘোষণা করা হচ্ছে.
পরিষ্কার কর
পুনরাবৃত্ত খরচ এড়াতে কোনো সম্পদ পরিষ্কার করতে, রুট ক্লাউডফর্মেশন টেমপ্লেটটি মুছুন। এছাড়াও তৈরি করা সমস্ত EFS মাউন্ট এবং যে কোনও S3 বালতি এবং তৈরি বস্তু মুছুন।
উপসংহার
ক্লাউডে বড় ডেটাসেটের সাথে কাজ করার সময় ডেটা বিশ্লেষণ এবং মডেলিং চ্যালেঞ্জিং হতে পারে। Amazon Redshift হল একটি জনপ্রিয় ডেটা গুদাম যা ব্যবহারকারীদের এই কাজগুলি সম্পাদন করতে সাহায্য করতে পারে। RStudio, ডেটা বিশ্লেষণের জন্য সর্বাধিক ব্যবহৃত ইন্টিগ্রেটেড ডেভেলপমেন্ট এনভায়রনমেন্ট (IDEs)গুলির মধ্যে একটি, প্রায়শই R ভাষার সাথে ব্যবহার করা হয়। এই ব্লগ পোস্টে, আমরা দেখিয়েছি কিভাবে SageMaker-এ Amazon Redshift এবং RStudio একসাথে ব্যবহার করে ব্যাপক ডেটাসেটের উপর দক্ষতার সাথে বিশ্লেষণ করতে হয়। SageMaker-এ RStudio ব্যবহার করে, ব্যবহারকারীরা সেজমেকারের সম্পূর্ণরূপে পরিচালিত পরিকাঠামো, অ্যাক্সেস কন্ট্রোল, নেটওয়ার্কিং এবং নিরাপত্তা ক্ষমতার সুবিধা নিতে পারে, পাশাপাশি অ্যামাজন রেডশিফ্টের সাথে একীভূতকরণকেও সহজ করে। আপনি যদি এই দুটি টুল একসাথে ব্যবহার করার বিষয়ে আরও জানতে চান তবে আমাদের অন্যান্য ব্লগ পোস্ট এবং সংস্থানগুলি দেখুন। আপনি নিজের জন্য SageMaker এবং Amazon Redshift-এ RStudio ব্যবহার করার চেষ্টা করতে পারেন এবং দেখতে পারেন কীভাবে তারা আপনার ডেটা বিশ্লেষণ এবং মডেলিং কাজগুলিতে আপনাকে সাহায্য করতে পারে।
এই ব্লগে আপনার প্রতিক্রিয়া যোগ করুন, অথবা একটি টান অনুরোধ তৈরি করুন GitHub.
লেখক সম্পর্কে
রায়ান গারনার AWS প্রফেশনাল সার্ভিসের সাথে একজন ডেটা সায়েন্টিস্ট। তিনি AWS গ্রাহকদের তাদের ডেটা সায়েন্স এবং মেশিন লার্নিং সমস্যা সমাধানের জন্য R ব্যবহার করতে সাহায্য করার জন্য উত্সাহী৷
রাজ পাঠক আর্থিক পরিষেবা (বীমা, ব্যাঙ্কিং, ক্যাপিটাল মার্কেটস) এবং মেশিন লার্নিং-এ বিশেষজ্ঞ একজন সিনিয়র সলিউশন আর্কিটেক্ট এবং প্রযুক্তিবিদ৷ তিনি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (এনএলপি), বড় ভাষা মডেল (এলএলএম) এবং মেশিন লার্নিং অবকাঠামো এবং অপারেশন প্রকল্পে (এমএলওপি) বিশেষজ্ঞ।
অদিতি রজনীশ ওয়াটারলু ইউনিভার্সিটির দ্বিতীয় বর্ষের সফটওয়্যার ইঞ্জিনিয়ারিং এর ছাত্র। তার আগ্রহের মধ্যে রয়েছে কম্পিউটার দৃষ্টি, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং এজ কম্পিউটিং। তিনি সম্প্রদায়-ভিত্তিক STEM আউটরিচ এবং অ্যাডভোকেসি সম্পর্কে উত্সাহী। তার অবসর সময়ে, তাকে রক ক্লাইম্বিং, পিয়ানো বাজাতে বা নিখুঁত স্কোন কীভাবে বেক করতে হয় তা শিখতে দেখা যায়।
সাইতেজা পুড়ি ডালাস, Tx-এ অবস্থিত AWS-এর একজন সলিউশন আর্কিটেক্ট। তিনি এখন 3 বছরেরও বেশি সময় ধরে AWS-এর সাথে রয়েছেন, গ্রাহকদের তাদের বিশ্বস্ত উপদেষ্টা হয়ে AWS-এর সত্যিকারের সম্ভাবনা খুঁজে পেতে সহায়তা করছেন৷ তিনি একটি অ্যাপ্লিকেশন ডেভেলপমেন্ট ব্যাকগ্রাউন্ড থেকে এসেছেন, ডেটা সায়েন্স এবং মেশিন লার্নিংয়ে আগ্রহী।
- AI
- ai শিল্প
- এআই আর্ট জেনারেটর
- আইআই রোবট
- আমাজন রেডশিফ্ট
- আমাজন সেজমেকার
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তা সার্টিফিকেশন
- ব্যাংকিং এ কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তা সফ্টওয়্যার
- এডাব্লুএস মেশিন লার্নিং
- blockchain
- ব্লকচেইন সম্মেলন এআই
- coingenius
- কথোপকথন কৃত্রিম বুদ্ধিমত্তা
- ক্রিপ্টো সম্মেলন এআই
- ডাল-ই
- গভীর জ্ঞানার্জন
- বিশেষজ্ঞ (400)
- গুগল আই
- মেশিন লার্নিং
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটো গেম
- প্লেটোডাটা
- প্লেটোগেমিং
- স্কেল ai
- বাক্য গঠন
- টেকনিক্যাল হাউ-টু
- zephyrnet