ডেটা সায়েন্স এবং ডেটা ইঞ্জিনিয়ারিং দলগুলি তাদের সময়ের একটি উল্লেখযোগ্য অংশ একটি মেশিন লার্নিং (ML) জীবনচক্রের ডেটা প্রস্তুতি পর্বে ডেটা নির্বাচন, পরিষ্কার করা এবং রূপান্তর পদক্ষেপগুলি সম্পাদন করে। অর্থপূর্ণ অন্তর্দৃষ্টি এবং ভবিষ্যদ্বাণী তৈরি করার জন্য এটি যেকোনো ML কর্মপ্রবাহের একটি প্রয়োজনীয় এবং গুরুত্বপূর্ণ পদক্ষেপ, কারণ খারাপ বা নিম্ন-মানের ডেটা প্রাপ্ত অন্তর্দৃষ্টিগুলির প্রাসঙ্গিকতাকে অনেকাংশে কমিয়ে দেয়।
ডাটা ইঞ্জিনিয়ারিং দলগুলি প্রথাগতভাবে ডাউনস্ট্রিম খরচের জন্য কাঁচা ডেটা ইনজেশন, একত্রীকরণ এবং রূপান্তরের জন্য দায়ী। ডেটা বিজ্ঞানীদের প্রায়ই প্রাকৃতিক ভাষা এবং সময় সিরিজের মতো ডোমেন-নির্দিষ্ট এমএল ব্যবহারের ক্ষেত্রে ডেটার উপর অতিরিক্ত প্রক্রিয়াকরণ করতে হয়। উদাহরণ স্বরূপ, কিছু ML অ্যালগরিদম অনুপস্থিত মান, স্পার্স বৈশিষ্ট্য বা আউটলারের প্রতি সংবেদনশীল হতে পারে এবং বিশেষ বিবেচনার প্রয়োজন হতে পারে। এমনকি এমন ক্ষেত্রে যেখানে ডেটাসেটটি ভাল আকারে রয়েছে, ডেটা বিজ্ঞানীরা মডেলগুলি থেকে প্রাপ্ত অন্তর্দৃষ্টিগুলিকে সর্বাধিক করার জন্য বৈশিষ্ট্য বিতরণকে রূপান্তর করতে বা নতুন বৈশিষ্ট্য তৈরি করতে চাইতে পারেন। এই উদ্দেশ্যগুলি অর্জনের জন্য, ডেটা বিজ্ঞানীদের অনুরোধ করা পরিবর্তনগুলি মিটমাট করার জন্য ডেটা ইঞ্জিনিয়ারিং টিমের উপর নির্ভর করতে হবে, যার ফলে মডেল বিকাশ প্রক্রিয়ায় নির্ভরতা এবং বিলম্ব হয়। বিকল্পভাবে, ডেটা সায়েন্স দলগুলি বিভিন্ন প্রোগ্রামিং দৃষ্টান্ত ব্যবহার করে অভ্যন্তরীণভাবে ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশল সম্পাদন করতে বেছে নিতে পারে। যাইহোক, এটির জন্য লাইব্রেরি এবং ফ্রেমওয়ার্কগুলির ইনস্টলেশন এবং কনফিগারেশনে সময় এবং প্রচেষ্টার বিনিয়োগ প্রয়োজন, যা আদর্শ নয় কারণ সেই সময়টি মডেলের কার্যকারিতা অপ্টিমাইজ করার জন্য আরও ভালভাবে ব্যয় করা যেতে পারে।
অ্যামাজন সেজমেকার ডেটা র্যাংলার ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশল প্রক্রিয়াকে সহজ করে, ডেটা বিজ্ঞানীদের তাদের ডেটাসেটগুলি নির্বাচন, পরিষ্কার এবং অন্বেষণ করার জন্য একটি একক ভিজ্যুয়াল ইন্টারফেস প্রদান করে ML-এর জন্য ডেটা একত্রিত করতে এবং প্রস্তুত করতে কয়েক সপ্তাহ থেকে মিনিট পর্যন্ত সময় কমিয়ে দেয়। ডেটা র্যাংলার 300 টিরও বেশি বিল্ট-ইন ডেটা ট্রান্সফরমেশন অফার করে যাতে কোনও কোড না লিখেই বৈশিষ্ট্যগুলিকে স্বাভাবিক, রূপান্তর এবং একত্রিত করতে সহায়তা করে। আপনি একাধিক ডেটা উত্স থেকে ডেটা আমদানি করতে পারেন, যেমন অ্যামাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস৩), অ্যামাজন অ্যাথেনা, আমাজন রেডশিফ্ট, এবং তুষারকণা. আপনি এখন ব্যবহার করতে পারেন ডেটাব্রিক্স ML-এর জন্য সহজে ডেটা প্রস্তুত করতে ডেটা র্যাংলারে একটি ডেটা উৎস হিসাবে।
Databricks Lakehouse প্ল্যাটফর্ম ডেটা লেকগুলির উন্মুক্ততা, নমনীয়তা এবং মেশিন লার্নিং সমর্থন সহ ডেটা গুদামগুলির নির্ভরযোগ্যতা, শক্তিশালী শাসন এবং কর্মক্ষমতা প্রদানের জন্য ডেটা লেক এবং ডেটা গুদামগুলির সেরা উপাদানগুলিকে একত্রিত করে৷ ডেটা র্যাংলারের ডেটা উৎস হিসাবে ডেটাব্রিক্সের সাহায্যে, আপনি এখন দ্রুত এবং সহজে ডেটাব্রিক্সের সাথে সংযোগ করতে পারেন, SQL ব্যবহার করে ডেটাব্রিক্সে সংরক্ষিত ডেটা ইন্টারেক্টিভভাবে জিজ্ঞাসা করতে পারেন এবং আমদানি করার আগে ডেটার পূর্বরূপ দেখতে পারেন৷ উপরন্তু, আপনি আপনার ML ব্যবহারের ক্ষেত্রে সঠিক ডেটাসেট তৈরি করতে Amazon S3-এ সংরক্ষিত ডেটা এবং Amazon Athena, Amazon Redshift এবং Snowflake-এর মাধ্যমে অনুসন্ধান করা ডেটা সহ ডেটাব্রিক্সে আপনার ডেটা যোগ করতে পারেন।
এই পোস্টে, আমরা এমএল মডেল প্রশিক্ষণে ব্যবহারের জন্য অ্যামাজন সেজমেকার ডেটা র্যাংলার ব্যবহার করে লেন্ডিং ক্লাব লোন ডেটাসেট রূপান্তর করি।
সমাধান ওভারভিউ
নিম্নলিখিত চিত্রটি আমাদের সমাধান আর্কিটেকচারের চিত্র তুলে ধরেছে।
লেন্ডিং ক্লাব লোন ডেটাসেটে বর্তমান ঋণের অবস্থা এবং সর্বশেষ অর্থপ্রদানের তথ্য সহ 2007-2011 এর মাধ্যমে জারি করা সমস্ত ঋণের সম্পূর্ণ লোন ডেটা রয়েছে। এটিতে 39,717টি সারি, 22টি বৈশিষ্ট্য কলাম এবং 3টি লক্ষ্য লেবেল রয়েছে৷
ডেটা র্যাংলার ব্যবহার করে আমাদের ডেটা রূপান্তর করতে, আমরা নিম্নলিখিত উচ্চ-স্তরের পদক্ষেপগুলি সম্পূর্ণ করি:
- ডেটাসেট ডাউনলোড করুন এবং বিভক্ত করুন।
- একটি ডেটা র্যাংলার ফ্লো তৈরি করুন।
- Databricks থেকে Data Wrangler এ ডেটা আমদানি করুন।
- Amazon S3 থেকে Data Wrangler-এ ডেটা আমদানি করুন।
- তথ্য যোগদান.
- রূপান্তর প্রয়োগ করুন।
- ডেটাসেট রপ্তানি করুন।
পূর্বশর্ত
পোস্টটি অনুমান করে যে আপনার একটি চলমান ডেটাব্রিক্স ক্লাস্টার রয়েছে। যদি আপনার ক্লাস্টার AWS-এ চলছে, তাহলে যাচাই করুন যে আপনি নিম্নলিখিত কনফিগার করেছেন:
ডেটাব্রিক্স সেটআপ
- An উদাহরণ প্রোফাইল একটি S3 বালতি অ্যাক্সেস করার জন্য প্রয়োজনীয় অনুমতি সহ
- A বালতি নীতি লক্ষ্য S3 বালতি জন্য প্রয়োজনীয় অনুমতি সঙ্গে
অনুসরণ করা ইনস্ট্যান্স প্রোফাইল ব্যবহার করে S3 বালতিতে নিরাপদ অ্যাক্সেস প্রয়োজনীয় জন্য এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (IAM) ভূমিকা, S3 বাকেট নীতি, এবং Databricks ক্লাস্টার কনফিগারেশন। Databricks ক্লাস্টার সঠিকভাবে কনফিগার করা হয়েছে তা নিশ্চিত করুন Instance Profile
, পছন্দসই S3 বালতি অ্যাক্সেস করতে, উন্নত বিকল্পগুলির অধীনে নির্বাচিত।
Databricks ক্লাস্টার তৈরি হওয়ার পরে এবং Amazon S3-তে প্রয়োজনীয় অ্যাক্সেস সহ চলমান, আপনি আনতে পারেন JDBC URL
আপনার ডেটাব্রিক্স ক্লাস্টার থেকে ডেটা র্যাংলার এটির সাথে সংযোগ করতে ব্যবহার করবে।
JDBC URL আনুন
JDBC URL আনতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- Databricks-এ, ক্লাস্টার UI-এ নেভিগেট করুন।
- আপনার ক্লাস্টার চয়ন করুন.
- উপরে কনফিগারেশন ট্যাব, চয়ন করুন উন্নত বিকল্প.
- অধীনে উন্নত বিকল্প, পছন্দ করা JDBC/ODBC ট্যাব।
- JDBC URL কপি করুন।
আপনার ব্যক্তিগত অ্যাক্সেস প্রতিস্থাপন নিশ্চিত করুন টোকেন URL-এ।
ডেটা র্যাংলার সেটআপ
এই পদক্ষেপটি অনুমান করে যে আপনার কাছে অ্যামাজন সেজমেকার অ্যাক্সেস রয়েছে, একটি উদাহরণ অ্যামাজন সেজমেকার স্টুডিও, এবং একজন স্টুডিও ব্যবহারকারী।
ডেটা র্যাংলার থেকে ডেটাব্রিক্স জেডিবিসি সংযোগে অ্যাক্সেসের অনুমতি দেওয়ার জন্য, স্টুডিও ব্যবহারকারীর নিম্নলিখিত অনুমতি প্রয়োজন:
secretsmanager:PutResourcePolicy
IAM অ্যাডমিনিস্ট্রেটিভ ব্যবহারকারী হিসাবে উপরে অনুমতি নিয়ে স্টুডিও ব্যবহারকারীকে দেওয়া আইএএম এক্সিকিউশন রোল আপডেট করতে নিচের ধাপগুলি অনুসরণ করুন।
- আইএএম কনসোলে, নির্বাচন করুন ভূমিকা নেভিগেশন ফলকে।
- আপনার স্টুডিও ব্যবহারকারীকে দেওয়া ভূমিকা বেছে নিন।
- বেছে নিন অনুমতি যোগ করুন.
- বেছে নিন ইনলাইন নীতি তৈরি করুন.
- পরিষেবার জন্য, নির্বাচন করুন সিক্রেটস ম্যানেজার.
- On কার্যপ্রণালীনির্বাচন অ্যাক্সেস লেভেল.
- বেছে নিন অনুমতি ব্যবস্থাপনা.
- বেছে নিন পুটরিসোর্স পলিসি.
- জন্য Resourcesনির্বাচন নির্দিষ্ট এবং নির্বাচন করুন এই অ্যাকাউন্টে যে কোনো.
ডেটাসেট ডাউনলোড করুন এবং বিভক্ত করুন
আপনি দ্বারা শুরু করতে পারেন ডেটাসেট ডাউনলোড করা হচ্ছে. প্রদর্শনের উদ্দেশ্যে, আমরা বৈশিষ্ট্য কলামগুলি অনুলিপি করে ডেটাসেটকে বিভক্ত করি id
, emp_title
, emp_length
, home_owner
, এবং annual_inc
একটি সেকেন্ড তৈরি করতে loans_2.csv ফাইল আমরা মূল লোন ফাইল থেকে পূর্বোক্ত কলামগুলি বাদ দিয়ে সরিয়ে ফেলি id
কলাম এবং মূল ফাইলের নাম পরিবর্তন করুন loans_1.csv. আপলোড করুন loans_1.csv ফাইলের জন্য ডেটাব্রিক্স একটি টেবিল তৈরি করতে loans_1
এবং loans_2.csv একটি S3 বালতিতে।
একটি ডেটা র্যাংলার ফ্লো তৈরি করুন
ডেটা র্যাংলারের প্রাক-প্রয়োজনীয় তথ্যের জন্য, দেখুন ডেটা র্যাংলার দিয়ে শুরু করুন.
একটি নতুন ডেটা ফ্লো তৈরি করে শুরু করা যাক।
- স্টুডিও কনসোলে, তে ফাইল মেনু, নির্বাচন করুন নতুন.
- বেছে নিন ডেটা র্যাংলার প্রবাহ.
- পছন্দসই প্রবাহের নাম পরিবর্তন করুন।
বিকল্পভাবে, আপনি লঞ্চার থেকে একটি নতুন ডেটা প্রবাহ তৈরি করতে পারেন৷
একটি নতুন প্রবাহ তৈরি করা সম্পূর্ণ হতে কয়েক মিনিট সময় নিতে পারে৷ প্রবাহ তৈরি হওয়ার পরে, আপনি দেখতে পাবেন তথ্য আমদানি পাতা.
Databricks থেকে Data Wrangler এ ডেটা আমদানি করুন
এর পরে, আমরা ডেটা র্যাংলারে ডেটার উৎস হিসাবে ডেটাব্রিক্স (জেডিবিসি) সেট আপ করি। Databricks থেকে ডেটা আমদানি করতে, আমাদের প্রথমে Databricks যোগ করতে হবে ডেটা উৎস হিসেবে।
- উপরে তথ্য আমদানি আপনার ডেটা র্যাংলার ফ্লো ট্যাব, নির্বাচন করুন ডেটা উত্স যুক্ত করুন.
- ড্রপ-ডাউন মেনুতে, চয়ন করুন ডেটাব্রিক্স (জেডিবিসি).
উপরে Databricks থেকে ডেটা আমদানি করুন পৃষ্ঠায়, আপনি আপনার ক্লাস্টারের বিবরণ লিখুন।
- জন্য ডাটাসেটের নাম, একটি নাম লিখুন যা আপনি ফ্লো ফাইলে ব্যবহার করতে চান।
- জন্য চালক, ড্রাইভার নির্বাচন করুন
com.simba.spark.jdbc.Driver
. - জন্য JDBC URL, আগে প্রাপ্ত আপনার Databricks ক্লাস্টারের URL লিখুন।
URL নিম্নলিখিত বিন্যাস অনুরূপ করা উচিত jdbc:spark://<serve- hostname>:443/default;transportMode=http;ssl=1;httpPath=<http- path>;AuthMech=3;UID=token;PWD=<personal-access-token>
.
- SQL ক্যোয়ারী এডিটরে, নিম্নলিখিত SQL SELECT স্টেটমেন্ট উল্লেখ করুন:
Databricks-এ ডেটা আপলোড করার সময় আপনি যদি একটি ভিন্ন টেবিলের নাম বেছে নেন, তাহলে সেই অনুযায়ী উপরের SQL ক্যোয়ারীতে লোন_1 প্রতিস্থাপন করুন।
মধ্যে এসকিউএল কোয়েরি ডেটা র্যাংলারের বিভাগে, আপনি জেডিবিসি ডেটাব্রিক্স ডাটাবেসের সাথে সংযুক্ত যে কোনও টেবিলের জন্য প্রশ্ন করতে পারেন। প্রাক-নির্বাচিত স্যাম্পলিং সক্ষম করুন সেটিং ডিফল্টরূপে আপনার ডেটাসেটের প্রথম 50,000 সারি পুনরুদ্ধার করে। ডেটাসেটের আকারের উপর নির্ভর করে, অনির্বাচন করা হচ্ছে স্যাম্পলিং সক্ষম করুন দীর্ঘ আমদানি সময় হতে পারে.
- বেছে নিন চালান.
ক্যোয়ারী চালানোর ফলে সরাসরি ডেটা র্যাংলারে আপনার ডেটাব্রিক্স ডেটাসেটের একটি পূর্বরূপ দেখা যায়।
ডেটা র্যাংলার একটি ডেটাব্রিক্স ক্লাস্টার বা একাধিক ক্লাস্টারে একাধিক সমসাময়িক সংযোগ স্থাপন করার নমনীয়তা প্রদান করে, যদি প্রয়োজন হয়, সম্মিলিত ডেটাসেটের বিশ্লেষণ এবং প্রস্তুতি সক্ষম করে।
আমাজন S3 থেকে ডেটা র্যাংলারে ডেটা আমদানি করুন
পরবর্তী, এর আমদানি করা যাক loan_2.csv
Amazon S3 থেকে ফাইল।
- আমদানি ট্যাবে, নির্বাচন করুন আমাজন S3 তথ্য উৎস হিসাবে।
- এর জন্য S3 বালতিতে নেভিগেট করুন
loan_2.csv
ফাইল.
আপনি যখন CSV ফাইলটি নির্বাচন করেন, আপনি ডেটার পূর্বরূপ দেখতে পারেন।
- মধ্যে বিস্তারিত ফলক, চয়ন করুন উন্নত কনফিগারেশন নিশ্চিত করুন স্যাম্পলিং সক্ষম করুন নির্বাচিত হয় এবং অনুচ্ছেদে জন্য নির্বাচিত হয় বিভেদক.
- বেছে নিন আমদানি.
পরে loans_2.csv
ডেটাসেট সফলভাবে আমদানি করা হয়েছে, ডেটা ফ্লো ইন্টারফেস ডেটাব্রিক্স JDBC এবং Amazon S3 ডেটা উত্স উভয়ই প্রদর্শন করে।
তথ্য যোগদান
এখন যেহেতু আমরা Databricks এবং Amazon S3 থেকে ডেটা আমদানি করেছি, আসুন একটি সাধারণ অনন্য শনাক্তকারী কলাম ব্যবহার করে ডেটাসেটে যোগদান করি।
- উপরে তথ্য প্রবাহ ট্যাব, জন্য তথ্যের ধরণ, এর জন্য প্লাস চিহ্ন নির্বাচন করুন
loans_1
. - বেছে নিন যোগদান.
- পছন্দ
loans_2.csv
হিসাবে ফাইল অধিকার ডেটাসেট - বেছে নিন কনফিগার করুন যোগদানের মানদণ্ড সেট আপ করতে।
- জন্য নামযোগদানের জন্য একটি নাম লিখুন।
- জন্য যোগদানের ধরননির্বাচন ভিতরের এই পোস্টের জন্য।
- পছন্দ
id
যোগদানের জন্য কলাম। - বেছে নিন প্রয়োগ করা যোগ করা ডেটাসেটের পূর্বরূপ দেখতে।
- বেছে নিন বিজ্ঞাপন ডাটা ফ্লোতে যোগ করতে।
রূপান্তর প্রয়োগ করুন
ডেটা র্যাংলার 300 টিরও বেশি বিল্ট-ইন ট্রান্সফর্মের সাথে আসে, যার জন্য কোন কোডিং প্রয়োজন হয় না। ডেটাসেট প্রস্তুত করতে বিল্ট-ইন ট্রান্সফর্ম ব্যবহার করা যাক।
কলাম ড্রপ করুন
প্রথমে আমরা অপ্রয়োজনীয় আইডি কলামটি ফেলে দিই।
- যোগ করা নোডে, প্লাস চিহ্নটি নির্বাচন করুন।
- বেছে নিন রূপান্তর যোগ করুন.
- অধীনে রূপান্তর, পছন্দ + ধাপ যোগ করুন.
- বেছে নিন কলাম পরিচালনা করুন.
- জন্য রুপান্তরনির্বাচন কলাম ড্রপ করুন.
- জন্য কলাম ড্রপ, কলাম নির্বাচন করুন
id_0
. - বেছে নিন প্রি.
- বেছে নিন বিজ্ঞাপন.
ফর্ম্যাট স্ট্রিং
এর থেকে শতাংশ চিহ্ন সরাতে স্ট্রিং বিন্যাস প্রয়োগ করা যাক int_rate
এবং revol_util
কলাম.
- উপরে উপাত্ত ট্যাব, অধীনে বদলে দেয়নির্বাচন + ধাপ যোগ করুন.
- বেছে নিন ফর্ম্যাট স্ট্রিং.
- জন্য রুপান্তরনির্বাচন ডান থেকে অক্ষর ফালা.
ডেটা র্যাংলার আপনাকে একাধিক কলামে একই সাথে আপনার নির্বাচিত রূপান্তর প্রয়োগ করতে দেয়।
- জন্য ইনপুট কলামনির্বাচন
int_rate
এবংrevol_util
. - জন্য অক্ষর অপসারণপ্রবেশ করান
%
. - বেছে নিন প্রি.
- বেছে নিন বিজ্ঞাপন.
টেক্সট বৈশিষ্ট্যযুক্ত
এখন ভেক্টরাইজ করা যাক verification_status
, একটি পাঠ্য বৈশিষ্ট্য কলাম। আমরা টেক্সট কলামটিকে শব্দ ফ্রিকোয়েন্সি-ইনভার্স ডকুমেন্ট ফ্রিকোয়েন্সি (TF-IDF) ভেক্টরে রূপান্তর করি কাউন্ট ভেক্টরাইজার এবং নীচে বর্ণিত একটি স্ট্যান্ডার্ড টোকেনাইজার প্রয়োগ করে। ডেটা র্যাংলার চাইলে আপনার নিজস্ব টোকেনাইজার আনার বিকল্পও প্রদান করে।
- অধীনে ট্রান্সফরমারনির্বাচন + ধাপ যোগ করুন.
- বেছে নিন টেক্সট বৈশিষ্ট্যযুক্ত.
- জন্য রুপান্তরনির্বাচন ভেক্টরাইজ করুন.
- জন্য ইনপুট কলামনির্বাচন
verification_status
. - বেছে নিন প্রি.
- বেছে নিন বিজ্ঞাপন.
ডেটাসেট রপ্তানি করুন
আমরা টেক্সট, ক্যাটাগরিকাল এবং নিউমেরিক সহ বিভিন্ন কলামের প্রকারে একাধিক রূপান্তর প্রয়োগ করার পরে, আমরা ML মডেল প্রশিক্ষণের জন্য রূপান্তরিত ডেটাসেট ব্যবহার করতে প্রস্তুত। শেষ ধাপ হল রূপান্তরিত ডেটাসেটটি Amazon S3 এ রপ্তানি করা। ডেটা র্যাংলারে, আপনার কাছে ট্রান্সফর্মেশনের ডাউনস্ট্রিম খরচের জন্য বেছে নেওয়ার জন্য একাধিক বিকল্প রয়েছে:
- বেছে নিন রফতানি পদক্ষেপ প্রক্রিয়াকরণের জন্য সেজমেকার প্রসেসিং কোড সহ একটি জুপিটার নোটবুক স্বয়ংক্রিয়ভাবে তৈরি করতে এবং রূপান্তরিত ডেটাসেটটিকে একটি S3 বালতিতে রপ্তানি করতে। আরও তথ্যের জন্য, দেখুন Amazon SageMaker Data Wrangler ব্যবহার করে কয়েক ক্লিকে প্রসেসিং কাজ চালু করুন.
- একটি স্টুডিও নোটবুক রপ্তানি করুন যা একটি তৈরি করে সেজমেকার পাইপলাইন আপনার ডেটা প্রবাহ, বা একটি নোটবুক যা একটি তৈরি করে আমাজন সেজমেকার ফিচার স্টোর বৈশিষ্ট্য গোষ্ঠী এবং একটি অফলাইন বা অনলাইন বৈশিষ্ট্য দোকানে বৈশিষ্ট্য যোগ করে।
- বেছে নিন রপ্তানি তথ্য সরাসরি Amazon S3 এ রপ্তানি করতে।
এই পোস্টে, আমরা সুবিধা নিতে রপ্তানি তথ্য বিকল্প মধ্যে রুপান্তর রূপান্তরিত ডেটাসেট সরাসরি Amazon S3 এ রপ্তানি করতে দেখুন।
- বেছে নিন রপ্তানি তথ্য.
- জন্য S3 অবস্থাননির্বাচন ব্রাউজ করুন এবং আপনার S3 বালতি চয়ন করুন।
- বেছে নিন রপ্তানি তথ্য.
পরিষ্কার কর
যদি ডেটা র্যাংলারের সাথে আপনার কাজ সম্পূর্ণ হয়, আপনার ডেটা র্যাংলার উদাহরণ বন্ধ করুন অতিরিক্ত ফি ব্যয় এড়াতে।
উপসংহার
এই পোস্টে, আমরা কভার করেছি কিভাবে আপনি ডাটা র্যাংলারে ডাটা সোর্স হিসেবে ডাটাব্রিক্সকে দ্রুত এবং সহজে সেট আপ করতে এবং সংযোগ করতে পারেন, এসকিউএল ব্যবহার করে ডেটাব্রিক্সে সংরক্ষিত ডেটা ইন্টারেক্টিভভাবে জিজ্ঞাসা করতে পারেন এবং আমদানি করার আগে ডেটার পূর্বরূপ দেখতে পারেন। উপরন্তু, আমরা দেখেছি যে আপনি কীভাবে আমাজন S3-এ সঞ্চিত ডেটার সাথে ডেটাব্রিক্সে আপনার ডেটা যোগ করতে পারেন। তারপরে আমরা ডেটা প্রস্তুতির পাইপলাইন তৈরি করতে সম্মিলিত ডেটাসেটে ডেটা রূপান্তর প্রয়োগ করেছি। লক্ষ্য ফাঁস এবং পক্ষপাত প্রতিবেদন তৈরি সহ আরও ডেটা র্যাংলারের বিশ্লেষণ ক্ষমতাগুলি অন্বেষণ করতে, নিম্নলিখিত ব্লগ পোস্টটি পড়ুন ডায়াবেটিক রোগীর ভর্তির পূর্বাভাসের জন্য অ্যামাজন সেজমেকার ডেটা র্যাংলার ব্যবহার করে ডেটা প্রস্তুতি ত্বরান্বিত করুন.
ডেটা র্যাংলার দিয়ে শুরু করতে, দেখুন অ্যামাজন সেজমেকার ডেটা র্যাংলার সহ এমএল ডেটা প্রস্তুত করুন, এবং ডেটা র্যাংলারের সর্বশেষ তথ্য দেখুন পণ্য পাতা.
লেখক সম্পর্কে
রূপ বেইনস AWS-এর একজন সলিউশন আর্কিটেক্ট যিনি AI/ML-এ ফোকাস করছেন। তিনি কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং ব্যবহার করে গ্রাহকদের উদ্ভাবন এবং তাদের ব্যবসায়িক উদ্দেশ্য অর্জনে সহায়তা করার বিষয়ে উত্সাহী। অবসর সময়ে, রূপ পড়া এবং হাইকিং উপভোগ করে।
Igor Alekseev ডেটা এবং অ্যানালিটিক্সে AWS-এর একজন পার্টনার সলিউশন আর্কিটেক্ট। ইগর কৌশলগত অংশীদারদের সাথে কাজ করে তাদের জটিল, AWS-অপ্টিমাইজ করা আর্কিটেকচার তৈরি করতে সাহায্য করে। AWS-এ যোগদানের আগে, ডেটা/সলিউশন আর্কিটেক্ট হিসাবে, তিনি Hadoop ইকোসিস্টেমের বেশ কয়েকটি ডেটা লেক সহ বিগ ডেটাতে অনেকগুলি প্রকল্প বাস্তবায়ন করেছিলেন। একজন ডেটা ইঞ্জিনিয়ার হিসাবে, তিনি জালিয়াতি সনাক্তকরণ এবং অফিস অটোমেশনে AI/ML প্রয়োগের সাথে জড়িত ছিলেন। ইগরের প্রকল্পগুলি যোগাযোগ, অর্থ, জননিরাপত্তা, উত্পাদন এবং স্বাস্থ্যসেবা সহ বিভিন্ন শিল্পে ছিল। এর আগে, ইগর সম্পূর্ণ স্ট্যাক ইঞ্জিনিয়ার/টেক লিড হিসাবে কাজ করেছিলেন।
হুং Nguyen AWS-এর একজন সিনিয়র প্রোডাক্ট ম্যানেজার। তিনি সেজমেকার স্টুডিওর জন্য ব্যবহারকারীর অভিজ্ঞতার নেতৃত্ব দিচ্ছেন। এন্টারপ্রাইজ এবং কনজিউমার স্পেস উভয়ের জন্যই গ্রাহক-আবিষ্ট এবং ডেটা-চালিত পণ্য তৈরি করার 13 বছরের অভিজ্ঞতা রয়েছে তার। তার অবসর সময়ে, তিনি পড়তে, প্রকৃতিতে থাকা এবং তার পরিবারের সাথে সময় কাটাতে উপভোগ করেন।
হেনরি ওয়াং AWS-এর একজন সফটওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার। তিনি সম্প্রতি ইউসি ডেভিস থেকে স্নাতক হওয়ার পরে ডেটা র্যাংলার দলে যোগদান করেছেন। ডেটা সায়েন্স এবং মেশিন লার্নিং-এ তার আগ্রহ আছে এবং শখ হিসেবে 3D প্রিন্টিং করেন।
- Coinsmart. ইউরোপের সেরা বিটকয়েন এবং ক্রিপ্টো এক্সচেঞ্জ।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. বিনামূল্যে এক্সেস.
- ক্রিপ্টোহক। Altcoin রাডার। বিনামূল্যে ট্রায়াল.
- সূত্র: https://aws.amazon.com/blogs/machine-learning/prepare-data-from-databricks-for-machine-learning-using-amazon-sagemaker-data-wrangler/
- "
- 000
- 100
- 39
- 3d
- সম্পর্কে
- প্রবেশ
- মিটমাট করা
- অতিরিক্ত
- অগ্রসর
- সুবিধা
- আলগোরিদিম
- সব
- মর্দানী স্ত্রীলোক
- বিশ্লেষণ
- বৈশ্লেষিক ন্যায়
- প্রয়োগ করা হচ্ছে
- স্থাপত্য
- কৃত্রিম
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম গোয়েন্দা এবং মেশিন লার্নিং
- নির্ধারিত
- স্বয়ংক্রিয়তা
- ডেস্কটপ AWS
- হচ্ছে
- সর্বোত্তম
- বড় ডেটা
- ব্লগ
- সীমান্ত
- নির্মাণ করা
- বিল্ট-ইন
- ব্যবসায়
- ক্ষমতা
- মামলা
- বেছে নিন
- পরিস্কার করা
- ক্লাব
- কোড
- কোডিং
- স্তম্ভ
- মিলিত
- সাধারণ
- যোগাযোগমন্ত্রী
- জটিল
- কনফিগারেশন
- সংযুক্ত
- সংযোগ
- সংযোগ
- বিবেচনা
- কনসোল
- একত্রীকরণের
- ভোক্তা
- খরচ
- ধারণ
- নির্মিত
- সৃষ্টি
- তৈরি করা হচ্ছে
- বর্তমান
- গ্রাহকদের
- উপাত্ত
- তথ্য বিজ্ঞান
- ডেটাবেস
- বিলম্ব
- নির্ভর করে
- সনাক্তকরণ
- উন্নয়ন
- বিভিন্ন
- সরাসরি
- প্রদর্শন
- নিচে
- চালক
- ড্রপ
- সহজে
- বাস্তু
- সম্পাদক
- সক্ষম করা
- সক্রিয়
- প্রকৌশলী
- প্রকৌশল
- প্রবেশ করান
- উদ্যোগ
- উদাহরণ
- ছাড়া
- ফাঁসি
- অভিজ্ঞতা
- অন্বেষণ করুণ
- পরিবার
- বৈশিষ্ট্য
- বৈশিষ্ট্য
- ফি
- অর্থ
- প্রথম
- নমনীয়তা
- প্রবাহ
- অনুসরণ
- বিন্যাস
- প্রতারণা
- সম্পূর্ণ
- উত্পাদন করা
- প্রজন্ম
- ভাল
- শাসন
- গ্রুপ
- স্বাস্থ্যসেবা
- সাহায্য
- কিভাবে
- HTTPS দ্বারা
- পরিচয়
- বাস্তবায়িত
- গুরুত্বপূর্ণ
- আমদানি
- সুদ্ধ
- শিল্প
- তথ্য
- অর্ন্তদৃষ্টি
- বুদ্ধিমত্তা
- স্বার্থ
- ইন্টারফেস
- বিনিয়োগ
- জড়িত
- IT
- জবস
- যোগদানের
- যোগদান
- লেবেলগুলি
- ভাষা
- সর্বশেষ
- নেতৃত্ব
- নেতৃত্ব
- শিক্ষা
- ঋণদান
- ঋণ
- তাকিয়ে
- মেশিন
- মেশিন লার্নিং
- পরিচালক
- উত্পাদন
- ML
- মডেল
- মডেল
- অধিক
- বহু
- প্রাকৃতিক
- প্রকৃতি
- ন্যাভিগেশন
- নতুন বৈশিষ্ট
- নোটবই
- অফার
- অফলাইন
- অনলাইন
- পছন্দ
- অপশন সমূহ
- ক্রম
- নিজের
- হাসপাতাল
- অংশীদারদের
- কামুক
- প্রদান
- শতকরা হার
- কর্মক্ষমতা
- ব্যক্তিগত
- ফেজ
- মাচা
- নীতি
- ভবিষ্যতবাণী
- প্রি
- প্রক্রিয়া
- পণ্য
- পণ্য
- প্রোগ্রামিং
- প্রকল্প
- উপলব্ধ
- প্রদানের
- প্রকাশ্য
- উদ্দেশ্য
- দ্রুত
- কাঁচা
- পড়া
- হ্রাস
- রিপোর্ট
- প্রয়োজন
- প্রয়োজনীয়
- দায়ী
- দৌড়
- নিরাপত্তা
- বিজ্ঞান
- বিজ্ঞানীরা
- নির্বাচিত
- ক্রম
- সেবা
- সেট
- বিন্যাস
- গুরুত্বপূর্ণ
- সহজ
- আয়তন
- সফটওয়্যার
- সফটওয়্যার উন্নয়ন
- সমাধান
- সলিউশন
- শূণ্যস্থান
- ব্যয় করা
- খরচ
- বিভক্ত করা
- গাদা
- মান
- শুরু
- শুরু
- বিবৃতি
- অবস্থা
- স্টোরেজ
- দোকান
- কৌশলগত
- শক্তিশালী
- চিত্রশালা
- সফলভাবে
- সমর্থন
- লক্ষ্য
- টীম
- দ্বারা
- সময়
- প্রশিক্ষণ
- রুপান্তর
- রুপান্তর
- ui
- অনন্য
- আপডেট
- ব্যবহার
- বৈচিত্র্য
- বিভিন্ন
- যখন
- ছাড়া
- হয়া যাই ?
- কাজ করছে
- কাজ
- লেখা