অ্যামাজন সেজমেকার ডেটা র্যাংলার ব্যবহার করে মেশিন লার্নিংয়ের জন্য ডেটাব্রিক্স থেকে ডেটা প্রস্তুত করুন

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

ডেটা সায়েন্স এবং ডেটা ইঞ্জিনিয়ারিং দলগুলি তাদের সময়ের একটি উল্লেখযোগ্য অংশ একটি মেশিন লার্নিং (ML) জীবনচক্রের ডেটা প্রস্তুতি পর্বে ডেটা নির্বাচন, পরিষ্কার করা এবং রূপান্তর পদক্ষেপগুলি সম্পাদন করে। অর্থপূর্ণ অন্তর্দৃষ্টি এবং ভবিষ্যদ্বাণী তৈরি করার জন্য এটি যেকোনো ML কর্মপ্রবাহের একটি প্রয়োজনীয় এবং গুরুত্বপূর্ণ পদক্ষেপ, কারণ খারাপ বা নিম্ন-মানের ডেটা প্রাপ্ত অন্তর্দৃষ্টিগুলির প্রাসঙ্গিকতাকে অনেকাংশে কমিয়ে দেয়।

ডাটা ইঞ্জিনিয়ারিং দলগুলি প্রথাগতভাবে ডাউনস্ট্রিম খরচের জন্য কাঁচা ডেটা ইনজেশন, একত্রীকরণ এবং রূপান্তরের জন্য দায়ী। ডেটা বিজ্ঞানীদের প্রায়ই প্রাকৃতিক ভাষা এবং সময় সিরিজের মতো ডোমেন-নির্দিষ্ট এমএল ব্যবহারের ক্ষেত্রে ডেটার উপর অতিরিক্ত প্রক্রিয়াকরণ করতে হয়। উদাহরণ স্বরূপ, কিছু ML অ্যালগরিদম অনুপস্থিত মান, স্পার্স বৈশিষ্ট্য বা আউটলারের প্রতি সংবেদনশীল হতে পারে এবং বিশেষ বিবেচনার প্রয়োজন হতে পারে। এমনকি এমন ক্ষেত্রে যেখানে ডেটাসেটটি ভাল আকারে রয়েছে, ডেটা বিজ্ঞানীরা মডেলগুলি থেকে প্রাপ্ত অন্তর্দৃষ্টিগুলিকে সর্বাধিক করার জন্য বৈশিষ্ট্য বিতরণকে রূপান্তর করতে বা নতুন বৈশিষ্ট্য তৈরি করতে চাইতে পারেন। এই উদ্দেশ্যগুলি অর্জনের জন্য, ডেটা বিজ্ঞানীদের অনুরোধ করা পরিবর্তনগুলি মিটমাট করার জন্য ডেটা ইঞ্জিনিয়ারিং টিমের উপর নির্ভর করতে হবে, যার ফলে মডেল বিকাশ প্রক্রিয়ায় নির্ভরতা এবং বিলম্ব হয়। বিকল্পভাবে, ডেটা সায়েন্স দলগুলি বিভিন্ন প্রোগ্রামিং দৃষ্টান্ত ব্যবহার করে অভ্যন্তরীণভাবে ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশল সম্পাদন করতে বেছে নিতে পারে। যাইহোক, এটির জন্য লাইব্রেরি এবং ফ্রেমওয়ার্কগুলির ইনস্টলেশন এবং কনফিগারেশনে সময় এবং প্রচেষ্টার বিনিয়োগ প্রয়োজন, যা আদর্শ নয় কারণ সেই সময়টি মডেলের কার্যকারিতা অপ্টিমাইজ করার জন্য আরও ভালভাবে ব্যয় করা যেতে পারে।

অ্যামাজন সেজমেকার ডেটা র্যাংলার ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশল প্রক্রিয়াকে সহজ করে, ডেটা বিজ্ঞানীদের তাদের ডেটাসেটগুলি নির্বাচন, পরিষ্কার এবং অন্বেষণ করার জন্য একটি একক ভিজ্যুয়াল ইন্টারফেস প্রদান করে ML-এর জন্য ডেটা একত্রিত করতে এবং প্রস্তুত করতে কয়েক সপ্তাহ থেকে মিনিট পর্যন্ত সময় কমিয়ে দেয়। ডেটা র‍্যাংলার 300 টিরও বেশি বিল্ট-ইন ডেটা ট্রান্সফরমেশন অফার করে যাতে কোনও কোড না লিখেই বৈশিষ্ট্যগুলিকে স্বাভাবিক, রূপান্তর এবং একত্রিত করতে সহায়তা করে। আপনি একাধিক ডেটা উত্স থেকে ডেটা আমদানি করতে পারেন, যেমন অ্যামাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস৩), অ্যামাজন অ্যাথেনা, আমাজন রেডশিফ্ট, এবং তুষারকণা. আপনি এখন ব্যবহার করতে পারেন ডেটাব্রিক্স ML-এর জন্য সহজে ডেটা প্রস্তুত করতে ডেটা র্যাংলারে একটি ডেটা উৎস হিসাবে।

Databricks Lakehouse প্ল্যাটফর্ম ডেটা লেকগুলির উন্মুক্ততা, নমনীয়তা এবং মেশিন লার্নিং সমর্থন সহ ডেটা গুদামগুলির নির্ভরযোগ্যতা, শক্তিশালী শাসন এবং কর্মক্ষমতা প্রদানের জন্য ডেটা লেক এবং ডেটা গুদামগুলির সেরা উপাদানগুলিকে একত্রিত করে৷ ডেটা র‍্যাংলারের ডেটা উৎস হিসাবে ডেটাব্রিক্সের সাহায্যে, আপনি এখন দ্রুত এবং সহজে ডেটাব্রিক্সের সাথে সংযোগ করতে পারেন, SQL ব্যবহার করে ডেটাব্রিক্সে সংরক্ষিত ডেটা ইন্টারেক্টিভভাবে জিজ্ঞাসা করতে পারেন এবং আমদানি করার আগে ডেটার পূর্বরূপ দেখতে পারেন৷ উপরন্তু, আপনি আপনার ML ব্যবহারের ক্ষেত্রে সঠিক ডেটাসেট তৈরি করতে Amazon S3-এ সংরক্ষিত ডেটা এবং Amazon Athena, Amazon Redshift এবং Snowflake-এর মাধ্যমে অনুসন্ধান করা ডেটা সহ ডেটাব্রিক্সে আপনার ডেটা যোগ করতে পারেন।

এই পোস্টে, আমরা এমএল মডেল প্রশিক্ষণে ব্যবহারের জন্য অ্যামাজন সেজমেকার ডেটা র্যাংলার ব্যবহার করে লেন্ডিং ক্লাব লোন ডেটাসেট রূপান্তর করি।

সমাধান ওভারভিউ

নিম্নলিখিত চিত্রটি আমাদের সমাধান আর্কিটেকচারের চিত্র তুলে ধরেছে।

লেন্ডিং ক্লাব লোন ডেটাসেটে বর্তমান ঋণের অবস্থা এবং সর্বশেষ অর্থপ্রদানের তথ্য সহ 2007-2011 এর মাধ্যমে জারি করা সমস্ত ঋণের সম্পূর্ণ লোন ডেটা রয়েছে। এটিতে 39,717টি সারি, 22টি বৈশিষ্ট্য কলাম এবং 3টি লক্ষ্য লেবেল রয়েছে৷

ডেটা র্যাংলার ব্যবহার করে আমাদের ডেটা রূপান্তর করতে, আমরা নিম্নলিখিত উচ্চ-স্তরের পদক্ষেপগুলি সম্পূর্ণ করি:

ডেটাসেট ডাউনলোড করুন এবং বিভক্ত করুন।
একটি ডেটা র্যাংলার ফ্লো তৈরি করুন।
Databricks থেকে Data Wrangler এ ডেটা আমদানি করুন।
Amazon S3 থেকে Data Wrangler-এ ডেটা আমদানি করুন।
তথ্য যোগদান.
রূপান্তর প্রয়োগ করুন।
ডেটাসেট রপ্তানি করুন।

পূর্বশর্ত

পোস্টটি অনুমান করে যে আপনার একটি চলমান ডেটাব্রিক্স ক্লাস্টার রয়েছে। যদি আপনার ক্লাস্টার AWS-এ চলছে, তাহলে যাচাই করুন যে আপনি নিম্নলিখিত কনফিগার করেছেন:

ডেটাব্রিক্স সেটআপ

An উদাহরণ প্রোফাইল একটি S3 বালতি অ্যাক্সেস করার জন্য প্রয়োজনীয় অনুমতি সহ
A বালতি নীতি লক্ষ্য S3 বালতি জন্য প্রয়োজনীয় অনুমতি সঙ্গে

অনুসরণ করা ইনস্ট্যান্স প্রোফাইল ব্যবহার করে S3 বালতিতে নিরাপদ অ্যাক্সেস প্রয়োজনীয় জন্য এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (IAM) ভূমিকা, S3 বাকেট নীতি, এবং Databricks ক্লাস্টার কনফিগারেশন। Databricks ক্লাস্টার সঠিকভাবে কনফিগার করা হয়েছে তা নিশ্চিত করুন Instance Profile, পছন্দসই S3 বালতি অ্যাক্সেস করতে, উন্নত বিকল্পগুলির অধীনে নির্বাচিত।

Databricks ক্লাস্টার তৈরি হওয়ার পরে এবং Amazon S3-তে প্রয়োজনীয় অ্যাক্সেস সহ চলমান, আপনি আনতে পারেন JDBC URL আপনার ডেটাব্রিক্স ক্লাস্টার থেকে ডেটা র্যাংলার এটির সাথে সংযোগ করতে ব্যবহার করবে।

JDBC URL আনুন

JDBC URL আনতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

Databricks-এ, ক্লাস্টার UI-এ নেভিগেট করুন।
আপনার ক্লাস্টার চয়ন করুন.
উপরে কনফিগারেশন ট্যাব, চয়ন করুন উন্নত বিকল্প.
অধীনে উন্নত বিকল্প, পছন্দ করা JDBC/ODBC ট্যাব।
JDBC URL কপি করুন।

আপনার ব্যক্তিগত অ্যাক্সেস প্রতিস্থাপন নিশ্চিত করুন টোকেন URL-এ।

ডেটা র‍্যাংলার সেটআপ

এই পদক্ষেপটি অনুমান করে যে আপনার কাছে অ্যামাজন সেজমেকার অ্যাক্সেস রয়েছে, একটি উদাহরণ অ্যামাজন সেজমেকার স্টুডিও, এবং একজন স্টুডিও ব্যবহারকারী।

ডেটা র্যাংলার থেকে ডেটাব্রিক্স জেডিবিসি সংযোগে অ্যাক্সেসের অনুমতি দেওয়ার জন্য, স্টুডিও ব্যবহারকারীর নিম্নলিখিত অনুমতি প্রয়োজন:

secretsmanager:PutResourcePolicy

IAM অ্যাডমিনিস্ট্রেটিভ ব্যবহারকারী হিসাবে উপরে অনুমতি নিয়ে স্টুডিও ব্যবহারকারীকে দেওয়া আইএএম এক্সিকিউশন রোল আপডেট করতে নিচের ধাপগুলি অনুসরণ করুন।

আইএএম কনসোলে, নির্বাচন করুন ভূমিকা নেভিগেশন ফলকে।
আপনার স্টুডিও ব্যবহারকারীকে দেওয়া ভূমিকা বেছে নিন।
বেছে নিন অনুমতি যোগ করুন.
বেছে নিন ইনলাইন নীতি তৈরি করুন.
পরিষেবার জন্য, নির্বাচন করুন সিক্রেটস ম্যানেজার.
On কার্যপ্রণালীনির্বাচন অ্যাক্সেস লেভেল.
বেছে নিন অনুমতি ব্যবস্থাপনা.
বেছে নিন পুটরিসোর্স পলিসি.
জন্য Resourcesনির্বাচন নির্দিষ্ট এবং নির্বাচন করুন এই অ্যাকাউন্টে যে কোনো.

ডেটাসেট ডাউনলোড করুন এবং বিভক্ত করুন

আপনি দ্বারা শুরু করতে পারেন ডেটাসেট ডাউনলোড করা হচ্ছে. প্রদর্শনের উদ্দেশ্যে, আমরা বৈশিষ্ট্য কলামগুলি অনুলিপি করে ডেটাসেটকে বিভক্ত করি id, emp_title, emp_length, home_owner, এবং annual_inc একটি সেকেন্ড তৈরি করতে loans_2.csv ফাইল আমরা মূল লোন ফাইল থেকে পূর্বোক্ত কলামগুলি বাদ দিয়ে সরিয়ে ফেলি id কলাম এবং মূল ফাইলের নাম পরিবর্তন করুন loans_1.csv. আপলোড করুন loans_1.csv ফাইলের জন্য ডেটাব্রিক্স একটি টেবিল তৈরি করতে loans_1 এবং loans_2.csv একটি S3 বালতিতে।

একটি ডেটা র্যাংলার ফ্লো তৈরি করুন

ডেটা র‍্যাংলারের প্রাক-প্রয়োজনীয় তথ্যের জন্য, দেখুন ডেটা র্যাংলার দিয়ে শুরু করুন.

একটি নতুন ডেটা ফ্লো তৈরি করে শুরু করা যাক।

স্টুডিও কনসোলে, তে ফাইল মেনু, নির্বাচন করুন নতুন.
বেছে নিন ডেটা র‍্যাংলার প্রবাহ.
পছন্দসই প্রবাহের নাম পরিবর্তন করুন।

বিকল্পভাবে, আপনি লঞ্চার থেকে একটি নতুন ডেটা প্রবাহ তৈরি করতে পারেন৷

স্টুডিও কনসোলে, নির্বাচন করুন অ্যামাজন সেজমেকার স্টুডিও নেভিগেশন ফলকে।
বেছে নিন নতুন ডেটা প্রবাহ.

একটি নতুন প্রবাহ তৈরি করা সম্পূর্ণ হতে কয়েক মিনিট সময় নিতে পারে৷ প্রবাহ তৈরি হওয়ার পরে, আপনি দেখতে পাবেন তথ্য আমদানি পাতা.

Databricks থেকে Data Wrangler এ ডেটা আমদানি করুন

এর পরে, আমরা ডেটা র‍্যাংলারে ডেটার উৎস হিসাবে ডেটাব্রিক্স (জেডিবিসি) সেট আপ করি। Databricks থেকে ডেটা আমদানি করতে, আমাদের প্রথমে Databricks যোগ করতে হবে ডেটা উৎস হিসেবে।

উপরে তথ্য আমদানি আপনার ডেটা র্যাংলার ফ্লো ট্যাব, নির্বাচন করুন ডেটা উত্স যুক্ত করুন.
ড্রপ-ডাউন মেনুতে, চয়ন করুন ডেটাব্রিক্স (জেডিবিসি).

উপরে Databricks থেকে ডেটা আমদানি করুন পৃষ্ঠায়, আপনি আপনার ক্লাস্টারের বিবরণ লিখুন।

জন্য ডাটাসেটের নাম, একটি নাম লিখুন যা আপনি ফ্লো ফাইলে ব্যবহার করতে চান।
জন্য চালক, ড্রাইভার নির্বাচন করুন com.simba.spark.jdbc.Driver.
জন্য JDBC URL, আগে প্রাপ্ত আপনার Databricks ক্লাস্টারের URL লিখুন।

URL নিম্নলিখিত বিন্যাস অনুরূপ করা উচিত jdbc:spark://<serve- hostname>:443/default;transportMode=http;ssl=1;httpPath=<http- path>;AuthMech=3;UID=token;PWD=<personal-access-token>.

SQL ক্যোয়ারী এডিটরে, নিম্নলিখিত SQL SELECT স্টেটমেন্ট উল্লেখ করুন:
```
select * from loans_1
```

Databricks-এ ডেটা আপলোড করার সময় আপনি যদি একটি ভিন্ন টেবিলের নাম বেছে নেন, তাহলে সেই অনুযায়ী উপরের SQL ক্যোয়ারীতে লোন_1 প্রতিস্থাপন করুন।

মধ্যে এসকিউএল কোয়েরি ডেটা র্যাংলারের বিভাগে, আপনি জেডিবিসি ডেটাব্রিক্স ডাটাবেসের সাথে সংযুক্ত যে কোনও টেবিলের জন্য প্রশ্ন করতে পারেন। প্রাক-নির্বাচিত স্যাম্পলিং সক্ষম করুন সেটিং ডিফল্টরূপে আপনার ডেটাসেটের প্রথম 50,000 সারি পুনরুদ্ধার করে। ডেটাসেটের আকারের উপর নির্ভর করে, অনির্বাচন করা হচ্ছে স্যাম্পলিং সক্ষম করুন দীর্ঘ আমদানি সময় হতে পারে.

বেছে নিন চালান.

ক্যোয়ারী চালানোর ফলে সরাসরি ডেটা র্যাংলারে আপনার ডেটাব্রিক্স ডেটাসেটের একটি পূর্বরূপ দেখা যায়।

বেছে নিন আমদানি.

ডেটা র‍্যাংলার একটি ডেটাব্রিক্স ক্লাস্টার বা একাধিক ক্লাস্টারে একাধিক সমসাময়িক সংযোগ স্থাপন করার নমনীয়তা প্রদান করে, যদি প্রয়োজন হয়, সম্মিলিত ডেটাসেটের বিশ্লেষণ এবং প্রস্তুতি সক্ষম করে।

আমাজন S3 থেকে ডেটা র্যাংলারে ডেটা আমদানি করুন

পরবর্তী, এর আমদানি করা যাক loan_2.csv Amazon S3 থেকে ফাইল।

আমদানি ট্যাবে, নির্বাচন করুন আমাজন S3 তথ্য উৎস হিসাবে।
এর জন্য S3 বালতিতে নেভিগেট করুন loan_2.csv ফাইল.

আপনি যখন CSV ফাইলটি নির্বাচন করেন, আপনি ডেটার পূর্বরূপ দেখতে পারেন।

মধ্যে বিস্তারিত ফলক, চয়ন করুন উন্নত কনফিগারেশন নিশ্চিত করুন স্যাম্পলিং সক্ষম করুন নির্বাচিত হয় এবং অনুচ্ছেদে জন্য নির্বাচিত হয় বিভেদক.
বেছে নিন আমদানি.

পরে loans_2.csv ডেটাসেট সফলভাবে আমদানি করা হয়েছে, ডেটা ফ্লো ইন্টারফেস ডেটাব্রিক্স JDBC এবং Amazon S3 ডেটা উত্স উভয়ই প্রদর্শন করে।

তথ্য যোগদান

এখন যেহেতু আমরা Databricks এবং Amazon S3 থেকে ডেটা আমদানি করেছি, আসুন একটি সাধারণ অনন্য শনাক্তকারী কলাম ব্যবহার করে ডেটাসেটে যোগদান করি।

উপরে তথ্য প্রবাহ ট্যাব, জন্য তথ্যের ধরণ, এর জন্য প্লাস চিহ্ন নির্বাচন করুন loans_1.
বেছে নিন যোগদান.
পছন্দ loans_2.csv হিসাবে ফাইল অধিকার ডেটাসেট
বেছে নিন কনফিগার করুন যোগদানের মানদণ্ড সেট আপ করতে।
জন্য নামযোগদানের জন্য একটি নাম লিখুন।
জন্য যোগদানের ধরননির্বাচন ভিতরের এই পোস্টের জন্য।
পছন্দ id যোগদানের জন্য কলাম।
বেছে নিন প্রয়োগ করা যোগ করা ডেটাসেটের পূর্বরূপ দেখতে।
বেছে নিন বিজ্ঞাপন ডাটা ফ্লোতে যোগ করতে।

রূপান্তর প্রয়োগ করুন

ডেটা র‍্যাংলার 300 টিরও বেশি বিল্ট-ইন ট্রান্সফর্মের সাথে আসে, যার জন্য কোন কোডিং প্রয়োজন হয় না। ডেটাসেট প্রস্তুত করতে বিল্ট-ইন ট্রান্সফর্ম ব্যবহার করা যাক।

কলাম ড্রপ করুন

প্রথমে আমরা অপ্রয়োজনীয় আইডি কলামটি ফেলে দিই।

যোগ করা নোডে, প্লাস চিহ্নটি নির্বাচন করুন।
বেছে নিন রূপান্তর যোগ করুন.
অধীনে রূপান্তর, পছন্দ + ধাপ যোগ করুন.
বেছে নিন কলাম পরিচালনা করুন.
জন্য রুপান্তরনির্বাচন কলাম ড্রপ করুন.
জন্য কলাম ড্রপ, কলাম নির্বাচন করুন id_0.
বেছে নিন প্রি.
বেছে নিন বিজ্ঞাপন.

ফর্ম্যাট স্ট্রিং

এর থেকে শতাংশ চিহ্ন সরাতে স্ট্রিং বিন্যাস প্রয়োগ করা যাক int_rate এবং revol_util কলাম.

উপরে উপাত্ত ট্যাব, অধীনে বদলে দেয়নির্বাচন + ধাপ যোগ করুন.
বেছে নিন ফর্ম্যাট স্ট্রিং.
জন্য রুপান্তরনির্বাচন ডান থেকে অক্ষর ফালা.

ডেটা র‍্যাংলার আপনাকে একাধিক কলামে একই সাথে আপনার নির্বাচিত রূপান্তর প্রয়োগ করতে দেয়।

জন্য ইনপুট কলামনির্বাচন int_rate এবং revol_util.
জন্য অক্ষর অপসারণপ্রবেশ করান %.
বেছে নিন প্রি.
বেছে নিন বিজ্ঞাপন.

টেক্সট বৈশিষ্ট্যযুক্ত

এখন ভেক্টরাইজ করা যাক verification_status, একটি পাঠ্য বৈশিষ্ট্য কলাম। আমরা টেক্সট কলামটিকে শব্দ ফ্রিকোয়েন্সি-ইনভার্স ডকুমেন্ট ফ্রিকোয়েন্সি (TF-IDF) ভেক্টরে রূপান্তর করি কাউন্ট ভেক্টরাইজার এবং নীচে বর্ণিত একটি স্ট্যান্ডার্ড টোকেনাইজার প্রয়োগ করে। ডেটা র‍্যাংলার চাইলে আপনার নিজস্ব টোকেনাইজার আনার বিকল্পও প্রদান করে।

অধীনে ট্রান্সফরমারনির্বাচন + ধাপ যোগ করুন.
বেছে নিন টেক্সট বৈশিষ্ট্যযুক্ত.
জন্য রুপান্তরনির্বাচন ভেক্টরাইজ করুন.
জন্য ইনপুট কলামনির্বাচন verification_status.
বেছে নিন প্রি.
বেছে নিন বিজ্ঞাপন.

ডেটাসেট রপ্তানি করুন

আমরা টেক্সট, ক্যাটাগরিকাল এবং নিউমেরিক সহ বিভিন্ন কলামের প্রকারে একাধিক রূপান্তর প্রয়োগ করার পরে, আমরা ML মডেল প্রশিক্ষণের জন্য রূপান্তরিত ডেটাসেট ব্যবহার করতে প্রস্তুত। শেষ ধাপ হল রূপান্তরিত ডেটাসেটটি Amazon S3 এ রপ্তানি করা। ডেটা র‍্যাংলারে, আপনার কাছে ট্রান্সফর্মেশনের ডাউনস্ট্রিম খরচের জন্য বেছে নেওয়ার জন্য একাধিক বিকল্প রয়েছে:

বেছে নিন রফতানি পদক্ষেপ প্রক্রিয়াকরণের জন্য সেজমেকার প্রসেসিং কোড সহ একটি জুপিটার নোটবুক স্বয়ংক্রিয়ভাবে তৈরি করতে এবং রূপান্তরিত ডেটাসেটটিকে একটি S3 বালতিতে রপ্তানি করতে। আরও তথ্যের জন্য, দেখুন Amazon SageMaker Data Wrangler ব্যবহার করে কয়েক ক্লিকে প্রসেসিং কাজ চালু করুন.
একটি স্টুডিও নোটবুক রপ্তানি করুন যা একটি তৈরি করে সেজমেকার পাইপলাইন আপনার ডেটা প্রবাহ, বা একটি নোটবুক যা একটি তৈরি করে আমাজন সেজমেকার ফিচার স্টোর বৈশিষ্ট্য গোষ্ঠী এবং একটি অফলাইন বা অনলাইন বৈশিষ্ট্য দোকানে বৈশিষ্ট্য যোগ করে।
বেছে নিন রপ্তানি তথ্য সরাসরি Amazon S3 এ রপ্তানি করতে।

এই পোস্টে, আমরা সুবিধা নিতে রপ্তানি তথ্য বিকল্প মধ্যে রুপান্তর রূপান্তরিত ডেটাসেট সরাসরি Amazon S3 এ রপ্তানি করতে দেখুন।

বেছে নিন রপ্তানি তথ্য.
জন্য S3 অবস্থাননির্বাচন ব্রাউজ করুন এবং আপনার S3 বালতি চয়ন করুন।
বেছে নিন রপ্তানি তথ্য.

পরিষ্কার কর

যদি ডেটা র্যাংলারের সাথে আপনার কাজ সম্পূর্ণ হয়, আপনার ডেটা র‌্যাংলার উদাহরণ বন্ধ করুন অতিরিক্ত ফি ব্যয় এড়াতে।

উপসংহার

এই পোস্টে, আমরা কভার করেছি কিভাবে আপনি ডাটা র‍্যাংলারে ডাটা সোর্স হিসেবে ডাটাব্রিক্সকে দ্রুত এবং সহজে সেট আপ করতে এবং সংযোগ করতে পারেন, এসকিউএল ব্যবহার করে ডেটাব্রিক্সে সংরক্ষিত ডেটা ইন্টারেক্টিভভাবে জিজ্ঞাসা করতে পারেন এবং আমদানি করার আগে ডেটার পূর্বরূপ দেখতে পারেন। উপরন্তু, আমরা দেখেছি যে আপনি কীভাবে আমাজন S3-এ সঞ্চিত ডেটার সাথে ডেটাব্রিক্সে আপনার ডেটা যোগ করতে পারেন। তারপরে আমরা ডেটা প্রস্তুতির পাইপলাইন তৈরি করতে সম্মিলিত ডেটাসেটে ডেটা রূপান্তর প্রয়োগ করেছি। লক্ষ্য ফাঁস এবং পক্ষপাত প্রতিবেদন তৈরি সহ আরও ডেটা র্যাংলারের বিশ্লেষণ ক্ষমতাগুলি অন্বেষণ করতে, নিম্নলিখিত ব্লগ পোস্টটি পড়ুন ডায়াবেটিক রোগীর ভর্তির পূর্বাভাসের জন্য অ্যামাজন সেজমেকার ডেটা র্যাংলার ব্যবহার করে ডেটা প্রস্তুতি ত্বরান্বিত করুন.

ডেটা র্যাংলার দিয়ে শুরু করতে, দেখুন অ্যামাজন সেজমেকার ডেটা র্যাংলার সহ এমএল ডেটা প্রস্তুত করুন, এবং ডেটা র্যাংলারের সর্বশেষ তথ্য দেখুন পণ্য পাতা.

লেখক সম্পর্কে

রূপ বেইনস AWS-এর একজন সলিউশন আর্কিটেক্ট যিনি AI/ML-এ ফোকাস করছেন। তিনি কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং ব্যবহার করে গ্রাহকদের উদ্ভাবন এবং তাদের ব্যবসায়িক উদ্দেশ্য অর্জনে সহায়তা করার বিষয়ে উত্সাহী। অবসর সময়ে, রূপ পড়া এবং হাইকিং উপভোগ করে।

Igor Alekseev ডেটা এবং অ্যানালিটিক্সে AWS-এর একজন পার্টনার সলিউশন আর্কিটেক্ট। ইগর কৌশলগত অংশীদারদের সাথে কাজ করে তাদের জটিল, AWS-অপ্টিমাইজ করা আর্কিটেকচার তৈরি করতে সাহায্য করে। AWS-এ যোগদানের আগে, ডেটা/সলিউশন আর্কিটেক্ট হিসাবে, তিনি Hadoop ইকোসিস্টেমের বেশ কয়েকটি ডেটা লেক সহ বিগ ডেটাতে অনেকগুলি প্রকল্প বাস্তবায়ন করেছিলেন। একজন ডেটা ইঞ্জিনিয়ার হিসাবে, তিনি জালিয়াতি সনাক্তকরণ এবং অফিস অটোমেশনে AI/ML প্রয়োগের সাথে জড়িত ছিলেন। ইগরের প্রকল্পগুলি যোগাযোগ, অর্থ, জননিরাপত্তা, উত্পাদন এবং স্বাস্থ্যসেবা সহ বিভিন্ন শিল্পে ছিল। এর আগে, ইগর সম্পূর্ণ স্ট্যাক ইঞ্জিনিয়ার/টেক লিড হিসাবে কাজ করেছিলেন।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ. হুং Nguyen AWS-এর একজন সিনিয়র প্রোডাক্ট ম্যানেজার। তিনি সেজমেকার স্টুডিওর জন্য ব্যবহারকারীর অভিজ্ঞতার নেতৃত্ব দিচ্ছেন। এন্টারপ্রাইজ এবং কনজিউমার স্পেস উভয়ের জন্যই গ্রাহক-আবিষ্ট এবং ডেটা-চালিত পণ্য তৈরি করার 13 বছরের অভিজ্ঞতা রয়েছে তার। তার অবসর সময়ে, তিনি পড়তে, প্রকৃতিতে থাকা এবং তার পরিবারের সাথে সময় কাটাতে উপভোগ করেন।

হেনরি ওয়াং AWS-এর একজন সফটওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার। তিনি সম্প্রতি ইউসি ডেভিস থেকে স্নাতক হওয়ার পরে ডেটা র্যাংলার দলে যোগদান করেছেন। ডেটা সায়েন্স এবং মেশিন লার্নিং-এ তার আগ্রহ আছে এবং শখ হিসেবে 3D প্রিন্টিং করেন।

সময় স্ট্যাম্প: মার্চ 31, 2022

সময় স্ট্যাম্প: জানুয়ারী 5, 2024

Amazon SageMaker Data Wrangler ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন

প্লেটো দ্বারা প্রকাশিত

সমাধান ওভারভিউ

পূর্বশর্ত

ডেটাব্রিক্স সেটআপ

JDBC URL আনুন

ডেটা র‍্যাংলার সেটআপ

ডেটাসেট ডাউনলোড করুন এবং বিভক্ত করুন

একটি ডেটা র্যাংলার ফ্লো তৈরি করুন

Databricks থেকে Data Wrangler এ ডেটা আমদানি করুন

আমাজন S3 থেকে ডেটা র্যাংলারে ডেটা আমদানি করুন

তথ্য যোগদান

রূপান্তর প্রয়োগ করুন

কলাম ড্রপ করুন

ফর্ম্যাট স্ট্রিং

টেক্সট বৈশিষ্ট্যযুক্ত

ডেটাসেট রপ্তানি করুন

পরিষ্কার কর

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

পরিচয় নথিতে অপটিক্যাল ক্যারেক্টার রিকগনিশন সঞ্চালনের জন্য MLOps-এর জন্য Amazon SageMaker প্রজেক্ট সহ অনবোর্ড প্যাডেলওসিআর

সেজমেকারে মডেল হোস্টিং প্যাটার্নস: সেজমেকারে মডেল পরীক্ষা এবং আপডেট করার সেরা অনুশীলন

জীবন বিজ্ঞান শিল্পের জন্য নিয়ন্ত্রক জমা তৈরি করতে Amazon SageMaker-এ RStudio ব্যবহার করুন

Amazon Recognition কাস্টম লেবেল এবং Dassault Systèmes 3DEXCITE সহ সিন্থেটিক ডেটাসেট ব্যবহার করে কম্পিউটার দৃষ্টি

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব