Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.

Amazon SageMaker Data Wrangler ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন

ডেটা সায়েন্স এবং ডেটা ইঞ্জিনিয়ারিং দলগুলি তাদের সময়ের একটি উল্লেখযোগ্য অংশ একটি মেশিন লার্নিং (ML) জীবনচক্রের ডেটা প্রস্তুতি পর্বে ডেটা নির্বাচন, পরিষ্কার করা এবং রূপান্তর পদক্ষেপগুলি সম্পাদন করে। অর্থপূর্ণ অন্তর্দৃষ্টি এবং ভবিষ্যদ্বাণী তৈরি করার জন্য এটি যেকোনো ML কর্মপ্রবাহের একটি প্রয়োজনীয় এবং গুরুত্বপূর্ণ পদক্ষেপ, কারণ খারাপ বা নিম্ন-মানের ডেটা প্রাপ্ত অন্তর্দৃষ্টিগুলির প্রাসঙ্গিকতাকে অনেকাংশে কমিয়ে দেয়।

ডাটা ইঞ্জিনিয়ারিং দলগুলি প্রথাগতভাবে ডাউনস্ট্রিম খরচের জন্য কাঁচা ডেটা ইনজেশন, একত্রীকরণ এবং রূপান্তরের জন্য দায়ী। ডেটা বিজ্ঞানীদের প্রায়ই প্রাকৃতিক ভাষা এবং সময় সিরিজের মতো ডোমেন-নির্দিষ্ট এমএল ব্যবহারের ক্ষেত্রে ডেটার উপর অতিরিক্ত প্রক্রিয়াকরণ করতে হয়। উদাহরণ স্বরূপ, কিছু ML অ্যালগরিদম অনুপস্থিত মান, স্পার্স বৈশিষ্ট্য বা আউটলারের প্রতি সংবেদনশীল হতে পারে এবং বিশেষ বিবেচনার প্রয়োজন হতে পারে। এমনকি এমন ক্ষেত্রে যেখানে ডেটাসেটটি ভাল আকারে রয়েছে, ডেটা বিজ্ঞানীরা মডেলগুলি থেকে প্রাপ্ত অন্তর্দৃষ্টিগুলিকে সর্বাধিক করার জন্য বৈশিষ্ট্য বিতরণকে রূপান্তর করতে বা নতুন বৈশিষ্ট্য তৈরি করতে চাইতে পারেন। এই উদ্দেশ্যগুলি অর্জনের জন্য, ডেটা বিজ্ঞানীদের অনুরোধ করা পরিবর্তনগুলি মিটমাট করার জন্য ডেটা ইঞ্জিনিয়ারিং টিমের উপর নির্ভর করতে হবে, যার ফলে মডেল বিকাশ প্রক্রিয়ায় নির্ভরতা এবং বিলম্ব হয়। বিকল্পভাবে, ডেটা সায়েন্স দলগুলি বিভিন্ন প্রোগ্রামিং দৃষ্টান্ত ব্যবহার করে অভ্যন্তরীণভাবে ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশল সম্পাদন করতে বেছে নিতে পারে। যাইহোক, এটির জন্য লাইব্রেরি এবং ফ্রেমওয়ার্কগুলির ইনস্টলেশন এবং কনফিগারেশনে সময় এবং প্রচেষ্টার বিনিয়োগ প্রয়োজন, যা আদর্শ নয় কারণ সেই সময়টি মডেলের কার্যকারিতা অপ্টিমাইজ করার জন্য আরও ভালভাবে ব্যয় করা যেতে পারে।

অ্যামাজন সেজমেকার ডেটা র্যাংলার ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশল প্রক্রিয়াকে সহজ করে, ডেটা বিজ্ঞানীদের তাদের ডেটাসেটগুলি নির্বাচন, পরিষ্কার এবং অন্বেষণ করার জন্য একটি একক ভিজ্যুয়াল ইন্টারফেস প্রদান করে ML-এর জন্য ডেটা একত্রিত করতে এবং প্রস্তুত করতে কয়েক সপ্তাহ থেকে মিনিট পর্যন্ত সময় কমিয়ে দেয়। ডেটা র‍্যাংলার 300 টিরও বেশি বিল্ট-ইন ডেটা ট্রান্সফরমেশন অফার করে যাতে কোনও কোড না লিখেই বৈশিষ্ট্যগুলিকে স্বাভাবিক, রূপান্তর এবং একত্রিত করতে সহায়তা করে। আপনি একাধিক ডেটা উত্স থেকে ডেটা আমদানি করতে পারেন, যেমন অ্যামাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস৩), অ্যামাজন অ্যাথেনা, আমাজন রেডশিফ্ট, এবং তুষারকণা. আপনি এখন ব্যবহার করতে পারেন ডেটাব্রিক্স ML-এর জন্য সহজে ডেটা প্রস্তুত করতে ডেটা র্যাংলারে একটি ডেটা উৎস হিসাবে।

Databricks Lakehouse প্ল্যাটফর্ম ডেটা লেকগুলির উন্মুক্ততা, নমনীয়তা এবং মেশিন লার্নিং সমর্থন সহ ডেটা গুদামগুলির নির্ভরযোগ্যতা, শক্তিশালী শাসন এবং কর্মক্ষমতা প্রদানের জন্য ডেটা লেক এবং ডেটা গুদামগুলির সেরা উপাদানগুলিকে একত্রিত করে৷ ডেটা র‍্যাংলারের ডেটা উৎস হিসাবে ডেটাব্রিক্সের সাহায্যে, আপনি এখন দ্রুত এবং সহজে ডেটাব্রিক্সের সাথে সংযোগ করতে পারেন, SQL ব্যবহার করে ডেটাব্রিক্সে সংরক্ষিত ডেটা ইন্টারেক্টিভভাবে জিজ্ঞাসা করতে পারেন এবং আমদানি করার আগে ডেটার পূর্বরূপ দেখতে পারেন৷ উপরন্তু, আপনি আপনার ML ব্যবহারের ক্ষেত্রে সঠিক ডেটাসেট তৈরি করতে Amazon S3-এ সংরক্ষিত ডেটা এবং Amazon Athena, Amazon Redshift এবং Snowflake-এর মাধ্যমে অনুসন্ধান করা ডেটা সহ ডেটাব্রিক্সে আপনার ডেটা যোগ করতে পারেন।

এই পোস্টে, আমরা এমএল মডেল প্রশিক্ষণে ব্যবহারের জন্য অ্যামাজন সেজমেকার ডেটা র্যাংলার ব্যবহার করে লেন্ডিং ক্লাব লোন ডেটাসেট রূপান্তর করি।

সমাধান ওভারভিউ

নিম্নলিখিত চিত্রটি আমাদের সমাধান আর্কিটেকচারের চিত্র তুলে ধরেছে।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.

লেন্ডিং ক্লাব লোন ডেটাসেটে বর্তমান ঋণের অবস্থা এবং সর্বশেষ অর্থপ্রদানের তথ্য সহ 2007-2011 এর মাধ্যমে জারি করা সমস্ত ঋণের সম্পূর্ণ লোন ডেটা রয়েছে। এটিতে 39,717টি সারি, 22টি বৈশিষ্ট্য কলাম এবং 3টি লক্ষ্য লেবেল রয়েছে৷

ডেটা র্যাংলার ব্যবহার করে আমাদের ডেটা রূপান্তর করতে, আমরা নিম্নলিখিত উচ্চ-স্তরের পদক্ষেপগুলি সম্পূর্ণ করি:

  1. ডেটাসেট ডাউনলোড করুন এবং বিভক্ত করুন।
  2. একটি ডেটা র্যাংলার ফ্লো তৈরি করুন।
  3. Databricks থেকে Data Wrangler এ ডেটা আমদানি করুন।
  4. Amazon S3 থেকে Data Wrangler-এ ডেটা আমদানি করুন।
  5. তথ্য যোগদান.
  6. রূপান্তর প্রয়োগ করুন।
  7. ডেটাসেট রপ্তানি করুন।

পূর্বশর্ত

পোস্টটি অনুমান করে যে আপনার একটি চলমান ডেটাব্রিক্স ক্লাস্টার রয়েছে। যদি আপনার ক্লাস্টার AWS-এ চলছে, তাহলে যাচাই করুন যে আপনি নিম্নলিখিত কনফিগার করেছেন:

ডেটাব্রিক্স সেটআপ

অনুসরণ করা ইনস্ট্যান্স প্রোফাইল ব্যবহার করে S3 বালতিতে নিরাপদ অ্যাক্সেস প্রয়োজনীয় জন্য এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (IAM) ভূমিকা, S3 বাকেট নীতি, এবং Databricks ক্লাস্টার কনফিগারেশন। Databricks ক্লাস্টার সঠিকভাবে কনফিগার করা হয়েছে তা নিশ্চিত করুন Instance Profile, পছন্দসই S3 বালতি অ্যাক্সেস করতে, উন্নত বিকল্পগুলির অধীনে নির্বাচিত।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.

Databricks ক্লাস্টার তৈরি হওয়ার পরে এবং Amazon S3-তে প্রয়োজনীয় অ্যাক্সেস সহ চলমান, আপনি আনতে পারেন JDBC URL আপনার ডেটাব্রিক্স ক্লাস্টার থেকে ডেটা র্যাংলার এটির সাথে সংযোগ করতে ব্যবহার করবে।

JDBC URL আনুন

JDBC URL আনতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. Databricks-এ, ক্লাস্টার UI-এ নেভিগেট করুন।
  2. আপনার ক্লাস্টার চয়ন করুন.
  3. উপরে কনফিগারেশন ট্যাব, চয়ন করুন উন্নত বিকল্প.
  4. অধীনে উন্নত বিকল্প, পছন্দ করা JDBC/ODBC ট্যাব।
  5. JDBC URL কপি করুন।
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.

আপনার ব্যক্তিগত অ্যাক্সেস প্রতিস্থাপন নিশ্চিত করুন টোকেন URL-এ।

ডেটা র‍্যাংলার সেটআপ

এই পদক্ষেপটি অনুমান করে যে আপনার কাছে অ্যামাজন সেজমেকার অ্যাক্সেস রয়েছে, একটি উদাহরণ অ্যামাজন সেজমেকার স্টুডিও, এবং একজন স্টুডিও ব্যবহারকারী।

ডেটা র্যাংলার থেকে ডেটাব্রিক্স জেডিবিসি সংযোগে অ্যাক্সেসের অনুমতি দেওয়ার জন্য, স্টুডিও ব্যবহারকারীর নিম্নলিখিত অনুমতি প্রয়োজন:

  • secretsmanager:PutResourcePolicy

IAM অ্যাডমিনিস্ট্রেটিভ ব্যবহারকারী হিসাবে উপরে অনুমতি নিয়ে স্টুডিও ব্যবহারকারীকে দেওয়া আইএএম এক্সিকিউশন রোল আপডেট করতে নিচের ধাপগুলি অনুসরণ করুন।

  1. আইএএম কনসোলে, নির্বাচন করুন ভূমিকা নেভিগেশন ফলকে।
  2. আপনার স্টুডিও ব্যবহারকারীকে দেওয়া ভূমিকা বেছে নিন।
  3. বেছে নিন অনুমতি যোগ করুন.
  4. বেছে নিন ইনলাইন নীতি তৈরি করুন.
  5. পরিষেবার জন্য, নির্বাচন করুন সিক্রেটস ম্যানেজার.
  6. On কার্যপ্রণালীনির্বাচন অ্যাক্সেস লেভেল.
  7. বেছে নিন অনুমতি ব্যবস্থাপনা.
  8. বেছে নিন পুটরিসোর্স পলিসি.
  9. জন্য Resourcesনির্বাচন নির্দিষ্ট এবং নির্বাচন করুন এই অ্যাকাউন্টে যে কোনো.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.

ডেটাসেট ডাউনলোড করুন এবং বিভক্ত করুন

আপনি দ্বারা শুরু করতে পারেন ডেটাসেট ডাউনলোড করা হচ্ছে. প্রদর্শনের উদ্দেশ্যে, আমরা বৈশিষ্ট্য কলামগুলি অনুলিপি করে ডেটাসেটকে বিভক্ত করি id, emp_title, emp_length, home_owner, এবং annual_inc একটি সেকেন্ড তৈরি করতে loans_2.csv ফাইল আমরা মূল লোন ফাইল থেকে পূর্বোক্ত কলামগুলি বাদ দিয়ে সরিয়ে ফেলি id কলাম এবং মূল ফাইলের নাম পরিবর্তন করুন loans_1.csv. আপলোড করুন loans_1.csv ফাইলের জন্য ডেটাব্রিক্স একটি টেবিল তৈরি করতে loans_1 এবং loans_2.csv একটি S3 বালতিতে।

একটি ডেটা র্যাংলার ফ্লো তৈরি করুন

ডেটা র‍্যাংলারের প্রাক-প্রয়োজনীয় তথ্যের জন্য, দেখুন ডেটা র্যাংলার দিয়ে শুরু করুন.

একটি নতুন ডেটা ফ্লো তৈরি করে শুরু করা যাক।

  1. স্টুডিও কনসোলে, তে ফাইল মেনু, নির্বাচন করুন নতুন.
  2. বেছে নিন ডেটা র‍্যাংলার প্রবাহ.
  3. পছন্দসই প্রবাহের নাম পরিবর্তন করুন।
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.

বিকল্পভাবে, আপনি লঞ্চার থেকে একটি নতুন ডেটা প্রবাহ তৈরি করতে পারেন৷

  • স্টুডিও কনসোলে, নির্বাচন করুন অ্যামাজন সেজমেকার স্টুডিও নেভিগেশন ফলকে।
  • বেছে নিন নতুন ডেটা প্রবাহ.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.

একটি নতুন প্রবাহ তৈরি করা সম্পূর্ণ হতে কয়েক মিনিট সময় নিতে পারে৷ প্রবাহ তৈরি হওয়ার পরে, আপনি দেখতে পাবেন তথ্য আমদানি পাতা.

Databricks থেকে Data Wrangler এ ডেটা আমদানি করুন

এর পরে, আমরা ডেটা র‍্যাংলারে ডেটার উৎস হিসাবে ডেটাব্রিক্স (জেডিবিসি) সেট আপ করি। Databricks থেকে ডেটা আমদানি করতে, আমাদের প্রথমে Databricks যোগ করতে হবে ডেটা উৎস হিসেবে।

  1. উপরে তথ্য আমদানি আপনার ডেটা র্যাংলার ফ্লো ট্যাব, নির্বাচন করুন ডেটা উত্স যুক্ত করুন.
  2. ড্রপ-ডাউন মেনুতে, চয়ন করুন ডেটাব্রিক্স (জেডিবিসি).
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.

উপরে Databricks থেকে ডেটা আমদানি করুন পৃষ্ঠায়, আপনি আপনার ক্লাস্টারের বিবরণ লিখুন।

  1. জন্য ডাটাসেটের নাম, একটি নাম লিখুন যা আপনি ফ্লো ফাইলে ব্যবহার করতে চান।
  2. জন্য চালক, ড্রাইভার নির্বাচন করুন com.simba.spark.jdbc.Driver.
  3. জন্য JDBC URL, আগে প্রাপ্ত আপনার Databricks ক্লাস্টারের URL লিখুন।

URL নিম্নলিখিত বিন্যাস অনুরূপ করা উচিত jdbc:spark://<serve- hostname>:443/default;transportMode=http;ssl=1;httpPath=<http- path>;AuthMech=3;UID=token;PWD=<personal-access-token>.

  1. SQL ক্যোয়ারী এডিটরে, নিম্নলিখিত SQL SELECT স্টেটমেন্ট উল্লেখ করুন:
    select * from loans_1

Databricks-এ ডেটা আপলোড করার সময় আপনি যদি একটি ভিন্ন টেবিলের নাম বেছে নেন, তাহলে সেই অনুযায়ী উপরের SQL ক্যোয়ারীতে লোন_1 প্রতিস্থাপন করুন।

মধ্যে এসকিউএল কোয়েরি ডেটা র্যাংলারের বিভাগে, আপনি জেডিবিসি ডেটাব্রিক্স ডাটাবেসের সাথে সংযুক্ত যে কোনও টেবিলের জন্য প্রশ্ন করতে পারেন। প্রাক-নির্বাচিত স্যাম্পলিং সক্ষম করুন সেটিং ডিফল্টরূপে আপনার ডেটাসেটের প্রথম 50,000 সারি পুনরুদ্ধার করে। ডেটাসেটের আকারের উপর নির্ভর করে, অনির্বাচন করা হচ্ছে স্যাম্পলিং সক্ষম করুন দীর্ঘ আমদানি সময় হতে পারে.

  1. বেছে নিন চালান.

ক্যোয়ারী চালানোর ফলে সরাসরি ডেটা র্যাংলারে আপনার ডেটাব্রিক্স ডেটাসেটের একটি পূর্বরূপ দেখা যায়।
Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.

  1. বেছে নিন আমদানি.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.

ডেটা র‍্যাংলার একটি ডেটাব্রিক্স ক্লাস্টার বা একাধিক ক্লাস্টারে একাধিক সমসাময়িক সংযোগ স্থাপন করার নমনীয়তা প্রদান করে, যদি প্রয়োজন হয়, সম্মিলিত ডেটাসেটের বিশ্লেষণ এবং প্রস্তুতি সক্ষম করে।

আমাজন S3 থেকে ডেটা র্যাংলারে ডেটা আমদানি করুন

পরবর্তী, এর আমদানি করা যাক loan_2.csv Amazon S3 থেকে ফাইল।

  1. আমদানি ট্যাবে, নির্বাচন করুন আমাজন S3 তথ্য উৎস হিসাবে।
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.
  2. এর জন্য S3 বালতিতে নেভিগেট করুন loan_2.csv ফাইল.

আপনি যখন CSV ফাইলটি নির্বাচন করেন, আপনি ডেটার পূর্বরূপ দেখতে পারেন।

  1. মধ্যে বিস্তারিত ফলক, চয়ন করুন উন্নত কনফিগারেশন নিশ্চিত করুন স্যাম্পলিং সক্ষম করুন নির্বাচিত হয় এবং অনুচ্ছেদে জন্য নির্বাচিত হয় বিভেদক.
  2. বেছে নিন আমদানি.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.

পরে loans_2.csv ডেটাসেট সফলভাবে আমদানি করা হয়েছে, ডেটা ফ্লো ইন্টারফেস ডেটাব্রিক্স JDBC এবং Amazon S3 ডেটা উত্স উভয়ই প্রদর্শন করে।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.

তথ্য যোগদান

এখন যেহেতু আমরা Databricks এবং Amazon S3 থেকে ডেটা আমদানি করেছি, আসুন একটি সাধারণ অনন্য শনাক্তকারী কলাম ব্যবহার করে ডেটাসেটে যোগদান করি।

  1. উপরে তথ্য প্রবাহ ট্যাব, জন্য তথ্যের ধরণ, এর জন্য প্লাস চিহ্ন নির্বাচন করুন loans_1.
  2. বেছে নিন যোগদান.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.
  3. পছন্দ loans_2.csv হিসাবে ফাইল অধিকার ডেটাসেট
  4. বেছে নিন কনফিগার করুন যোগদানের মানদণ্ড সেট আপ করতে।
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.
  5. জন্য নামযোগদানের জন্য একটি নাম লিখুন।
  6. জন্য যোগদানের ধরননির্বাচন ভিতরের এই পোস্টের জন্য।
  7. পছন্দ id যোগদানের জন্য কলাম।
  8. বেছে নিন প্রয়োগ করা যোগ করা ডেটাসেটের পূর্বরূপ দেখতে।
  9. বেছে নিন বিজ্ঞাপন ডাটা ফ্লোতে যোগ করতে।
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.

রূপান্তর প্রয়োগ করুন

ডেটা র‍্যাংলার 300 টিরও বেশি বিল্ট-ইন ট্রান্সফর্মের সাথে আসে, যার জন্য কোন কোডিং প্রয়োজন হয় না। ডেটাসেট প্রস্তুত করতে বিল্ট-ইন ট্রান্সফর্ম ব্যবহার করা যাক।

কলাম ড্রপ করুন

প্রথমে আমরা অপ্রয়োজনীয় আইডি কলামটি ফেলে দিই।

  1. যোগ করা নোডে, প্লাস চিহ্নটি নির্বাচন করুন।
  2. বেছে নিন রূপান্তর যোগ করুন.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.
  3. অধীনে রূপান্তর, পছন্দ + ধাপ যোগ করুন.
  4. বেছে নিন কলাম পরিচালনা করুন.
  5. জন্য রুপান্তরনির্বাচন কলাম ড্রপ করুন.
  6. জন্য কলাম ড্রপ, কলাম নির্বাচন করুন id_0.
  7. বেছে নিন প্রি.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.
  8. বেছে নিন বিজ্ঞাপন.

ফর্ম্যাট স্ট্রিং

এর থেকে শতাংশ চিহ্ন সরাতে স্ট্রিং বিন্যাস প্রয়োগ করা যাক int_rate এবং revol_util কলাম.

  1. উপরে উপাত্ত ট্যাব, অধীনে বদলে দেয়নির্বাচন + ধাপ যোগ করুন.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.
  2. বেছে নিন ফর্ম্যাট স্ট্রিং.
  3. জন্য রুপান্তরনির্বাচন ডান থেকে অক্ষর ফালা.

ডেটা র‍্যাংলার আপনাকে একাধিক কলামে একই সাথে আপনার নির্বাচিত রূপান্তর প্রয়োগ করতে দেয়।

  1. জন্য ইনপুট কলামনির্বাচন int_rate এবং revol_util.
  2. জন্য অক্ষর অপসারণপ্রবেশ করান %.
  3. বেছে নিন প্রি.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.
  4. বেছে নিন বিজ্ঞাপন.

টেক্সট বৈশিষ্ট্যযুক্ত

এখন ভেক্টরাইজ করা যাক verification_status, একটি পাঠ্য বৈশিষ্ট্য কলাম। আমরা টেক্সট কলামটিকে শব্দ ফ্রিকোয়েন্সি-ইনভার্স ডকুমেন্ট ফ্রিকোয়েন্সি (TF-IDF) ভেক্টরে রূপান্তর করি কাউন্ট ভেক্টরাইজার এবং নীচে বর্ণিত একটি স্ট্যান্ডার্ড টোকেনাইজার প্রয়োগ করে। ডেটা র‍্যাংলার চাইলে আপনার নিজস্ব টোকেনাইজার আনার বিকল্পও প্রদান করে।

  1. অধীনে ট্রান্সফরমারনির্বাচন + ধাপ যোগ করুন.
  2. বেছে নিন টেক্সট বৈশিষ্ট্যযুক্ত.
  3. জন্য রুপান্তরনির্বাচন ভেক্টরাইজ করুন.
  4. জন্য ইনপুট কলামনির্বাচন verification_status.
  5. বেছে নিন প্রি.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.
  6. বেছে নিন বিজ্ঞাপন.

ডেটাসেট রপ্তানি করুন

আমরা টেক্সট, ক্যাটাগরিকাল এবং নিউমেরিক সহ বিভিন্ন কলামের প্রকারে একাধিক রূপান্তর প্রয়োগ করার পরে, আমরা ML মডেল প্রশিক্ষণের জন্য রূপান্তরিত ডেটাসেট ব্যবহার করতে প্রস্তুত। শেষ ধাপ হল রূপান্তরিত ডেটাসেটটি Amazon S3 এ রপ্তানি করা। ডেটা র‍্যাংলারে, আপনার কাছে ট্রান্সফর্মেশনের ডাউনস্ট্রিম খরচের জন্য বেছে নেওয়ার জন্য একাধিক বিকল্প রয়েছে:

  • বেছে নিন রফতানি পদক্ষেপ প্রক্রিয়াকরণের জন্য সেজমেকার প্রসেসিং কোড সহ একটি জুপিটার নোটবুক স্বয়ংক্রিয়ভাবে তৈরি করতে এবং রূপান্তরিত ডেটাসেটটিকে একটি S3 বালতিতে রপ্তানি করতে। আরও তথ্যের জন্য, দেখুন Amazon SageMaker Data Wrangler ব্যবহার করে কয়েক ক্লিকে প্রসেসিং কাজ চালু করুন.
  • একটি স্টুডিও নোটবুক রপ্তানি করুন যা একটি তৈরি করে সেজমেকার পাইপলাইন আপনার ডেটা প্রবাহ, বা একটি নোটবুক যা একটি তৈরি করে আমাজন সেজমেকার ফিচার স্টোর বৈশিষ্ট্য গোষ্ঠী এবং একটি অফলাইন বা অনলাইন বৈশিষ্ট্য দোকানে বৈশিষ্ট্য যোগ করে।
  • বেছে নিন রপ্তানি তথ্য সরাসরি Amazon S3 এ রপ্তানি করতে।

এই পোস্টে, আমরা সুবিধা নিতে রপ্তানি তথ্য বিকল্প মধ্যে রুপান্তর রূপান্তরিত ডেটাসেট সরাসরি Amazon S3 এ রপ্তানি করতে দেখুন।

  1. বেছে নিন রপ্তানি তথ্য.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.
  2. জন্য S3 অবস্থাননির্বাচন ব্রাউজ করুন এবং আপনার S3 বালতি চয়ন করুন।
  3. বেছে নিন রপ্তানি তথ্য.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.

পরিষ্কার কর

যদি ডেটা র্যাংলারের সাথে আপনার কাজ সম্পূর্ণ হয়, আপনার ডেটা র‌্যাংলার উদাহরণ বন্ধ করুন অতিরিক্ত ফি ব্যয় এড়াতে।

উপসংহার

এই পোস্টে, আমরা কভার করেছি কিভাবে আপনি ডাটা র‍্যাংলারে ডাটা সোর্স হিসেবে ডাটাব্রিক্সকে দ্রুত এবং সহজে সেট আপ করতে এবং সংযোগ করতে পারেন, এসকিউএল ব্যবহার করে ডেটাব্রিক্সে সংরক্ষিত ডেটা ইন্টারেক্টিভভাবে জিজ্ঞাসা করতে পারেন এবং আমদানি করার আগে ডেটার পূর্বরূপ দেখতে পারেন। উপরন্তু, আমরা দেখেছি যে আপনি কীভাবে আমাজন S3-এ সঞ্চিত ডেটার সাথে ডেটাব্রিক্সে আপনার ডেটা যোগ করতে পারেন। তারপরে আমরা ডেটা প্রস্তুতির পাইপলাইন তৈরি করতে সম্মিলিত ডেটাসেটে ডেটা রূপান্তর প্রয়োগ করেছি। লক্ষ্য ফাঁস এবং পক্ষপাত প্রতিবেদন তৈরি সহ আরও ডেটা র্যাংলারের বিশ্লেষণ ক্ষমতাগুলি অন্বেষণ করতে, নিম্নলিখিত ব্লগ পোস্টটি পড়ুন ডায়াবেটিক রোগীর ভর্তির পূর্বাভাসের জন্য অ্যামাজন সেজমেকার ডেটা র্যাংলার ব্যবহার করে ডেটা প্রস্তুতি ত্বরান্বিত করুন.

ডেটা র্যাংলার দিয়ে শুরু করতে, দেখুন অ্যামাজন সেজমেকার ডেটা র্যাংলার সহ এমএল ডেটা প্রস্তুত করুন, এবং ডেটা র্যাংলারের সর্বশেষ তথ্য দেখুন পণ্য পাতা.


লেখক সম্পর্কে

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.রূপ বেইনস AWS-এর একজন সলিউশন আর্কিটেক্ট যিনি AI/ML-এ ফোকাস করছেন। তিনি কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং ব্যবহার করে গ্রাহকদের উদ্ভাবন এবং তাদের ব্যবসায়িক উদ্দেশ্য অর্জনে সহায়তা করার বিষয়ে উত্সাহী। অবসর সময়ে, রূপ পড়া এবং হাইকিং উপভোগ করে।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.Igor Alekseev ডেটা এবং অ্যানালিটিক্সে AWS-এর একজন পার্টনার সলিউশন আর্কিটেক্ট। ইগর কৌশলগত অংশীদারদের সাথে কাজ করে তাদের জটিল, AWS-অপ্টিমাইজ করা আর্কিটেকচার তৈরি করতে সাহায্য করে। AWS-এ যোগদানের আগে, ডেটা/সলিউশন আর্কিটেক্ট হিসাবে, তিনি Hadoop ইকোসিস্টেমের বেশ কয়েকটি ডেটা লেক সহ বিগ ডেটাতে অনেকগুলি প্রকল্প বাস্তবায়ন করেছিলেন। একজন ডেটা ইঞ্জিনিয়ার হিসাবে, তিনি জালিয়াতি সনাক্তকরণ এবং অফিস অটোমেশনে AI/ML প্রয়োগের সাথে জড়িত ছিলেন। ইগরের প্রকল্পগুলি যোগাযোগ, অর্থ, জননিরাপত্তা, উত্পাদন এবং স্বাস্থ্যসেবা সহ বিভিন্ন শিল্পে ছিল। এর আগে, ইগর সম্পূর্ণ স্ট্যাক ইঞ্জিনিয়ার/টেক লিড হিসাবে কাজ করেছিলেন।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.হুং Nguyen AWS-এর একজন সিনিয়র প্রোডাক্ট ম্যানেজার। তিনি সেজমেকার স্টুডিওর জন্য ব্যবহারকারীর অভিজ্ঞতার নেতৃত্ব দিচ্ছেন। এন্টারপ্রাইজ এবং কনজিউমার স্পেস উভয়ের জন্যই গ্রাহক-আবিষ্ট এবং ডেটা-চালিত পণ্য তৈরি করার 13 বছরের অভিজ্ঞতা রয়েছে তার। তার অবসর সময়ে, তিনি পড়তে, প্রকৃতিতে থাকা এবং তার পরিবারের সাথে সময় কাটাতে উপভোগ করেন।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ব্যবহার করে মেশিন লার্নিংয়ের জন্য Databricks থেকে ডেটা প্রস্তুত করুন। উল্লম্ব অনুসন্ধান. আ.হেনরি ওয়াং AWS-এর একজন সফটওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার। তিনি সম্প্রতি ইউসি ডেভিস থেকে স্নাতক হওয়ার পরে ডেটা র্যাংলার দলে যোগদান করেছেন। ডেটা সায়েন্স এবং মেশিন লার্নিং-এ তার আগ্রহ আছে এবং শখ হিসেবে 3D প্রিন্টিং করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

পরিচয় নথিতে অপটিক্যাল ক্যারেক্টার রিকগনিশন সঞ্চালনের জন্য MLOps-এর জন্য Amazon SageMaker প্রজেক্ট সহ অনবোর্ড প্যাডেলওসিআর

উত্স নোড: 1587681
সময় স্ট্যাম্প: জুলাই 8, 2022

অ্যামাজন সেজমেকার স্টুডিও এবং সেজমেকার নোটবুক ইন্সট্যান্স এখন জুপিটারল্যাব 3 নোটবুকের সাথে বিকাশকারীর উত্পাদনশীলতা বাড়াতে এসেছে

উত্স নোড: 1344320
সময় স্ট্যাম্প: জুন 6, 2022

জেনারেটিভ AI এর শক্তি উন্মোচন করা: উন্নত গ্রাহক সহায়তার জন্য একটি তাত্ক্ষণিক অন্তর্দৃষ্টি ইঞ্জিনে ভেরিস্কের যাত্রা | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1972498
সময় স্ট্যাম্প: 9 পারে, 2024

LLM সহ Amazon Lex উন্নত করুন এবং URL ইনজেশন ব্যবহার করে প্রায়শই জিজ্ঞাসিত প্রশ্নের অভিজ্ঞতা উন্নত করুন | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1862206
সময় স্ট্যাম্প: জুলাই 18, 2023