Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

Amazon SageMaker Data Wrangler এর সাথে Github স্যাম্পল ব্যবহার করুন

আমাজন সেজমেকr ডেটা র‍্যাংলার একটি UI-ভিত্তিক ডেটা প্রস্তুতির সরঞ্জাম যা ডেটা বিশ্লেষণ, প্রিপ্রসেসিং এবং ভিজ্যুয়ালাইজেশন করতে সাহায্য করে যাতে ডেটা পরিষ্কার, রূপান্তর এবং দ্রুত ডেটা প্রস্তুত করা যায়৷ ডেটা র্যাংলার পূর্ব-নির্মিত ফ্লো টেমপ্লেটগুলি আপনাকে সাধারণ ডেটাসেটগুলি ব্যবহার করে ডেটা প্রবাহের জন্য সর্বোত্তম অনুশীলনের ধরণগুলিকে ত্বরান্বিত করতে এবং বুঝতে সাহায্য করে ডেটা বিজ্ঞানী এবং মেশিন লার্নিং (ML) অনুশীলনকারীদের জন্য দ্রুত ডেটা প্রস্তুতিতে সহায়তা করে৷

আপনি নিম্নলিখিত কাজগুলি সম্পাদন করতে ডেটা র্যাংলার প্রবাহ ব্যবহার করতে পারেন:

  • তথ্য ভিজ্যুয়ালাইজেশন - ডেটাসেটের প্রতিটি কলামের জন্য পরিসংখ্যানগত বৈশিষ্ট্য পরীক্ষা করা, হিস্টোগ্রাম তৈরি করা, বহিরাগতদের অধ্যয়ন করা
  • তথ্য পরিষ্কার - ডুপ্লিকেট অপসারণ, অনুপস্থিত মান সহ এন্ট্রি বাদ দেওয়া বা পূরণ করা, বহিরাগত অপসারণ করা
  • ডেটা সমৃদ্ধকরণ এবং বৈশিষ্ট্য প্রকৌশল - প্রশিক্ষণের জন্য বৈশিষ্ট্যগুলির একটি উপসেট নির্বাচন করে আরও অভিব্যক্তিপূর্ণ বৈশিষ্ট্য তৈরি করতে কলামগুলি প্রক্রিয়া করা হচ্ছে

এই পোস্টটি আপনাকে নিম্নলিখিত নমুনা পূর্ব-নির্মিত প্রবাহ ব্যবহার করে ডেটা র্যাংলার বুঝতে সাহায্য করবে GitHub. রিপোজিটরি ট্যাবুলার ডেটা ট্রান্সফর্মেশন, টাইম সিরিজ ডেটা ট্রান্সফরমেশন এবং যোগ করা ডেটাসেট ট্রান্সফর্মেশন দেখায়। প্রত্যেকের মৌলিক প্রকৃতির কারণে ভিন্ন ধরনের রূপান্তর প্রয়োজন। স্ট্যান্ডার্ড ট্যাবুলার বা ক্রস-বিভাগীয় ডেটা নির্দিষ্ট সময়ে সংগ্রহ করা হয়। বিপরীতে, টাইম সিরিজ ডেটা সময়ের সাথে বারবার ক্যাপচার করা হয়, প্রতিটি ধারাবাহিক ডেটা পয়েন্ট তার অতীত মানের উপর নির্ভর করে।

টেবুলার ডেটার জন্য আমরা কীভাবে নমুনা ডেটা প্রবাহ ব্যবহার করতে পারি তার একটি উদাহরণ দেখি।

পূর্বশর্ত

ডেটা র‍্যাংলার একটি আমাজন সেজমেকার মধ্যে উপলব্ধ বৈশিষ্ট্য অ্যামাজন সেজমেকার স্টুডিও, তাই স্টুডিও পরিবেশ এবং নোটবুকগুলিকে ঘোরাতে আমাদের স্টুডিও অনবোর্ডিং প্রক্রিয়া অনুসরণ করতে হবে। যদিও আপনি কয়েকটি প্রমাণীকরণ পদ্ধতি থেকে বেছে নিতে পারেন, একটি স্টুডিও ডোমেন তৈরি করার সবচেয়ে সহজ উপায় হল অনুসরণ করা দ্রুত শুরু নির্দেশাবলী কুইক স্টার্ট একই ডিফল্ট সেটিংস ব্যবহার করে স্ট্যান্ডার্ড স্টুডিও সেটআপ. এছাড়াও আপনি ব্যবহার করে অনবোর্ড নির্বাচন করতে পারেন AWS IAM আইডেন্টিটি সেন্টার (AWS একক সাইন-অনের উত্তরসূরি) প্রমাণীকরণের জন্য (দেখুন আইএএম আইডেন্টিটি সেন্টার ব্যবহার করে অ্যামাজন সেজমেকার ডোমেনে অনবোর্ড).

স্টুডিও ব্যবহার করে ডেটাসেট এবং ফ্লো ফাইলগুলি ডেটা র্যাংলারে আমদানি করুন

নিম্নলিখিত পদক্ষেপগুলি ডেটা র্যাংলার দ্বারা সেজমেকারে কীভাবে ডেটা আমদানি করতে হয় তার রূপরেখা দেয়:

নির্বাচন করে স্টুডিও UI এর মাধ্যমে ডেটা র্যাংলার শুরু করুন নতুন ডেটা প্রবাহ.

ক্লোন করুন গিটহুব রেপো আপনার স্টুডিও পরিবেশে ফ্লো ফাইল ডাউনলোড করতে।

Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

ক্লোন সম্পূর্ণ হলে, আপনি বাম ফলকে সংগ্রহস্থলের বিষয়বস্তু দেখতে সক্ষম হবেন।

Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

ফাইলটি নির্বাচন করুন হোটেল-বুকিং-শ্রেণীবিভাগ ডেটা র্যাংলারে ফ্লো ফাইল আমদানি করতে।

আপনি যদি টাইম সিরিজ বা যোগ করা ডেটা ফ্লো ব্যবহার করেন, তাহলে প্রবাহটি একটি ভিন্ন নাম হিসেবে প্রদর্শিত হবে৷ প্রবাহটি আমদানি করার পরে, আপনাকে নিম্নলিখিত স্ক্রিনশটটি দেখতে হবে৷ এটি আমাদের ত্রুটি দেখায় কারণ আমাদের নিশ্চিত করতে হবে যে ফ্লো ফাইলটি সঠিক ডেটা উৎসের দিকে নির্দেশ করে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3)।

Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

বেছে নিন ডেটাসেট সম্পাদনা করুন আপনার সব S3 বালতি আনতে. পরবর্তী, ডেটাসেট নির্বাচন করুন hotel_bookings.csv মাধ্যমে চালানোর জন্য আপনার S3 বালতি থেকে সারণী ডেটা প্রবাহ.

নোট করুন যে আপনি যদি ব্যবহার করছেন তথ্য প্রবাহ যোগদান, আপনাকে ডেটা র্যাংলারে একাধিক ডেটাসেট আমদানি করতে হতে পারেAmazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

ডান ফলকে, নিশ্চিত করুন অনুচ্ছেদে বিভেদক হিসাবে নির্বাচিত হয় এবং আদর্শ তৈরি প্রথম কে. আমাদের ডেটাসেটটি সম্পূর্ণ ডেটাসেটে ডেটা র্যাংলার রূপান্তর চালানোর জন্য যথেষ্ট ছোট, কিন্তু আমরা কীভাবে ডেটাসেট আমদানি করতে পারেন তা হাইলাইট করতে চেয়েছিলাম। আপনার যদি একটি বড় ডেটাসেট থাকে, তাহলে নমুনা ব্যবহার করার কথা বিবেচনা করুন। পছন্দ করা আমদানি ডেটা র্যাংলারে এই ডেটাসেট আমদানি করতে।

Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

ডেটাসেট আমদানি করার পরে, ডেটা র‍্যাংলার স্বয়ংক্রিয়ভাবে ডেটাসেটটিকে যাচাই করে এবং ডেটা প্রকারগুলি সনাক্ত করে। আপনি দেখতে পাচ্ছেন যে ত্রুটিগুলি চলে গেছে কারণ আমরা সঠিক ডেটাসেটের দিকে নির্দেশ করছি৷ ফ্লো এডিটর এখন দুটি ব্লক দেখায় যা দেখায় যে ডেটা একটি উৎস থেকে আমদানি করা হয়েছে এবং ডেটা প্রকার স্বীকৃত। প্রয়োজনে আপনি ডেটা প্রকারগুলিও সম্পাদনা করতে পারেন।

Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

নিম্নলিখিত স্ক্রিনশট আমাদের ডেটা প্রকারগুলি দেখায়।

Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

আসুন এই সারণী প্রবাহের অংশ হিসাবে করা কিছু রূপান্তর দেখি। আপনি যদি ব্যবহার করছেন সময় সিরিজ or যোগদান তথ্য প্রবাহ, কিছু সাধারণ রূপান্তর পরীক্ষা করুন গিটহুব রেপো. আমরা ডেটা ইনসাইট রিপোর্টগুলি ব্যবহার করে কিছু মৌলিক অনুসন্ধানমূলক ডেটা বিশ্লেষণ করেছি যা ডেটাসেটে লক্ষ্য ফাঁস এবং বৈশিষ্ট্য সমন্বিততা, সারণী সারাংশ বিশ্লেষণ এবং দ্রুত মডেলিং ক্ষমতা অধ্যয়ন করে। পদক্ষেপগুলি অন্বেষণ করুন গিটহুব রেপো.

এখন আমরা ডেটা ইনসাইটস এবং কোয়ালিটি রিপোর্ট দ্বারা প্রদত্ত সুপারিশগুলির উপর ভিত্তি করে কলামগুলি ছেড়ে দিই৷

  • লক্ষ্য ফুটো জন্য, ড্রপ সংরক্ষণ_স্থিতি.
  • অপ্রয়োজনীয় কলামের জন্য, ড্রপ করুন দিনের_অপেক্ষার_তালিকা, হোটেল, সংরক্ষিত_রুম_প্রকার, আগমন_তারিখ_মাস, সংরক্ষণ_স্থিতি_তারিখ, শিশুরা, এবং আগমনের_তারিখ_মাসের_দিন.
  • রৈখিক পারস্পরিক সম্পর্ক ফলাফলের উপর ভিত্তি করে, কলাম ড্রপ করুন আগমনের_তারিখ_সপ্তাহের_সংখ্যা এবং আগমনের_তারিখ_বছর কারণ এই বৈশিষ্ট্যের (কলাম) জোড়ার পারস্পরিক সম্পর্ক মান 0.90 এর প্রস্তাবিত প্রান্তিকের চেয়ে বেশি।
  • অ-রৈখিক পারস্পরিক সম্পর্ক ফলাফলের উপর ভিত্তি করে, ড্রপ সংরক্ষণ_স্থিতি. লক্ষ্য ফাঁস বিশ্লেষণের উপর ভিত্তি করে এই কলামটি ইতিমধ্যেই বাদ দেওয়ার জন্য চিহ্নিত করা হয়েছে।
  • এর জন্য সাংখ্যিক মান (সর্বনিম্ন-সর্বোচ্চ স্কেলিং) প্রক্রিয়া করুন লিড_টাইম, থাকার_সপ্তাহান্তে_রাত্রি, থাকার_সপ্তাহের_দিন_রাত্রি, আছে_পুনরায়_অতিথি, পূর্বের_বাতিলকরণ, পূর্বের_বুকিং_বাতিল না করা, বুকিং_পরিবর্তন, অ্যাডআর, মোট_অফ_বিশেষ_অনুরোধ, এবং প্রয়োজনীয়_কার_পার্কিং_স্পেস.
  • এক-হট এনকোড শ্রেণীগত ভেরিয়েবলের মতো খাবার, is_repeated_guest, market_segment, assigned_room_type, deposit_type, এবং ব্যবহারকারীর ধরন.
  • ক্লাস ভারসাম্যহীনতার জন্য লক্ষ্য পরিবর্তনশীল র্যান্ডম ওভারস্যাম্পলের ভারসাম্য বজায় রাখুন। আউটলার এবং অনুপস্থিত মানগুলি পরিচালনা করতে দ্রুত মডেলিং ক্ষমতা ব্যবহার করুন।

Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

Amazon S3 এ রপ্তানি করুন

এখন আমরা বিভিন্ন রূপান্তরের মধ্য দিয়ে চলেছি এবং Amazon S3 এ ডেটা রপ্তানি করতে প্রস্তুত। এই বিকল্পটি একটি সেজমেকার প্রসেসিং কাজ তৈরি করে, যা ডেটা র‍্যাংলার প্রসেসিং ফ্লো চালায় এবং ফলস্বরূপ ডেটাসেটকে একটি নির্দিষ্ট S3 বালতিতে সংরক্ষণ করে। Amazon S3 এ রপ্তানি সেট আপ করতে পরবর্তী পদক্ষেপগুলি অনুসরণ করুন:

রূপান্তর উপাদানগুলির একটি সংগ্রহের পাশে প্লাস চিহ্নটি চয়ন করুন এবং চয়ন করুন গন্তব্য যোগ করুন, তারপর আমাজন S3.

Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

  • জন্য ডাটাসেটের নাম, নতুন ডেটাসেটের জন্য একটি নাম লিখুন, উদাহরণস্বরূপ NYC_export.
  • জন্য ফাইলের ধরননির্বাচন CSV তে.
  • জন্য বিভেদকনির্বাচন কমা.
  • জন্য সঙ্কোচননির্বাচন না.
  • জন্য Amazon S3 অবস্থান, একই বালতি নাম ব্যবহার করুন যা আমরা আগে তৈরি করেছি।
  • বেছে নিন গন্তব্য যোগ করুন.

Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

বেছে নিন চাকরি তৈরি করুন.

Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

জন্য কাজের নাম, একটি নাম লিখুন বা অটোজেনারেটেড বিকল্পটি রাখুন এবং নির্বাচন করুন গন্তব্য. আমাদের একটাই গন্তব্য, S3:testingtabulardata, কিন্তু আপনার কর্মপ্রবাহের বিভিন্ন ধাপ থেকে আপনার একাধিক গন্তব্য থাকতে পারে। ত্যাগ KMS কী ARN ক্ষেত্র খালি এবং নির্বাচন করুন পরবর্তী.

এখন আপনাকে একটি কাজের জন্য গণনার ক্ষমতা কনফিগার করতে হবে। আপনি এই উদাহরণের জন্য সমস্ত ডিফল্ট মান রাখতে পারেন।

  • জন্য দৃষ্টান্তের ধরণ, ml.m5.4xlarge ব্যবহার করুন।
  • জন্য তাত্ক্ষণিক গণনা, 2 ব্যবহার করুন।
  • আপনি অন্বেষণ করতে পারেন অতিরিক্ত কনফিগারেশন, কিন্তু ডিফল্ট সেটিংস রাখুন।
  • বেছে নিন চালান.

Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

এখন আপনার কাজ শুরু হয়েছে, এবং আমাদের ডেটা র্যাংলার প্রসেসিং ফ্লো অনুযায়ী 6 জিবি ডেটা প্রক্রিয়া করতে কিছুটা সময় লাগে। এই কাজের জন্য খরচ হবে প্রায় $2 USD, কারণ ml.m5.4xlarge-এর খরচ প্রতি ঘন্টায় $0.922 USD এবং আমরা সেগুলির মধ্যে দুটি ব্যবহার করছি।

আপনি যদি চাকরির নাম বেছে নেন, তাহলে আপনাকে কাজের বিবরণ সহ একটি নতুন উইন্ডোতে পুনঃনির্দেশিত করা হবে।

Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

কাজের বিবরণ পৃষ্ঠায়, আপনি আগের ধাপগুলি থেকে সমস্ত প্যারামিটার দেখতে পাবেন।

যখন কাজের স্থিতি পরিবর্তিত হয়ে সম্পূর্ণ হয়ে যায়, তখন আপনি এটিও পরীক্ষা করতে পারেন প্রক্রিয়াকরণের সময় (সেকেন্ড) মান এই প্রক্রিয়াকরণ কাজটি সম্পূর্ণ হতে প্রায় 5-10 মিনিট সময় নেয়।

Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

কাজটি সম্পূর্ণ হলে, ট্রেন এবং পরীক্ষার আউটপুট ফাইলগুলি সংশ্লিষ্ট S3 আউটপুট ফোল্ডারে পাওয়া যায়। আপনি প্রক্রিয়াকরণ কাজের কনফিগারেশন থেকে আউটপুট অবস্থান খুঁজে পেতে পারেন।

Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

ডেটা র্যাংলার প্রসেসিং কাজ সম্পূর্ণ হওয়ার পরে, আমরা আমাদের S3 বালতিতে সংরক্ষিত ফলাফলগুলি পরীক্ষা করতে পারি। আপডেট করতে ভুলবেন না job_name আপনার কাজের নামের সাথে পরিবর্তনশীল।

আপনি এখন এমএল মডেল চালানোর জন্য এই রপ্তানি করা ডেটা ব্যবহার করতে পারেন।

পরিষ্কার কর

আপনার S3 বালতি মুছুন এবং তোমার ডেটা র‍্যাংলার প্রবাহ আপনি পরীক্ষা শেষ করার পরে অন্তর্নিহিত সংস্থানগুলি মুছে ফেলতে এবং অবাঞ্ছিত খরচগুলি প্রতিরোধ করতে।

উপসংহার

এই পোস্টে, আমরা দেখিয়েছি কিভাবে আপনি ডেটা র‍্যাংলারে ট্যাবুলার প্রি-বিল্ট ডেটা ফ্লো আমদানি করতে পারেন, আমাদের ডেটাসেটের বিপরীতে প্লাগ করতে পারেন এবং ফলাফলগুলি Amazon S3-এ রপ্তানি করতে পারেন৷ আপনার ব্যবহারের ক্ষেত্রে যদি আপনাকে টাইম সিরিজ ডেটা ম্যানিপুলেট করতে বা একাধিক ডেটাসেটে যোগ দিতে হয়, তাহলে আপনি অন্যান্য পূর্ব-নির্মিত নমুনা প্রবাহের মধ্য দিয়ে যেতে পারেন গিটহুব রেপো.

আপনি একটি প্রি-বিল্ট ডেটা প্রিপ ওয়ার্কফ্লো আমদানি করার পরে, আপনি এটিকে অ্যামাজন সেজমেকার প্রসেসিংয়ের সাথে একীভূত করতে পারেন, অ্যামাজন সেজমেকার পাইপলাইন, এবং আমাজন সেজমেকার ফিচার স্টোর এমএল প্রশিক্ষণ ডেটা প্রক্রিয়াকরণ, ভাগ করে নেওয়া এবং সংরক্ষণ করার কাজটি সহজ করার জন্য। এছাড়াও আপনি এই নমুনা ডেটা প্রবাহ একটি পাইথন স্ক্রিপ্টে রপ্তানি করতে পারেন এবং একটি কাস্টম ML ডেটা প্রিপ পাইপলাইন তৈরি করতে পারেন, যার ফলে আপনার প্রকাশের বেগ ত্বরান্বিত হয়।

আমরা আপনাকে আমাদের চেক আউট উত্সাহিত GitHub সংগ্রহস্থল হাতে-কলমে অনুশীলন পেতে এবং মডেলের সঠিকতা উন্নত করার নতুন উপায় খুঁজে পেতে! সেজমেকার সম্পর্কে আরও জানতে, দেখুন অ্যামাজন সেজমেকার ডেভেলপার গাইড.


লেখক সম্পর্কে

Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.ইশার দুআ সান ফ্রান্সিসকো বে এরিয়াতে অবস্থিত একজন সিনিয়র সলিউশন আর্কিটেক্ট। তিনি AWS এন্টারপ্রাইজ গ্রাহকদের তাদের লক্ষ্য এবং চ্যালেঞ্জগুলি বোঝার মাধ্যমে বৃদ্ধি পেতে সাহায্য করেন এবং তারা কীভাবে তাদের অ্যাপ্লিকেশনগুলিকে ক্লাউড-নেটিভ পদ্ধতিতে আর্কিটেক্ট করতে পারেন এবং তারা স্থিতিস্থাপক এবং পরিমাপযোগ্য তা নিশ্চিত করে তাদের নির্দেশনা দেন৷ তিনি মেশিন লার্নিং প্রযুক্তি এবং পরিবেশগত স্থায়িত্ব সম্পর্কে উত্সাহী।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

Amazon SageMaker এর সাথে ফাউন্ডেশন মডেল স্থাপন করুন, TruEra এর সাথে পুনরাবৃত্তি করুন এবং মনিটর করুন | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1928904
সময় স্ট্যাম্প: ডিসেম্বর 22, 2023