অ্যামাজন সেজমেকার ডেটা র্যাংলারের সাথে গিথুব নমুনাগুলি ব্যবহার করুন

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

আমাজন সেজমেক r ডেটা র‍্যাংলার একটি UI-ভিত্তিক ডেটা প্রস্তুতির সরঞ্জাম যা ডেটা বিশ্লেষণ, প্রিপ্রসেসিং এবং ভিজ্যুয়ালাইজেশন করতে সাহায্য করে যাতে ডেটা পরিষ্কার, রূপান্তর এবং দ্রুত ডেটা প্রস্তুত করা যায়৷ ডেটা র্যাংলার পূর্ব-নির্মিত ফ্লো টেমপ্লেটগুলি আপনাকে সাধারণ ডেটাসেটগুলি ব্যবহার করে ডেটা প্রবাহের জন্য সর্বোত্তম অনুশীলনের ধরণগুলিকে ত্বরান্বিত করতে এবং বুঝতে সাহায্য করে ডেটা বিজ্ঞানী এবং মেশিন লার্নিং (ML) অনুশীলনকারীদের জন্য দ্রুত ডেটা প্রস্তুতিতে সহায়তা করে৷

আপনি নিম্নলিখিত কাজগুলি সম্পাদন করতে ডেটা র্যাংলার প্রবাহ ব্যবহার করতে পারেন:

তথ্য ভিজ্যুয়ালাইজেশন - ডেটাসেটের প্রতিটি কলামের জন্য পরিসংখ্যানগত বৈশিষ্ট্য পরীক্ষা করা, হিস্টোগ্রাম তৈরি করা, বহিরাগতদের অধ্যয়ন করা
তথ্য পরিষ্কার - ডুপ্লিকেট অপসারণ, অনুপস্থিত মান সহ এন্ট্রি বাদ দেওয়া বা পূরণ করা, বহিরাগত অপসারণ করা
ডেটা সমৃদ্ধকরণ এবং বৈশিষ্ট্য প্রকৌশল - প্রশিক্ষণের জন্য বৈশিষ্ট্যগুলির একটি উপসেট নির্বাচন করে আরও অভিব্যক্তিপূর্ণ বৈশিষ্ট্য তৈরি করতে কলামগুলি প্রক্রিয়া করা হচ্ছে

এই পোস্টটি আপনাকে নিম্নলিখিত নমুনা পূর্ব-নির্মিত প্রবাহ ব্যবহার করে ডেটা র্যাংলার বুঝতে সাহায্য করবে GitHub. রিপোজিটরি ট্যাবুলার ডেটা ট্রান্সফর্মেশন, টাইম সিরিজ ডেটা ট্রান্সফরমেশন এবং যোগ করা ডেটাসেট ট্রান্সফর্মেশন দেখায়। প্রত্যেকের মৌলিক প্রকৃতির কারণে ভিন্ন ধরনের রূপান্তর প্রয়োজন। স্ট্যান্ডার্ড ট্যাবুলার বা ক্রস-বিভাগীয় ডেটা নির্দিষ্ট সময়ে সংগ্রহ করা হয়। বিপরীতে, টাইম সিরিজ ডেটা সময়ের সাথে বারবার ক্যাপচার করা হয়, প্রতিটি ধারাবাহিক ডেটা পয়েন্ট তার অতীত মানের উপর নির্ভর করে।

টেবুলার ডেটার জন্য আমরা কীভাবে নমুনা ডেটা প্রবাহ ব্যবহার করতে পারি তার একটি উদাহরণ দেখি।

পূর্বশর্ত

ডেটা র‍্যাংলার একটি আমাজন সেজমেকার মধ্যে উপলব্ধ বৈশিষ্ট্য অ্যামাজন সেজমেকার স্টুডিও, তাই স্টুডিও পরিবেশ এবং নোটবুকগুলিকে ঘোরাতে আমাদের স্টুডিও অনবোর্ডিং প্রক্রিয়া অনুসরণ করতে হবে। যদিও আপনি কয়েকটি প্রমাণীকরণ পদ্ধতি থেকে বেছে নিতে পারেন, একটি স্টুডিও ডোমেন তৈরি করার সবচেয়ে সহজ উপায় হল অনুসরণ করা দ্রুত শুরু নির্দেশাবলী কুইক স্টার্ট একই ডিফল্ট সেটিংস ব্যবহার করে স্ট্যান্ডার্ড স্টুডিও সেটআপ. এছাড়াও আপনি ব্যবহার করে অনবোর্ড নির্বাচন করতে পারেন AWS IAM আইডেন্টিটি সেন্টার (AWS একক সাইন-অনের উত্তরসূরি) প্রমাণীকরণের জন্য (দেখুন আইএএম আইডেন্টিটি সেন্টার ব্যবহার করে অ্যামাজন সেজমেকার ডোমেনে অনবোর্ড).

স্টুডিও ব্যবহার করে ডেটাসেট এবং ফ্লো ফাইলগুলি ডেটা র্যাংলারে আমদানি করুন

নিম্নলিখিত পদক্ষেপগুলি ডেটা র্যাংলার দ্বারা সেজমেকারে কীভাবে ডেটা আমদানি করতে হয় তার রূপরেখা দেয়:

নির্বাচন করে স্টুডিও UI এর মাধ্যমে ডেটা র্যাংলার শুরু করুন নতুন ডেটা প্রবাহ.

ক্লোন করুন গিটহুব রেপো আপনার স্টুডিও পরিবেশে ফ্লো ফাইল ডাউনলোড করতে।

Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

ক্লোন সম্পূর্ণ হলে, আপনি বাম ফলকে সংগ্রহস্থলের বিষয়বস্তু দেখতে সক্ষম হবেন।

ফাইলটি নির্বাচন করুন হোটেল-বুকিং-শ্রেণীবিভাগ ডেটা র্যাংলারে ফ্লো ফাইল আমদানি করতে।

আপনি যদি টাইম সিরিজ বা যোগ করা ডেটা ফ্লো ব্যবহার করেন, তাহলে প্রবাহটি একটি ভিন্ন নাম হিসেবে প্রদর্শিত হবে৷ প্রবাহটি আমদানি করার পরে, আপনাকে নিম্নলিখিত স্ক্রিনশটটি দেখতে হবে৷ এটি আমাদের ত্রুটি দেখায় কারণ আমাদের নিশ্চিত করতে হবে যে ফ্লো ফাইলটি সঠিক ডেটা উৎসের দিকে নির্দেশ করে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3)।

বেছে নিন ডেটাসেট সম্পাদনা করুন আপনার সব S3 বালতি আনতে. পরবর্তী, ডেটাসেট নির্বাচন করুন hotel_bookings.csv মাধ্যমে চালানোর জন্য আপনার S3 বালতি থেকে সারণী ডেটা প্রবাহ.

নোট করুন যে আপনি যদি ব্যবহার করছেন তথ্য প্রবাহ যোগদান, আপনাকে ডেটা র্যাংলারে একাধিক ডেটাসেট আমদানি করতে হতে পারে Amazon SageMaker Data Wrangler PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ Github নমুনা ব্যবহার করুন। উল্লম্ব অনুসন্ধান. আ.

ডান ফলকে, নিশ্চিত করুন অনুচ্ছেদে বিভেদক হিসাবে নির্বাচিত হয় এবং আদর্শ তৈরি প্রথম কে. আমাদের ডেটাসেটটি সম্পূর্ণ ডেটাসেটে ডেটা র্যাংলার রূপান্তর চালানোর জন্য যথেষ্ট ছোট, কিন্তু আমরা কীভাবে ডেটাসেট আমদানি করতে পারেন তা হাইলাইট করতে চেয়েছিলাম। আপনার যদি একটি বড় ডেটাসেট থাকে, তাহলে নমুনা ব্যবহার করার কথা বিবেচনা করুন। পছন্দ করা আমদানি ডেটা র্যাংলারে এই ডেটাসেট আমদানি করতে।

ডেটাসেট আমদানি করার পরে, ডেটা র‍্যাংলার স্বয়ংক্রিয়ভাবে ডেটাসেটটিকে যাচাই করে এবং ডেটা প্রকারগুলি সনাক্ত করে। আপনি দেখতে পাচ্ছেন যে ত্রুটিগুলি চলে গেছে কারণ আমরা সঠিক ডেটাসেটের দিকে নির্দেশ করছি৷ ফ্লো এডিটর এখন দুটি ব্লক দেখায় যা দেখায় যে ডেটা একটি উৎস থেকে আমদানি করা হয়েছে এবং ডেটা প্রকার স্বীকৃত। প্রয়োজনে আপনি ডেটা প্রকারগুলিও সম্পাদনা করতে পারেন।

নিম্নলিখিত স্ক্রিনশট আমাদের ডেটা প্রকারগুলি দেখায়।

আসুন এই সারণী প্রবাহের অংশ হিসাবে করা কিছু রূপান্তর দেখি। আপনি যদি ব্যবহার করছেন সময় সিরিজ or যোগদান তথ্য প্রবাহ, কিছু সাধারণ রূপান্তর পরীক্ষা করুন গিটহুব রেপো. আমরা ডেটা ইনসাইট রিপোর্টগুলি ব্যবহার করে কিছু মৌলিক অনুসন্ধানমূলক ডেটা বিশ্লেষণ করেছি যা ডেটাসেটে লক্ষ্য ফাঁস এবং বৈশিষ্ট্য সমন্বিততা, সারণী সারাংশ বিশ্লেষণ এবং দ্রুত মডেলিং ক্ষমতা অধ্যয়ন করে। পদক্ষেপগুলি অন্বেষণ করুন গিটহুব রেপো.

এখন আমরা ডেটা ইনসাইটস এবং কোয়ালিটি রিপোর্ট দ্বারা প্রদত্ত সুপারিশগুলির উপর ভিত্তি করে কলামগুলি ছেড়ে দিই৷

লক্ষ্য ফুটো জন্য, ড্রপ সংরক্ষণ_স্থিতি.
অপ্রয়োজনীয় কলামের জন্য, ড্রপ করুন দিনের_অপেক্ষার_তালিকা, হোটেল, সংরক্ষিত_রুম_প্রকার, আগমন_তারিখ_মাস, সংরক্ষণ_স্থিতি_তারিখ, শিশুরা, এবং আগমনের_তারিখ_মাসের_দিন.
রৈখিক পারস্পরিক সম্পর্ক ফলাফলের উপর ভিত্তি করে, কলাম ড্রপ করুন আগমনের_তারিখ_সপ্তাহের_সংখ্যা এবং আগমনের_তারিখ_বছর কারণ এই বৈশিষ্ট্যের (কলাম) জোড়ার পারস্পরিক সম্পর্ক মান 0.90 এর প্রস্তাবিত প্রান্তিকের চেয়ে বেশি।
অ-রৈখিক পারস্পরিক সম্পর্ক ফলাফলের উপর ভিত্তি করে, ড্রপ সংরক্ষণ_স্থিতি. লক্ষ্য ফাঁস বিশ্লেষণের উপর ভিত্তি করে এই কলামটি ইতিমধ্যেই বাদ দেওয়ার জন্য চিহ্নিত করা হয়েছে।
এর জন্য সাংখ্যিক মান (সর্বনিম্ন-সর্বোচ্চ স্কেলিং) প্রক্রিয়া করুন লিড_টাইম, থাকার_সপ্তাহান্তে_রাত্রি, থাকার_সপ্তাহের_দিন_রাত্রি, আছে_পুনরায়_অতিথি, পূর্বের_বাতিলকরণ, পূর্বের_বুকিং_বাতিল না করা, বুকিং_পরিবর্তন, অ্যাডআর, মোট_অফ_বিশেষ_অনুরোধ, এবং প্রয়োজনীয়_কার_পার্কিং_স্পেস.
এক-হট এনকোড শ্রেণীগত ভেরিয়েবলের মতো খাবার, is_repeated_guest, market_segment, assigned_room_type, deposit_type, এবং ব্যবহারকারীর ধরন.
ক্লাস ভারসাম্যহীনতার জন্য লক্ষ্য পরিবর্তনশীল র্যান্ডম ওভারস্যাম্পলের ভারসাম্য বজায় রাখুন। আউটলার এবং অনুপস্থিত মানগুলি পরিচালনা করতে দ্রুত মডেলিং ক্ষমতা ব্যবহার করুন।

Amazon S3 এ রপ্তানি করুন

এখন আমরা বিভিন্ন রূপান্তরের মধ্য দিয়ে চলেছি এবং Amazon S3 এ ডেটা রপ্তানি করতে প্রস্তুত। এই বিকল্পটি একটি সেজমেকার প্রসেসিং কাজ তৈরি করে, যা ডেটা র‍্যাংলার প্রসেসিং ফ্লো চালায় এবং ফলস্বরূপ ডেটাসেটকে একটি নির্দিষ্ট S3 বালতিতে সংরক্ষণ করে। Amazon S3 এ রপ্তানি সেট আপ করতে পরবর্তী পদক্ষেপগুলি অনুসরণ করুন:

রূপান্তর উপাদানগুলির একটি সংগ্রহের পাশে প্লাস চিহ্নটি চয়ন করুন এবং চয়ন করুন গন্তব্য যোগ করুন, তারপর আমাজন S3.

জন্য ডাটাসেটের নাম, নতুন ডেটাসেটের জন্য একটি নাম লিখুন, উদাহরণস্বরূপ NYC_export.
জন্য ফাইলের ধরননির্বাচন CSV তে.
জন্য বিভেদকনির্বাচন কমা.
জন্য সঙ্কোচননির্বাচন না.
জন্য Amazon S3 অবস্থান, একই বালতি নাম ব্যবহার করুন যা আমরা আগে তৈরি করেছি।
বেছে নিন গন্তব্য যোগ করুন.

বেছে নিন চাকরি তৈরি করুন.

জন্য কাজের নাম, একটি নাম লিখুন বা অটোজেনারেটেড বিকল্পটি রাখুন এবং নির্বাচন করুন গন্তব্য. আমাদের একটাই গন্তব্য, S3:testingtabulardata, কিন্তু আপনার কর্মপ্রবাহের বিভিন্ন ধাপ থেকে আপনার একাধিক গন্তব্য থাকতে পারে। ত্যাগ KMS কী ARN ক্ষেত্র খালি এবং নির্বাচন করুন পরবর্তী.

এখন আপনাকে একটি কাজের জন্য গণনার ক্ষমতা কনফিগার করতে হবে। আপনি এই উদাহরণের জন্য সমস্ত ডিফল্ট মান রাখতে পারেন।

জন্য দৃষ্টান্তের ধরণ, ml.m5.4xlarge ব্যবহার করুন।
জন্য তাত্ক্ষণিক গণনা, 2 ব্যবহার করুন।
আপনি অন্বেষণ করতে পারেন অতিরিক্ত কনফিগারেশন, কিন্তু ডিফল্ট সেটিংস রাখুন।
বেছে নিন চালান.

এখন আপনার কাজ শুরু হয়েছে, এবং আমাদের ডেটা র্যাংলার প্রসেসিং ফ্লো অনুযায়ী 6 জিবি ডেটা প্রক্রিয়া করতে কিছুটা সময় লাগে। এই কাজের জন্য খরচ হবে প্রায় $2 USD, কারণ ml.m5.4xlarge-এর খরচ প্রতি ঘন্টায় $0.922 USD এবং আমরা সেগুলির মধ্যে দুটি ব্যবহার করছি।

আপনি যদি চাকরির নাম বেছে নেন, তাহলে আপনাকে কাজের বিবরণ সহ একটি নতুন উইন্ডোতে পুনঃনির্দেশিত করা হবে।

কাজের বিবরণ পৃষ্ঠায়, আপনি আগের ধাপগুলি থেকে সমস্ত প্যারামিটার দেখতে পাবেন।

যখন কাজের স্থিতি পরিবর্তিত হয়ে সম্পূর্ণ হয়ে যায়, তখন আপনি এটিও পরীক্ষা করতে পারেন প্রক্রিয়াকরণের সময় (সেকেন্ড) মান এই প্রক্রিয়াকরণ কাজটি সম্পূর্ণ হতে প্রায় 5-10 মিনিট সময় নেয়।

কাজটি সম্পূর্ণ হলে, ট্রেন এবং পরীক্ষার আউটপুট ফাইলগুলি সংশ্লিষ্ট S3 আউটপুট ফোল্ডারে পাওয়া যায়। আপনি প্রক্রিয়াকরণ কাজের কনফিগারেশন থেকে আউটপুট অবস্থান খুঁজে পেতে পারেন।

ডেটা র্যাংলার প্রসেসিং কাজ সম্পূর্ণ হওয়ার পরে, আমরা আমাদের S3 বালতিতে সংরক্ষিত ফলাফলগুলি পরীক্ষা করতে পারি। আপডেট করতে ভুলবেন না job_name আপনার কাজের নামের সাথে পরিবর্তনশীল।

আপনি এখন এমএল মডেল চালানোর জন্য এই রপ্তানি করা ডেটা ব্যবহার করতে পারেন।

পরিষ্কার কর

আপনার S3 বালতি মুছুন এবং তোমার ডেটা র‍্যাংলার প্রবাহ আপনি পরীক্ষা শেষ করার পরে অন্তর্নিহিত সংস্থানগুলি মুছে ফেলতে এবং অবাঞ্ছিত খরচগুলি প্রতিরোধ করতে।

উপসংহার

এই পোস্টে, আমরা দেখিয়েছি কিভাবে আপনি ডেটা র‍্যাংলারে ট্যাবুলার প্রি-বিল্ট ডেটা ফ্লো আমদানি করতে পারেন, আমাদের ডেটাসেটের বিপরীতে প্লাগ করতে পারেন এবং ফলাফলগুলি Amazon S3-এ রপ্তানি করতে পারেন৷ আপনার ব্যবহারের ক্ষেত্রে যদি আপনাকে টাইম সিরিজ ডেটা ম্যানিপুলেট করতে বা একাধিক ডেটাসেটে যোগ দিতে হয়, তাহলে আপনি অন্যান্য পূর্ব-নির্মিত নমুনা প্রবাহের মধ্য দিয়ে যেতে পারেন গিটহুব রেপো.

আপনি একটি প্রি-বিল্ট ডেটা প্রিপ ওয়ার্কফ্লো আমদানি করার পরে, আপনি এটিকে অ্যামাজন সেজমেকার প্রসেসিংয়ের সাথে একীভূত করতে পারেন, অ্যামাজন সেজমেকার পাইপলাইন, এবং আমাজন সেজমেকার ফিচার স্টোর এমএল প্রশিক্ষণ ডেটা প্রক্রিয়াকরণ, ভাগ করে নেওয়া এবং সংরক্ষণ করার কাজটি সহজ করার জন্য। এছাড়াও আপনি এই নমুনা ডেটা প্রবাহ একটি পাইথন স্ক্রিপ্টে রপ্তানি করতে পারেন এবং একটি কাস্টম ML ডেটা প্রিপ পাইপলাইন তৈরি করতে পারেন, যার ফলে আপনার প্রকাশের বেগ ত্বরান্বিত হয়।

আমরা আপনাকে আমাদের চেক আউট উত্সাহিত GitHub সংগ্রহস্থল হাতে-কলমে অনুশীলন পেতে এবং মডেলের সঠিকতা উন্নত করার নতুন উপায় খুঁজে পেতে! সেজমেকার সম্পর্কে আরও জানতে, দেখুন অ্যামাজন সেজমেকার ডেভেলপার গাইড.

লেখক সম্পর্কে

ইশার দুআ সান ফ্রান্সিসকো বে এরিয়াতে অবস্থিত একজন সিনিয়র সলিউশন আর্কিটেক্ট। তিনি AWS এন্টারপ্রাইজ গ্রাহকদের তাদের লক্ষ্য এবং চ্যালেঞ্জগুলি বোঝার মাধ্যমে বৃদ্ধি পেতে সাহায্য করেন এবং তারা কীভাবে তাদের অ্যাপ্লিকেশনগুলিকে ক্লাউড-নেটিভ পদ্ধতিতে আর্কিটেক্ট করতে পারেন এবং তারা স্থিতিস্থাপক এবং পরিমাপযোগ্য তা নিশ্চিত করে তাদের নির্দেশনা দেন৷ তিনি মেশিন লার্নিং প্রযুক্তি এবং পরিবেশগত স্থায়িত্ব সম্পর্কে উত্সাহী।

সময় স্ট্যাম্প: নভেম্বর 4, 2022নভেম্বর 5, 2022

সময় স্ট্যাম্প: মার্চ 9, 2022

Amazon SageMaker Data Wrangler এর সাথে Github স্যাম্পল ব্যবহার করুন

প্লেটো দ্বারা প্রকাশিত

পূর্বশর্ত

স্টুডিও ব্যবহার করে ডেটাসেট এবং ফ্লো ফাইলগুলি ডেটা র্যাংলারে আমদানি করুন

Amazon S3 এ রপ্তানি করুন

পরিষ্কার কর

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

Amazon SageMaker এর সাথে ফাউন্ডেশন মডেল স্থাপন করুন, TruEra এর সাথে পুনরাবৃত্তি করুন এবং মনিটর করুন | আমাজন ওয়েব সার্ভিসেস

Exafunction AWS Inferentia সমর্থন করে মেশিন লার্নিং ইনফারেন্সের জন্য সেরা দামের পারফরম্যান্স আনলক করতে

AWS ব্যবহার করে গ্রাহকের অনুভূতির রিয়েল-টাইম বিশ্লেষণ

Amazon SageMaker Autopilot এখন টাইম সিরিজ ডেটা সমর্থন করে

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব