NLTK এবং SciPy ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা হচ্ছে

NLTK এবং SciPy ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা হচ্ছে

"কোডের উপর ফোকাস করার পরিবর্তে, কোম্পানিগুলিকে নির্ভরযোগ্য, দক্ষ এবং পদ্ধতিগত উপায়ে ডেটা উন্নত করার জন্য পদ্ধতিগত প্রকৌশল অনুশীলন বিকাশের দিকে মনোনিবেশ করা উচিত। অন্য কথায়, কোম্পানিগুলিকে মডেল-কেন্দ্রিক পদ্ধতি থেকে ডেটা-কেন্দ্রিক পদ্ধতির দিকে যেতে হবে। - অ্যান্ড্রু এনজি

একটি ডেটা-কেন্দ্রিক AI পদ্ধতির মধ্যে ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশল জড়িত গুণমানের ডেটা সহ AI সিস্টেম তৈরি করা জড়িত। এটি ডেটা সংগ্রহ, আবিষ্কার, প্রোফাইলিং, ক্লিনজিং, স্ট্রাকচারিং, ট্রান্সফর্মিং, সমৃদ্ধকরণ, যাচাইকরণ এবং নিরাপদে ডেটা সংরক্ষণের সাথে জড়িত একটি ক্লান্তিকর কাজ হতে পারে।

অ্যামাজন সেজমেকার ডেটা র্যাংলার মধ্যে একটি সেবা অ্যামাজন সেজমেকার স্টুডিও যা সামান্য থেকে কোন কোডিং ব্যবহার করে ডেটা আমদানি, প্রস্তুত, রূপান্তর, বৈশিষ্ট্যযুক্ত এবং বিশ্লেষণের জন্য শেষ থেকে শেষ সমাধান প্রদান করে। আপনি ডেটা প্রিপ্রসেসিং এবং ফিচার ইঞ্জিনিয়ারিংকে সহজ করার জন্য আপনার মেশিন লার্নিং (ML) ওয়ার্কফ্লোতে একটি ডেটা র্যাংলার ডেটা প্রস্তুতির প্রবাহকে একীভূত করতে পারেন, PySpark কোড লিখতে, Apache স্পার্ক ইনস্টল করতে বা ক্লাস্টারগুলি স্পিন আপ করার প্রয়োজন ছাড়াই দ্রুত উৎপাদনে ডেটা প্রস্তুতি নিতে পারেন৷

এমন পরিস্থিতিতে যেখানে ডেটা ট্রান্সফরমেশনের জন্য আপনার নিজস্ব কাস্টম স্ক্রিপ্ট যোগ করতে হবে, আপনি পান্ডাস, পাইস্পার্ক, পাইস্পার্ক এসকিউএল-এ আপনার ট্রান্সফর্মেশন লজিক লিখতে পারেন। ডাটা র‍্যাংলার এখন ML-এর জন্য টেক্সট ডেটা প্রস্তুত করতে এবং সীমাবদ্ধতা অপ্টিমাইজেশান সঞ্চালনের জন্য কাস্টম রূপান্তর রচনার জন্য NLTK এবং SciPy লাইব্রেরি সমর্থন করে।

আপনি এমন পরিস্থিতিতে যেতে পারেন যেখানে আপনাকে ডেটা রূপান্তরের জন্য আপনার নিজস্ব কাস্টম স্ক্রিপ্ট যোগ করতে হবে। ডেটা র্যাংলার কাস্টম ট্রান্সফর্ম ক্ষমতার সাহায্যে, আপনি পান্ডাস, পাইস্পার্ক, পাইস্পার্ক এসকিউএল-এ আপনার রূপান্তর যুক্তি লিখতে পারেন।

এই পোস্টে, আমরা আলোচনা করব কিভাবে আপনি ML-এর জন্য পাঠ্য ডেটা প্রস্তুত করতে NLTK-তে আপনার কাস্টম রূপান্তর লিখতে পারেন। আমরা অন্যান্য সাধারণ ফ্রেমওয়ার্ক যেমন NLTK, NumPy, SciPy, এবং scikit-learn এর পাশাপাশি AWS AI পরিষেবাগুলি ব্যবহার করে কিছু উদাহরণ কাস্টম কোড ট্রান্সফর্ম শেয়ার করব। এই অনুশীলনের উদ্দেশ্যে, আমরা ব্যবহার করি টাইটানিক ডেটাসেট, ML সম্প্রদায়ের একটি জনপ্রিয় ডেটাসেট, যা এখন a হিসাবে যোগ করা হয়েছে৷ নমুনা ডেটাসেট ডেটা র‍্যাংলারের মধ্যে।

সমাধান ওভারভিউ

ডেটা র্যাংলার ডেটা আমদানির জন্য 40 টির বেশি অন্তর্নির্মিত সংযোগকারী সরবরাহ করে। ডেটা আমদানি করার পরে, আপনি 300 টিরও বেশি অন্তর্নির্মিত রূপান্তর ব্যবহার করে আপনার ডেটা বিশ্লেষণ এবং রূপান্তরগুলি তৈরি করতে পারেন। তারপরে আপনি বৈশিষ্ট্যগুলিকে পুশ করার জন্য শিল্পায়িত পাইপলাইন তৈরি করতে পারেন আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) বা আমাজন সেজমেকার ফিচার স্টোর. নিম্নলিখিত চিত্রটি শেষ থেকে শেষ উচ্চ-স্তরের আর্কিটেকচার দেখায়।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

পূর্বশর্ত

ডেটা র্যাংলার একটি সেজমেকার বৈশিষ্ট্য যার মধ্যে উপলব্ধ অ্যামাজন সেজমেকার স্টুডিও. আপনি অনুসরণ করতে পারেন স্টুডিও অনবোর্ডিং প্রক্রিয়া স্টুডিও পরিবেশ এবং নোটবুক ঘূর্ণন. যদিও আপনি কয়েকটি প্রমাণীকরণ পদ্ধতি থেকে বেছে নিতে পারেন, একটি স্টুডিও ডোমেন তৈরি করার সবচেয়ে সহজ উপায় হল অনুসরণ করা দ্রুত শুরু নির্দেশাবলী. কুইক স্টার্ট স্ট্যান্ডার্ড স্টুডিও সেটআপের মতো একই ডিফল্ট সেটিংস ব্যবহার করে। এছাড়াও আপনি ব্যবহার করে অনবোর্ড নির্বাচন করতে পারেন AWS IAM আইডেন্টিটি সেন্টার (AWS একক সাইন-অনের উত্তরসূরি) প্রমাণীকরণের জন্য (দেখুন আইএএম আইডেন্টিটি সেন্টার ব্যবহার করে অ্যামাজন সেজমেকার ডোমেনে অনবোর্ড).

টাইটানিক ডেটাসেট আমদানি করুন

আপনার স্টুডিও পরিবেশ শুরু করুন এবং একটি নতুন তৈরি করুন ডেটা র‍্যাংলার প্রবাহ. আপনি হয় আপনার নিজস্ব ডেটাসেট আমদানি করতে পারেন বা নিম্নলিখিত স্ক্রিনশটে দেখানো হিসাবে একটি নমুনা ডেটাসেট (টাইটানিক) ব্যবহার করতে পারেন৷ ডেটা র্যাংলার আপনাকে বিভিন্ন ডেটা উত্স থেকে ডেটাসেট আমদানি করতে দেয়। আমাদের ব্যবহারের ক্ষেত্রে, আমরা একটি S3 বালতি থেকে নমুনা ডেটাসেট আমদানি করি।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

একবার আমদানি করা হলে, আপনি ডেটা প্রবাহে দুটি নোড (সোর্স নোড এবং ডেটা টাইপ নোড) দেখতে পাবেন। ডেটা র্যাংলার স্বয়ংক্রিয়ভাবে ডেটাসেটের সমস্ত কলামের জন্য ডেটা টাইপ সনাক্ত করে।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

NLTK এর সাথে কাস্টম রূপান্তর

ডেটা রেংলারের সাথে ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশলের জন্য, আপনি 300 টির বেশি অন্তর্নির্মিত রূপান্তর ব্যবহার করতে পারেন বা আপনার নিজস্ব কাস্টম রূপান্তরগুলি তৈরি করতে পারেন। কাস্টম রূপান্তর ডেটা র‍্যাংলারের মধ্যে পৃথক পদক্ষেপ হিসাবে লেখা যেতে পারে। তারা Data Wrangler-এর মধ্যে .flow ফাইলের অংশ হয়ে যায়। কাস্টম ট্রান্সফর্ম বৈশিষ্ট্য পাইথন, পাইস্পার্ক এবং এসকিউএলকে কোড স্নিপেটের বিভিন্ন ধাপ হিসেবে সমর্থন করে। নোটবুক ফাইল (.ipynb) .flow ফাইল থেকে তৈরি হওয়ার পরে বা .flow ফাইল রেসিপি হিসাবে ব্যবহার করা হয়, কাস্টম ট্রান্সফর্ম কোড স্নিপেটগুলি কোনও পরিবর্তনের প্রয়োজন ছাড়াই টিকে থাকে৷ ডেটা র‍্যাংলারের এই নকশাটি কাস্টম রূপান্তরগুলিকে কাস্টম রূপান্তর সহ বিশাল ডেটাসেট প্রক্রিয়াকরণের জন্য সেজমেকার প্রসেসিং কাজের অংশ হতে দেয়।

টাইটানিক ডেটাসেটে কয়েকটি বৈশিষ্ট্য (নাম এবং home.dest) রয়েছে যাতে পাঠ্য তথ্য রয়েছে। আমরা ব্যাবহার করি NLTK নামের কলামটি বিভক্ত করতে এবং শেষ নামটি বের করতে এবং শেষ নামের ফ্রিকোয়েন্সি প্রিন্ট করতে। এনএলটিকে মানব ভাষার ডেটা নিয়ে কাজ করার জন্য পাইথন প্রোগ্রাম তৈরির একটি অগ্রণী প্ল্যাটফর্ম। এটি সহজে ব্যবহারযোগ্য ইন্টারফেস প্রদান করে 50 টিরও বেশি কর্পোরা এবং আভিধানিক সংস্থান যেমন WordNet, শ্রেণীবিভাগ, টোকেনাইজেশন, স্টেমিং, ট্যাগিং, পার্সিং, এবং শব্দার্থিক যুক্তি এবং শিল্প-শক্তি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) লাইব্রেরির জন্য টেক্সট প্রসেসিং লাইব্রেরির একটি স্যুট সহ।

একটি নতুন রূপান্তর যোগ করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. প্লাস চিহ্নটি বেছে নিন এবং নির্বাচন করুন রূপান্তর যুক্ত করুন.
  2. বেছে নিন পদক্ষেপ যুক্ত করুন এবং নির্বাচন করুন কাস্টম রূপান্তর.

আপনি Pandas, PySpark, Python ব্যবহারকারী-সংজ্ঞায়িত ফাংশন এবং SQL PySpark ব্যবহার করে একটি কাস্টম রূপান্তর তৈরি করতে পারেন।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

  1. বেছে নিন পাইথন (পান্ডাস) এবং নামের কলাম থেকে শেষ নাম বের করতে নিম্নলিখিত কোড যোগ করুন:
    import nltk
    nltk.download('punkt')
    tokens = [nltk.word_tokenize(name) for name in df['Name']] # Extract the last names of the passengers
    df['last_name'] = [token[0] for token in tokens]

  2. বেছে নিন প্রি ফলাফল পর্যালোচনা করতে।

নিম্নলিখিত স্ক্রিনশটটি প্রদর্শন করে last_name কলাম বের করা হয়েছে।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

  1. নিম্নলিখিত কোড ব্যবহার করে শেষ নামের ফ্রিকোয়েন্সি বন্টন সনাক্ত করতে আরেকটি কাস্টম রূপান্তর পদক্ষেপ যোগ করুন:
    import nltk
    fd = nltk.FreqDist(df["last_name"])
    print(fd.most_common(10))

  2. বেছে নিন প্রি ফ্রিকোয়েন্সি ফলাফল পর্যালোচনা করতে.NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

AWS AI পরিষেবার সাথে কাস্টম রূপান্তর

AWS প্রাক-প্রশিক্ষিত AI পরিষেবাগুলি আপনার অ্যাপ্লিকেশন এবং কর্মপ্রবাহের জন্য তৈরি বুদ্ধিমত্তা প্রদান করে। AWS AI পরিষেবাগুলি সহজেই আপনার অ্যাপ্লিকেশনগুলির সাথে একত্রিত হয় অনেক সাধারণ ব্যবহারের ক্ষেত্রে। আপনি এখন ডেটা র্যাংলারে একটি কাস্টম রূপান্তর পদক্ষেপ হিসাবে AWS AI পরিষেবাগুলির জন্য ক্ষমতাগুলি ব্যবহার করতে পারেন৷

অ্যামাজন সমঝোতা নথির বিষয়বস্তু সম্পর্কে অন্তর্দৃষ্টি বের করতে NLP ব্যবহার করে। এটি একটি নথিতে সত্তা, মূল বাক্যাংশ, ভাষা, অনুভূতি এবং অন্যান্য সাধারণ উপাদানগুলিকে স্বীকৃতি দিয়ে অন্তর্দৃষ্টি বিকাশ করে।

নাম কলাম থেকে সত্তাগুলি বের করতে আমরা Amazon Comprehend ব্যবহার করি। নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. একটি কাস্টম রূপান্তর পদক্ষেপ যোগ করুন।
  2. বেছে নিন পাইথন (পান্ডাস).
  3. সত্তা নিষ্কাশন করতে নিম্নলিখিত কোড লিখুন:
    import boto3
    comprehend = boto3.client("comprehend") response = comprehend.detect_entities(LanguageCode = 'en', Text = df['name'].iloc[0]) for entity in response['Entities']:
    print(entity['Type'] + ":" + entity["Text"])

  4. বেছে নিন প্রি এবং ফলাফল কল্পনা করুন।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

আমরা এখন ডেটা র্যাংলারে তিনটি কাস্টম রূপান্তর যোগ করেছি।

  1. বেছে নিন তথ্য প্রবাহ এন্ড-টু-এন্ড ডেটা ফ্লো কল্পনা করতে।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

NumPy এবং SciPy এর সাথে কাস্টম রূপান্তর

নম্র পাইথনের জন্য একটি ওপেন-সোর্স লাইব্রেরি যা ব্যাপক গাণিতিক ফাংশন, র্যান্ডম নম্বর জেনারেটর, রৈখিক বীজগণিত রুটিন, ফুরিয়ার রূপান্তর এবং আরও অনেক কিছু অফার করে। SciPy বৈজ্ঞানিক কম্পিউটিং এবং প্রযুক্তিগত কম্পিউটিংয়ের জন্য ব্যবহৃত একটি ওপেন-সোর্স পাইথন লাইব্রেরি, যেখানে অপ্টিমাইজেশন, লিনিয়ার অ্যালজেব্রা, ইন্টিগ্রেশন, ইন্টারপোলেশন, বিশেষ ফাংশন, ফাস্ট ফুরিয়ার ট্রান্সফর্ম (এফএফটি), সিগন্যাল এবং ইমেজ প্রসেসিং, সমাধানকারী এবং আরও অনেক কিছুর জন্য মডিউল রয়েছে।

ডেটা র‍্যাংলার কাস্টম ট্রান্সফর্ম আপনাকে পাইথন, পাইস্পার্ক এবং এসকিউএলকে বিভিন্ন ধাপ হিসেবে একত্রিত করতে দেয়। নিম্নলিখিত ডেটা র্যাংলার ফ্লোতে, পাইথন প্যাকেজ, NumPy এবং SciPy থেকে বিভিন্ন ফাংশন একাধিক ধাপ হিসাবে টাইটানিক ডেটাসেটে প্রয়োগ করা হয়।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

NumPy রূপান্তর

টাইটানিক ডেটাসেটের ভাড়া কলামে বিভিন্ন যাত্রীর বোর্ডিং ভাড়া রয়েছে। ভাড়া কলামের হিস্টোগ্রাম শেষ বিন ব্যতীত অভিন্ন বন্টন দেখায়। লগ বা বর্গমূলের মতো NumPy রূপান্তর প্রয়োগ করে, আমরা বন্টন পরিবর্তন করতে পারি (বর্গমূল রূপান্তর দ্বারা দেখানো হয়েছে)।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ. NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

নিম্নলিখিত কোডটি দেখুন:

import pandas as pd
import numpy as np
df["fare_log"] = np.log(df["fare_interpolate"])
df["fare_sqrt"] = np.sqrt(df["fare_interpolate"])
df["fare_cbrt"] = np.cbrt(df["fare_interpolate"])

SciPy রূপান্তর

SciPy ফাংশন যেমন z-স্কোর কাস্টম ট্রান্সফর্মের অংশ হিসেবে ব্যবহার করা হয় গড় এবং মানক বিচ্যুতি সহ ভাড়া বন্টনকে প্রমিত করার জন্য।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

নিম্নলিখিত কোডটি দেখুন:

df["fare_zscore"] = zscore(df["fare_interpolate"])
from scipy.stats import zscore

NumPy এবং SciPy এর সাথে সীমাবদ্ধতা অপ্টিমাইজেশান

ডেটা র‍্যাংলার কাস্টম ট্রান্সফর্মগুলি SciPy অপ্টিমাইজ ফাংশন প্রয়োগ করা এবং SciPy-এর সাথে NumPy-এর সমন্বয় করার মতো সীমাবদ্ধতা অপ্টিমাইজেশনের মতো উন্নত রূপান্তরগুলি পরিচালনা করতে পারে। নিম্নলিখিত উদাহরণে, বয়সের একটি ফাংশন হিসাবে ভাড়া কোনো পর্যবেক্ষণযোগ্য প্রবণতা দেখায় না। যাইহোক, সীমাবদ্ধতা অপ্টিমাইজেশান ভাড়াকে বয়সের একটি ফাংশন হিসাবে রূপান্তরিত করতে পারে। এই ক্ষেত্রে সীমাবদ্ধতা হল নতুন মোট ভাড়া পুরানো মোট ভাড়ার মতোই থাকবে। ডেটা র‍্যাংলার কাস্টম ট্রান্সফর্ম আপনাকে সর্বোত্তম সহগ নির্ধারণ করতে SciPy অপ্টিমাইজ ফাংশন চালানোর অনুমতি দেয় যা সীমাবদ্ধতার শর্তে বয়সের ফাংশন হিসাবে ভাড়া রূপান্তর করতে পারে।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ. NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

SciPy এবং NumPy ব্যবহার করে ডেটা র্যাংলার কাস্টম ট্রান্সফর্মে সীমাবদ্ধতা অপ্টিমাইজেশন তৈরি করার সময় অপ্টিমাইজেশান সংজ্ঞা, উদ্দেশ্য সংজ্ঞা এবং একাধিক সীমাবদ্ধতাগুলিকে বিভিন্ন ফাংশন হিসাবে উল্লেখ করা যেতে পারে। কাস্টম রূপান্তরগুলি বিভিন্ন সমাধানকারী পদ্ধতিও আনতে পারে যা SciPy অপ্টিমাইজ প্যাকেজের অংশ হিসাবে উপলব্ধ। একটি নতুন রূপান্তরিত ভেরিয়েবল তৈরি করা যেতে পারে সর্বোত্তম সহগকে মূল কলামের সাথে গুণ করে এবং ডেটা র্যাংলারের বিদ্যমান কলামগুলিতে যোগ করে। নিম্নলিখিত কোড দেখুন:

import numpy as np
import scipy.optimize as opt
import pandas as pd df2 = pd.DataFrame({"Y":df["fare_interpolate"], "X1":df["age_interpolate"]}) # optimization defination
def main(df2):
x0 = [0.1]
res = opt.minimize(fun=obj, x0=x0, args=(df2), method="SLSQP", bounds=[(0,50)], constraints=cons)
return res # objective function
def obj(x0, df2):
sumSquares = np.sum(df2["Y"] - x0*df2["X1"])
return sumSquares # constraints
def constraint1(x0):
sum_cons1 = np.sum(df2["Y"] - x0*df2["X1"]) - 0
return sum_cons1
con1 = {'type': 'eq', 'fun': constraint1}
cons = ([con1]) print(main(df2)) df["new_fare_age_optimized"]=main(df2).x*df2["X1"]

ডেটা র‍্যাংলার কাস্টম ট্রান্সফর্ম বৈশিষ্ট্যটিতে SciPy অপ্টিমাইজ ফাংশনগুলির ফলাফলগুলি দেখানোর জন্য UI ক্ষমতা রয়েছে যেমন সর্বোত্তম সহগ (বা একাধিক সহগ) এর মান।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

স্কিট-লার্নের সাথে কাস্টম রূপান্তর

scikit-শিখতে SciPy-এর উপরে তৈরি মেশিন লার্নিংয়ের জন্য একটি পাইথন মডিউল। এটি একটি ওপেন-সোর্স ML লাইব্রেরি যা তত্ত্বাবধানে এবং অ-তত্ত্বাবধানহীন শিক্ষাকে সমর্থন করে। এটি মডেল ফিটিং, ডেটা প্রিপ্রসেসিং, মডেল নির্বাচন, মডেল মূল্যায়ন এবং অন্যান্য অনেক ইউটিলিটিগুলির জন্য বিভিন্ন সরঞ্জাম সরবরাহ করে।

বিচক্ষণতা

বিচক্ষণতা (অন্যথায় হিসাবে পরিচিত কোয়ান্টাইজেশন or বিনিং) অবিচ্ছিন্ন বৈশিষ্ট্যগুলিকে পৃথক মানগুলিতে ভাগ করার একটি উপায় সরবরাহ করে। অবিচ্ছিন্ন বৈশিষ্ট্য সহ নির্দিষ্ট ডেটাসেটগুলি বিচক্ষণতা থেকে উপকৃত হতে পারে, কারণ বিবেচ্যকরণ ক্রমাগত বৈশিষ্ট্যগুলির ডেটাসেটকে শুধুমাত্র নামমাত্র বৈশিষ্ট্যগুলির সাথে রূপান্তর করতে পারে। এক-হট এনকোডেড বিচ্ছিন্ন বৈশিষ্ট্যগুলি ব্যাখ্যাযোগ্যতা বজায় রেখে একটি মডেলকে আরও অভিব্যক্তিপূর্ণ করে তুলতে পারে। উদাহরণস্বরূপ, ডিসক্রিটাইজারের সাথে প্রি-প্রসেসিং লিনিয়ার মডেলগুলিতে অরৈখিকতার পরিচয় দিতে পারে।

নিম্নলিখিত কোডে, আমরা ব্যবহার করি KBinsDiscretizer বয়সের কলামটিকে 10 টি বিনে আলাদা করতে:

# Table is available as variable `df`
from sklearn.preprocessing import KBinsDiscretizer
import numpy as np
# discretization transform the raw data
df = df.dropna()
kbins = KBinsDiscretizer(n_bins=10, encode='ordinal', strategy='uniform')
ages = np.array(df["age"]).reshape(-1, 1)
df["age"] = kbins.fit_transform(ages)
print(kbins.bin_edges_)

আপনি নীচের স্ক্রিনশটে মুদ্রিত বিন প্রান্তগুলি দেখতে পারেন।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

এক-গরম এনকোডিং

এমবার্কড কলামের মান হল শ্রেণীবদ্ধ মান। অতএব, আমাদের মডেলের সাথে আমাদের শ্রেণিবিন্যাস সম্পাদন করার জন্য আমাদের এই স্ট্রিংগুলিকে সংখ্যাসূচক মান হিসাবে উপস্থাপন করতে হবে। আমরা এক-হট এনকোডিং ট্রান্সফর্ম ব্যবহার করেও এটি করতে পারি।

Embarked-এর জন্য তিনটি মান আছে: S, C, এবং Q। আমরা এগুলোকে সংখ্যা দিয়ে উপস্থাপন করি। নিম্নলিখিত কোড দেখুন:

# Table is available as variable `df`
from sklearn.preprocessing import LabelEncoder le_embarked = LabelEncoder()
le_embarked.fit(df["embarked"]) encoded_embarked_training = le_embarked.transform(df["embarked"])
df["embarked"] = encoded_embarked_training

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

পরিষ্কার কর

আপনি যখন ডেটা র‍্যাংলার ব্যবহার করছেন না, তখন অতিরিক্ত ফি খরচ এড়াতে এটি যে দৃষ্টান্তে চলে তা বন্ধ করা গুরুত্বপূর্ণ।

ডেটা র্যাংলার স্বয়ংক্রিয়ভাবে প্রতি 60 সেকেন্ডে আপনার ডেটা প্রবাহ সংরক্ষণ করে। কাজ হারানো এড়াতে, ডাটা র্যাংলার বন্ধ করার আগে আপনার ডেটা প্রবাহ সংরক্ষণ করুন।

  1. স্টুডিওতে আপনার ডেটা প্রবাহ সংরক্ষণ করতে, বেছে নিন ফাইল, তাহলে বেছে নাও ডেটা র্যাংলার প্রবাহ সংরক্ষণ করুন.
  2. ডাটা র‍্যাংলার ইনস্ট্যান্স বন্ধ করতে, স্টুডিওতে, নির্বাচন করুন চলমান দৃষ্টান্ত এবং কার্নেলগুলি.
  3. অধীনে চলমান অ্যাপস, sagemaker-data-wrangler-1.0 অ্যাপের পাশে শাটডাউন আইকনটি বেছে নিন।
  4. বেছে নিন সব বন্ধ করুন নিশ্চিত করতে.

ডেটা র‍্যাংলার একটি ml.m5.4x বৃহৎ উদাহরণে চলে। এই উদাহরণ থেকে অদৃশ্য হয় চলমান উদাহরণ যখন আপনি ডাটা র‍্যাংলার অ্যাপ বন্ধ করেন।

আপনি ডেটা র্যাংলার অ্যাপটি বন্ধ করার পরে, পরের বার যখন আপনি একটি ডেটা র্যাংলার ফ্লো ফাইল খুলবেন তখন এটি পুনরায় চালু করতে হবে। এই কয়েক মিনিট সময় নিতে পারে.

উপসংহার

এই পোস্টে, আমরা দেখিয়েছি কিভাবে আপনি ডেটা র্যাংলারে কাস্টম রূপান্তর ব্যবহার করতে পারেন। আমরা অন্তর্নির্মিত ডেটা রূপান্তর ক্ষমতা প্রসারিত করতে ডেটা র্যাংলার কন্টেইনারের মধ্যে লাইব্রেরি এবং কাঠামো ব্যবহার করেছি। এই পোস্টের উদাহরণগুলি ব্যবহৃত ফ্রেমওয়ার্কগুলির একটি উপসেট উপস্থাপন করে। ডেটা র্যাংলার প্রবাহের রূপান্তরগুলি এখন ডেটাঅপসের জন্য একটি পাইপলাইনে স্কেল করা যেতে পারে।

ডেটা র্যাংলারের সাথে ডেটা ফ্লো ব্যবহার সম্পর্কে আরও জানতে, পড়ুন একটি ডেটা র্যাংলার ফ্লো তৈরি করুন এবং ব্যবহার করুন এবং অ্যামাজন সেজমেকার প্রাইসিং. ডেটা র্যাংলার দিয়ে শুরু করতে, দেখুন অ্যামাজন সেজমেকার ডেটা র্যাংলার সহ এমএল ডেটা প্রস্তুত করুন. সেজমেকারে অটোপাইলট এবং অটোএমএল সম্পর্কে আরও জানতে, দেখুন Amazon SageMaker Autopilot এর সাথে মডেল ডেভেলপমেন্ট স্বয়ংক্রিয় করুন.


লেখক সম্পর্কে

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.মীনাক্ষীসুন্দরম ঠাণ্ডাভারায়ণ AWS সহ একজন সিনিয়র AI/ML বিশেষজ্ঞ। তিনি তাদের AI এবং ML যাত্রায় হাই-টেক কৌশলগত অ্যাকাউন্টে সাহায্য করেন। তিনি ডেটা-চালিত AI সম্পর্কে খুব উত্সাহী।

 NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.সোভিক কুমার নাথ AWS সহ একজন AI/ML সমাধান স্থপতি। মেশিন লার্নিং এর জন্য এন্ড-টু-এন্ড ডিজাইন এবং সমাধানে তার ব্যাপক অভিজ্ঞতা রয়েছে; আর্থিক, কর্মক্ষম, এবং বিপণন বিশ্লেষণের মধ্যে ব্যবসা বিশ্লেষণ; স্বাস্থ্যসেবা; সাপ্লাই চেইন; এবং আইওটি। কাজের বাইরে, সোভিক ভ্রমণ এবং সিনেমা দেখতে পছন্দ করেন।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.এবিগেল অ্যামাজন সেজমেকারের একজন সফটওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার। তিনি গ্রাহকদের DataWrangler-এ তাদের ডেটা প্রস্তুত করতে এবং বিতরণ করা মেশিন লার্নিং সিস্টেম তৈরি করতে সহায়তা করার বিষয়ে উত্সাহী৷ তার অবসর সময়ে, অ্যাবিগেল ভ্রমণ, হাইকিং, স্কিইং এবং বেকিং উপভোগ করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

অ্যামাজন ইইউ ডিজাইন এবং নির্মাণে সহায়তা করার জন্য অ্যামাজন সেজমেকারে একটি জেনারেটিভ এআই-চালিত সমাধান | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1895216
সময় স্ট্যাম্প: সেপ্টেম্বর 27, 2023

কিভাবে Sportradar বর্ধিত কর্মক্ষমতা এবং দক্ষতার জন্য উৎপাদন-স্কেল এমএল প্ল্যাটফর্ম তৈরি করতে ডিপ জাভা লাইব্রেরি ব্যবহার করেছে

উত্স নোড: 1827320
সময় স্ট্যাম্প: এপ্রিল 19, 2023

সেজমেকার ক্যানভাস মডেল লিডারবোর্ড ব্যবহার করে উন্নত কনফিগারেশন সহ মেশিন লার্নিং মডেলগুলি তৈরি এবং মূল্যায়ন করুন | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1920800
সময় স্ট্যাম্প: নভেম্বর 30, 2023