NLTK এবং SciPy ব্যবহার করে অ্যামাজন সেজমেকার ডেটা র্যাংলারে কাস্টম ট্রান্সফরমেশন লেখা হচ্ছে

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

"কোডের উপর ফোকাস করার পরিবর্তে, কোম্পানিগুলিকে নির্ভরযোগ্য, দক্ষ এবং পদ্ধতিগত উপায়ে ডেটা উন্নত করার জন্য পদ্ধতিগত প্রকৌশল অনুশীলন বিকাশের দিকে মনোনিবেশ করা উচিত। অন্য কথায়, কোম্পানিগুলিকে মডেল-কেন্দ্রিক পদ্ধতি থেকে ডেটা-কেন্দ্রিক পদ্ধতির দিকে যেতে হবে। - অ্যান্ড্রু এনজি

একটি ডেটা-কেন্দ্রিক AI পদ্ধতির মধ্যে ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশল জড়িত গুণমানের ডেটা সহ AI সিস্টেম তৈরি করা জড়িত। এটি ডেটা সংগ্রহ, আবিষ্কার, প্রোফাইলিং, ক্লিনজিং, স্ট্রাকচারিং, ট্রান্সফর্মিং, সমৃদ্ধকরণ, যাচাইকরণ এবং নিরাপদে ডেটা সংরক্ষণের সাথে জড়িত একটি ক্লান্তিকর কাজ হতে পারে।

অ্যামাজন সেজমেকার ডেটা র্যাংলার মধ্যে একটি সেবা অ্যামাজন সেজমেকার স্টুডিও যা সামান্য থেকে কোন কোডিং ব্যবহার করে ডেটা আমদানি, প্রস্তুত, রূপান্তর, বৈশিষ্ট্যযুক্ত এবং বিশ্লেষণের জন্য শেষ থেকে শেষ সমাধান প্রদান করে। আপনি ডেটা প্রিপ্রসেসিং এবং ফিচার ইঞ্জিনিয়ারিংকে সহজ করার জন্য আপনার মেশিন লার্নিং (ML) ওয়ার্কফ্লোতে একটি ডেটা র্যাংলার ডেটা প্রস্তুতির প্রবাহকে একীভূত করতে পারেন, PySpark কোড লিখতে, Apache স্পার্ক ইনস্টল করতে বা ক্লাস্টারগুলি স্পিন আপ করার প্রয়োজন ছাড়াই দ্রুত উৎপাদনে ডেটা প্রস্তুতি নিতে পারেন৷

এমন পরিস্থিতিতে যেখানে ডেটা ট্রান্সফরমেশনের জন্য আপনার নিজস্ব কাস্টম স্ক্রিপ্ট যোগ করতে হবে, আপনি পান্ডাস, পাইস্পার্ক, পাইস্পার্ক এসকিউএল-এ আপনার ট্রান্সফর্মেশন লজিক লিখতে পারেন। ডাটা র‍্যাংলার এখন ML-এর জন্য টেক্সট ডেটা প্রস্তুত করতে এবং সীমাবদ্ধতা অপ্টিমাইজেশান সঞ্চালনের জন্য কাস্টম রূপান্তর রচনার জন্য NLTK এবং SciPy লাইব্রেরি সমর্থন করে।

আপনি এমন পরিস্থিতিতে যেতে পারেন যেখানে আপনাকে ডেটা রূপান্তরের জন্য আপনার নিজস্ব কাস্টম স্ক্রিপ্ট যোগ করতে হবে। ডেটা র্যাংলার কাস্টম ট্রান্সফর্ম ক্ষমতার সাহায্যে, আপনি পান্ডাস, পাইস্পার্ক, পাইস্পার্ক এসকিউএল-এ আপনার রূপান্তর যুক্তি লিখতে পারেন।

এই পোস্টে, আমরা আলোচনা করব কিভাবে আপনি ML-এর জন্য পাঠ্য ডেটা প্রস্তুত করতে NLTK-তে আপনার কাস্টম রূপান্তর লিখতে পারেন। আমরা অন্যান্য সাধারণ ফ্রেমওয়ার্ক যেমন NLTK, NumPy, SciPy, এবং scikit-learn এর পাশাপাশি AWS AI পরিষেবাগুলি ব্যবহার করে কিছু উদাহরণ কাস্টম কোড ট্রান্সফর্ম শেয়ার করব। এই অনুশীলনের উদ্দেশ্যে, আমরা ব্যবহার করি টাইটানিক ডেটাসেট, ML সম্প্রদায়ের একটি জনপ্রিয় ডেটাসেট, যা এখন a হিসাবে যোগ করা হয়েছে৷ নমুনা ডেটাসেট ডেটা র‍্যাংলারের মধ্যে।

সমাধান ওভারভিউ

ডেটা র্যাংলার ডেটা আমদানির জন্য 40 টির বেশি অন্তর্নির্মিত সংযোগকারী সরবরাহ করে। ডেটা আমদানি করার পরে, আপনি 300 টিরও বেশি অন্তর্নির্মিত রূপান্তর ব্যবহার করে আপনার ডেটা বিশ্লেষণ এবং রূপান্তরগুলি তৈরি করতে পারেন। তারপরে আপনি বৈশিষ্ট্যগুলিকে পুশ করার জন্য শিল্পায়িত পাইপলাইন তৈরি করতে পারেন আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) বা আমাজন সেজমেকার ফিচার স্টোর. নিম্নলিখিত চিত্রটি শেষ থেকে শেষ উচ্চ-স্তরের আর্কিটেকচার দেখায়।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

পূর্বশর্ত

ডেটা র্যাংলার একটি সেজমেকার বৈশিষ্ট্য যার মধ্যে উপলব্ধ অ্যামাজন সেজমেকার স্টুডিও. আপনি অনুসরণ করতে পারেন স্টুডিও অনবোর্ডিং প্রক্রিয়া স্টুডিও পরিবেশ এবং নোটবুক ঘূর্ণন. যদিও আপনি কয়েকটি প্রমাণীকরণ পদ্ধতি থেকে বেছে নিতে পারেন, একটি স্টুডিও ডোমেন তৈরি করার সবচেয়ে সহজ উপায় হল অনুসরণ করা দ্রুত শুরু নির্দেশাবলী. কুইক স্টার্ট স্ট্যান্ডার্ড স্টুডিও সেটআপের মতো একই ডিফল্ট সেটিংস ব্যবহার করে। এছাড়াও আপনি ব্যবহার করে অনবোর্ড নির্বাচন করতে পারেন AWS IAM আইডেন্টিটি সেন্টার (AWS একক সাইন-অনের উত্তরসূরি) প্রমাণীকরণের জন্য (দেখুন আইএএম আইডেন্টিটি সেন্টার ব্যবহার করে অ্যামাজন সেজমেকার ডোমেনে অনবোর্ড).

টাইটানিক ডেটাসেট আমদানি করুন

আপনার স্টুডিও পরিবেশ শুরু করুন এবং একটি নতুন তৈরি করুন ডেটা র‍্যাংলার প্রবাহ. আপনি হয় আপনার নিজস্ব ডেটাসেট আমদানি করতে পারেন বা নিম্নলিখিত স্ক্রিনশটে দেখানো হিসাবে একটি নমুনা ডেটাসেট (টাইটানিক) ব্যবহার করতে পারেন৷ ডেটা র্যাংলার আপনাকে বিভিন্ন ডেটা উত্স থেকে ডেটাসেট আমদানি করতে দেয়। আমাদের ব্যবহারের ক্ষেত্রে, আমরা একটি S3 বালতি থেকে নমুনা ডেটাসেট আমদানি করি।

একবার আমদানি করা হলে, আপনি ডেটা প্রবাহে দুটি নোড (সোর্স নোড এবং ডেটা টাইপ নোড) দেখতে পাবেন। ডেটা র্যাংলার স্বয়ংক্রিয়ভাবে ডেটাসেটের সমস্ত কলামের জন্য ডেটা টাইপ সনাক্ত করে।

NLTK এর সাথে কাস্টম রূপান্তর

ডেটা রেংলারের সাথে ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশলের জন্য, আপনি 300 টির বেশি অন্তর্নির্মিত রূপান্তর ব্যবহার করতে পারেন বা আপনার নিজস্ব কাস্টম রূপান্তরগুলি তৈরি করতে পারেন। কাস্টম রূপান্তর ডেটা র‍্যাংলারের মধ্যে পৃথক পদক্ষেপ হিসাবে লেখা যেতে পারে। তারা Data Wrangler-এর মধ্যে .flow ফাইলের অংশ হয়ে যায়। কাস্টম ট্রান্সফর্ম বৈশিষ্ট্য পাইথন, পাইস্পার্ক এবং এসকিউএলকে কোড স্নিপেটের বিভিন্ন ধাপ হিসেবে সমর্থন করে। নোটবুক ফাইল (.ipynb) .flow ফাইল থেকে তৈরি হওয়ার পরে বা .flow ফাইল রেসিপি হিসাবে ব্যবহার করা হয়, কাস্টম ট্রান্সফর্ম কোড স্নিপেটগুলি কোনও পরিবর্তনের প্রয়োজন ছাড়াই টিকে থাকে৷ ডেটা র‍্যাংলারের এই নকশাটি কাস্টম রূপান্তরগুলিকে কাস্টম রূপান্তর সহ বিশাল ডেটাসেট প্রক্রিয়াকরণের জন্য সেজমেকার প্রসেসিং কাজের অংশ হতে দেয়।

টাইটানিক ডেটাসেটে কয়েকটি বৈশিষ্ট্য (নাম এবং home.dest) রয়েছে যাতে পাঠ্য তথ্য রয়েছে। আমরা ব্যাবহার করি NLTK নামের কলামটি বিভক্ত করতে এবং শেষ নামটি বের করতে এবং শেষ নামের ফ্রিকোয়েন্সি প্রিন্ট করতে। এনএলটিকে মানব ভাষার ডেটা নিয়ে কাজ করার জন্য পাইথন প্রোগ্রাম তৈরির একটি অগ্রণী প্ল্যাটফর্ম। এটি সহজে ব্যবহারযোগ্য ইন্টারফেস প্রদান করে 50 টিরও বেশি কর্পোরা এবং আভিধানিক সংস্থান যেমন WordNet, শ্রেণীবিভাগ, টোকেনাইজেশন, স্টেমিং, ট্যাগিং, পার্সিং, এবং শব্দার্থিক যুক্তি এবং শিল্প-শক্তি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) লাইব্রেরির জন্য টেক্সট প্রসেসিং লাইব্রেরির একটি স্যুট সহ।

একটি নতুন রূপান্তর যোগ করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

প্লাস চিহ্নটি বেছে নিন এবং নির্বাচন করুন রূপান্তর যুক্ত করুন.
বেছে নিন পদক্ষেপ যুক্ত করুন এবং নির্বাচন করুন কাস্টম রূপান্তর.

আপনি Pandas, PySpark, Python ব্যবহারকারী-সংজ্ঞায়িত ফাংশন এবং SQL PySpark ব্যবহার করে একটি কাস্টম রূপান্তর তৈরি করতে পারেন।

বেছে নিন পাইথন (পান্ডাস) এবং নামের কলাম থেকে শেষ নাম বের করতে নিম্নলিখিত কোড যোগ করুন:
```
import nltk
nltk.download('punkt')
tokens = [nltk.word_tokenize(name) for name in df['Name']] # Extract the last names of the passengers
df['last_name'] = [token[0] for token in tokens]
```
বেছে নিন প্রি ফলাফল পর্যালোচনা করতে।

নিম্নলিখিত স্ক্রিনশটটি প্রদর্শন করে last_name কলাম বের করা হয়েছে।

নিম্নলিখিত কোড ব্যবহার করে শেষ নামের ফ্রিকোয়েন্সি বন্টন সনাক্ত করতে আরেকটি কাস্টম রূপান্তর পদক্ষেপ যোগ করুন:
```
import nltk
fd = nltk.FreqDist(df["last_name"])
print(fd.most_common(10))
```
বেছে নিন প্রি ফ্রিকোয়েন্সি ফলাফল পর্যালোচনা করতে.

AWS AI পরিষেবার সাথে কাস্টম রূপান্তর

AWS প্রাক-প্রশিক্ষিত AI পরিষেবাগুলি আপনার অ্যাপ্লিকেশন এবং কর্মপ্রবাহের জন্য তৈরি বুদ্ধিমত্তা প্রদান করে। AWS AI পরিষেবাগুলি সহজেই আপনার অ্যাপ্লিকেশনগুলির সাথে একত্রিত হয় অনেক সাধারণ ব্যবহারের ক্ষেত্রে। আপনি এখন ডেটা র্যাংলারে একটি কাস্টম রূপান্তর পদক্ষেপ হিসাবে AWS AI পরিষেবাগুলির জন্য ক্ষমতাগুলি ব্যবহার করতে পারেন৷

অ্যামাজন সমঝোতা নথির বিষয়বস্তু সম্পর্কে অন্তর্দৃষ্টি বের করতে NLP ব্যবহার করে। এটি একটি নথিতে সত্তা, মূল বাক্যাংশ, ভাষা, অনুভূতি এবং অন্যান্য সাধারণ উপাদানগুলিকে স্বীকৃতি দিয়ে অন্তর্দৃষ্টি বিকাশ করে।

নাম কলাম থেকে সত্তাগুলি বের করতে আমরা Amazon Comprehend ব্যবহার করি। নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

একটি কাস্টম রূপান্তর পদক্ষেপ যোগ করুন।
বেছে নিন পাইথন (পান্ডাস).

সত্তা নিষ্কাশন করতে নিম্নলিখিত কোড লিখুন:

import boto3
comprehend = boto3.client("comprehend") response = comprehend.detect_entities(LanguageCode = 'en', Text = df['name'].iloc[0]) for entity in response['Entities']:
print(entity['Type'] + ":" + entity["Text"])

বেছে নিন প্রি এবং ফলাফল কল্পনা করুন।

আমরা এখন ডেটা র্যাংলারে তিনটি কাস্টম রূপান্তর যোগ করেছি।

বেছে নিন তথ্য প্রবাহ এন্ড-টু-এন্ড ডেটা ফ্লো কল্পনা করতে।

NumPy এবং SciPy এর সাথে কাস্টম রূপান্তর

নম্র পাইথনের জন্য একটি ওপেন-সোর্স লাইব্রেরি যা ব্যাপক গাণিতিক ফাংশন, র্যান্ডম নম্বর জেনারেটর, রৈখিক বীজগণিত রুটিন, ফুরিয়ার রূপান্তর এবং আরও অনেক কিছু অফার করে। SciPy বৈজ্ঞানিক কম্পিউটিং এবং প্রযুক্তিগত কম্পিউটিংয়ের জন্য ব্যবহৃত একটি ওপেন-সোর্স পাইথন লাইব্রেরি, যেখানে অপ্টিমাইজেশন, লিনিয়ার অ্যালজেব্রা, ইন্টিগ্রেশন, ইন্টারপোলেশন, বিশেষ ফাংশন, ফাস্ট ফুরিয়ার ট্রান্সফর্ম (এফএফটি), সিগন্যাল এবং ইমেজ প্রসেসিং, সমাধানকারী এবং আরও অনেক কিছুর জন্য মডিউল রয়েছে।

ডেটা র‍্যাংলার কাস্টম ট্রান্সফর্ম আপনাকে পাইথন, পাইস্পার্ক এবং এসকিউএলকে বিভিন্ন ধাপ হিসেবে একত্রিত করতে দেয়। নিম্নলিখিত ডেটা র্যাংলার ফ্লোতে, পাইথন প্যাকেজ, NumPy এবং SciPy থেকে বিভিন্ন ফাংশন একাধিক ধাপ হিসাবে টাইটানিক ডেটাসেটে প্রয়োগ করা হয়।

NumPy রূপান্তর

টাইটানিক ডেটাসেটের ভাড়া কলামে বিভিন্ন যাত্রীর বোর্ডিং ভাড়া রয়েছে। ভাড়া কলামের হিস্টোগ্রাম শেষ বিন ব্যতীত অভিন্ন বন্টন দেখায়। লগ বা বর্গমূলের মতো NumPy রূপান্তর প্রয়োগ করে, আমরা বন্টন পরিবর্তন করতে পারি (বর্গমূল রূপান্তর দ্বারা দেখানো হয়েছে)।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ.

নিম্নলিখিত কোডটি দেখুন:

import pandas as pd
import numpy as np
df["fare_log"] = np.log(df["fare_interpolate"])
df["fare_sqrt"] = np.sqrt(df["fare_interpolate"])
df["fare_cbrt"] = np.cbrt(df["fare_interpolate"])

SciPy রূপান্তর

SciPy ফাংশন যেমন z-স্কোর কাস্টম ট্রান্সফর্মের অংশ হিসেবে ব্যবহার করা হয় গড় এবং মানক বিচ্যুতি সহ ভাড়া বন্টনকে প্রমিত করার জন্য।

নিম্নলিখিত কোডটি দেখুন:

df["fare_zscore"] = zscore(df["fare_interpolate"])
from scipy.stats import zscore

NumPy এবং SciPy এর সাথে সীমাবদ্ধতা অপ্টিমাইজেশান

ডেটা র‍্যাংলার কাস্টম ট্রান্সফর্মগুলি SciPy অপ্টিমাইজ ফাংশন প্রয়োগ করা এবং SciPy-এর সাথে NumPy-এর সমন্বয় করার মতো সীমাবদ্ধতা অপ্টিমাইজেশনের মতো উন্নত রূপান্তরগুলি পরিচালনা করতে পারে। নিম্নলিখিত উদাহরণে, বয়সের একটি ফাংশন হিসাবে ভাড়া কোনো পর্যবেক্ষণযোগ্য প্রবণতা দেখায় না। যাইহোক, সীমাবদ্ধতা অপ্টিমাইজেশান ভাড়াকে বয়সের একটি ফাংশন হিসাবে রূপান্তরিত করতে পারে। এই ক্ষেত্রে সীমাবদ্ধতা হল নতুন মোট ভাড়া পুরানো মোট ভাড়ার মতোই থাকবে। ডেটা র‍্যাংলার কাস্টম ট্রান্সফর্ম আপনাকে সর্বোত্তম সহগ নির্ধারণ করতে SciPy অপ্টিমাইজ ফাংশন চালানোর অনুমতি দেয় যা সীমাবদ্ধতার শর্তে বয়সের ফাংশন হিসাবে ভাড়া রূপান্তর করতে পারে।

SciPy এবং NumPy ব্যবহার করে ডেটা র্যাংলার কাস্টম ট্রান্সফর্মে সীমাবদ্ধতা অপ্টিমাইজেশন তৈরি করার সময় অপ্টিমাইজেশান সংজ্ঞা, উদ্দেশ্য সংজ্ঞা এবং একাধিক সীমাবদ্ধতাগুলিকে বিভিন্ন ফাংশন হিসাবে উল্লেখ করা যেতে পারে। কাস্টম রূপান্তরগুলি বিভিন্ন সমাধানকারী পদ্ধতিও আনতে পারে যা SciPy অপ্টিমাইজ প্যাকেজের অংশ হিসাবে উপলব্ধ। একটি নতুন রূপান্তরিত ভেরিয়েবল তৈরি করা যেতে পারে সর্বোত্তম সহগকে মূল কলামের সাথে গুণ করে এবং ডেটা র্যাংলারের বিদ্যমান কলামগুলিতে যোগ করে। নিম্নলিখিত কোড দেখুন:

import numpy as np
import scipy.optimize as opt
import pandas as pd df2 = pd.DataFrame({"Y":df["fare_interpolate"], "X1":df["age_interpolate"]}) # optimization defination
def main(df2):
x0 = [0.1]
res = opt.minimize(fun=obj, x0=x0, args=(df2), method="SLSQP", bounds=[(0,50)], constraints=cons)
return res # objective function
def obj(x0, df2):
sumSquares = np.sum(df2["Y"] - x0*df2["X1"])
return sumSquares # constraints
def constraint1(x0):
sum_cons1 = np.sum(df2["Y"] - x0*df2["X1"]) - 0
return sum_cons1
con1 = {'type': 'eq', 'fun': constraint1}
cons = ([con1]) print(main(df2)) df["new_fare_age_optimized"]=main(df2).x*df2["X1"]

ডেটা র‍্যাংলার কাস্টম ট্রান্সফর্ম বৈশিষ্ট্যটিতে SciPy অপ্টিমাইজ ফাংশনগুলির ফলাফলগুলি দেখানোর জন্য UI ক্ষমতা রয়েছে যেমন সর্বোত্তম সহগ (বা একাধিক সহগ) এর মান।

স্কিট-লার্নের সাথে কাস্টম রূপান্তর

scikit-শিখতে SciPy-এর উপরে তৈরি মেশিন লার্নিংয়ের জন্য একটি পাইথন মডিউল। এটি একটি ওপেন-সোর্স ML লাইব্রেরি যা তত্ত্বাবধানে এবং অ-তত্ত্বাবধানহীন শিক্ষাকে সমর্থন করে। এটি মডেল ফিটিং, ডেটা প্রিপ্রসেসিং, মডেল নির্বাচন, মডেল মূল্যায়ন এবং অন্যান্য অনেক ইউটিলিটিগুলির জন্য বিভিন্ন সরঞ্জাম সরবরাহ করে।

বিচক্ষণতা

বিচক্ষণতা (অন্যথায় হিসাবে পরিচিত কোয়ান্টাইজেশন or বিনিং) অবিচ্ছিন্ন বৈশিষ্ট্যগুলিকে পৃথক মানগুলিতে ভাগ করার একটি উপায় সরবরাহ করে। অবিচ্ছিন্ন বৈশিষ্ট্য সহ নির্দিষ্ট ডেটাসেটগুলি বিচক্ষণতা থেকে উপকৃত হতে পারে, কারণ বিবেচ্যকরণ ক্রমাগত বৈশিষ্ট্যগুলির ডেটাসেটকে শুধুমাত্র নামমাত্র বৈশিষ্ট্যগুলির সাথে রূপান্তর করতে পারে। এক-হট এনকোডেড বিচ্ছিন্ন বৈশিষ্ট্যগুলি ব্যাখ্যাযোগ্যতা বজায় রেখে একটি মডেলকে আরও অভিব্যক্তিপূর্ণ করে তুলতে পারে। উদাহরণস্বরূপ, ডিসক্রিটাইজারের সাথে প্রি-প্রসেসিং লিনিয়ার মডেলগুলিতে অরৈখিকতার পরিচয় দিতে পারে।

নিম্নলিখিত কোডে, আমরা ব্যবহার করি KBinsDiscretizer বয়সের কলামটিকে 10 টি বিনে আলাদা করতে:

# Table is available as variable `df`
from sklearn.preprocessing import KBinsDiscretizer
import numpy as np
# discretization transform the raw data
df = df.dropna()
kbins = KBinsDiscretizer(n_bins=10, encode='ordinal', strategy='uniform')
ages = np.array(df["age"]).reshape(-1, 1)
df["age"] = kbins.fit_transform(ages)
print(kbins.bin_edges_)

আপনি নীচের স্ক্রিনশটে মুদ্রিত বিন প্রান্তগুলি দেখতে পারেন।

এক-গরম এনকোডিং

এমবার্কড কলামের মান হল শ্রেণীবদ্ধ মান। অতএব, আমাদের মডেলের সাথে আমাদের শ্রেণিবিন্যাস সম্পাদন করার জন্য আমাদের এই স্ট্রিংগুলিকে সংখ্যাসূচক মান হিসাবে উপস্থাপন করতে হবে। আমরা এক-হট এনকোডিং ট্রান্সফর্ম ব্যবহার করেও এটি করতে পারি।

Embarked-এর জন্য তিনটি মান আছে: S, C, এবং Q। আমরা এগুলোকে সংখ্যা দিয়ে উপস্থাপন করি। নিম্নলিখিত কোড দেখুন:

# Table is available as variable `df`
from sklearn.preprocessing import LabelEncoder le_embarked = LabelEncoder()
le_embarked.fit(df["embarked"]) encoded_embarked_training = le_embarked.transform(df["embarked"])
df["embarked"] = encoded_embarked_training

পরিষ্কার কর

আপনি যখন ডেটা র‍্যাংলার ব্যবহার করছেন না, তখন অতিরিক্ত ফি খরচ এড়াতে এটি যে দৃষ্টান্তে চলে তা বন্ধ করা গুরুত্বপূর্ণ।

ডেটা র্যাংলার স্বয়ংক্রিয়ভাবে প্রতি 60 সেকেন্ডে আপনার ডেটা প্রবাহ সংরক্ষণ করে। কাজ হারানো এড়াতে, ডাটা র্যাংলার বন্ধ করার আগে আপনার ডেটা প্রবাহ সংরক্ষণ করুন।

স্টুডিওতে আপনার ডেটা প্রবাহ সংরক্ষণ করতে, বেছে নিন ফাইল, তাহলে বেছে নাও ডেটা র্যাংলার প্রবাহ সংরক্ষণ করুন.
ডাটা র‍্যাংলার ইনস্ট্যান্স বন্ধ করতে, স্টুডিওতে, নির্বাচন করুন চলমান দৃষ্টান্ত এবং কার্নেলগুলি.
অধীনে চলমান অ্যাপস, sagemaker-data-wrangler-1.0 অ্যাপের পাশে শাটডাউন আইকনটি বেছে নিন।
বেছে নিন সব বন্ধ করুন নিশ্চিত করতে.

ডেটা র‍্যাংলার একটি ml.m5.4x বৃহৎ উদাহরণে চলে। এই উদাহরণ থেকে অদৃশ্য হয় চলমান উদাহরণ যখন আপনি ডাটা র‍্যাংলার অ্যাপ বন্ধ করেন।

আপনি ডেটা র্যাংলার অ্যাপটি বন্ধ করার পরে, পরের বার যখন আপনি একটি ডেটা র্যাংলার ফ্লো ফাইল খুলবেন তখন এটি পুনরায় চালু করতে হবে। এই কয়েক মিনিট সময় নিতে পারে.

উপসংহার

এই পোস্টে, আমরা দেখিয়েছি কিভাবে আপনি ডেটা র্যাংলারে কাস্টম রূপান্তর ব্যবহার করতে পারেন। আমরা অন্তর্নির্মিত ডেটা রূপান্তর ক্ষমতা প্রসারিত করতে ডেটা র্যাংলার কন্টেইনারের মধ্যে লাইব্রেরি এবং কাঠামো ব্যবহার করেছি। এই পোস্টের উদাহরণগুলি ব্যবহৃত ফ্রেমওয়ার্কগুলির একটি উপসেট উপস্থাপন করে। ডেটা র্যাংলার প্রবাহের রূপান্তরগুলি এখন ডেটাঅপসের জন্য একটি পাইপলাইনে স্কেল করা যেতে পারে।

ডেটা র্যাংলারের সাথে ডেটা ফ্লো ব্যবহার সম্পর্কে আরও জানতে, পড়ুন একটি ডেটা র্যাংলার ফ্লো তৈরি করুন এবং ব্যবহার করুন এবং অ্যামাজন সেজমেকার প্রাইসিং. ডেটা র্যাংলার দিয়ে শুরু করতে, দেখুন অ্যামাজন সেজমেকার ডেটা র্যাংলার সহ এমএল ডেটা প্রস্তুত করুন. সেজমেকারে অটোপাইলট এবং অটোএমএল সম্পর্কে আরও জানতে, দেখুন Amazon SageMaker Autopilot এর সাথে মডেল ডেভেলপমেন্ট স্বয়ংক্রিয় করুন.

লেখক সম্পর্কে

মীনাক্ষীসুন্দরম ঠাণ্ডাভারায়ণ AWS সহ একজন সিনিয়র AI/ML বিশেষজ্ঞ। তিনি তাদের AI এবং ML যাত্রায় হাই-টেক কৌশলগত অ্যাকাউন্টে সাহায্য করেন। তিনি ডেটা-চালিত AI সম্পর্কে খুব উত্সাহী।

সোভিক কুমার নাথ AWS সহ একজন AI/ML সমাধান স্থপতি। মেশিন লার্নিং এর জন্য এন্ড-টু-এন্ড ডিজাইন এবং সমাধানে তার ব্যাপক অভিজ্ঞতা রয়েছে; আর্থিক, কর্মক্ষম, এবং বিপণন বিশ্লেষণের মধ্যে ব্যবসা বিশ্লেষণ; স্বাস্থ্যসেবা; সাপ্লাই চেইন; এবং আইওটি। কাজের বাইরে, সোভিক ভ্রমণ এবং সিনেমা দেখতে পছন্দ করেন।

NLTK এবং SciPy PlatoBlockchain ডেটা ইন্টেলিজেন্স ব্যবহার করে Amazon SageMaker Data Wrangler-এ কাস্টম রূপান্তর লেখা। উল্লম্ব অনুসন্ধান. আ. এবিগেল অ্যামাজন সেজমেকারের একজন সফটওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার। তিনি গ্রাহকদের DataWrangler-এ তাদের ডেটা প্রস্তুত করতে এবং বিতরণ করা মেশিন লার্নিং সিস্টেম তৈরি করতে সহায়তা করার বিষয়ে উত্সাহী৷ তার অবসর সময়ে, অ্যাবিগেল ভ্রমণ, হাইকিং, স্কিইং এবং বেকিং উপভোগ করেন।

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
অ্যাড্রিয়েন অ্যাশলির সাথে ভবিষ্যত মিন্টিং। এখানে প্রবেশ করুন.
উত্স: https://aws.amazon.com/blogs/machine-learning/authoring-custom-transformations-in-amazon-sagemaker-data-wrangler-using-nltk-and-scipy/

সময় স্ট্যাম্প: এপ্রিল 17, 2023

সময় স্ট্যাম্প: আগস্ট 9, 2022

প্লেটো দ্বারা প্রকাশিত

মাল্টি-রিজিওন অ্যামাজন সেজমেকার এন্ডপয়েন্টের CI/CD সক্ষম করুন

Amazon SageMaker Ground Truth এবং Databricks MLflow ব্যবহার করে একটি MLOps সেন্টিমেন্ট বিশ্লেষণ পাইপলাইন তৈরি করুন

Amazon SageMaker মডেল নির্মাণ পাইপলাইন তৈরি করুন এবং Amazon SageMaker-এ RStudio ব্যবহার করে R মডেল স্থাপন করুন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব