অ্যামাজন সেজমেকার ডেটা র্যাংলার মেশিন লার্নিং (ML) এর জন্য একত্রিত এবং প্রস্তুত করার সময়কে সপ্তাহ থেকে মিনিটে কমিয়ে দেয়। ডেটা র্যাংলারের সাহায্যে, আপনি মাত্র কয়েকটি ক্লিকের মাধ্যমে ডেটা নির্বাচন এবং অনুসন্ধান করতে পারেন, 300 টিরও বেশি বিল্ট-ইন ডেটা ট্রান্সফরমেশনের মাধ্যমে দ্রুত ডেটা রূপান্তর করতে পারেন এবং কোনও কোড না লিখেই বিল্ট-ইন ভিজ্যুয়ালাইজেশনের মাধ্যমে আপনার ডেটা বুঝতে পারেন৷
উপরন্তু, আপনি তৈরি করতে পারেন কাস্টম রূপান্তর আপনার প্রয়োজনীয়তার জন্য অনন্য। কাস্টম রূপান্তরগুলি আপনাকে PySpark, Pandas বা SQL ব্যবহার করে কাস্টম রূপান্তরগুলি লিখতে দেয়।
ডেটা র্যাংলার এখন একটি কাস্টম সমর্থন করে পান্ডা ব্যবহারকারী-সংজ্ঞায়িত ফাংশন (UDF) রূপান্তর যা বড় ডেটাসেটগুলি দক্ষতার সাথে প্রক্রিয়া করতে পারে। আপনি দুটি কাস্টম পান্ডাস ইউডিএফ মোড থেকে বেছে নিতে পারেন: পান্ডাস এবং পাইথন। উভয় মোড ডেটাসেট প্রক্রিয়া করার জন্য একটি দক্ষ সমাধান প্রদান করে, এবং আপনি যে মোডটি চয়ন করেন তা আপনার পছন্দের উপর নির্ভর করে।
এই পোস্টে, আমরা প্রদর্শন করব কিভাবে নতুন পান্ডাস ইউডিএফ রূপান্তর উভয় মোডে ব্যবহার করতে হয়।
সমাধান ওভারভিউ
এই লেখার সময়, আপনি ডেটা র্যাংলার থেকে ডেটাসেটগুলি আমদানি করতে পারেন আমাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস 3), অ্যামাজন অ্যাথেনা, আমাজন রেডশিফ্ট, Databricks, এবং Snowflake. এই পোস্টের জন্য, আমরা 3 সঞ্চয় করতে Amazon S2014 ব্যবহার করি আমাজন ডেটাসেট পর্যালোচনা করে.
তথ্য একটি কলাম বলা হয় reviewText
ব্যবহারকারী-উত্পাদিত পাঠ্য রয়েছে। পাঠ্যটিতেও বেশ কিছু রয়েছে শব্দ বন্ধ করুন, যেগুলি সাধারণ শব্দ যা বেশি তথ্য প্রদান করে না, যেমন "a," "an," এবং "the।" স্টপ শব্দ অপসারণ প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) পাইপলাইনে একটি সাধারণ প্রিপ্রসেসিং পদক্ষেপ। আমরা পর্যালোচনা থেকে স্টপ শব্দগুলি সরাতে একটি কাস্টম ফাংশন তৈরি করতে পারি।
একটি কাস্টম পান্ডাস ইউডিএফ রূপান্তর তৈরি করুন
আসুন পান্ডাস এবং পাইথন মোড ব্যবহার করে দুটি ডেটা র্যাংলার কাস্টম পান্ডাস ইউডিএফ রূপান্তর তৈরির প্রক্রিয়ার মধ্য দিয়ে চলুন।
- ডাউনলোড ডিজিটাল মিউজিক রিভিউ ডেটাসেট এবং এটি Amazon S3 এ আপলোড করুন।
- খোলা অ্যামাজন সেজমেকার স্টুডিও এবং একটি নতুন ডেটা র্যাংলার ফ্লো তৈরি করুন।
- অধীনে তথ্য আমদানিনির্বাচন আমাজন S3 এবং ডেটাসেট অবস্থানে নেভিগেট করুন।
- জন্য ফাইলের ধরননির্বাচন jsonl.
ডেটার একটি পূর্বরূপ টেবিলে প্রদর্শিত হওয়া উচিত।
- বেছে নিন আমদানি এগিয়ে যেতে.
- আপনার ডেটা আমদানি করার পরে, পাশের প্লাস চিহ্নটি নির্বাচন করুন৷ তথ্যের ধরণ এবং নির্বাচন করুন রূপান্তর যোগ করুন.
- বেছে নিন কাস্টম রূপান্তর.
- ড্রপ-ডাউন মেনুতে, পাইথন (ব্যবহারকারী-সংজ্ঞায়িত ফাংশন).
এখন আমরা স্টপ শব্দগুলি সরাতে আমাদের কাস্টম রূপান্তর তৈরি করি।
- আপনার ইনপুট কলাম, আউটপুট কলাম, রিটার্ন টাইপ এবং মোড নির্দিষ্ট করুন।
নিম্নলিখিত উদাহরণ পান্ডাস মোড ব্যবহার করে। এর অর্থ হল ফাংশনটিকে একই দৈর্ঘ্যের একটি পান্ডাস সিরিজ গ্রহণ করা এবং ফিরিয়ে দেওয়া উচিত। আপনি একটি পান্ডাস সিরিজকে একটি টেবিলের একটি কলাম বা কলামের একটি অংশ হিসাবে ভাবতে পারেন। এটি সবচেয়ে পারফরম্যান্স পান্ডাস ইউডিএফ মোড কারণ পান্ডাস একটি সময়ে একটির বিপরীতে মানের ব্যাচ জুড়ে অপারেশনকে ভেক্টরাইজ করতে পারে। দ্য pd.Series
পান্ডাস মোডে টাইপ ইঙ্গিত প্রয়োজন।
আপনি যদি পান্ডাস API-এর বিপরীতে বিশুদ্ধ পাইথন ব্যবহার করতে পছন্দ করেন, পাইথন মোড আপনাকে একটি বিশুদ্ধ পাইথন ফাংশন নির্দিষ্ট করতে দেয় যা একটি একক যুক্তি গ্রহণ করে এবং একটি একক মান প্রদান করে। নিম্নলিখিত উদাহরণটি আউটপুটের ক্ষেত্রে পূর্ববর্তী পান্ডাস কোডের সমতুল্য। পাইথন মোডে টাইপ ইঙ্গিত প্রয়োজন হয় না।
- বেছে নিন বিজ্ঞাপন আপনার কাস্টম রূপান্তর যোগ করতে.
উপসংহার
ডেটা র্যাংলারের 300 টিরও বেশি অন্তর্নির্মিত রূপান্তর রয়েছে এবং আপনি আপনার প্রয়োজনীয়তার সাথে অনন্য কাস্টম রূপান্তরগুলিও যুক্ত করতে পারেন। এই পোস্টে, আমরা দেখিয়েছি কিভাবে ডাটা র্যাংলারের নতুন কাস্টম পান্ডাস ইউডিএফ ট্রান্সফর্মের মাধ্যমে ডাটাসেটগুলি প্রক্রিয়া করা যায়, পান্ডাস এবং পাইথন উভয় মোড ব্যবহার করে। আপনি আপনার পছন্দের উপর ভিত্তি করে উভয় মোড ব্যবহার করতে পারেন। ডেটা র্যাংলার সম্পর্কে আরও জানতে, পড়ুন একটি ডেটা র্যাংলার ফ্লো তৈরি করুন এবং ব্যবহার করুন.
লেখক সম্পর্কে
বেন হ্যারিস একজন সফ্টওয়্যার প্রকৌশলী যিনি বিভিন্ন ডোমেন জুড়ে স্কেলযোগ্য ডেটা পাইপলাইন এবং মেশিন লার্নিং সমাধান ডিজাইন, স্থাপন এবং রক্ষণাবেক্ষণের অভিজ্ঞতা সহ। বেন ডেটা সংগ্রহ এবং লেবেলিং, চিত্র এবং পাঠ্য শ্রেণিবিন্যাস, সিকোয়েন্স-টু-সিকোয়েন্স মডেলিং, এম্বেডিং এবং ক্লাস্টারিং এর জন্য সিস্টেম তৈরি করেছেন।
হায়দার নকভি AWS-এর একজন সলিউশন আর্কিটেক্ট। তার রয়েছে ব্যাপক সফটওয়্যার ডেভেলপমেন্ট এবং এন্টারপ্রাইজ আর্কিটেকচারের অভিজ্ঞতা। তিনি গ্রাহকদের AWS-এর মাধ্যমে ব্যবসায়িক ফলাফল অর্জন করতে সক্ষম করার দিকে মনোনিবেশ করেন। তিনি নিউ ইয়র্কের বাইরে অবস্থিত।
বিশাল শ্রীবাস্তব AWS-এ একজন টেকনিক্যাল অ্যাকাউন্ট ম্যানেজার। সফ্টওয়্যার ডেভেলপমেন্ট এবং অ্যানালিটিক্সের পটভূমিতে, তিনি প্রাথমিকভাবে আর্থিক পরিষেবা খাত এবং ডিজিটাল নেটিভ ব্যবসায়িক গ্রাহকদের সাথে কাজ করেন এবং তাদের ক্লাউড যাত্রাকে সমর্থন করেন। তার অবসর সময়ে, তিনি তার পরিবারের সাথে ঘুরতে ভালোবাসেন।
- Coinsmart. ইউরোপের সেরা বিটকয়েন এবং ক্রিপ্টো এক্সচেঞ্জ।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. বিনামূল্যে এক্সেস.
- ক্রিপ্টোহক। Altcoin রাডার। বিনামূল্যে ট্রায়াল.
- সূত্র: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- সম্পর্কে
- হিসাব
- দিয়ে
- মর্দানী স্ত্রীলোক
- মধ্যে
- বৈশ্লেষিক ন্যায়
- API
- স্থাপত্য
- সহজলভ্য
- ডেস্কটপ AWS
- পটভূমি
- বিল্ট-ইন
- ব্যবসায়
- বেছে নিন
- শ্রেণীবিন্যাস
- মেঘ
- কোড
- সংগ্রহ
- স্তম্ভ
- সাধারণ
- ধারণ
- সৃষ্টি
- তৈরি করা হচ্ছে
- প্রথা
- গ্রাহকদের
- উপাত্ত
- প্রদর্শন
- প্রদর্শিত
- নির্ভর করে
- মোতায়েন
- ফন্দিবাজ
- উন্নয়ন
- ডিজিটাল
- ডোমেইনের
- দক্ষ
- দক্ষতার
- সক্রিয়
- প্রকৌশলী
- উদ্যোগ
- উদাহরণ
- অভিজ্ঞতা
- ব্যাপক
- পরিবার
- আর্থিক
- অর্থনৈতিক সেবা সমূহ
- প্রবাহ
- গুরুত্ত্ব
- অনুসরণ
- বিনামূল্যে
- ক্রিয়া
- কিভাবে
- কিভাবে
- HTTPS দ্বারা
- ভাবমূর্তি
- তথ্য
- ইনপুট
- IT
- যোগদান করেছে
- লেবেল
- ভাষা
- বড়
- শিখতে
- শিক্ষা
- অবস্থান
- মেশিন
- মেশিন লার্নিং
- পরিচালক
- ম্যাচ
- ML
- অধিক
- সেতু
- সঙ্গীত
- প্রাকৃতিক
- নিউ ইয়র্ক
- অপারেশনস
- প্রস্তুত করা
- প্রি
- প্রক্রিয়া
- প্রক্রিয়াজাতকরণ
- প্রদান
- দ্রুত
- দ্রুত
- প্রয়োজনীয়
- আবশ্যকতা
- প্রত্যাবর্তন
- আয়
- পর্যালোচনা
- মাপযোগ্য
- সেক্টর
- ক্রম
- সেবা
- সহজ
- সফটওয়্যার
- সফটওয়্যার উন্নয়ন
- সফটওয়্যার ইঞ্জিনিয়ার
- সমাধান
- সলিউশন
- শূণ্যস্থান
- স্টোরেজ
- দোকান
- সমর্থন
- সিস্টেম
- কারিগরী
- দ্বারা
- সময়
- টোকেন
- টোকেন
- রুপান্তর
- ভ্রমণ
- বোঝা
- অনন্য
- ব্যবহার
- মূল্য
- বৈচিত্র্য
- ছাড়া
- শব্দ
- কাজ
- লেখা