এই পোস্টে, আমরা একটি নতুন বিশ্লেষণ প্রবর্তন ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট of অ্যামাজন সেজমেকার ডেটা র্যাংলার. এই বিশ্লেষণ আপনাকে সঠিকতার জন্য পাঠ্য বৈশিষ্ট্যগুলি যাচাই করতে এবং মেরামত বা বাদ দেওয়ার জন্য অবৈধ সারিগুলি উন্মোচন করতে সহায়তা করে।
ডেটা র্যাংলার মেশিন লার্নিং (এমএল) এর জন্য ডেটা একত্রিত করতে এবং প্রস্তুত করতে যে সময় নেয় তা কয়েক সপ্তাহ থেকে মিনিটে কমিয়ে দেয়। আপনি ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশল প্রক্রিয়া সহজ করতে পারেন, এবং একটি একক ভিজ্যুয়াল ইন্টারফেস থেকে ডেটা নির্বাচন, পরিষ্কার, অন্বেষণ এবং ভিজ্যুয়ালাইজেশন সহ ডেটা প্রস্তুতির কর্মপ্রবাহের প্রতিটি ধাপ সম্পূর্ণ করতে পারেন।
সমাধান ওভারভিউ
ডেটা প্রিপ্রসেসিংয়ে প্রায়ই পাঠ্য ডেটা যেমন ইমেল ঠিকানা, ফোন নম্বর এবং পণ্যের নাম পরিষ্কার করা জড়িত। এই ডেটার অন্তর্নিহিত অখণ্ডতার সীমাবদ্ধতা থাকতে পারে যা নিয়মিত অভিব্যক্তি দ্বারা বর্ণনা করা যেতে পারে। উদাহরণস্বরূপ, বৈধ বলে বিবেচিত হতে, একটি স্থানীয় ফোন নম্বরের মতো একটি প্যাটার্ন অনুসরণ করতে হতে পারে৷ [1-9][0-9]{2}-[0-9]{4}
, যা একটি নন-জিরো ডিজিটের সাথে মিলবে, তার পরে আরও দুটি ডিজিট, একটি ড্যাশের পরে, আরও চারটি সংখ্যা অনুসরণ করবে৷
অবৈধ ডেটার ফলে সাধারণ পরিস্থিতিতে অসামঞ্জস্যপূর্ণ মানুষের প্রবেশ অন্তর্ভুক্ত থাকতে পারে, উদাহরণস্বরূপ বিভিন্ন ফর্ম্যাটে ফোন নম্বর (5551234 বনাম 555 1234 বনাম 555-1234) বা অপ্রত্যাশিত ডেটা, যেমন 0, 911, বা 411৷ একটি গ্রাহক কল সেন্টারের জন্য, 0, 911, বা 411-এর মতো সংখ্যাগুলি বাদ দেওয়া এবং 5551234 বা 555 1234-এর মতো এন্ট্রিগুলি যাচাই করা (এবং সম্ভাব্য সঠিক) করা গুরুত্বপূর্ণ৷
দুর্ভাগ্যবশত, যদিও পাঠ্য সীমাবদ্ধতা বিদ্যমান, সেগুলিকে ডেটা প্রদান করা নাও হতে পারে৷ অতএব, একটি ডেটাসেট প্রস্তুতকারী একজন ডেটা বিজ্ঞানীকে অবশ্যই ডেটা দেখে সীমাবদ্ধতাগুলি ম্যানুয়ালি উন্মোচন করতে হবে। এটি ক্লান্তিকর, ত্রুটি প্রবণ এবং সময়সাপেক্ষ হতে পারে।
প্যাটার্ন লার্নিং স্বয়ংক্রিয়ভাবে আপনার ডেটা বিশ্লেষণ করে এবং আপনার ডেটাসেটে প্রযোজ্য হতে পারে এমন পাঠ্য সীমাবদ্ধতাগুলিকে প্রকাশ করে। ফোন নম্বরগুলির উদাহরণের জন্য, প্যাটার্ন লার্নিং ডেটা বিশ্লেষণ করতে পারে এবং সনাক্ত করতে পারে যে বেশিরভাগ ফোন নম্বর পাঠ্য সীমাবদ্ধতা অনুসরণ করে [1-9][0-9]{2}-[0-9][4]
. এটি আপনাকে সতর্ক করতে পারে যে অবৈধ ডেটার উদাহরণ রয়েছে যাতে আপনি সেগুলি বাদ দিতে বা সংশোধন করতে পারেন৷
নিম্নলিখিত বিভাগে, আমরা পণ্য বিভাগ এবং SKU (স্টক কিপিং ইউনিট) কোডগুলির একটি কাল্পনিক ডেটাসেট ব্যবহার করে ডেটা র্যাংলারে প্যাটার্ন লার্নিং কীভাবে ব্যবহার করতে হয় তা প্রদর্শন করি।
এই ডেটাসেটে এমন বৈশিষ্ট্য রয়েছে যা কোম্পানি, ব্র্যান্ড এবং শক্তি খরচ দ্বারা পণ্যের বর্ণনা করে। উল্লেখযোগ্যভাবে, এটি একটি বৈশিষ্ট্য SKU অন্তর্ভুক্ত করে যা ভুল-ফরম্যাটেড। এই ডেটাসেটের সমস্ত ডেটা কাল্পনিক এবং এলোমেলোভাবে তৈরি করা হয়েছে র্যান্ডম ব্র্যান্ডের নাম এবং যন্ত্রের নাম ব্যবহার করে৷
পূর্বশর্ত
আপনি ডেটা র্যাংলার ব্যবহার শুরু করার আগে, ডাউনলোড নমুনা ডেটাসেট এবং এটি একটি অবস্থানে আপলোড করুন আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3)। নির্দেশাবলীর জন্য, পড়ুন অবজেক্ট আপলোড করা হচ্ছে.
আপনার ডেটাসেট আমদানি করুন
আপনার ডেটাসেট আমদানি করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- ডেটা র্যাংলারে, নির্বাচন করুন ML-এর জন্য ডেটা আমদানি ও অন্বেষণ করুন.
- বেছে নিন আমদানি.
- জন্য তথ্য আমদানিনির্বাচন আমাজন S3.
- Amazon S3 এ ফাইলটি সন্ধান করুন এবং নির্বাচন করুন আমদানি.
আমদানি করার পরে, আমরা ডেটা প্রবাহে নেভিগেট করতে পারি।
ডেটা অন্তর্দৃষ্টি পান
এই ধাপে, আমরা একটি ডেটা অন্তর্দৃষ্টি প্রতিবেদন তৈরি করি যাতে ডেটা গুণমান সম্পর্কে তথ্য অন্তর্ভুক্ত থাকে। আরো তথ্যের জন্য, পড়ুন ডেটা এবং ডেটা গুণমানের অন্তর্দৃষ্টি পান. নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- উপরে তথ্য প্রবাহ ট্যাব, পাশের প্লাস চিহ্নটি নির্বাচন করুন তথ্যের ধরণ.
- বেছে নিন ডেটা অন্তর্দৃষ্টি পান.
- জন্য বিশ্লেষণের ধরণনির্বাচন ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট.
- এই পোস্টের জন্য, ছেড়ে দিন লক্ষ্য কলাম এবং সমস্যার ধরণ খালি। যদি আপনি একটি টার্গেট বৈশিষ্ট্য সহ রিগ্রেশন বা শ্রেণীবিভাগের কাজের জন্য আপনার ডেটাসেট ব্যবহার করার পরিকল্পনা করেন, আপনি সেই বিকল্পগুলি নির্বাচন করতে পারেন এবং প্রতিবেদনে আপনার ইনপুট বৈশিষ্ট্যগুলি আপনার লক্ষ্যের সাথে কীভাবে সম্পর্কিত তা বিশ্লেষণ অন্তর্ভুক্ত করবে। উদাহরণস্বরূপ, এটি লক্ষ্য ফাঁসের উপর প্রতিবেদন তৈরি করতে পারে। আরো তথ্যের জন্য, পড়ুন লক্ষ্য কলাম.
- বেছে নিন সৃষ্টি.
আমাদের কাছে এখন একটি ডেটা গুণমান এবং ডেটা অন্তর্দৃষ্টি প্রতিবেদন রয়েছে৷ যদি আমরা নিচে স্ক্রোল SKU বিভাগে, আমরা SKU বর্ণনা করে প্যাটার্ন শেখার একটি উদাহরণ দেখতে পাচ্ছি। এই বৈশিষ্ট্যটিতে কিছু অবৈধ ডেটা রয়েছে বলে মনে হচ্ছে, এবং কার্যকরী প্রতিকার প্রয়োজন।
আমরা SKU বৈশিষ্ট্যটি পরিষ্কার করার আগে, এর উপরে স্ক্রোল করি ব্র্যান্ড আরো কিছু অন্তর্দৃষ্টি দেখতে বিভাগ. এখানে আমরা দেখতে পাচ্ছি দুটি প্যাটার্ন উন্মোচিত হয়েছে, যা ইঙ্গিত করে যে ব্র্যান্ডের বেশিরভাগ নাম একক শব্দ যা শব্দের অক্ষর বা বর্ণমালার অক্ষর নিয়ে গঠিত। ক শব্দ চরিত্র হয় একটি আন্ডারস্কোর বা একটি অক্ষর যা যেকোনো ভাষার একটি শব্দে প্রদর্শিত হতে পারে। উদাহরণস্বরূপ, স্ট্রিং Hello_world
এবং écoute
উভয় শব্দ অক্ষর গঠিত: H
এবং é
.
এই পোস্টের জন্য, আমরা এই বৈশিষ্ট্যটি পরিষ্কার করি না।
প্যাটার্ন শেখার অন্তর্দৃষ্টি দেখুন
আসুন SKU পরিষ্কার করার দিকে ফিরে যাই এবং প্যাটার্ন এবং সতর্কতা বার্তাতে জুম ইন করুন।
নিম্নলিখিত স্ক্রিনশটে দেখানো হয়েছে, প্যাটার্ন লার্নিং 97.78% ডেটার সাথে মেলে এমন একটি উচ্চ-নির্ভুলতার প্যাটার্ন দেখায়। এটি প্যাটার্নের সাথে মেলে এমন কিছু উদাহরণও প্রদর্শন করে যা প্যাটার্নের সাথে মেলে না। অ-ম্যাচগুলিতে, আমরা কিছু অবৈধ SKU দেখতে পাই।
সারফেস করা প্যাটার্নের পাশাপাশি, উচ্চ নির্ভুলতার প্যাটার্নের পাশাপাশি প্যাটার্নের সাথে সামঞ্জস্যপূর্ণ না হওয়া কিছু ডেটা থাকলে ডেটা পরিষ্কার করার জন্য একটি সম্ভাব্য ক্রিয়াকলাপের ইঙ্গিত দিয়ে একটি সতর্কতা প্রদর্শিত হতে পারে।
আমরা অবৈধ তথ্য বাদ দিতে পারেন. যদি আমরা রেগুলার এক্সপ্রেশনে (ডান-ক্লিক) বাছাই করি, আমরা এক্সপ্রেশনটি কপি করতে পারি [A-Z]{3}-[0-9]{4,5}
.
অবৈধ তথ্য সরান
চলুন এই প্যাটার্নের সাথে মেলে না এমন নন-কনফর্মিং ডেটা বাদ দেওয়ার জন্য একটি রূপান্তর তৈরি করি।
- উপরে তথ্য প্রবাহ ট্যাব, পাশের প্লাস চিহ্নটি নির্বাচন করুন তথ্যের ধরণ.
- বেছে নিন রূপান্তর যোগ করুন.
- বেছে নিন ধাপ যোগ করুন.
- সন্ধান করা
regex
এবং নির্বাচন করুন অনুসন্ধান এবং সম্পাদনা করুন. - জন্য রুপান্তরনির্বাচন অ-ম্যাচগুলিকে অনুপস্থিতে রূপান্তর করুন.
- জন্য ইনপুট কলামনির্বাচন
SKU
. - জন্য প্যাটার্ন, আমাদের রেগুলার এক্সপ্রেশন লিখুন।
- বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
এখন বৈশিষ্ট্যগুলি থেকে বহিরাগত ডেটা মুছে ফেলা হয়েছে। - সারিগুলি সরাতে, ধাপটি যোগ করুন হ্যান্ডেল অনুপস্থিত এবং রূপান্তর চয়ন করুন ড্রপ অনুপস্থিত.
- বেছে নিন
SKU
ইনপুট কলাম হিসাবে।
ভুল তথ্য মুছে দিয়ে আমরা আমাদের ডেটা প্রবাহে ফিরে আসি।
উপসংহার
এই পোস্টে, আমরা আপনাকে দেখিয়েছি কীভাবে আপনার ডেটাসেটে অবৈধ পাঠ্য ডেটা খুঁজে পেতে ডেটা অন্তর্দৃষ্টিতে প্যাটার্ন শেখার বৈশিষ্ট্যটি ব্যবহার করতে হয়, সেইসাথে কীভাবে সেই ডেটা সংশোধন বা বাদ দেওয়া যায়।
এখন আপনি একটি পাঠ্য কলাম পরিষ্কার করেছেন, আপনি একটি ব্যবহার করে আপনার ডেটাসেট কল্পনা করতে পারেন বিশ্লেষণ অথবা আপনি আবেদন করতে পারেন অন্তর্নির্মিত রূপান্তর আপনার ডেটা আরও প্রক্রিয়া করতে। আপনি যখন আপনার ডেটা নিয়ে সন্তুষ্ট হন, আপনি করতে পারেন একটি মডেল প্রশিক্ষণ সঙ্গে অ্যামাজন সেজমেকার অটোপাইলট, বা আপনার ডেটা রপ্তানি করুন আমাজন S3 এর মতো ডেটা উৎসে।
আমরা নিকিতা ইভকিনকে তার চিন্তাশীল পর্যালোচনার জন্য ধন্যবাদ জানাতে চাই।
লেখক সম্পর্কে
বিশাল কাপুর AWS AI এর একজন সিনিয়র ফলিত বিজ্ঞানী। ডেটা র্যাংলারে গ্রাহকদের তাদের ডেটা বুঝতে সাহায্য করার বিষয়ে তিনি উত্সাহী। তার অবসর সময়ে, তিনি পর্বত বাইক, স্নোবোর্ড এবং তার পরিবারের সাথে সময় কাটান।
জোহর কারনিন অ্যামাজন এআই-এর একজন প্রধান বিজ্ঞানী। তার গবেষণার আগ্রহ বড় আকারের এবং অনলাইন মেশিন লার্নিং অ্যালগরিদমের ক্ষেত্রে। তিনি Amazon SageMaker-এর জন্য অসীম পরিমাণে স্কেলযোগ্য মেশিন লার্নিং অ্যালগরিদম তৈরি করেন।
অজয় শর্মা তিনি আমাজন সেজমেকারের একজন প্রধান পণ্য ব্যবস্থাপক যেখানে তিনি ডেটা র্যাংলারের উপর ফোকাস করেন, যা ডেটা বিজ্ঞানীদের জন্য একটি ভিজ্যুয়াল ডেটা প্রস্তুতির সরঞ্জাম। AWS-এর আগে, আজাই ম্যাককিনসে অ্যান্ড কোম্পানিতে ডেটা সায়েন্স এক্সপার্ট ছিলেন, যেখানে তিনি বিশ্বব্যাপী নেতৃস্থানীয় ফাইন্যান্স এবং ইন্স্যুরেন্স ফার্মগুলির জন্য এমএল-কেন্দ্রিক ব্যস্ততার নেতৃত্ব দিয়েছিলেন। Ajai ডেটা সায়েন্স সম্পর্কে উত্সাহী এবং সর্বশেষ অ্যালগরিদম এবং মেশিন লার্নিং কৌশলগুলি অন্বেষণ করতে পছন্দ করে৷
ডেরেক ব্যারন Amazon SageMaker Data Wrangler-এর জন্য একজন সফটওয়্যার ডেভেলপমেন্ট ম্যানেজার
- AI
- ai শিল্প
- এআই আর্ট জেনারেটর
- আইআই রোবট
- আমাজন সেজমেকার
- অ্যামাজন সেজমেকার ডেটা র্যাংলার
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তা সার্টিফিকেশন
- ব্যাংকিং এ কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তা সফ্টওয়্যার
- এডাব্লুএস মেশিন লার্নিং
- blockchain
- ব্লকচেইন সম্মেলন এআই
- coingenius
- কথোপকথন কৃত্রিম বুদ্ধিমত্তা
- ক্রিপ্টো সম্মেলন এআই
- ডাল-ই
- গভীর জ্ঞানার্জন
- গুগল আই
- মধ্যবর্তী (200)
- মেশিন লার্নিং
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটো গেম
- প্লেটোডাটা
- প্লেটোগেমিং
- স্কেল ai
- বাক্য গঠন
- zephyrnet