Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.

Amazon SageMaker Data Wrangler-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন

এই পোস্টে, আমরা একটি নতুন বিশ্লেষণ প্রবর্তন ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট of অ্যামাজন সেজমেকার ডেটা র্যাংলার. এই বিশ্লেষণ আপনাকে সঠিকতার জন্য পাঠ্য বৈশিষ্ট্যগুলি যাচাই করতে এবং মেরামত বা বাদ দেওয়ার জন্য অবৈধ সারিগুলি উন্মোচন করতে সহায়তা করে।

ডেটা র‍্যাংলার মেশিন লার্নিং (এমএল) এর জন্য ডেটা একত্রিত করতে এবং প্রস্তুত করতে যে সময় নেয় তা কয়েক সপ্তাহ থেকে মিনিটে কমিয়ে দেয়। আপনি ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশল প্রক্রিয়া সহজ করতে পারেন, এবং একটি একক ভিজ্যুয়াল ইন্টারফেস থেকে ডেটা নির্বাচন, পরিষ্কার, অন্বেষণ এবং ভিজ্যুয়ালাইজেশন সহ ডেটা প্রস্তুতির কর্মপ্রবাহের প্রতিটি ধাপ সম্পূর্ণ করতে পারেন।

সমাধান ওভারভিউ

ডেটা প্রিপ্রসেসিংয়ে প্রায়ই পাঠ্য ডেটা যেমন ইমেল ঠিকানা, ফোন নম্বর এবং পণ্যের নাম পরিষ্কার করা জড়িত। এই ডেটার অন্তর্নিহিত অখণ্ডতার সীমাবদ্ধতা থাকতে পারে যা নিয়মিত অভিব্যক্তি দ্বারা বর্ণনা করা যেতে পারে। উদাহরণস্বরূপ, বৈধ বলে বিবেচিত হতে, একটি স্থানীয় ফোন নম্বরের মতো একটি প্যাটার্ন অনুসরণ করতে হতে পারে৷ [1-9][0-9]{2}-[0-9]{4}, যা একটি নন-জিরো ডিজিটের সাথে মিলবে, তার পরে আরও দুটি ডিজিট, একটি ড্যাশের পরে, আরও চারটি সংখ্যা অনুসরণ করবে৷

অবৈধ ডেটার ফলে সাধারণ পরিস্থিতিতে অসামঞ্জস্যপূর্ণ মানুষের প্রবেশ অন্তর্ভুক্ত থাকতে পারে, উদাহরণস্বরূপ বিভিন্ন ফর্ম্যাটে ফোন নম্বর (5551234 বনাম 555 1234 বনাম 555-1234) বা অপ্রত্যাশিত ডেটা, যেমন 0, 911, বা 411৷ একটি গ্রাহক কল সেন্টারের জন্য, 0, 911, বা 411-এর মতো সংখ্যাগুলি বাদ দেওয়া এবং 5551234 বা 555 1234-এর মতো এন্ট্রিগুলি যাচাই করা (এবং সম্ভাব্য সঠিক) করা গুরুত্বপূর্ণ৷

দুর্ভাগ্যবশত, যদিও পাঠ্য সীমাবদ্ধতা বিদ্যমান, সেগুলিকে ডেটা প্রদান করা নাও হতে পারে৷ অতএব, একটি ডেটাসেট প্রস্তুতকারী একজন ডেটা বিজ্ঞানীকে অবশ্যই ডেটা দেখে সীমাবদ্ধতাগুলি ম্যানুয়ালি উন্মোচন করতে হবে। এটি ক্লান্তিকর, ত্রুটি প্রবণ এবং সময়সাপেক্ষ হতে পারে।

প্যাটার্ন লার্নিং স্বয়ংক্রিয়ভাবে আপনার ডেটা বিশ্লেষণ করে এবং আপনার ডেটাসেটে প্রযোজ্য হতে পারে এমন পাঠ্য সীমাবদ্ধতাগুলিকে প্রকাশ করে। ফোন নম্বরগুলির উদাহরণের জন্য, প্যাটার্ন লার্নিং ডেটা বিশ্লেষণ করতে পারে এবং সনাক্ত করতে পারে যে বেশিরভাগ ফোন নম্বর পাঠ্য সীমাবদ্ধতা অনুসরণ করে [1-9][0-9]{2}-[0-9][4]. এটি আপনাকে সতর্ক করতে পারে যে অবৈধ ডেটার উদাহরণ রয়েছে যাতে আপনি সেগুলি বাদ দিতে বা সংশোধন করতে পারেন৷

নিম্নলিখিত বিভাগে, আমরা পণ্য বিভাগ এবং SKU (স্টক কিপিং ইউনিট) কোডগুলির একটি কাল্পনিক ডেটাসেট ব্যবহার করে ডেটা র্যাংলারে প্যাটার্ন লার্নিং কীভাবে ব্যবহার করতে হয় তা প্রদর্শন করি।

এই ডেটাসেটে এমন বৈশিষ্ট্য রয়েছে যা কোম্পানি, ব্র্যান্ড এবং শক্তি খরচ দ্বারা পণ্যের বর্ণনা করে। উল্লেখযোগ্যভাবে, এটি একটি বৈশিষ্ট্য SKU অন্তর্ভুক্ত করে যা ভুল-ফরম্যাটেড। এই ডেটাসেটের সমস্ত ডেটা কাল্পনিক এবং এলোমেলোভাবে তৈরি করা হয়েছে র্যান্ডম ব্র্যান্ডের নাম এবং যন্ত্রের নাম ব্যবহার করে৷

পূর্বশর্ত

আপনি ডেটা র্যাংলার ব্যবহার শুরু করার আগে, ডাউনলোড নমুনা ডেটাসেট এবং এটি একটি অবস্থানে আপলোড করুন আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3)। নির্দেশাবলীর জন্য, পড়ুন অবজেক্ট আপলোড করা হচ্ছে.

আপনার ডেটাসেট আমদানি করুন

আপনার ডেটাসেট আমদানি করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. ডেটা র্যাংলারে, নির্বাচন করুন ML-এর জন্য ডেটা আমদানি ও অন্বেষণ করুন.
  2. বেছে নিন আমদানি.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.
  3. জন্য তথ্য আমদানিনির্বাচন আমাজন S3.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.
  4. Amazon S3 এ ফাইলটি সন্ধান করুন এবং নির্বাচন করুন আমদানি.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.

আমদানি করার পরে, আমরা ডেটা প্রবাহে নেভিগেট করতে পারি।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.

ডেটা অন্তর্দৃষ্টি পান

এই ধাপে, আমরা একটি ডেটা অন্তর্দৃষ্টি প্রতিবেদন তৈরি করি যাতে ডেটা গুণমান সম্পর্কে তথ্য অন্তর্ভুক্ত থাকে। আরো তথ্যের জন্য, পড়ুন ডেটা এবং ডেটা গুণমানের অন্তর্দৃষ্টি পান. নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. উপরে তথ্য প্রবাহ ট্যাব, পাশের প্লাস চিহ্নটি নির্বাচন করুন তথ্যের ধরণ.
  2. বেছে নিন ডেটা অন্তর্দৃষ্টি পান.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.
  3. জন্য বিশ্লেষণের ধরণনির্বাচন ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট.
  4. এই পোস্টের জন্য, ছেড়ে দিন লক্ষ্য কলাম এবং সমস্যার ধরণ খালি। যদি আপনি একটি টার্গেট বৈশিষ্ট্য সহ রিগ্রেশন বা শ্রেণীবিভাগের কাজের জন্য আপনার ডেটাসেট ব্যবহার করার পরিকল্পনা করেন, আপনি সেই বিকল্পগুলি নির্বাচন করতে পারেন এবং প্রতিবেদনে আপনার ইনপুট বৈশিষ্ট্যগুলি আপনার লক্ষ্যের সাথে কীভাবে সম্পর্কিত তা বিশ্লেষণ অন্তর্ভুক্ত করবে। উদাহরণস্বরূপ, এটি লক্ষ্য ফাঁসের উপর প্রতিবেদন তৈরি করতে পারে। আরো তথ্যের জন্য, পড়ুন লক্ষ্য কলাম.
  5. বেছে নিন সৃষ্টি.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.

আমাদের কাছে এখন একটি ডেটা গুণমান এবং ডেটা অন্তর্দৃষ্টি প্রতিবেদন রয়েছে৷ যদি আমরা নিচে স্ক্রোল SKU বিভাগে, আমরা SKU বর্ণনা করে প্যাটার্ন শেখার একটি উদাহরণ দেখতে পাচ্ছি। এই বৈশিষ্ট্যটিতে কিছু অবৈধ ডেটা রয়েছে বলে মনে হচ্ছে, এবং কার্যকরী প্রতিকার প্রয়োজন।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.

আমরা SKU বৈশিষ্ট্যটি পরিষ্কার করার আগে, এর উপরে স্ক্রোল করি ব্র্যান্ড আরো কিছু অন্তর্দৃষ্টি দেখতে বিভাগ. এখানে আমরা দেখতে পাচ্ছি দুটি প্যাটার্ন উন্মোচিত হয়েছে, যা ইঙ্গিত করে যে ব্র্যান্ডের বেশিরভাগ নাম একক শব্দ যা শব্দের অক্ষর বা বর্ণমালার অক্ষর নিয়ে গঠিত। ক শব্দ চরিত্র হয় একটি আন্ডারস্কোর বা একটি অক্ষর যা যেকোনো ভাষার একটি শব্দে প্রদর্শিত হতে পারে। উদাহরণস্বরূপ, স্ট্রিং Hello_world এবং écoute উভয় শব্দ অক্ষর গঠিত: H এবং é.

এই পোস্টের জন্য, আমরা এই বৈশিষ্ট্যটি পরিষ্কার করি না।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.

প্যাটার্ন শেখার অন্তর্দৃষ্টি দেখুন

আসুন SKU পরিষ্কার করার দিকে ফিরে যাই এবং প্যাটার্ন এবং সতর্কতা বার্তাতে জুম ইন করুন।

নিম্নলিখিত স্ক্রিনশটে দেখানো হয়েছে, প্যাটার্ন লার্নিং 97.78% ডেটার সাথে মেলে এমন একটি উচ্চ-নির্ভুলতার প্যাটার্ন দেখায়। এটি প্যাটার্নের সাথে মেলে এমন কিছু উদাহরণও প্রদর্শন করে যা প্যাটার্নের সাথে মেলে না। অ-ম্যাচগুলিতে, আমরা কিছু অবৈধ SKU দেখতে পাই।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.

সারফেস করা প্যাটার্নের পাশাপাশি, উচ্চ নির্ভুলতার প্যাটার্নের পাশাপাশি প্যাটার্নের সাথে সামঞ্জস্যপূর্ণ না হওয়া কিছু ডেটা থাকলে ডেটা পরিষ্কার করার জন্য একটি সম্ভাব্য ক্রিয়াকলাপের ইঙ্গিত দিয়ে একটি সতর্কতা প্রদর্শিত হতে পারে।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.

আমরা অবৈধ তথ্য বাদ দিতে পারেন. যদি আমরা রেগুলার এক্সপ্রেশনে (ডান-ক্লিক) বাছাই করি, আমরা এক্সপ্রেশনটি কপি করতে পারি [A-Z]{3}-[0-9]{4,5}.

অবৈধ তথ্য সরান

চলুন এই প্যাটার্নের সাথে মেলে না এমন নন-কনফর্মিং ডেটা বাদ দেওয়ার জন্য একটি রূপান্তর তৈরি করি।

  1. উপরে তথ্য প্রবাহ ট্যাব, পাশের প্লাস চিহ্নটি নির্বাচন করুন তথ্যের ধরণ.
  2. বেছে নিন রূপান্তর যোগ করুন.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.
  3. বেছে নিন ধাপ যোগ করুন.
  4. সন্ধান করা regex এবং নির্বাচন করুন অনুসন্ধান এবং সম্পাদনা করুন.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.
  5. জন্য রুপান্তরনির্বাচন অ-ম্যাচগুলিকে অনুপস্থিতে রূপান্তর করুন.
  6. জন্য ইনপুট কলামনির্বাচন SKU.
  7. জন্য প্যাটার্ন, আমাদের রেগুলার এক্সপ্রেশন লিখুন।
  8. বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.
    এখন বৈশিষ্ট্যগুলি থেকে বহিরাগত ডেটা মুছে ফেলা হয়েছে।
  9. সারিগুলি সরাতে, ধাপটি যোগ করুন হ্যান্ডেল অনুপস্থিত এবং রূপান্তর চয়ন করুন ড্রপ অনুপস্থিত.
  10. বেছে নিন SKU ইনপুট কলাম হিসাবে।
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.

ভুল তথ্য মুছে দিয়ে আমরা আমাদের ডেটা প্রবাহে ফিরে আসি।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.

উপসংহার

এই পোস্টে, আমরা আপনাকে দেখিয়েছি কীভাবে আপনার ডেটাসেটে অবৈধ পাঠ্য ডেটা খুঁজে পেতে ডেটা অন্তর্দৃষ্টিতে প্যাটার্ন শেখার বৈশিষ্ট্যটি ব্যবহার করতে হয়, সেইসাথে কীভাবে সেই ডেটা সংশোধন বা বাদ দেওয়া যায়।

এখন আপনি একটি পাঠ্য কলাম পরিষ্কার করেছেন, আপনি একটি ব্যবহার করে আপনার ডেটাসেট কল্পনা করতে পারেন বিশ্লেষণ অথবা আপনি আবেদন করতে পারেন অন্তর্নির্মিত রূপান্তর আপনার ডেটা আরও প্রক্রিয়া করতে। আপনি যখন আপনার ডেটা নিয়ে সন্তুষ্ট হন, আপনি করতে পারেন একটি মডেল প্রশিক্ষণ সঙ্গে অ্যামাজন সেজমেকার অটোপাইলট, বা আপনার ডেটা রপ্তানি করুন আমাজন S3 এর মতো ডেটা উৎসে।

আমরা নিকিতা ইভকিনকে তার চিন্তাশীল পর্যালোচনার জন্য ধন্যবাদ জানাতে চাই।


লেখক সম্পর্কে

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.বিশাল কাপুর AWS AI এর একজন সিনিয়র ফলিত বিজ্ঞানী। ডেটা র‍্যাংলারে গ্রাহকদের তাদের ডেটা বুঝতে সাহায্য করার বিষয়ে তিনি উত্সাহী। তার অবসর সময়ে, তিনি পর্বত বাইক, স্নোবোর্ড এবং তার পরিবারের সাথে সময় কাটান।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.জোহর কারনিন অ্যামাজন এআই-এর একজন প্রধান বিজ্ঞানী। তার গবেষণার আগ্রহ বড় আকারের এবং অনলাইন মেশিন লার্নিং অ্যালগরিদমের ক্ষেত্রে। তিনি Amazon SageMaker-এর জন্য অসীম পরিমাণে স্কেলযোগ্য মেশিন লার্নিং অ্যালগরিদম তৈরি করেন।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ.অজয় শর্মা তিনি আমাজন সেজমেকারের একজন প্রধান পণ্য ব্যবস্থাপক যেখানে তিনি ডেটা র্যাংলারের উপর ফোকাস করেন, যা ডেটা বিজ্ঞানীদের জন্য একটি ভিজ্যুয়াল ডেটা প্রস্তুতির সরঞ্জাম। AWS-এর আগে, আজাই ম্যাককিনসে অ্যান্ড কোম্পানিতে ডেটা সায়েন্স এক্সপার্ট ছিলেন, যেখানে তিনি বিশ্বব্যাপী নেতৃস্থানীয় ফাইন্যান্স এবং ইন্স্যুরেন্স ফার্মগুলির জন্য এমএল-কেন্দ্রিক ব্যস্ততার নেতৃত্ব দিয়েছিলেন। Ajai ডেটা সায়েন্স সম্পর্কে উত্সাহী এবং সর্বশেষ অ্যালগরিদম এবং মেশিন লার্নিং কৌশলগুলি অন্বেষণ করতে পছন্দ করে৷

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাহায্যে টেক্সট ডেটাতে প্যাটার্ন শনাক্ত করুন। উল্লম্ব অনুসন্ধান. আ. ডেরেক ব্যারন Amazon SageMaker Data Wrangler-এর জন্য একজন সফটওয়্যার ডেভেলপমেন্ট ম্যানেজার

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

অ্যামাজন সেজমেকার জাম্পস্টার্টে ফাউন্ডেশন মডেল সহ পুনরুদ্ধার অগমেন্টেড জেনারেশন ব্যবহার করে প্রশ্নের উত্তর দেওয়া

উত্স নোড: 1831500
সময় স্ট্যাম্প: 2 পারে, 2023

অ্যামাজন বেডরকের জ্ঞানের ভিত্তিগুলি এখন একটি একক নথিতে প্রশ্ন জিজ্ঞাসা করা সহজ করে তোলে | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1968566
সময় স্ট্যাম্প: এপ্রিল 26, 2024

ডেটা প্রস্তুতির জন্য Amazon SageMaker Data Wrangler ব্যবহার করুন এবং ML এর সাথে শিখতে এবং পরীক্ষা করতে স্টুডিও ল্যাবস ব্যবহার করুন

উত্স নোড: 1666532
সময় স্ট্যাম্প: সেপ্টেম্বর 15, 2022