সিন্থেটিক ডেটার গুণমানকে কীভাবে মূল্যায়ন করা যায় – বিশ্বস্ততা, উপযোগিতা এবং গোপনীয়তা PlatoBlockchain ডেটা ইন্টেলিজেন্সের দৃষ্টিকোণ থেকে পরিমাপ করা। উল্লম্ব অনুসন্ধান. আ.

সিন্থেটিক ডেটার গুণমান কীভাবে মূল্যায়ন করা যায় - বিশ্বস্ততা, উপযোগিতা এবং গোপনীয়তার দৃষ্টিকোণ থেকে পরিমাপ করা

ক্রমবর্ধমান ডেটা-কেন্দ্রিক বিশ্বে, এন্টারপ্রাইজগুলিকে অবশ্যই মূল্যবান শারীরিক তথ্য সংগ্রহ এবং তাদের প্রয়োজনীয় তথ্য তৈরি করার উপর ফোকাস করতে হবে কিন্তু সহজে ক্যাপচার করতে পারে না। বিশ্লেষণ এবং কৃত্রিম বুদ্ধিমত্তার (AI) উদ্ভাবনের জন্য ডেটা অ্যাক্সেস, নিয়ন্ত্রণ এবং সম্মতি হল ঘর্ষণের একটি ক্রমবর্ধমান উৎস।

আর্থিক পরিষেবা, স্বাস্থ্যসেবা, জীবন বিজ্ঞান, স্বয়ংচালিত, রোবোটিক্স এবং উত্পাদনের মতো অত্যন্ত নিয়ন্ত্রিত সেক্টরগুলির জন্য সমস্যাটি আরও বেশি। এটি সিস্টেম ডিজাইন, ডেটা শেয়ারিং (অভ্যন্তরীণ এবং বাহ্যিক), নগদীকরণ, বিশ্লেষণ এবং মেশিন লার্নিং (এমএল) এর ক্ষেত্রে বাধা সৃষ্টি করে।

সিন্থেটিক ডেটা হল এমন একটি টুল যা অনেকগুলি ডেটা চ্যালেঞ্জ, বিশেষ করে AI এবং গোপনীয়তা সুরক্ষা, নিয়ন্ত্রক সম্মতি, অ্যাক্সেসযোগ্যতা, ডেটার ঘাটতি এবং পক্ষপাতের মতো বিশ্লেষণ সংক্রান্ত সমস্যাগুলির সমাধান করে৷ এর মধ্যে ডেটা শেয়ারিং এবং ডেটা টু টাইম (এবং তাই বাজার করার সময়) অন্তর্ভুক্ত রয়েছে।

সিন্থেটিক ডেটা অ্যালগরিদমিকভাবে তৈরি করা হয়। এটি উৎস ডেটা থেকে পরিসংখ্যানগত বৈশিষ্ট্য এবং নিদর্শনগুলিকে মিরর করে। কিন্তু গুরুত্বপূর্ণভাবে এতে কোনো সংবেদনশীল, ব্যক্তিগত বা ব্যক্তিগত ডেটা পয়েন্ট নেই।

আপনি সিন্থেটিক ডেটার প্রশ্ন জিজ্ঞাসা করেন এবং আসল ডেটা থেকে আপনি একই উত্তর পান।

আমাদের মাঝে আগে পোস্ট, ক্রেডিট জালিয়াতি মডেল প্রশিক্ষণ বাড়ানোর জন্য ট্যাবুলার ডেটাসেট তৈরি করতে জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক (GANS) এর মতো প্রতিপক্ষ নেটওয়ার্কগুলি কীভাবে ব্যবহার করতে হয় তা আমরা দেখিয়েছি।

ব্যবসায়িক স্টেকহোল্ডারদের জন্য তাদের ML এবং বিশ্লেষণ প্রকল্পগুলির জন্য সিন্থেটিক ডেটা গ্রহণ করার জন্য, উত্পন্ন সিন্থেটিক ডেটা উদ্দেশ্য এবং প্রত্যাশিত ডাউনস্ট্রিম অ্যাপ্লিকেশনগুলির সাথে মানানসই হবে কিনা তা নিশ্চিত করা কেবল অপরিহার্য নয়, তাদের জন্য মান পরিমাপ এবং প্রদর্শন করতে সক্ষম হবে উৎপন্ন তথ্য।

গোপনীয়তা রক্ষায় ক্রমবর্ধমান আইনি এবং নৈতিক বাধ্যবাধকতার সাথে, সিন্থেটিক ডেটার অন্যতম শক্তি হল সংশ্লেষণের সময় সংবেদনশীল এবং আসল তথ্য অপসারণ করার ক্ষমতা। অতএব, গুণমানের পাশাপাশি, ব্যক্তিগত তথ্য ফাঁসের ঝুঁকি মূল্যায়ন করার জন্য আমাদের মেট্রিক্সের প্রয়োজন, যদি থাকে, এবং মূল্যায়ন করা যে প্রজন্মের প্রক্রিয়াটি "মুখস্থ" বা মূল ডেটার কোনোটি অনুলিপি করছে না।

এই সবগুলি অর্জনের জন্য, আমরা সিন্থেটিক ডেটার গুণমানকে মাত্রায় ম্যাপ করতে পারি, যা ব্যবহারকারী, স্টেকহোল্ডার এবং আমাদের তৈরি করা ডেটা আরও ভালভাবে বুঝতে সাহায্য করে।

সিন্থেটিক ডেটা গুণমান মূল্যায়নের তিনটি মাত্রা

উত্পন্ন সিন্থেটিক ডেটা তিনটি মূল মাত্রার বিরুদ্ধে পরিমাপ করা হয়:

  1. বিশ্বস্ততা
  2. উপযোগ
  3. গোপনীয়তা

এগুলি যেকোন জেনারেটেড সিন্থেটিক ডেটা সম্পর্কে কিছু প্রশ্ন যা একটি সিন্থেটিক ডেটা মানের রিপোর্ট দ্বারা উত্তর দেওয়া উচিত:

  • মূল প্রশিক্ষণ সেটের তুলনায় এই সিন্থেটিক ডেটা কতটা অনুরূপ?
  • আমাদের ডাউনস্ট্রিম অ্যাপ্লিকেশনগুলির জন্য এই সিন্থেটিক ডেটা কতটা দরকারী?
  • মূল প্রশিক্ষণের ডেটা থেকে সিন্থেটিক ডেটাতে কোন তথ্য ফাঁস হয়েছে?
  • বাস্তব জগতে সংবেদনশীল বলে বিবেচিত কোনো ডেটা (মডেলের প্রশিক্ষণের জন্য ব্যবহৃত হয় না এমন অন্যান্য ডেটা সেট থেকে) কি আমাদের মডেল দ্বারা অসাবধানতাবশত সংশ্লেষিত হয়েছে?

শেষ-ব্যবহারকারীদের জন্য এই মাত্রাগুলির প্রতিটিকে অনুবাদ করে এমন মেট্রিকগুলি কিছুটা নমনীয়। সর্বোপরি, তৈরি করা ডেটা বিতরণ, আকার এবং আচরণের ক্ষেত্রে পরিবর্তিত হতে পারে। তাদের বোঝা এবং ব্যাখ্যা করাও সহজ হওয়া উচিত।

পরিশেষে, মেট্রিক্স সম্পূর্ণরূপে ডেটা-চালিত হতে হবে, এবং কোনো পূর্ব জ্ঞান বা ডোমেন-নির্দিষ্ট তথ্যের প্রয়োজন হবে না। যাইহোক, যদি ব্যবহারকারী একটি নির্দিষ্ট ব্যবসায়িক ডোমেনের জন্য প্রযোজ্য নির্দিষ্ট নিয়ম এবং সীমাবদ্ধতাগুলি প্রয়োগ করতে চান, তাহলে ডোমেন-নির্দিষ্ট বিশ্বস্ততা পূরণ হয়েছে তা নিশ্চিত করতে তাদের সংশ্লেষণ প্রক্রিয়ার সময় তাদের সংজ্ঞায়িত করতে সক্ষম হওয়া উচিত।

আমরা নিম্নলিখিত বিভাগে আরও বিস্তারিতভাবে এই মেট্রিক্স প্রতিটি তাকান.

বিশ্বস্ততা বোঝার মেট্রিক্স

যেকোন ডেটা সায়েন্স প্রোজেক্টে, আমরা যে সমস্যার সমাধান করছি তার সাথে একটি নির্দিষ্ট নমুনা জনসংখ্যা প্রাসঙ্গিক কিনা তা আমাদের অবশ্যই বুঝতে হবে। একইভাবে, উত্পন্ন সিন্থেটিক ডেটার প্রাসঙ্গিকতা মূল্যায়নের প্রক্রিয়ার জন্য, আমাদের অবশ্যই এটির পরিপ্রেক্ষিতে মূল্যায়ন করতে হবে বিশ্বস্ততা মূলের তুলনায়।

এই মেট্রিক্সের ভিজ্যুয়াল উপস্থাপনা তাদের বোঝা সহজ করে তোলে। আমরা ব্যাখ্যা করতে পারি যে ক্যাটাগরির মূলত্ব এবং অনুপাতকে সম্মান করা হয়েছিল, বিভিন্ন ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্ক রাখা হয়েছিল, ইত্যাদি।

ডেটা ভিজ্যুয়ালাইজ করা কেবল সিন্থেটিক ডেটার গুণমানকে মূল্যায়ন করতে সহায়তা করে না, তবে ডেটার আরও ভাল বোঝার জন্য ডেটা সায়েন্স লাইফসাইকেলের একটি প্রাথমিক পদক্ষেপ হিসাবে ফিট করে।

আসুন আরও বিশদে কিছু বিশ্বস্ততার মেট্রিক্সে ডুব দেওয়া যাক।

অনুসন্ধানমূলক পরিসংখ্যানগত তুলনা

অনুসন্ধানমূলক পরিসংখ্যানগত তুলনার মধ্যে, মূল এবং কৃত্রিম ডেটাসেটগুলির বৈশিষ্ট্যগুলি মূল পরিসংখ্যানগত ব্যবস্থাগুলি ব্যবহার করে অন্বেষণ করা হয়, যেমন গড়, মধ্যক, মানক বিচ্যুতি, স্বতন্ত্র মান, অনুপস্থিত মান, মিনিমা, ম্যাক্সিমা, ক্রমাগত বৈশিষ্ট্যগুলির জন্য কোয়ার্টাইল রেঞ্জ এবং সংখ্যা বিভাগ প্রতি রেকর্ডের, বিভাগ প্রতি অনুপস্থিত মান, এবং শ্রেণীগত বৈশিষ্ট্যের জন্য সবচেয়ে ঘটমান অক্ষর।

এই তুলনা মূল হোল্ড-আউট ডেটাসেট এবং সিন্থেটিক ডেটার মধ্যে পরিচালিত হওয়া উচিত। এই মূল্যায়ন প্রকাশ করবে যদি তুলনা করা ডেটাসেটগুলি পরিসংখ্যানগতভাবে একই রকম হয়। যদি সেগুলি না থাকে, তাহলে আমরা বুঝতে পারব কোন বৈশিষ্ট্য এবং পরিমাপ আলাদা। একটি উল্লেখযোগ্য পার্থক্য লক্ষ্য করা গেলে আপনাকে বিভিন্ন পরামিতি সহ সিন্থেটিক ডেটা পুনরায় প্রশিক্ষণ এবং পুনর্জন্ম বিবেচনা করা উচিত।

এই পরীক্ষাটি নিশ্চিত করার জন্য একটি প্রাথমিক স্ক্রীনিং হিসাবে কাজ করে যে সিন্থেটিক ডেটার আসল ডেটাসেটের প্রতি যুক্তিসঙ্গত বিশ্বস্ততা রয়েছে এবং তাই এটি কার্যকরভাবে আরও কঠোর পরীক্ষার মধ্য দিয়ে যেতে পারে।

হিস্টোগ্রাম সাদৃশ্য স্কোর

হিস্টোগ্রামের সাদৃশ্য স্কোর প্রতিটি বৈশিষ্ট্যের সিন্থেটিক এবং আসল ডেটাসেটের প্রান্তিক বিতরণ পরিমাপ করে।

সাদৃশ্য স্কোরটি শূন্য এবং একের মধ্যে আবদ্ধ, একটি স্কোরের সাথে ইঙ্গিত করে যে সিন্থেটিক ডেটা বিতরণগুলি আসল ডেটার বিতরণকে পুরোপুরি ওভারল্যাপ করে।

একটির কাছাকাছি স্কোর ব্যবহারকারীদের আস্থা দেবে যে হোল্ডআউট ডেটাসেট এবং সিন্থেটিক ডেটাসেট পরিসংখ্যানগতভাবে একই রকম।

পারস্পরিক তথ্য স্কোর

পারস্পরিক তথ্য স্কোর দুটি বৈশিষ্ট্যের পারস্পরিক নির্ভরতা পরিমাপ করে, সংখ্যাসূচক বা শ্রেণীগত, নির্দেশ করে যে একটি বৈশিষ্ট্য থেকে অন্যটি পর্যবেক্ষণ করে কত তথ্য পাওয়া যেতে পারে।

পারস্পরিক তথ্য অ-রৈখিক সম্পর্ক পরিমাপ করতে পারে, সিন্থেটিক ডেটা মানের আরও ব্যাপক বোঝার প্রদান করে কারণ এটি আমাদের ভেরিয়েবলের সম্পর্ক সংরক্ষণের পরিমাণ বুঝতে দেয়।

একটির একটি স্কোর নির্দেশ করে যে বৈশিষ্ট্যগুলির মধ্যে পারস্পরিক নির্ভরতা সিন্থেটিক ডেটাতে পুরোপুরি ক্যাপচার করা হয়েছে।

পারস্পরিক সম্পর্ক স্কোর

পারস্পরিক সম্পর্ক স্কোর পরিমাপ করে যে মূল ডেটাসেটের পারস্পরিক সম্পর্কগুলি সিন্থেটিক ডেটাতে কতটা ভালভাবে ধরা হয়েছে।

দুই বা ততোধিক কলামের মধ্যে পারস্পরিক সম্পর্ক ML অ্যাপ্লিকেশনের জন্য অত্যন্ত গুরুত্বপূর্ণ, যা বৈশিষ্ট্য এবং লক্ষ্য ভেরিয়েবলের মধ্যে সম্পর্ক উন্মোচন করতে এবং একটি সু-প্রশিক্ষিত মডেল তৈরি করতে সহায়তা করে।

পারস্পরিক সম্পর্কের স্কোরটি শূন্য এবং একের মধ্যে আবদ্ধ, একটি স্কোর নির্দেশ করে যে পারস্পরিক সম্পর্ক পুরোপুরি মিলে গেছে।

স্ট্রাকচার্ড ট্যাবুলার ডেটার বিপরীতে, যা আমরা সাধারণত ডেটা সমস্যার সম্মুখীন হই, কিছু ধরনের স্ট্রাকচার্ড ডেটার একটি নির্দিষ্ট আচরণ থাকে যেখানে অতীতের পর্যবেক্ষণগুলির নিম্নলিখিত পর্যবেক্ষণগুলিকে প্রভাবিত করার সম্ভাবনা থাকে। এগুলি টাইম-সিরিজ বা অনুক্রমিক ডেটা হিসাবে পরিচিত - উদাহরণস্বরূপ, ঘরের তাপমাত্রার প্রতি ঘন্টায় পরিমাপের সাথে একটি ডেটাসেট।

এই আচরণের অর্থ হল নির্দিষ্ট মেট্রিক্স সংজ্ঞায়িত করার একটি প্রয়োজনীয়তা রয়েছে যা নির্দিষ্টভাবে এই সময়-সিরিজ ডেটাসেটের গুণমান পরিমাপ করতে পারে

স্বয়ংক্রিয় সম্পর্ক এবং আংশিক স্বয়ংক্রিয় সম্পর্ক স্কোর

যদিও পারস্পরিক সম্পর্কের অনুরূপ, স্বয়ংক্রিয় সম্পর্ক একটি সময় সিরিজের সম্পর্ককে তার বর্তমান মূল্যে দেখায় কারণ এটি তার পূর্ববর্তী মানের সাথে সম্পর্কিত। আগের টাইম ল্যাগের প্রভাবগুলি সরিয়ে আংশিক স্বতঃসম্পর্ক তৈরি করে। অতএব, অটোকোরিলেশন স্কোর পরিমাপ করে যে সিন্থেটিক ডেটা মূল ডেটাসেট থেকে উল্লেখযোগ্য স্বয়ংক্রিয় সম্পর্ক বা আংশিক পারস্পরিক সম্পর্ককে কতটা ভালোভাবে ধরেছে।

ইউটিলিটি বোঝার মেট্রিক্স

এখন আমরা পরিসংখ্যানগতভাবে বুঝতে পেরেছি যে সিন্থেটিক ডেটা মূল ডেটাসেটের মতো। এছাড়াও, আমাদের অবশ্যই মূল্যায়ন করতে হবে যে বিভিন্ন এমএল অ্যালগরিদমগুলিতে প্রশিক্ষণের সময় সাধারণ ডেটা বিজ্ঞানের সমস্যাগুলির জন্য সংশ্লেষিত ডেটাসেট কতটা ভাল।

নিম্নলিখিত ব্যবহার করে উপযোগ মেট্রিক্স, আমরা আস্থা তৈরি করার লক্ষ্য রাখি যে আমরা প্রকৃত ডেটা কীভাবে পারফর্ম করেছে সে সম্পর্কিত ডাউনস্ট্রিম অ্যাপ্লিকেশনগুলিতে কার্যক্ষমতা অর্জন করতে পারি।

ভবিষ্যদ্বাণী স্কোর

আসল আসল ডেটার তুলনায় সিন্থেটিক ডেটার কার্যকারিতা পরিমাপ করা এমএল মডেলের মাধ্যমে করা যেতে পারে। ডাউনস্ট্রিম মডেল স্কোর সিন্থেটিক এবং আসল উভয় ডেটাসেটে প্রশিক্ষিত এমএল মডেলের কর্মক্ষমতা তুলনা করে সিন্থেটিক ডেটার গুণমান ক্যাপচার করে এবং মূল ডেটাসেট থেকে আটকে রাখা টেস্টিং ডেটাতে যাচাই করা হয়। এটি একটি প্রদান করে ট্রেন সিন্থেটিক টেস্ট রিয়েল (TSTR) স্কোর এবং একটি ট্রেন রিয়েল টেস্ট রিয়েল (TRTR) যথাক্রমে স্কোর।

TSTR, TRTR স্কোর এবং বৈশিষ্ট্যের গুরুত্ব স্কোর (লেখকের ছবি)

স্কোরটি রিগ্রেশন বা শ্রেণীবিভাগের কাজগুলির জন্য সবচেয়ে বিশ্বস্ত ML অ্যালগরিদমের বিস্তৃত পরিসরকে অন্তর্ভুক্ত করে। বেশ কয়েকটি ক্লাসিফায়ার এবং রিগ্রেসার ব্যবহার করে নিশ্চিত করে যে বেশিরভাগ অ্যালগরিদম জুড়ে স্কোরটি আরও সাধারণীকরণযোগ্য, যাতে সিন্থেটিক ডেটা ভবিষ্যতে উপযোগী বলে বিবেচিত হতে পারে।

শেষ পর্যন্ত, যদি TSTR স্কোর এবং TRTR স্কোর তুলনীয় হয়, তাহলে এটি নির্দেশ করে যে সিন্থেটিক ডেটাতে বাস্তব-বিশ্বের অ্যাপ্লিকেশনের জন্য কার্যকর এমএল মডেলগুলিকে প্রশিক্ষণের জন্য ব্যবহার করা গুণমান রয়েছে।

বৈশিষ্ট্য গুরুত্ব স্কোর

ভবিষ্যদ্বাণী স্কোরের সাথে অত্যন্ত সম্পর্কিত, বৈশিষ্ট্যের গুরুত্ব (FI) স্কোর TSTR এবং TRTR স্কোরে ব্যাখ্যাযোগ্যতা যোগ করে এটিকে প্রসারিত করে।

F1 স্কোর ভবিষ্যদ্বাণী স্কোরের সাথে প্রাপ্ত বৈশিষ্ট্যের গুরুত্বের ক্রম পরিবর্তন এবং স্থিতিশীলতার তুলনা করে। ডেটার একটি সিন্থেটিক সেট উচ্চ উপযোগী বলে বিবেচিত হয় যদি এটি মূল বাস্তব ডেটার মতো বৈশিষ্ট্যের গুরুত্বের একই ক্রম প্রদান করে।

QScore

আমাদের নতুন তৈরি করা ডেটাতে প্রশিক্ষিত একটি মডেল আসল ডেটা ব্যবহার করে প্রশিক্ষিত মডেলের মতো একই প্রশ্নের উত্তর তৈরি করতে চলেছে তা নিশ্চিত করতে, আমরা Qscore ব্যবহার করি। এটি সিন্থেটিক এবং আসল (এবং হোল্ডআউট) উভয় ডেটাসেটের উপর অনেক র্যান্ডম অ্যাগ্রিগেশন-ভিত্তিক ক্যোয়ারী চালিয়ে সিন্থেটিক ডেটার ডাউনস্ট্রিম কর্মক্ষমতা পরিমাপ করে।

এখানে ধারণা হল যে এই দুটি প্রশ্নেরই একই রকম ফলাফল পাওয়া উচিত।

একটি উচ্চ QScore নিশ্চিত করে যে ডাউনস্ট্রিম অ্যাপ্লিকেশনগুলি যেগুলি অনুসন্ধান এবং একত্রীকরণ ক্রিয়াকলাপগুলি ব্যবহার করে সেগুলি মূল ডেটাসেটের সমান মান প্রদান করতে পারে৷

গোপনীয়তা বোঝার মেট্রিক্স

সঙ্গে গোপনীয়তা প্রবিধানগুলি ইতিমধ্যেই রয়েছে, এটি একটি নৈতিক বাধ্যবাধকতা এবং সংবেদনশীল তথ্য সুরক্ষিত আছে তা নিশ্চিত করার জন্য একটি আইনি প্রয়োজন৷

এই সিন্থেটিক ডেটা অবাধে ভাগ করা এবং ডাউনস্ট্রিম অ্যাপ্লিকেশনগুলির জন্য ব্যবহার করার আগে, আমাদের অবশ্যই গোপনীয়তা মেট্রিক্স বিবেচনা করতে হবে যা স্টেকহোল্ডারকে বুঝতে সাহায্য করতে পারে যে ফাঁস হওয়া তথ্যের পরিমাণের পরিপ্রেক্ষিতে মূল ডেটার তুলনায় জেনারেট করা সিন্থেটিক ডেটা কোথায় দাঁড়িয়েছে৷ তাছাড়া, সিন্থেটিক ডেটা কীভাবে ভাগ করা যায় এবং ব্যবহার করা যায় সে সম্পর্কে আমাদের অবশ্যই গুরুত্বপূর্ণ সিদ্ধান্ত নিতে হবে।

সঠিক ম্যাচ স্কোর

গোপনীয়তার একটি প্রত্যক্ষ এবং স্বজ্ঞাত মূল্যায়ন হল সিন্থেটিক রেকর্ডগুলির মধ্যে প্রকৃত ডেটার অনুলিপিগুলি সন্ধান করা। সঠিক ম্যাচ স্কোর সিন্থেটিক সেটের মধ্যে পাওয়া যায় এমন বাস্তব রেকর্ডের সংখ্যা গণনা করে।

স্কোর শূন্য হওয়া উচিত, উল্লেখ করে যে সিন্থেটিক ডেটার মতো কোনো বাস্তব তথ্য উপস্থিত নেই। আমরা আরও গোপনীয়তা মেট্রিকগুলি মূল্যায়ন করার আগে এই মেট্রিকটি একটি স্ক্রিনিং প্রক্রিয়া হিসাবে কাজ করে।

প্রতিবেশীদের গোপনীয়তা স্কোর

অধিকন্তু, প্রতিবেশীদের গোপনীয়তা স্কোর সিন্থেটিক রেকর্ডের অনুপাত পরিমাপ করে যা বাস্তবের সাথে খুব কাছাকাছি হতে পারে। এর মানে হল, যদিও সেগুলি সরাসরি কপি নয়, তারা গোপনীয়তা ফাঁসের সম্ভাব্য পয়েন্ট এবং অনুমান আক্রমণের জন্য দরকারী তথ্যের উৎস।

মূল ডেটার সাথে ওভারল্যাপ করা সিন্থেটিক ডেটাতে একটি উচ্চ-মাত্রিক নিকটতম-প্রতিবেশীদের অনুসন্ধান পরিচালনা করে স্কোরটি গণনা করা হয়।

সদস্যতা অনুমান স্কোর

ডেটা সায়েন্স লাইফসাইকেলে, একবার একটি মডেলকে প্রশিক্ষণ দেওয়া হলে, এটির আর প্রশিক্ষণের নমুনাগুলিতে অ্যাক্সেসের প্রয়োজন হয় না এবং অদেখা ডেটার উপর ভবিষ্যদ্বাণী করতে পারে। একইভাবে, আমাদের ক্ষেত্রে, একবার সিন্থেসাইজার মডেলটি প্রশিক্ষিত হলে, মূল ডেটার প্রয়োজন ছাড়াই সিন্থেটিক ডেটার নমুনা তৈরি করা যেতে পারে।

এক ধরনের হামলার মাধ্যমে ডাকা হয় "সদস্যতা অনুমান আক্রমণ", আক্রমণকারীরা আসল ডেটা অ্যাক্সেস না করেই সিন্থেটিক ডেটা তৈরি করতে ব্যবহৃত ডেটা প্রকাশ করার চেষ্টা করতে পারে। এটি গোপনীয়তার একটি আপস ফলাফল.

সদস্যতা অনুমান স্কোর একটি সদস্যতা অনুমান আক্রমণ সফল হওয়ার সম্ভাবনা পরিমাপ করে।

সদস্যতা অনুমান স্কোর

একটি কম স্কোর অনুমানের সম্ভাব্যতা নির্দেশ করে যে একটি নির্দিষ্ট রেকর্ড প্রশিক্ষণ ডেটাসেটের সদস্য ছিল যা সিন্থেটিক ডেটা তৈরির দিকে পরিচালিত করেছিল। অন্য কথায়, আক্রমণগুলি একটি পৃথক রেকর্ডের বিবরণ অনুমান করতে পারে, যার ফলে গোপনীয়তার সাথে আপস করা হয়।

একটি উচ্চ সদস্যতা অনুমান স্কোর ইঙ্গিত করে যে আক্রমণকারী নির্ধারণ করতে অসম্ভাব্য যে একটি নির্দিষ্ট রেকর্ড সিন্থেটিক ডেটা তৈরি করতে ব্যবহৃত মূল ডেটাসেটের অংশ ছিল কিনা। এর মানে এই যে কোনো ব্যক্তির তথ্য সিন্থেটিক ডেটার মাধ্যমে আপস করা হয়নি।

হোল্ডআউট ধারণা

একটি গুরুত্বপূর্ণ সর্বোত্তম অভ্যাস যা আমাদের অবশ্যই অনুসরণ করতে হবে তা হল নিশ্চিত করা যে সিন্থেটিক ডেটা যথেষ্ট সাধারণ এবং এটি যে মূল ডেটার উপর প্রশিক্ষিত হয়েছিল তার সাথে ওভারফিট নয়৷ সাধারণ ডেটা সায়েন্স ফ্লোতে, ML মডেল তৈরি করার সময়, র‍্যান্ডম ফরেস্ট ক্লাসিফায়ার, আমরা পরীক্ষার ডেটা আলাদা করে রাখি, ট্রেনিং ডেটা ব্যবহার করে মডেলগুলিকে প্রশিক্ষিত করি এবং অদেখা পরীক্ষার ডেটার মেট্রিক্সের মূল্যায়ন করি।

একইভাবে, সিন্থেটিক ডেটার জন্য, আমরা মূল ডেটার একটি নমুনা একপাশে রাখি - যাকে সাধারণত হোল্ড-আউট ডেটাসেট বা অদেখা উইথহেল্ড টেস্ট ডেটা হিসাবে উল্লেখ করা হয় - এবং হোল্ড-আউট ডেটাসেটের বিরুদ্ধে জেনারেট করা সিন্থেটিক ডেটা মূল্যায়ন করি।

হোল্ডআউট ডেটাসেটটি মূল ডেটার একটি উপস্থাপনা বলে প্রত্যাশিত, যদিও সিন্থেটিক ডেটা কখন তৈরি হয়েছিল তা দেখা যায়নি৷ অতএব, হোল্ডআউট এবং সিন্থেটিক ডেটাসেটের সাথে মূলের তুলনা করার সময় সমস্ত মেট্রিকের জন্য একই স্কোর থাকা অত্যাবশ্যক৷

যখন অনুরূপ স্কোর প্রাপ্ত হয়, তখন আমরা প্রতিষ্ঠিত করতে পারি যে সিন্থেটিক ডেটা পয়েন্টগুলি একই বিশ্বস্ততা এবং উপযোগ রক্ষা করে মূল ডেটা পয়েন্টগুলি মনে রাখার ফলে নয়।

সর্বশেষ ভাবনা

বিশ্ব সিন্থেটিক ডেটার কৌশলগত গুরুত্ব বুঝতে শুরু করেছে। ডেটা সায়েন্টিস্ট এবং ডেটা জেনারেটর হিসাবে, আমরা যে সিন্থেটিক ডেটা তৈরি করি তাতে বিশ্বাস তৈরি করা এবং এটি একটি উদ্দেশ্যের জন্য তা নিশ্চিত করা আমাদের কর্তব্য।

সিন্থেটিক ডেটা ডেটা সায়েন্স ডেভেলপমেন্ট টুলকিটে থাকা আবশ্যক হিসেবে বিকশিত হচ্ছে। এমআইটি টেকনোলজি রিভিউ আছে সুপরিচিত 2022 সালের যুগান্তকারী প্রযুক্তির একটি হিসাবে সিন্থেটিক ডেটা। আমরা সিন্থেটিক ডেটা ছাড়া দুর্দান্ত মূল্যের AI মডেল তৈরির কল্পনা করতে পারি না, দাবি গার্টনার.

অনুসারে ম্যাকিনজি, সিন্থেটিক ডেটা খরচ এবং বাধা কমিয়ে দেয় যা অন্যথায় অ্যালগরিদম তৈরি করার সময় বা ডেটাতে অ্যাক্সেস পাওয়ার সময় আপনার কাছে থাকবে।

সিন্থেটিক ডেটা তৈরি করা হল ডাউনস্ট্রিম অ্যাপ্লিকেশনগুলিকে জানা এবং সিন্থেটিক ডেটার গুণমানের জন্য বিভিন্ন মাত্রার মধ্যে ট্রেড-অফ বোঝা।

সারাংশ

সিন্থেটিক ডেটার ব্যবহারকারী হিসাবে, ব্যবহারের ক্ষেত্রের প্রসঙ্গটি সংজ্ঞায়িত করা অপরিহার্য যার জন্য সিন্থেটিকের প্রতিটি নমুনা ভবিষ্যতে ব্যবহার করা হবে। বাস্তব ডেটার মতোই, সিন্থেটিক ডেটার গুণমান নির্ভর করে ব্যবহারের ক্ষেত্রে, সেইসাথে সিন্থেটাইজেশনের জন্য নির্বাচিত পরামিতিগুলির উপর।

উদাহরণস্বরূপ, মূল ডেটার মতো সিন্থেটিক ডেটাতে আউটলায়ার রাখা একটি জালিয়াতি সনাক্তকরণ ব্যবহারের ক্ষেত্রে উপযোগী। যাইহোক, গোপনীয়তার উদ্বেগের সাথে স্বাস্থ্যসেবা ব্যবহারের ক্ষেত্রে এটি কার্যকর নয়, কারণ বহিরাগতরা সাধারণত তথ্য ফাঁস হতে পারে।

অধিকন্তু, বিশ্বস্ততা, উপযোগিতা এবং গোপনীয়তার মধ্যে একটি ট্রেডঅফ বিদ্যমান। একই সাথে তিনটির জন্য ডেটা অপ্টিমাইজ করা যায় না। এই মেট্রিক্স স্টেকহোল্ডারদের প্রতিটি ব্যবহারের ক্ষেত্রে প্রয়োজনীয় বিষয়গুলিকে অগ্রাধিকার দিতে এবং জেনারেট করা সিন্থেটিক ডেটা থেকে প্রত্যাশাগুলি পরিচালনা করতে সক্ষম করে৷

পরিশেষে, যখন আমরা প্রতিটি মেট্রিকের মান দেখি এবং যখন তারা প্রত্যাশা পূরণ করে, তখন স্টেকহোল্ডাররা সিন্থেটিক ডেটা ব্যবহার করে যে সমাধানগুলি তৈরি করে তাতে আত্মবিশ্বাসী হতে পারে।

স্ট্রাকচার্ড সিন্থেটিক ডেটা ব্যবহারের ক্ষেত্রে সফ্টওয়্যার ডেভেলপমেন্টের পরীক্ষার ডেটা থেকে শুরু করে ক্লিনিকাল ট্রায়ালগুলিতে সিন্থেটিক কন্ট্রোল আর্মস তৈরি করা পর্যন্ত বিস্তৃত অ্যাপ্লিকেশন কভার করে।

এই সুযোগগুলি অন্বেষণ করতে পৌঁছান বা মান প্রদর্শন করার জন্য একটি PoC তৈরি করুন৷


সিন্থেটিক ডেটার গুণমানকে কীভাবে মূল্যায়ন করা যায় – বিশ্বস্ততা, উপযোগিতা এবং গোপনীয়তা PlatoBlockchain ডেটা ইন্টেলিজেন্সের দৃষ্টিকোণ থেকে পরিমাপ করা। উল্লম্ব অনুসন্ধান. আ.ফারিস হাদ্দাদ AABG স্ট্র্যাটেজিক পারস্যুটস টিমের ডেটা ও ইনসাইটস লিড। তিনি উদ্যোগগুলিকে সফলভাবে ডেটা-চালিত হতে সাহায্য করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

T-Mobile US, Inc. তাদের গ্রাহকদের পছন্দের ভাষায় ভয়েসমেল প্রদান করতে Amazon Transcribe এবং Amazon Translate এর মাধ্যমে কৃত্রিম বুদ্ধিমত্তা ব্যবহার করে | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1905364
সময় স্ট্যাম্প: অক্টোবর 24, 2023