সিন্থেটিক ডেটা মেশিন লার্নিংয়ে বাস্তব কর্মক্ষমতা উন্নতির প্রস্তাব দিতে পারে

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

বিশাল-স্কেল ভিডিও ডেটাসেটের সাথে অ্যাকশন স্বীকৃতি নাটকীয়ভাবে উন্নত হয়েছে। তবুও, এই ডেটাসেটগুলির সাথে কিউরেশন খরচ, গোপনীয়তা, নীতিশাস্ত্র, পক্ষপাতিত্ব এবং কপিরাইট সম্পর্কিত সমস্যা রয়েছে৷ তাই, এমআইটি বিজ্ঞানীরা সিন্থেটিক ডেটাসেটের দিকে ঝুঁকছেন।

এগুলি এমন একটি কম্পিউটার দ্বারা তৈরি করা হয়েছে যা দৃশ্য, বস্তু এবং মানুষের 3D মডেল ব্যবহার করে দ্রুত নির্দিষ্ট ক্রিয়াকলাপের বিভিন্ন ক্লিপ তৈরি করে — সম্ভাব্য কপিরাইট সমস্যা বা নৈতিক উদ্বেগ ছাড়াই যা বাস্তব ডেটার সাথে আসে৷

সিন্থেটিক ডেটা কি আসল ডেটা হিসাবে ভাল?

এমআইটি, এমআইটি-আইবিএম ওয়াটসন এআই ল্যাব এবং বোস্টন বিশ্ববিদ্যালয়ের বিজ্ঞানীদের একটি দল এই প্রশ্নের উত্তর চেয়েছিল। তারা 150,000 ভিডিও ক্লিপগুলির একটি সিন্থেটিক ডেটাসেট তৈরি করেছে যা মানুষের বিভিন্ন ক্রিয়াকলাপের প্রতিনিধিত্ব করে এবং প্রশিক্ষিত মেশিন-লার্নিং এই ডেটাসেট ব্যবহার করে মডেল। তারপরে তারা সেই রেকর্ডিংগুলিতে ক্রিয়াগুলি কতটা ভালভাবে নিতে পারে তা পরীক্ষা করার জন্য এই মডেলগুলিতে প্রকৃত বিশ্ব থেকে নেওয়া চলচ্চিত্রের ছয়টি ডেটাসেট প্রদর্শন করে।

বিজ্ঞানীরা দেখেছেন যে কৃত্রিমভাবে প্রশিক্ষিত মডেলগুলি কম পটভূমি বস্তু আছে এমন ভিডিওগুলির জন্য বাস্তব ডেটাতে প্রশিক্ষিত মডেলগুলির তুলনায় আরও ভাল পারফর্ম করেছে৷

এই আবিষ্কারটি বিজ্ঞানীদের দ্বারা কৃত্রিম ডেটাসেটগুলি ব্যবহার করে মডেলগুলিকে প্রকৃত কাজগুলিতে আরও সঠিকভাবে সম্পাদন করতে সহায়তা করতে পারে৷ প্রকৃত ডেটাসেট ব্যবহার করার সাথে সম্পর্কিত কিছু নৈতিক, গোপনীয়তা এবং কপিরাইট উদ্বেগ কমাতে, এটি সিন্থেটিক ডেটা সহ প্রশিক্ষণের জন্য কোন মেশিন-লার্নিং অ্যাপ্লিকেশনগুলি সবচেয়ে উপযুক্ত তা নির্ধারণ করতে গবেষকদের সহায়তা করতে পারে।

এমআইটি-আইবিএম ওয়াটসন এআই ল্যাবের প্রধান বিজ্ঞানী ও ম্যানেজার রোজেরিও ফেরিস বলেছেন, “আমাদের গবেষণার চূড়ান্ত লক্ষ্য হল বাস্তব ডেটা প্রাক-প্রশিক্ষণকে সিন্থেটিক ডেটা প্রাক-প্রশিক্ষণ দিয়ে প্রতিস্থাপন করা। সিন্থেটিক ডেটাতে একটি অ্যাকশন তৈরি করার জন্য একটি খরচ আছে, কিন্তু একবার এটি হয়ে গেলে, আপনি পোজ, আলো ইত্যাদি পরিবর্তন করে সীমাহীন ছবি বা ভিডিও তৈরি করতে পারেন। এটাই সিন্থেটিক ডেটার সৌন্দর্য।"

বিজ্ঞানীরা একটি নতুন সিন্থেটিক অ্যাকশন প্রি-ট্রেনিং অ্যান্ড ট্রান্সফার (SynAPT) সংকলন করে শুরু করেছেন, যা মানুষের ক্রিয়া ক্যাপচার করা সিন্থেটিক ভিডিও ক্লিপের তিনটি সর্বজনীনভাবে উপলব্ধ ডেটাসেট ব্যবহার করে। এটিতে প্রায় 150টি অ্যাকশন বিভাগ রয়েছে, প্রতি বিভাগে 1,000টি ভিডিও ক্লিপ রয়েছে।

তিনটি মেশিন লার্নিং মডেল তৈরি করার পরে ডেটাসেট ব্যবহার করে ক্রিয়াগুলি সনাক্ত করার জন্য পূর্ব-প্রশিক্ষিত ছিল। প্রাক-প্রশিক্ষণ হল একটি মডেলকে একটি কাজ শেখানোর আগে অন্য কাজ শেখানোর প্রক্রিয়া। একটি নতুন ডেটাসেট দ্রুত এবং আরও দক্ষতার সাথে একটি নতুন কাজ শিখতে সাহায্য করার জন্য পূর্ব-প্রশিক্ষিত মডেলটি ইতিমধ্যেই শিখে নেওয়া পরামিতিগুলি ব্যবহার করতে পারে। লোকেরা কীভাবে শিখেছে তার ভিত্তিতে এটি তৈরি করা হয়েছে, যা আমরা যখন নতুন কিছু জানি তখন অতীতের তথ্য পুনরায় ব্যবহার করা। প্রাক-প্রশিক্ষিত মডেলটি বাস্তব ভিডিও ক্লিপগুলির ছয়টি ডেটাসেট ব্যবহার করে পরীক্ষা করা হয়েছে, প্রতিটি ক্যাপচারিং ক্লাস যা প্রশিক্ষণের ডেটা থেকে আলাদা ছিল।

এটি বিজ্ঞানীদের জন্য আশ্চর্যজনক ছিল যে তিনটি সিন্থেটিক মডেল ছয়টি ডেটাসেটের মধ্যে চারটিতে প্রকৃত ভিডিও ক্লিপ দিয়ে প্রশিক্ষিত মডেলগুলিকে ছাড়িয়ে গেছে। "নিম্ন দৃশ্য-বস্তুর পক্ষপাত" সহ ভিডিও ক্লিপ থাকা ডেটাসেটের জন্য তাদের নির্ভুলতা সর্বোচ্চ ছিল। এর অর্থ হল মডেলটি দৃশ্যের পটভূমি বা অন্যান্য বস্তুর দিকে তাকিয়ে অ্যাকশনটিকে চিনতে পারে না - এটি অবশ্যই অ্যাকশনের উপর ফোকাস করতে হবে।

ফেরিস বললেন, "নিম্ন দৃশ্য-বস্তুর পক্ষপাত সহ ভিডিওগুলিতে, ক্রিয়াগুলির সাময়িক গতিশীলতা বস্তুর চেহারা বা পটভূমির চেয়ে বেশি গুরুত্বপূর্ণ এবং এটি সিন্থেটিক ডেটা দিয়ে ভালভাবে ক্যাপচার করা বলে মনে হয়।"

"উচ্চ দৃশ্য-বস্তুর পক্ষপাত একটি বাধা হিসাবে কাজ করতে পারে। মডেলটি ক্রিয়াটির পরিবর্তে একটি বস্তুর দিকে তাকিয়ে একটি ক্রিয়াকে ভুল শ্রেণিবদ্ধ করতে পারে। এটি মডেলকে বিভ্রান্ত করতে পারে।"

সহ-লেখক রামেশ্বর পান্ডা, এমআইটি-আইবিএম ওয়াটসন এআই ল্যাবের একজন গবেষণা কর্মী সদস্য, বলেছেন, "এই ফলাফলগুলি তৈরি করে, গবেষকরা ভবিষ্যতের কাজে আরও অ্যাকশন ক্লাস এবং অতিরিক্ত সিন্থেটিক ভিডিও প্ল্যাটফর্ম অন্তর্ভুক্ত করতে চান, অবশেষে সিন্থেটিক ডেটা ব্যবহার করে প্রশিক্ষিত মডেলগুলির একটি ক্যাটালগ তৈরি করতে চান।"

"আমরা এমন মডেলগুলি তৈরি করতে চাই যা সাহিত্যে বিদ্যমান মডেলগুলির তুলনায় খুব অনুরূপ বা এমনকি আরও ভাল পারফরম্যান্স রয়েছে, তবে এই পক্ষপাতিত্ব বা সুরক্ষা উদ্বেগের মধ্যে আবদ্ধ না হয়ে।"

সুইয়ং জিন, একজন সহ-লেখক এবং CSAIL পোস্টডক, বলেছেন, "তারা গবেষণার সাথে তাদের কাজকে একত্রিত করতে চায় যা আরও নির্ভুল এবং বাস্তবসম্মত সিন্থেটিক ভিডিও তৈরি করতে চায়, যা মডেলগুলির কর্মক্ষমতা বাড়াতে পারে।"

“আমরা গোপনীয়তা সমস্যা বা প্রাসঙ্গিক বা সামাজিক পক্ষপাত রোধ করতে সিন্থেটিক ডেটাসেট ব্যবহার করি, কিন্তু মডেলটি কী শিখবে? এটা কি এমন কিছু শেখে যা নিরপেক্ষ?

সহ-লেখক সমর্থ মিশ্র, বোস্টন বিশ্ববিদ্যালয়ের (বিইউ) স্নাতক ছাত্র। বলেছেন, “ভালভাবে টীকাযুক্ত সিন্থেটিক ডেটা পাওয়ার জন্য কম খরচ হওয়া সত্ত্বেও, বর্তমানে, বাস্তব ভিডিওগুলির সাথে সবচেয়ে বড় টীকাযুক্ত ডেটাসেটগুলির প্রতিদ্বন্দ্বিতা করার জন্য আমাদের কাছে স্কেল সহ একটি ডেটাসেট নেই৷ বাস্তব ভিডিওগুলির সাথে বিভিন্ন খরচ এবং উদ্বেগ নিয়ে আলোচনা করে এবং সিন্থেটিক ডেটার কার্যকারিতা দেখানোর মাধ্যমে, আমরা এই দিকে প্রচেষ্টাকে অনুপ্রাণিত করার আশা করি।"

জার্নাল রেফারেন্স: