এআই এবং কয়েকটি শব্দ দিয়ে মেক-এ-ভিডিও: মেটার নতুন টুল প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্স দেখুন। উল্লম্ব অনুসন্ধান. আ.

এআই এবং কয়েকটি শব্দ দিয়ে মেক-এ-ভিডিও: মেটার নতুন টুল দেখুন

কৃত্রিম বুদ্ধিমত্তা DALL-E 2 এবং স্টেবল ডিফিউশনের মতো সর্বজনীনভাবে উপলব্ধ AI ইমেজ জেনারেটরগুলির সাথে মুষ্টিমেয় শব্দের প্রতিক্রিয়ায় একটি চিত্র তৈরি করার ক্ষেত্রে আরও উন্নততর হচ্ছে। এখন, মেটা গবেষকরা এআইকে আরও এক ধাপ এগিয়ে নিচ্ছেন: তারা এটিকে একটি পাঠ্য প্রম্পট থেকে ভিডিও তৈরি করতে ব্যবহার করছেন।

মেটা সিইও মার্ক জুকারবার্গ গবেষণার বিষয়ে বৃহস্পতিবার ফেসবুকে পোস্ট করা হয়বলা হয় মেক-এ-ভিডিও, একটি 20-সেকেন্ডের ক্লিপ সহ যা মেটা গবেষকরা ব্যবহার করা বিভিন্ন টেক্সট প্রম্পট এবং এর ফলে (খুব ছোট) ভিডিওগুলি সংকলন করেছে৷ প্রম্পটগুলির মধ্যে রয়েছে "একটি টেডি বিয়ার একটি স্ব-প্রতিকৃতি আঁকা," "মঙ্গলে একটি স্পেসশিপ অবতরণ," "একটি বোনা টুপি সহ একটি শিশুর স্লথ একটি ল্যাপটপ বের করার চেষ্টা করছে," এবং "একটি রোবট সমুদ্রে একটি ঢেউ সার্ফিং করছে।"

প্রতিটি প্রম্পটের ভিডিওগুলি মাত্র কয়েক সেকেন্ডের হয়, এবং তারা সাধারণত দেখায় যে প্রম্পটটি কী পরামর্শ দেয় (বেবি স্লথ বাদে, যা দেখতে অনেকটা আসল প্রাণীর মতো নয়), মোটামুটি কম-রেজোলিউশনে এবং কিছুটা ঝাঁকুনিতে শৈলী তবুও, এটি একটি নতুন দিক প্রদর্শন করে যে এআই গবেষণা গ্রহণ করছে কারণ সিস্টেমগুলি শব্দ থেকে চিত্র তৈরিতে ক্রমবর্ধমান ভাল হয়ে উঠছে। প্রযুক্তিটি শেষ পর্যন্ত ব্যাপকভাবে প্রকাশ করা হলে, যদিও, এটি টেক্সট-টু-ইমেজ সিস্টেমের দ্বারা উদ্ভূত একই উদ্বেগের অনেকগুলি উত্থাপন করবে, যেমন এটি ভিডিওর মাধ্যমে ভুল তথ্য ছড়াতে ব্যবহার করা যেতে পারে।

একটি ওয়েব পেজ মেক-এ-ভিডিও-র জন্য এই ছোট ক্লিপগুলি এবং অন্যান্যগুলি অন্তর্ভুক্ত করে, যার মধ্যে কিছু মোটামুটি বাস্তবসম্মত দেখায়, যেমন প্রম্পটের প্রতিক্রিয়ায় তৈরি করা একটি ভিডিও "ক্লাউন ফিশ প্রবাল প্রাচীরের মধ্য দিয়ে সাঁতার কাটছে" অথবা একটি দেখানোর জন্য বোঝানো হয়েছে “এক তরুণ দম্পতি প্রবল বৃষ্টিতে হাঁটছে. "

তার ফেসবুক পোস্টে, জুকারবার্গ নির্দেশ করেছেন যে মুষ্টিমেয় শব্দ থেকে একটি চলমান চিত্র তৈরি করা কতটা কঠিন।

"ফটোর চেয়ে ভিডিও তৈরি করা অনেক কঠিন কারণ প্রতিটি পিক্সেল সঠিকভাবে তৈরি করার বাইরে, সিস্টেমটিকেও ভবিষ্যদ্বাণী করতে হবে যে তারা সময়ের সাথে কীভাবে পরিবর্তিত হবে," তিনি লিখেছেন।

একটি গবেষণা পত্র কাজটি বর্ণনা করে ব্যাখ্যা করে যে প্রকল্পটি একটি টেক্সট-টু-ইমেজ এআই মডেল ব্যবহার করে চিত্রের সাথে শব্দগুলি কীভাবে মিলিত হয় তা বের করতে এবং একটি এআই কৌশল যা নামে পরিচিত অকার্যকর শেখা — যেটিতে অ্যালগরিদমগুলি এমন ডেটার উপর ছিদ্র করে যা এর মধ্যে প্যাটার্নগুলি বোঝার জন্য লেবেলযুক্ত নয় — ভিডিওগুলি দেখতে এবং বাস্তবসম্মত গতি কেমন দেখাচ্ছে তা নির্ধারণ করতে৷

বিশাল, জনপ্রিয় এআই সিস্টেমের মতো যা পাঠ্য থেকে ছবি তৈরি করে, গবেষকরা উল্লেখ করেছেন যে তাদের টেক্সট-টু-ইমেজ এআই মডেলটি ইন্টারনেট ডেটাতে প্রশিক্ষিত ছিল - যার অর্থ এটি "এবং সম্ভবত ক্ষতিকারক সহ সামাজিক পক্ষপাতগুলিকে অতিরঞ্জিত করেছে," গবেষণাগুলি শিখেছে। লিখেছেন. তারা লক্ষ্য করেছে যে তারা "NSFW বিষয়বস্তু এবং বিষাক্ত শব্দ" এর জন্য ডেটা ফিল্টার করেছে, কিন্তু ডেটাসেটগুলিতে লক্ষ লক্ষ ছবি এবং পাঠ্য অন্তর্ভুক্ত থাকতে পারে, এই ধরনের সমস্ত বিষয়বস্তু সরানো সম্ভব নাও হতে পারে।

জাকারবার্গ লিখেছেন যে মেটা ভবিষ্যতে ডেমো হিসাবে মেক-এ-ভিডিও প্রকল্পটি ভাগ করার পরিকল্পনা করছে।

The-CNN-Wire™ & © 2022 Cable News Network, Inc., একটি Warner Bros. Discovery Company. সমস্ত অধিকার সংরক্ষিত.

সময় স্ট্যাম্প:

থেকে আরো WRAL Techwire