एआई और कुछ शब्दों के साथ मेक-ए-वीडियो: मेटा का नया टूल प्लेटोब्लॉकचैन डेटा इंटेलिजेंस देखें। लंबवत खोज। ऐ.

एआई और कुछ शब्दों के साथ मेक-ए-वीडियो: मेटा का नया टूल देखें

DALL-E 2 और स्टेबल डिफ्यूजन जैसे सार्वजनिक रूप से उपलब्ध AI छवि जनरेटर के साथ, मुट्ठी भर शब्दों के जवाब में एक छवि बनाने में कृत्रिम बुद्धिमत्ता बेहतर से बेहतर होती जा रही है। अब, मेटा शोधकर्ता एआई को एक कदम आगे ले जा रहे हैं: वे इसका उपयोग टेक्स्ट प्रॉम्प्ट से वीडियो बनाने के लिए कर रहे हैं।

मेटा के सीईओ मार्क जुकरबर्ग शोध के बारे में गुरुवार को फेसबुक पर पोस्ट किया गयाकहा जाता है, वीडियो बनाओ, 20-सेकंड की क्लिप के साथ जिसमें मेटा शोधकर्ताओं द्वारा उपयोग किए गए कई टेक्स्ट प्रॉम्प्ट और परिणामी (बहुत छोटे) वीडियो संकलित हैं। संकेतों में शामिल हैं "एक टेडी बियर जो स्वयं का चित्र बना रहा है," "एक अंतरिक्ष यान मंगल ग्रह पर उतर रहा है," "एक बुना हुआ टोपी वाला एक बच्चा लैपटॉप का पता लगाने की कोशिश कर रहा है," और "एक रोबोट समुद्र में एक लहर पर सर्फिंग कर रहा है।"

प्रत्येक प्रॉम्प्ट के वीडियो केवल कुछ सेकंड लंबे होते हैं, और वे आम तौर पर वही दिखाते हैं जो प्रॉम्प्ट सुझाता है (बेबी स्लॉथ के अपवाद के साथ, जो वास्तविक प्राणी की तरह नहीं दिखता है), काफी कम-रिज़ॉल्यूशन में और कुछ हद तक झटकेदार शैली। फिर भी, यह दर्शाता है कि एआई अनुसंधान एक नई दिशा ले रहा है क्योंकि सिस्टम शब्दों से छवियां बनाने में तेजी से अच्छा हो गया है। हालाँकि, यदि प्रौद्योगिकी अंततः व्यापक रूप से जारी की जाती है, तो यह टेक्स्ट-टू-इमेज सिस्टम द्वारा उत्पन्न कई समान चिंताओं को जन्म देगी, जैसे कि इसका उपयोग वीडियो के माध्यम से गलत सूचना फैलाने के लिए किया जा सकता है।

एक वेब पेज मेक-ए-वीडियो में ये छोटी क्लिप और अन्य शामिल हैं, जिनमें से कुछ काफी यथार्थवादी दिखते हैं, जैसे संकेत के जवाब में बनाया गया वीडियो "मूंगा चट्टान के माध्यम से तैरती हुई जोकर मछली" या कोई दिखाने के लिए है “एक युवा जोड़ा भारी बारिश में चल रहा है".

अपने फेसबुक पोस्ट में, जुकरबर्ग ने बताया कि मुट्ठी भर शब्दों से एक चलती-फिरती छवि बनाना कितना मुश्किल है।

उन्होंने लिखा, "फ़ोटो की तुलना में वीडियो बनाना अधिक कठिन है क्योंकि प्रत्येक पिक्सेल को सही ढंग से उत्पन्न करने के अलावा, सिस्टम को यह भी अनुमान लगाना होता है कि वे समय के साथ कैसे बदलेंगे।"

एक शोध पत्र कार्य का वर्णन करते हुए बताया गया है कि प्रोजेक्ट टेक्स्ट-टू-इमेज एआई मॉडल का उपयोग करता है ताकि यह पता लगाया जा सके कि शब्द चित्रों के साथ कैसे मेल खाते हैं, और एआई तकनीक के रूप में जाना जाता है अप्रकाशित शिक्षा - जिसमें एल्गोरिदम उस डेटा पर ध्यान केंद्रित करता है जिसे उसके भीतर के पैटर्न को समझने के लिए लेबल नहीं किया गया है - वीडियो को देखने और यह निर्धारित करने के लिए कि यथार्थवादी गति कैसी दिखती है।

बड़े पैमाने पर, लोकप्रिय एआई सिस्टम जो टेक्स्ट से छवियां उत्पन्न करते हैं, शोधकर्ताओं ने बताया कि उनके टेक्स्ट-टू-इमेज एआई मॉडल को इंटरनेट डेटा पर प्रशिक्षित किया गया था - जिसका अर्थ है कि इसने सीखा "और संभावित रूप से हानिकारक सहित अतिरंजित सामाजिक पूर्वाग्रहों को सीखा।" लिखा। उन्होंने नोट किया कि उन्होंने "NSFW सामग्री और विषाक्त शब्दों" के लिए डेटा फ़िल्टर किया है, लेकिन चूंकि डेटासेट में कई लाखों छवियां और पाठ शामिल हो सकते हैं, इसलिए ऐसी सभी सामग्री को हटाना संभव नहीं हो सकता है।

जुकरबर्ग ने लिखा कि मेटा भविष्य में मेक-ए-वीडियो प्रोजेक्ट को डेमो के रूप में साझा करने की योजना बना रहा है।

The-CNN-Wire™ और © 2022 केबल न्यूज़ नेटवर्क, इंक., वार्नर ब्रदर्स डिस्कवरी कंपनी। सर्वाधिकार सुरक्षित।

समय टिकट:

से अधिक डब्ल्यूआरएएल टेकवायर