मोना लिसा अब बात कर सकती है, ईएमओ को धन्यवाद

मोना लिसा अब बात कर सकती है, ईएमओ को धन्यवाद

अलीबाबा ग्रुप के इंस्टीट्यूट फॉर इंटेलिजेंट कंप्यूटिंग के शोधकर्ताओं ने एक एआई टूल विकसित किया है जिसे ईएमओ: इमोट पोर्ट्रेट अलाइव के नाम से जाना जाता है, जो पोर्ट्रेट को जीवंत बनाता है।

यह टूल उपयोगकर्ताओं को स्थिर छवि में ऑडियो और वीडियो जोड़ने में सक्षम बनाता है। टूल का उपयोग करके, कोई व्यक्ति प्रसिद्ध लियोनार्डो दा विंची के ला जियोकोंडा, जिसे मोना लिसा के नाम से जाना जाता है, जैसे पुराने चित्र के साथ खेल सकता है, जिससे वह हेड पोज़, गति, चेहरे के भाव और सटीक लिप सिंक के साथ बात कर सकती है और गा सकती है।

अभिव्यंजक ऑडियो-संचालित पोर्ट्रेट-वीडियो निर्माण उपकरण

अपनी रिपोर्ट में, "ईएमओ: इमोट पोर्ट्रेट अलाइव: कमजोर परिस्थितियों में ऑडियो2वीडियो डिफ्यूजन मॉडल के साथ अभिव्यंजक पोर्ट्रेट वीडियो बनाना,"  शोधकर्त्ता अपने नए टूल, उसके कार्यों और सर्वोत्तम परिणामों के लिए इसका उपयोग करने के तरीके के बारे में जानकारी दें।

अभिव्यंजक ऑडियो-संचालित पोर्ट्रेट-मेकिंग एआई टूल के साथ, उपयोगकर्ता चेहरे के भावों के साथ मुखर अवतार वीडियो बना सकते हैं। शोधकर्ताओं के अनुसार, टूल उन्हें "इनपुट ऑडियो की लंबाई के आधार पर" किसी भी अवधि के वीडियो बनाने की अनुमति देता है।

शोधकर्ताओं ने कहा, "एक एकल चरित्र छवि और गायन जैसे एक मुखर ऑडियो को इनपुट करें, और हमारी विधि अभिव्यंजक चेहरे के भाव और विभिन्न सिर मुद्राओं के साथ मुखर अवतार वीडियो उत्पन्न कर सकती है।"

“हमारी पद्धति विभिन्न भाषाओं में गीतों का समर्थन करती है और विविध चित्र शैलियों को जीवंत बनाती है। यह सहज रूप से ऑडियो में टोनल विविधताओं को पहचानता है, जिससे गतिशील, अभिव्यक्ति-समृद्ध अवतारों की पीढ़ी सक्षम होती है।

यह भी पढ़ें: ओपनएआई का दावा है कि न्यूयॉर्क टाइम्स ने कॉपीराइट केस विकसित करने के लिए चैटजीपीटी को "हैक" कर लिया है

एक चित्र से बात करना, गाना

शोधकर्ताओं के अनुसार, एआई-संचालित टूल न केवल संगीत को संसाधित करता है बल्कि विभिन्न भाषाओं में बोले गए ऑडियो को भी समायोजित करता है।

शोधकर्ताओं ने कहा, "इसके अतिरिक्त, हमारी पद्धति में बीते युगों के चित्रों, चित्रों और 3डी मॉडल और एआई-जनित सामग्री दोनों को जीवंत करने की क्षमता है, जो उन्हें जीवंत गति और यथार्थवाद से भर देती है।"

लेकिन यह वहां खत्म नहीं होता है। उपयोगकर्ता विभिन्न शैलियों और भाषाओं में मोनोलॉग या प्रदर्शन करते हुए फिल्म सितारों के चित्रों और छवियों के साथ भी खेल सकते हैं।

एक्स प्लेटफॉर्म को अपनाने वाले कुछ एआई उत्साही लोगों ने इसे "दिमाग को झकझोर देने वाला" बताया।

वास्तविक और एआई के बीच पतली होती सीमा

ईएमओ टूल की खबर अलीबाबा अन्य उपयोगकर्ताओं को यह सोचने पर मजबूर कर दिया है कि एआई और वास्तविकता के बीच की सीमा गायब होने वाली है क्योंकि तकनीकी कंपनियां लगातार नए उत्पाद पेश कर रही हैं।

"एआई और रियल के बीच का अंतर पहले से कहीं ज्यादा पतला है," रूबेन को पोस्ट किया एक्स पर, जबकि अन्य सोचते हैं टिक टॉक शीघ्र ही रचनाओं से भर जाएगा।

“यह पहली बार है जब मैंने इतना सटीक और यथार्थवादी परिणाम देखा है। वीडियो ए.आई यह वर्ष विश्वसनीय होने का वादा करता है, ”ने कहा पॉल गुप्त.

जबकि अन्य लोग सोचते हैं कि यह क्रिएटिव के लिए गेम चेंजर हो सकता है, मिन चोई भी इसे लेकर सतर्क हैं।

“उम्मीद है कि सिर्फ रचनात्मक चीजों के लिए। यह गलत हाथों में खतरनाक हो सकता है।”

मोना लिसा अब बात कर सकती है, ईएमओ को धन्यवाद

उपकरण का उपयोग करना

प्रक्रिया को समझाते हुए, शोधकर्ताओं ने इस बात पर प्रकाश डाला कि ईएमओ फ्रेमवर्क के दो चरण हैं, पहले को फ्रेम्स एन्कोडिंग के रूप में जाना जाता है, जहां रेफरेंसनेट को संदर्भ छवियों और गति फ़्रेमों से सुविधाओं को निकालने के लिए तैनात किया जाता है।

अगला चरण प्रसार प्रक्रिया चरण है, जहां एक पूर्व-प्रशिक्षित ऑडियो एनकोडर "ऑडियो एम्बेडिंग को संसाधित करता है।" चेहरे की सही छवि बनाने के लिए, उपयोगकर्ता चेहरे के क्षेत्र के मास्क और मल्टी-फ़्रेम शोर को एकीकृत करते हैं।

स्पष्टीकरण का एक भाग पढ़ता है, "ये तंत्र क्रमशः चरित्र की पहचान को संरक्षित करने और चरित्र की गतिविधियों को संशोधित करने के लिए आवश्यक हैं।"

"इसके अतिरिक्त, टेम्पोरल मॉड्यूल का उपयोग टेम्पोरल आयाम में हेरफेर करने और वेग गति को समायोजित करने के लिए किया जाता है।"

समय टिकट:

से अधिक मेटान्यूज