माइक्रोसॉफ्ट का नया एआई सिर्फ 3 सेकंड में आपकी आवाज का क्लोन बना सकता है

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

माइक्रोसॉफ्ट का नया एआई सिर्फ 3 सेकंड में आपकी आवाज को क्लोन कर सकता है प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

से सब कुछ उत्पन्न करने के लिए एआई का उपयोग किया जा रहा है छवियों सेवा मेरे टेक्स्ट सेवा मेरे कृत्रिम प्रोटीन, और अब सूची में एक और चीज़ जोड़ी गई है: भाषण। पिछले सप्ताह के शोधकर्ताओं से माइक्रोसॉफ्ट ने एक पेपर जारी किया VALL-E नामक एक नए AI पर जो केवल तीन सेकंड लंबे नमूने के आधार पर किसी की भी आवाज को सटीक रूप से अनुकरण कर सकता है। VALL-E बनाया जाने वाला पहला स्पीच सिम्युलेटर नहीं है, लेकिन यह अपने पूर्ववर्तियों की तुलना में एक अलग तरीके से बनाया गया है- और संभावित दुरुपयोग के लिए अधिक जोखिम उठा सकता है।

अधिकांश मौजूदा टेक्स्ट-टू-स्पीच मॉडल नकली आवाजें बनाने के लिए वेवफॉर्म (ध्वनि तरंगों का चित्रमय प्रतिनिधित्व) का उपयोग नकली आवाज बनाने के लिए करते हैं, किसी दिए गए आवाज को अनुमानित करने के लिए टोन या पिच जैसी विशेषताओं को ट्विक करते हैं। VALL-E, हालांकि, किसी की आवाज का एक नमूना लेता है और इसे टोकन नामक घटकों में तोड़ देता है, फिर उन टोकन का उपयोग "नियमों" के आधार पर नई ध्वनि बनाने के लिए करता है जो इस आवाज के बारे में पहले ही सीख चुके हैं। यदि कोई आवाज विशेष रूप से गहरी है, या एक वक्ता अपने ए को नाक-वाई तरीके से उच्चारण करता है, या वे औसत से अधिक मोनोटोन हैं, तो ये सभी लक्षण एआई उठाएंगे और दोहराने में सक्षम होंगे।

मॉडल नामक तकनीक पर आधारित है मेटा द्वारा एनकोडेक, जो अभी इस भाग अक्टूबर में जारी किया गया था। यह टूल गुणवत्ता में बिना किसी नुकसान के MP10s की तुलना में ऑडियो को 3 गुना छोटा करने के लिए तीन-भाग प्रणाली का उपयोग करता है; इसके रचनाकारों का उद्देश्य कम बैंडविड्थ कनेक्शन पर किए गए कॉल पर आवाज और संगीत की गुणवत्ता में सुधार करना था।

VALL-E को प्रशिक्षित करने के लिए, इसके निर्माताओं ने एक ऑडियो लाइब्रेरी का उपयोग किया जिसे कहा जाता है लिब्रीलाइट, जिसका 60,000 घंटे का अंग्रेजी भाषण मुख्य रूप से ऑडियोबुक कथन से बना है। मॉडल अपने सर्वोत्तम परिणाम देता है जब आवाज को संश्लेषित किया जा रहा है, प्रशिक्षण पुस्तकालय से आवाजों में से एक के समान है (जिनमें से 7,000 से अधिक हैं, इसलिए यह एक आदेश से बहुत लंबा नहीं होना चाहिए)।

किसी की आवाज को फिर से बनाने के अलावा, VALL-E तीन सेकंड के नमूने से ऑडियो वातावरण का अनुकरण भी करता है। फोन पर रिकॉर्ड की गई एक क्लिप व्यक्तिगत रूप से बनाई गई क्लिप से अलग होगी, और यदि आप बात करते समय चल रहे हैं या गाड़ी चला रहे हैं, तो उन परिदृश्यों की अद्वितीय ध्वनिकी को ध्यान में रखा जाता है।

के कुछ नमूने ध्वनि काफी यथार्थवादी लगती है, जबकि अन्य अभी भी बहुत स्पष्ट रूप से कंप्यूटर जनित हैं। लेकिन आवाजों के बीच ध्यान देने योग्य अंतर हैं; आप बता सकते हैं कि वे उन लोगों पर आधारित हैं जिनकी बोलने की शैली, पिच और स्वर के पैटर्न अलग-अलग हैं।

VALL-E को बनाने वाली टीम जानती है कि बुरे कलाकार इसका आसानी से उपयोग कर सकते हैं; नेताओं या मशहूर हस्तियों के नकली साउंड बाइट से लेकर फोन पर पैसे या जानकारी मांगने के लिए जानी-पहचानी आवाजों का इस्तेमाल करने तक, तकनीक का लाभ उठाने के अनगिनत तरीके हैं। उन्होंने बुद्धिमानी से VALL-E के कोड को सार्वजनिक रूप से उपलब्ध कराने से परहेज किया है, और अपने पेपर के अंत में एक नैतिक वक्तव्य शामिल किया है (जो किसी को भी गलत उद्देश्यों के लिए एआई का उपयोग करने से रोकने के लिए बहुत कुछ नहीं करेगा)।

यह संभवत: कुछ ही समय पहले की बात है जब इसी तरह के उपकरण सामने आते हैं और गलत हाथों में पड़ जाते हैं। शोधकर्ताओं का सुझाव है कि VALL-E जैसे मॉडल जो जोखिम पेश करेंगे, उन्हें पता लगाने वाले मॉडल बनाकर कम किया जा सकता है कि ऑडियो क्लिप वास्तविक हैं या संश्लेषित हैं। अगर हमें एआई से बचाने के लिए एआई की जरूरत है, तो कैसे पता चलेगा कि इन तकनीकों का शुद्ध सकारात्मक प्रभाव पड़ रहा है? समय ही बताएगा।

छवि क्रेडिट: Shutterstock.com/तनचा

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
स्रोत: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

समय टिकट: जनवरी ७,२०२१

समय टिकट: फ़रवरी 17, 2024

माइक्रोसॉफ्ट का नया एआई सिर्फ 3 सेकंड में आपकी आवाज का क्लोन बना सकता है

प्लेटो द्वारा पुनर्प्रकाशित

से अधिक विलक्षणता हब

दूर की आकाशगंगाओं में हीलियम को मापने से भौतिकविदों को यह जानकारी मिल सकती है कि ब्रह्मांड का अस्तित्व क्यों है

जीवन के बिल्डिंग ब्लॉक्स प्राइमर्डियल सी स्प्रे में बन सकते हैं

आईईए की रिपोर्ट में कहा गया है कि यूक्रेन संघर्ष के कारण विश्व अक्षय ऊर्जा पर चल रहा है

सीआरआईएसपीआर जीन एडिटिंग के लिए यह एक निर्णायक वर्ष रहा—और यह केवल आरंभ हो रहा है

जानवरों की भावनाओं का अध्ययन कैसे संवेदनशील एआई की नैतिक पहेली को सुलझाने में मदद कर सकता है

वेमो की चालक रहित कारें एरिज़ोना में राजमार्ग सुरक्षा रहित ड्राइवरों को प्रभावित कर रही हैं

यह एआई जटिल प्रोटीनों को पूरी तरह से हमारी आवश्यकताओं के अनुरूप डिजाइन कर सकता है

यह गेट्स-समर्थित स्टार्टअप ऊर्जा-कुशल पैनलों से मॉड्यूलर घरों का निर्माण करता है

NVIDIA का छोटा नया AI मात्र सेकंड में पूर्ण 3D दृश्यों में फ़ोटो को रूपांतरित करता है

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा