से सब कुछ उत्पन्न करने के लिए एआई का उपयोग किया जा रहा है छवियों सेवा मेरे टेक्स्ट सेवा मेरे कृत्रिम प्रोटीन, और अब सूची में एक और चीज़ जोड़ी गई है: भाषण। पिछले सप्ताह के शोधकर्ताओं से माइक्रोसॉफ्ट ने एक पेपर जारी किया VALL-E नामक एक नए AI पर जो केवल तीन सेकंड लंबे नमूने के आधार पर किसी की भी आवाज को सटीक रूप से अनुकरण कर सकता है। VALL-E बनाया जाने वाला पहला स्पीच सिम्युलेटर नहीं है, लेकिन यह अपने पूर्ववर्तियों की तुलना में एक अलग तरीके से बनाया गया है- और संभावित दुरुपयोग के लिए अधिक जोखिम उठा सकता है।
अधिकांश मौजूदा टेक्स्ट-टू-स्पीच मॉडल नकली आवाजें बनाने के लिए वेवफॉर्म (ध्वनि तरंगों का चित्रमय प्रतिनिधित्व) का उपयोग नकली आवाज बनाने के लिए करते हैं, किसी दिए गए आवाज को अनुमानित करने के लिए टोन या पिच जैसी विशेषताओं को ट्विक करते हैं। VALL-E, हालांकि, किसी की आवाज का एक नमूना लेता है और इसे टोकन नामक घटकों में तोड़ देता है, फिर उन टोकन का उपयोग "नियमों" के आधार पर नई ध्वनि बनाने के लिए करता है जो इस आवाज के बारे में पहले ही सीख चुके हैं। यदि कोई आवाज विशेष रूप से गहरी है, या एक वक्ता अपने ए को नाक-वाई तरीके से उच्चारण करता है, या वे औसत से अधिक मोनोटोन हैं, तो ये सभी लक्षण एआई उठाएंगे और दोहराने में सक्षम होंगे।
मॉडल नामक तकनीक पर आधारित है मेटा द्वारा एनकोडेक, जो अभी इस भाग अक्टूबर में जारी किया गया था। यह टूल गुणवत्ता में बिना किसी नुकसान के MP10s की तुलना में ऑडियो को 3 गुना छोटा करने के लिए तीन-भाग प्रणाली का उपयोग करता है; इसके रचनाकारों का उद्देश्य कम बैंडविड्थ कनेक्शन पर किए गए कॉल पर आवाज और संगीत की गुणवत्ता में सुधार करना था।
VALL-E को प्रशिक्षित करने के लिए, इसके निर्माताओं ने एक ऑडियो लाइब्रेरी का उपयोग किया जिसे कहा जाता है लिब्रीलाइट, जिसका 60,000 घंटे का अंग्रेजी भाषण मुख्य रूप से ऑडियोबुक कथन से बना है। मॉडल अपने सर्वोत्तम परिणाम देता है जब आवाज को संश्लेषित किया जा रहा है, प्रशिक्षण पुस्तकालय से आवाजों में से एक के समान है (जिनमें से 7,000 से अधिक हैं, इसलिए यह एक आदेश से बहुत लंबा नहीं होना चाहिए)।
किसी की आवाज को फिर से बनाने के अलावा, VALL-E तीन सेकंड के नमूने से ऑडियो वातावरण का अनुकरण भी करता है। फोन पर रिकॉर्ड की गई एक क्लिप व्यक्तिगत रूप से बनाई गई क्लिप से अलग होगी, और यदि आप बात करते समय चल रहे हैं या गाड़ी चला रहे हैं, तो उन परिदृश्यों की अद्वितीय ध्वनिकी को ध्यान में रखा जाता है।
के कुछ नमूने ध्वनि काफी यथार्थवादी लगती है, जबकि अन्य अभी भी बहुत स्पष्ट रूप से कंप्यूटर जनित हैं। लेकिन आवाजों के बीच ध्यान देने योग्य अंतर हैं; आप बता सकते हैं कि वे उन लोगों पर आधारित हैं जिनकी बोलने की शैली, पिच और स्वर के पैटर्न अलग-अलग हैं।
VALL-E को बनाने वाली टीम जानती है कि बुरे कलाकार इसका आसानी से उपयोग कर सकते हैं; नेताओं या मशहूर हस्तियों के नकली साउंड बाइट से लेकर फोन पर पैसे या जानकारी मांगने के लिए जानी-पहचानी आवाजों का इस्तेमाल करने तक, तकनीक का लाभ उठाने के अनगिनत तरीके हैं। उन्होंने बुद्धिमानी से VALL-E के कोड को सार्वजनिक रूप से उपलब्ध कराने से परहेज किया है, और अपने पेपर के अंत में एक नैतिक वक्तव्य शामिल किया है (जो किसी को भी गलत उद्देश्यों के लिए एआई का उपयोग करने से रोकने के लिए बहुत कुछ नहीं करेगा)।
यह संभवत: कुछ ही समय पहले की बात है जब इसी तरह के उपकरण सामने आते हैं और गलत हाथों में पड़ जाते हैं। शोधकर्ताओं का सुझाव है कि VALL-E जैसे मॉडल जो जोखिम पेश करेंगे, उन्हें पता लगाने वाले मॉडल बनाकर कम किया जा सकता है कि ऑडियो क्लिप वास्तविक हैं या संश्लेषित हैं। अगर हमें एआई से बचाने के लिए एआई की जरूरत है, तो कैसे पता चलेगा कि इन तकनीकों का शुद्ध सकारात्मक प्रभाव पड़ रहा है? समय ही बताएगा।
छवि क्रेडिट: Shutterstock.com/तनचा
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- स्रोत: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- योग्य
- About
- लेखा
- सही रूप में
- जोड़ा
- लाभ
- AI
- सब
- पहले ही
- और
- अन्य
- किसी
- ऑडियो
- उपलब्ध
- औसत
- बुरा
- आधारित
- से पहले
- जा रहा है
- BEST
- के बीच
- टूट जाता है
- इमारत
- बनाया गया
- बुलाया
- कॉल
- ले जाना
- हस्तियों
- विशेषताएँ
- क्लिप
- कोड
- घटकों
- कंप्यूटर जनित
- कनेक्शन
- सका
- बनाना
- बनाया
- रचनाकारों
- श्रेय
- गहरा
- खोज
- मतभेद
- विभिन्न
- नीचे
- ड्राइविंग
- आसानी
- अंग्रेज़ी
- वातावरण
- आचार
- सब कुछ
- मौजूदा
- फेसबुक
- काफी
- उल्लू बनाना
- गिरना
- परिचित
- प्रथम
- से
- उत्पन्न
- GitHub
- दी
- अधिक से अधिक
- हाथ
- होने
- घंटे
- कैसे
- HTTPS
- प्रभाव
- में सुधार लाने
- in
- शामिल
- करें-
- IT
- जानना
- पिछली बार
- सीखा
- पुस्तकालय
- संभावित
- सूची
- लंबा
- बंद
- बनाया गया
- निर्माण
- बात
- मध्यम
- आदर्श
- मॉडल
- धन
- अधिक
- चाल
- संगीत
- आवश्यकता
- जाल
- नया
- अक्टूबर
- ONE
- आदेश
- अन्य
- काग़ज़
- भाग
- विशेष रूप से
- पैटर्न उपयोग करें
- स्टाफ़
- व्यक्ति
- फ़ोन
- चुनना
- पिच
- पिचों
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- राजनेता
- सकारात्मक
- संभावित
- वर्तमान
- मुख्यत
- रक्षा करना
- सार्वजनिक रूप से
- प्रयोजनों
- गुणवत्ता
- वास्तविक
- यथार्थवादी
- दर्ज
- रिहा
- का अनुरोध
- शोधकर्ताओं
- परिणाम
- जोखिम
- जोखिम
- परिदृश्यों
- सेकंड
- Shutterstock
- समान
- सिम्युलेटर
- छोटे
- So
- ध्वनि
- वक्ता
- बोल रहा हूँ
- भाषण
- वसंत
- कथन
- फिर भी
- प्रणाली
- लेना
- लेता है
- में बात कर
- टीम
- टेक्नोलॉजीज
- टेक्नोलॉजी
- पाठ से भाषण
- RSI
- लेकिन हाल ही
- बात
- तीन
- यहाँ
- पहर
- बार
- सेवा मेरे
- टोकन
- स्वर
- भी
- साधन
- उपकरण
- रेलगाड़ी
- प्रशिक्षण
- tweaking
- अद्वितीय
- us
- उपयोग
- आवाज़
- आवाज
- घूमना
- लहर की
- तरीके
- सप्ताह
- या
- कौन कौन से
- जब
- कौन
- मर्जी
- होगा
- गलत
- गलत हाथ
- पैदावार
- आप
- आपका
- जेफिरनेट