मेटा ने संगीत, ध्वनि बनाने के लिए जेनरेटिव एआई जारी किया

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

मेटा ने संगीत बनाने के लिए जेनरेटिव एआई जारी किया, प्लेटोब्लॉकचेन डेटा इंटेलिजेंस लगता है। लंबवत खोज. ऐ.

मेटा ने बुधवार को ऑडियोक्राफ्ट जारी किया, जो तीन एआई मॉडल का एक सेट है जो पाठ विवरण से स्वचालित रूप से ध्वनि बनाने में सक्षम है।

जैसे-जैसे जेनेरिक एआई मॉडल लिखित संकेत लेते हैं और उन्हें छवियों या अधिक टेक्स्ट में बदलते हैं, परिपक्व होते जा रहे हैं, कंप्यूटर वैज्ञानिक मशीन लर्निंग का उपयोग करके मीडिया के अन्य रूप बनाने पर विचार कर रहे हैं।

एआई सिस्टम, विशेष रूप से संगीत के लिए ऑडियो कठिन है, क्योंकि सॉफ़्टवेयर को कई मिनटों में सुसंगत पैटर्न बनाना सीखना होता है और सुनने के लिए कुछ आकर्षक या सुखद उत्पन्न करने के लिए पर्याप्त रचनात्मक होना पड़ता है।

टीम मेटा ने बताया, "44.1 किलोहर्ट्ज़ (जो संगीत रिकॉर्डिंग की मानक गुणवत्ता है) पर नमूना किए गए कुछ मिनटों का एक विशिष्ट संगीत ट्रैक में लाखों टाइमस्टेप होते हैं।" कहने का तात्पर्य यह है कि, एक ऑडियो-जनरेटिंग मॉडल को मानव-अनुकूल ट्रैक बनाने के लिए बहुत सारे डेटा का आउटपुट देना पड़ता है।

"तुलना में, लामा और लामा 2 जैसे टेक्स्ट-आधारित जेनरेटर मॉडल को उप-शब्दों के रूप में संसाधित पाठ के साथ खिलाया जाता है जो प्रति नमूना केवल कुछ हज़ार टाइमस्टेप का प्रतिनिधित्व करता है।"

फेसबुक की दिग्गज कंपनी की कल्पना है कि ऑडियोक्राफ्ट का उपयोग करने वाले लोग किसी भी उपकरण को बजाना सीखे बिना कंप्यूटर-जनित ध्वनि बनाने का प्रयोग करेंगे। टूलकिट तीन मॉडलों से बना है: MusicGen, AudioGen, और EnCodec।

MusicGen को मेटा के स्वामित्व या लाइसेंस प्राप्त 20,000 घंटों की रिकॉर्डिंग के साथ-साथ उनके संबंधित पाठ विवरण पर प्रशिक्षित किया गया था। AudioGen संगीत के बजाय ध्वनि प्रभाव उत्पन्न करने पर अधिक केंद्रित है, और इसे सार्वजनिक डेटा पर प्रशिक्षित किया गया था। अंत में, एनकोडेक को एक हानिपूर्ण तंत्रिका कोडेक के रूप में वर्णित किया गया है जो उच्च निष्ठा के साथ ऑडियो सिग्नल को संपीड़ित और डीकंप्रेस कर सकता है।

मेटा ने कहा कि यह "ओपन सोर्सिंग" ऑडियोक्राफ्ट था, और यह एक हद तक है। मॉडल बनाने और प्रशिक्षित करने और अनुमान चलाने के लिए आवश्यक सॉफ़्टवेयर ओपन-सोर्स एमआईटी लाइसेंस के तहत उपलब्ध है। कोड का उपयोग मुफ़्त (जैसे आज़ादी और मुफ़्त बियर में) और व्यावसायिक अनुप्रयोगों के साथ-साथ अनुसंधान परियोजनाओं में भी किया जा सकता है।

जैसा कि कहा गया है, मॉडल भार खुला स्रोत नहीं हैं। इन्हें क्रिएटिव कॉमन्स लाइसेंस के तहत साझा किया जाता है जो विशेष रूप से व्यावसायिक उपयोग को प्रतिबंधित करता है। जैसा कि हमने साथ देखा लामा 2, जब भी मेटा ओपन सोर्सिंग सामग्री के बारे में बात करता है, तो जाँच करें ठीक प्रिंट.

MusicGen और AudioGen एक इनपुट टेक्स्ट प्रॉम्प्ट दिए जाने पर ध्वनियाँ उत्पन्न करते हैं। आप मेटा के ऑडियोक्राफ्ट पर "हवा के झोंके के साथ सीटी बजाना" और "आकर्षक धुनों, उष्णकटिबंधीय ताल और उत्साहित लय के साथ पॉप डांस ट्रैक, समुद्र तट के लिए बिल्कुल उपयुक्त" विवरणों से बनाई गई छोटी क्लिप सुन सकते हैं। लैंडिंग पृष्ठ, यहाँ.

लघु ध्वनि प्रभाव यथार्थवादी हैं, हालांकि हमारी राय में संगीत जैसे प्रभाव अच्छे नहीं हैं। वे हिट सिंगल्स के बजाय ख़राब संगीत या एलेवेटर गानों के लिए दोहराए जाने वाले और सामान्य जिंगल्स की तरह लगते हैं।

मेटा के शोधकर्ताओं ने कहा AudioGen - वर्णित यहाँ गहराई में - कच्चे ऑडियो को टोकन के अनुक्रम में परिवर्तित करके और इन्हें उच्च निष्ठा पर ऑडियो में परिवर्तित करके इनपुट का पुनर्निर्माण करके प्रशिक्षित किया गया था। एक भाषा मॉडल शब्दों और ध्वनियों के बीच संबंध जानने के लिए इनपुट टेक्स्ट प्रॉम्प्ट के स्निपेट्स को ऑडियो टोकन पर मैप करता है। संगीत जनरल ध्वनि प्रभावों के बजाय संगीत के नमूनों पर एक समान प्रक्रिया का उपयोग करके प्रशिक्षित किया गया था।

"काम को एक अभेद्य ब्लैक बॉक्स के रूप में रखने के बजाय, हम इन मॉडलों को कैसे विकसित करते हैं इसके बारे में खुला होना और यह सुनिश्चित करना कि वे लोगों के लिए उपयोग करना आसान हो - चाहे वह शोधकर्ता हों या समग्र रूप से संगीत समुदाय - लोगों को यह समझने में मदद करता है कि ये मॉडल क्या कर सकते हैं करें, समझें कि वे क्या नहीं कर सकते हैं, और वास्तव में उनका उपयोग करने के लिए सशक्त बनें,'टीम मेटा ने तर्क दिया।

“भविष्य में, जेनेरिक एआई लोगों को प्रारंभिक प्रोटोटाइप और ग्रेबॉक्सिंग चरणों के दौरान तेजी से प्रतिक्रिया प्राप्त करने की अनुमति देकर पुनरावृत्ति समय में काफी सुधार करने में मदद कर सकता है - चाहे वे मेटावर्स के लिए दुनिया बनाने वाले एक बड़े डेवलपर हों, एक संगीतकार (शौकिया, पेशेवर, या) अन्यथा) अपनी अगली रचना पर काम कर रहे हैं, या एक छोटे या मध्यम आकार के व्यवसाय के मालिक अपनी रचनात्मक संपत्ति को उन्नत करना चाह रहे हैं।"

आप ऑडियोक्राफ्ट कोड प्राप्त कर सकते हैं यहाँ उत्पन्न करें, और MusicGen के साथ प्रयोग करें यहाँ उत्पन्न करें और इसे आज़माएं. ®

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
प्लेटोईएसजी. ऑटोमोटिव/ईवीएस, कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
BlockOffsets. पर्यावरणीय ऑफसेट स्वामित्व का आधुनिकीकरण। यहां पहुंचें।
स्रोत: https://go.theregister.com/feed/www.theregister.com/2023/08/02/meta_audiocraft_release/

समय टिकट: अगस्त 2, 2023

समय टिकट: अक्टूबर 19, 2022

मेटा संगीत, ध्वनियाँ बनाने के लिए जेनरेटिव एआई जारी करता है

प्लेटो द्वारा पुनर्प्रकाशित

से अधिक रजिस्टर

डेल और एनवीडिया DIY जनरेटिव एआई मॉडल का सपना देखते हैं

डीपमाइंड रोबोट सॉकर खिलाड़ियों को खराब स्कोर करने के लिए प्रशिक्षित करता है

क्लाउड इंफ्रास्ट्रक्चर के लिए Google के AI अपडेट पर विवरण

भारत 10,000-जीपीयू सॉवरेन एआई सुपरकंप्यूटर की योजना बना रहा है

अगली वास्तविकता के लिए होशियार प्रौद्योगिकी को समझना चाहते हैं? यहाँ से प्रारंभ करें…

टिकाऊ एआई/एमएल में सीपीयू की भूमिका

दुनिया संकट में है, तो AI कैसे मदद कर सकता है?

नासा एआई समुद्र में शिपिंग ईंधन कटौती वायु प्रदूषण में सल्फर को कम करता है

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा