मेटा संगीत, ध्वनियाँ बनाने के लिए जेनरेटिव एआई जारी करता है

मेटा संगीत, ध्वनियाँ बनाने के लिए जेनरेटिव एआई जारी करता है

मेटा ने संगीत बनाने के लिए जेनरेटिव एआई जारी किया, प्लेटोब्लॉकचेन डेटा इंटेलिजेंस लगता है। लंबवत खोज. ऐ.

मेटा ने बुधवार को ऑडियोक्राफ्ट जारी किया, जो तीन एआई मॉडल का एक सेट है जो पाठ विवरण से स्वचालित रूप से ध्वनि बनाने में सक्षम है।

जैसे-जैसे जेनेरिक एआई मॉडल लिखित संकेत लेते हैं और उन्हें छवियों या अधिक टेक्स्ट में बदलते हैं, परिपक्व होते जा रहे हैं, कंप्यूटर वैज्ञानिक मशीन लर्निंग का उपयोग करके मीडिया के अन्य रूप बनाने पर विचार कर रहे हैं।

एआई सिस्टम, विशेष रूप से संगीत के लिए ऑडियो कठिन है, क्योंकि सॉफ़्टवेयर को कई मिनटों में सुसंगत पैटर्न बनाना सीखना होता है और सुनने के लिए कुछ आकर्षक या सुखद उत्पन्न करने के लिए पर्याप्त रचनात्मक होना पड़ता है।

टीम मेटा ने बताया, "44.1 किलोहर्ट्ज़ (जो संगीत रिकॉर्डिंग की मानक गुणवत्ता है) पर नमूना किए गए कुछ मिनटों का एक विशिष्ट संगीत ट्रैक में लाखों टाइमस्टेप होते हैं।" कहने का तात्पर्य यह है कि, एक ऑडियो-जनरेटिंग मॉडल को मानव-अनुकूल ट्रैक बनाने के लिए बहुत सारे डेटा का आउटपुट देना पड़ता है।

"तुलना में, लामा और लामा 2 जैसे टेक्स्ट-आधारित जेनरेटर मॉडल को उप-शब्दों के रूप में संसाधित पाठ के साथ खिलाया जाता है जो प्रति नमूना केवल कुछ हज़ार टाइमस्टेप का प्रतिनिधित्व करता है।"

फेसबुक की दिग्गज कंपनी की कल्पना है कि ऑडियोक्राफ्ट का उपयोग करने वाले लोग किसी भी उपकरण को बजाना सीखे बिना कंप्यूटर-जनित ध्वनि बनाने का प्रयोग करेंगे। टूलकिट तीन मॉडलों से बना है: MusicGen, AudioGen, और EnCodec। 

MusicGen को मेटा के स्वामित्व या लाइसेंस प्राप्त 20,000 घंटों की रिकॉर्डिंग के साथ-साथ उनके संबंधित पाठ विवरण पर प्रशिक्षित किया गया था। AudioGen संगीत के बजाय ध्वनि प्रभाव उत्पन्न करने पर अधिक केंद्रित है, और इसे सार्वजनिक डेटा पर प्रशिक्षित किया गया था। अंत में, एनकोडेक को एक हानिपूर्ण तंत्रिका कोडेक के रूप में वर्णित किया गया है जो उच्च निष्ठा के साथ ऑडियो सिग्नल को संपीड़ित और डीकंप्रेस कर सकता है।

मेटा ने कहा कि यह "ओपन सोर्सिंग" ऑडियोक्राफ्ट था, और यह एक हद तक है। मॉडल बनाने और प्रशिक्षित करने और अनुमान चलाने के लिए आवश्यक सॉफ़्टवेयर ओपन-सोर्स एमआईटी लाइसेंस के तहत उपलब्ध है। कोड का उपयोग मुफ़्त (जैसे आज़ादी और मुफ़्त बियर में) और व्यावसायिक अनुप्रयोगों के साथ-साथ अनुसंधान परियोजनाओं में भी किया जा सकता है।

जैसा कि कहा गया है, मॉडल भार खुला स्रोत नहीं हैं। इन्हें क्रिएटिव कॉमन्स लाइसेंस के तहत साझा किया जाता है जो विशेष रूप से व्यावसायिक उपयोग को प्रतिबंधित करता है। जैसा कि हमने साथ देखा लामा 2, जब भी मेटा ओपन सोर्सिंग सामग्री के बारे में बात करता है, तो जाँच करें ठीक प्रिंट.

MusicGen और AudioGen एक इनपुट टेक्स्ट प्रॉम्प्ट दिए जाने पर ध्वनियाँ उत्पन्न करते हैं। आप मेटा के ऑडियोक्राफ्ट पर "हवा के झोंके के साथ सीटी बजाना" और "आकर्षक धुनों, उष्णकटिबंधीय ताल और उत्साहित लय के साथ पॉप डांस ट्रैक, समुद्र तट के लिए बिल्कुल उपयुक्त" विवरणों से बनाई गई छोटी क्लिप सुन सकते हैं। लैंडिंग पृष्ठ, यहाँ

लघु ध्वनि प्रभाव यथार्थवादी हैं, हालांकि हमारी राय में संगीत जैसे प्रभाव अच्छे नहीं हैं। वे हिट सिंगल्स के बजाय ख़राब संगीत या एलेवेटर गानों के लिए दोहराए जाने वाले और सामान्य जिंगल्स की तरह लगते हैं। 

मेटा के शोधकर्ताओं ने कहा AudioGen - वर्णित यहाँ गहराई में - कच्चे ऑडियो को टोकन के अनुक्रम में परिवर्तित करके और इन्हें उच्च निष्ठा पर ऑडियो में परिवर्तित करके इनपुट का पुनर्निर्माण करके प्रशिक्षित किया गया था। एक भाषा मॉडल शब्दों और ध्वनियों के बीच संबंध जानने के लिए इनपुट टेक्स्ट प्रॉम्प्ट के स्निपेट्स को ऑडियो टोकन पर मैप करता है। संगीत जनरल ध्वनि प्रभावों के बजाय संगीत के नमूनों पर एक समान प्रक्रिया का उपयोग करके प्रशिक्षित किया गया था। 

"काम को एक अभेद्य ब्लैक बॉक्स के रूप में रखने के बजाय, हम इन मॉडलों को कैसे विकसित करते हैं इसके बारे में खुला होना और यह सुनिश्चित करना कि वे लोगों के लिए उपयोग करना आसान हो - चाहे वह शोधकर्ता हों या समग्र रूप से संगीत समुदाय - लोगों को यह समझने में मदद करता है कि ये मॉडल क्या कर सकते हैं करें, समझें कि वे क्या नहीं कर सकते हैं, और वास्तव में उनका उपयोग करने के लिए सशक्त बनें,'टीम मेटा ने तर्क दिया।

“भविष्य में, जेनेरिक एआई लोगों को प्रारंभिक प्रोटोटाइप और ग्रेबॉक्सिंग चरणों के दौरान तेजी से प्रतिक्रिया प्राप्त करने की अनुमति देकर पुनरावृत्ति समय में काफी सुधार करने में मदद कर सकता है - चाहे वे मेटावर्स के लिए दुनिया बनाने वाले एक बड़े डेवलपर हों, एक संगीतकार (शौकिया, पेशेवर, या) अन्यथा) अपनी अगली रचना पर काम कर रहे हैं, या एक छोटे या मध्यम आकार के व्यवसाय के मालिक अपनी रचनात्मक संपत्ति को उन्नत करना चाह रहे हैं।"

आप ऑडियोक्राफ्ट कोड प्राप्त कर सकते हैं यहाँ उत्पन्न करें, और MusicGen के साथ प्रयोग करें यहाँ उत्पन्न करें और इसे आज़माएं. ®

समय टिकट:

से अधिक रजिस्टर