متا هوش مصنوعی مولد را برای ساخت موسیقی و صدا منتشر می کند

متا هوش مصنوعی مولد را برای ساخت موسیقی و صدا منتشر می کند

متا هوش مصنوعی مولد را برای ساخت موسیقی منتشر می کند، به نظر هوش داده PlatoBlockchain. جستجوی عمودی Ai.

متا روز چهارشنبه AudioCraft را منتشر کرد، مجموعه ای از سه مدل هوش مصنوعی که قادر به ایجاد خودکار صدا از توضیحات متن است.

از آنجایی که مدل‌های مولد هوش مصنوعی که دستورات نوشتاری را دریافت می‌کنند و آن‌ها را به تصویر یا متن بیشتری تبدیل می‌کنند، همچنان به رشد خود ادامه می‌دهند، دانشمندان رایانه به دنبال ساخت اشکال دیگری از رسانه با استفاده از یادگیری ماشین هستند.

صدا برای سیستم‌های هوش مصنوعی، به‌ویژه موسیقی، دشوار است، زیرا نرم‌افزار باید یاد بگیرد که الگوهای منسجمی را در چند دقیقه تولید کند و به اندازه کافی خلاق باشد تا چیزی جذاب یا دلپذیر برای شنیدن تولید کند.

تیم متا توضیح داد: «یک قطعه موسیقی معمولی چند دقیقه‌ای که با فرکانس 44.1 کیلوهرتز (که کیفیت استاندارد ضبط‌های موسیقی است) نمونه‌برداری شده است، از میلیون‌ها گام تشکیل شده است. به این معنا که یک مدل تولید کننده صدا باید داده های زیادی را برای ساخت یک آهنگ دوستدار انسان تولید کند.

در مقایسه، مدل‌های تولیدی مبتنی بر متن مانند Llama و Llama 2 با متن پردازش شده به عنوان کلمات فرعی تغذیه می‌شوند که تنها چند هزار گام در هر نمونه را نشان می‌دهند.

غول فیس بوک افرادی را تصور می کند که از AudioCraft برای آزمایش صداهای تولید شده توسط رایانه بدون نیاز به یادگیری نواختن هیچ ساز استفاده می کنند. این جعبه ابزار از سه مدل MusicGen، AudioGen و EnCodec تشکیل شده است. 

MusicGen بر روی 20,000 ساعت ضبط، تحت مالکیت یا مجوز متا، همراه با توضیحات متنی مربوطه آموزش دیده است. AudioGen بیشتر بر روی تولید جلوه های صوتی متمرکز است تا موسیقی، و بر روی داده های عمومی آموزش دیده است. در نهایت، EnCodec به عنوان یک کدک عصبی با اتلاف توصیف می‌شود که می‌تواند سیگنال‌های صوتی را با دقت بالا فشرده و از حالت فشرده خارج کند.

متا گفت که AudioCraft "منبع باز" است و تا حدی است. نرم افزار مورد نیاز برای ایجاد و آموزش مدل ها، و اجرای استنتاج، تحت مجوز منبع باز MIT در دسترس است. این کد را می توان در برنامه های کاربردی رایگان (مانند آزادی و آبجو رایگان) و تجاری و همچنین پروژه های تحقیقاتی استفاده کرد.

گفته می شود، وزن های مدل منبع باز نیستند. آنها تحت مجوز Creative Commons به اشتراک گذاشته می شوند که به طور خاص استفاده تجاری را ممنوع می کند. همانطور که دیدیم با لاما 2، هر زمان که متا در مورد چیزهای منبع باز صحبت می کند، بررسی کنید چاپ ریز.

MusicGen و AudioGen صداهایی را تولید می‌کنند که یک اعلان متن ورودی ایجاد می‌کنند. می‌توانید کلیپ‌های کوتاه ایجاد شده از توضیحات «سوت زدن همراه با وزش باد» و «آهنگ رقص پاپ با ملودی‌های جذاب، سازهای کوبه‌ای استوایی، و ریتم‌های شاد، مناسب برای ساحل» را در AudioCraft بشنوید. صفحه فرود، اینجا

جلوه های صوتی کوتاه واقع گرایانه هستند، اگرچه از نظر ما آنهایی که شبیه به موسیقی هستند عالی نیستند. آن‌ها به‌جای تک‌آهنگ‌های پرطرفدار، شبیه صدای جینگ‌های تکراری و عمومی برای موسیقی‌های هولد بد یا آهنگ‌های آسانسور هستند. 

محققان در Meta گفتند AudioGen – شرح داده شد در عمق اینجا – با تبدیل صدای خام به دنباله ای از نشانه ها، و بازسازی ورودی با تبدیل مجدد آن به صدا با وفاداری بالا آموزش داده شد. یک مدل زبان، تکه‌هایی از متن ورودی را به نشانه‌های صوتی نگاشت تا ارتباط بین کلمات و صداها را بیاموزد. MusicGen با استفاده از یک فرآیند مشابه بر روی نمونه های موسیقی به جای جلوه های صوتی آموزش داده شد. 

به جای اینکه کار را به عنوان یک جعبه سیاه نفوذ ناپذیر نگه دارید، باز بودن در مورد چگونگی توسعه این مدل‌ها و اطمینان از اینکه استفاده از آن‌ها برای افراد آسان است – چه محققین و چه جامعه موسیقی در کل – به مردم کمک می‌کند بفهمند این مدل‌ها چه چیزی می‌توانند داشته باشند. انجام دهند، بفهمند که آنها چه کاری را نمی توانند انجام دهند، و برای استفاده واقعی از آنها قدرت پیدا کنند.» تیم متا استدلال کرد.

در آینده، هوش مصنوعی مولد می‌تواند به افراد کمک کند تا زمان تکرار را به میزان قابل توجهی بهبود بخشند و به آن‌ها اجازه می‌دهد در مراحل اولیه نمونه‌سازی و grayboxing بازخورد سریع‌تر دریافت کنند – چه توسعه‌دهنده بزرگی که دنیاها را برای متاورس می‌سازد، چه یک موسیقی‌دان (آماتور، حرفه‌ای یا در غیر این صورت) روی ترکیب بعدی خود کار می کنند، یا یک صاحب کسب و کار کوچک یا متوسط ​​که به دنبال ارتقای سطح دارایی های خلاق خود است.

می توانید کد AudioCraft را دریافت کنید اینجا کلیک نماییدو با MusicGen آزمایش کنید اینجا کلیک نمایید و آن را امتحان کنید ®

تمبر زمان:

بیشتر از ثبت نام