میٹا موسیقی، آوازیں بنانے کے لیے جنریٹو AI جاری کرتا ہے۔

میٹا موسیقی، آوازیں بنانے کے لیے جنریٹو AI جاری کرتا ہے۔

Meta releases generative AI for making music, sounds PlatoBlockchain Data Intelligence. Vertical Search. Ai.

میٹا نے بدھ کے روز آڈیو کرافٹ کو جاری کیا، جو کہ تین AI ماڈلز کا ایک سیٹ ہے جو متن کی تفصیل سے خود بخود آواز پیدا کرنے کے قابل ہے۔

جیسا کہ تخلیقی AI ماڈل جو تحریری اشارے لیتے ہیں اور انہیں تصاویر میں تبدیل کرتے ہیں یا مزید متن پختہ ہوتے رہتے ہیں، کمپیوٹر سائنس دان مشین لرننگ کا استعمال کرتے ہوئے میڈیا کی دوسری شکلیں بنانے پر غور کر رہے ہیں۔

AI سسٹمز، خاص طور پر موسیقی کے لیے آڈیو مشکل ہے، کیونکہ سافٹ ویئر کو کئی منٹوں میں مربوط پیٹرن بنانا سیکھنا پڑتا ہے اور سننے میں دلکش یا خوشگوار چیز پیدا کرنے کے لیے کافی تخلیقی ہونا پڑتا ہے۔

ٹیم میٹا نے وضاحت کرتے ہوئے کہا، "44.1 kHz (جو کہ موسیقی کی ریکارڈنگ کا معیاری معیار ہے) پر نمونے کے چند منٹوں کا ایک عام میوزک ٹریک لاکھوں ٹائم سٹیپس پر مشتمل ہوتا ہے۔" کہنے کا مطلب یہ ہے کہ آڈیو پیدا کرنے والے ماڈل کو انسان دوست ٹریک بنانے کے لیے بہت زیادہ ڈیٹا نکالنا پڑتا ہے۔

"اس کے مقابلے میں، لاما اور للاما 2 جیسے ٹیکسٹ پر مبنی جنریٹو ماڈلز کو ذیلی الفاظ کے طور پر پروسیس شدہ ٹیکسٹ فراہم کیا جاتا ہے جو فی نمونہ صرف چند ہزار ٹائم سٹیپس کی نمائندگی کرتے ہیں۔"

فیس بک دیو لوگوں کو آڈیو کرافٹ استعمال کرنے کا تصور کرتا ہے کہ وہ کمپیوٹر سے تیار کردہ آوازیں بنانے کا تجربہ کریں بغیر کوئی آلہ بجانا سیکھے۔ ٹول کٹ تین ماڈلز پر مشتمل ہے: MusicGen، AudioGen، اور EnCodec۔ 

MusicGen کو 20,000 گھنٹے کی ریکارڈنگز پر تربیت دی گئی، جو Meta کی ملکیت یا لائسنس یافتہ، ان کے متعلقہ متن کی تفصیل کے ساتھ۔ AudioGen موسیقی کے بجائے صوتی اثرات پیدا کرنے پر زیادہ توجہ مرکوز کرتا ہے، اور اسے عوامی ڈیٹا پر تربیت دی گئی تھی۔ آخر میں، EnCodec کو ایک نقصان دہ عصبی کوڈیک کے طور پر بیان کیا گیا ہے جو اعلی مخلصی کے ساتھ آڈیو سگنلز کو کمپریس اور ڈیکمپریس کر سکتا ہے۔

میٹا نے کہا کہ یہ "اوپن سورسنگ" آڈیو کرافٹ تھا، اور یہ ایک حد تک ہے۔ ماڈلز بنانے اور تربیت دینے کے لیے درکار سافٹ ویئر، اور اندازہ چلانے کے لیے، اوپن سورس MIT لائسنس کے تحت دستیاب ہے۔ کوڈ مفت (جیسا کہ آزادی اور مفت بیئر میں) اور تجارتی ایپلی کیشنز کے ساتھ ساتھ تحقیقی منصوبوں میں استعمال کیا جا سکتا ہے۔

اس نے کہا، ماڈل وزن اوپن سورس نہیں ہیں۔ ان کا اشتراک ایک Creative Commons لائسنس کے تحت کیا جاتا ہے جو خاص طور پر تجارتی استعمال سے منع کرتا ہے۔ جیسا کہ ہم نے دیکھا شعلہ 2، جب بھی میٹا اوپن سورسنگ چیزوں کے بارے میں بات کرتا ہے، چیک کریں۔ ٹھیک پرنٹ.

MusicGen اور AudioGen ان پٹ ٹیکسٹ پرامپٹ پر آوازیں پیدا کرتے ہیں۔ آپ Meta's AudioCraft پر "ہوا کے ساتھ سیٹی بجاتے ہوئے" اور "دلکش دھنوں کے ساتھ پاپ ڈانس ٹریک، اشنکٹبندیی ٹککر، اور حوصلہ افزا تالیں، جو ساحل کے لیے موزوں ہیں" سے بنائے گئے مختصر کلپس سن سکتے ہیں۔ لینڈنگ پیج، یہاں

مختصر صوتی اثرات حقیقت پسندانہ ہیں، حالانکہ موسیقی کی طرح ہماری رائے میں بہترین نہیں ہیں۔ وہ ہٹ سنگلز کے بجائے بری ہولڈ میوزک یا لفٹ گانوں کے لئے دہرائے جانے والے اور عام جِنگلز کی طرح لگتے ہیں۔ 

میٹا کے محققین نے کہا کہ AudioGen - بیان کیا گیا ہے۔ یہاں کی گہرائی میں - خام آڈیو کو ٹوکنز کی ترتیب میں تبدیل کرکے، اور اعلیٰ مخلصانہ انداز میں ان پٹ کو دوبارہ آڈیو میں تبدیل کرکے تربیت دی گئی۔ ایک زبان کا ماڈل ان پٹ ٹیکسٹ پرامپٹ کے ٹکڑوں کو آڈیو ٹوکنز پر نقش کرتا ہے تاکہ الفاظ اور آوازوں کے درمیان تعلق کو سیکھ سکے۔ میوزک جین صوتی اثرات کے بجائے موسیقی کے نمونوں پر اسی طرح کے عمل کا استعمال کرتے ہوئے تربیت دی گئی تھی۔ 

"کام کو ناقابل تسخیر بلیک باکس کے طور پر رکھنے کے بجائے، اس بارے میں کھلا رہنا کہ ہم ان ماڈلز کو کیسے تیار کرتے ہیں اور اس بات کو یقینی بناتے ہیں کہ لوگوں کے لیے ان کا استعمال کرنا آسان ہے - چاہے یہ محققین ہوں یا مجموعی طور پر میوزک کمیونٹی - لوگوں کو یہ سمجھنے میں مدد ملتی ہے کہ یہ ماڈل کیا کر سکتے ہیں۔ کریں، سمجھیں کہ وہ کیا نہیں کر سکتے، اور انہیں حقیقت میں استعمال کرنے کے لیے بااختیار بنایا جائے،" ٹیم میٹا نے دلیل دی۔

"مستقبل میں، جنریٹو AI لوگوں کو ابتدائی پروٹو ٹائپنگ اور گرے باکسنگ کے مراحل کے دوران تیزی سے فیڈ بیک حاصل کرنے کی اجازت دے کر تکرار کے وقت کو بہتر بنانے میں مدد کر سکتا ہے - چاہے وہ میٹاورس کے لیے دنیا بنانے والے بڑے ڈویلپر ہوں، موسیقار (شوقیہ، پیشہ ور، یا بصورت دیگر) اپنی اگلی ترکیب پر کام کر رہے ہیں، یا ایک چھوٹے یا درمیانے درجے کے کاروباری مالک جو اپنے تخلیقی اثاثوں کو بلند کرنے کے خواہاں ہیں۔"

آپ آڈیو کرافٹ کوڈ حاصل کر سکتے ہیں۔ یہاں، اور MusicGen کے ساتھ تجربہ کریں۔ یہاں اور اسے آزمائیں۔ ®

ٹائم اسٹیمپ:

سے زیادہ رجسٹر