মেটা সঙ্গীত, শব্দ তৈরির জন্য জেনারেটিভ এআই প্রকাশ করে

মেটা সঙ্গীত, শব্দ তৈরির জন্য জেনারেটিভ এআই প্রকাশ করে

মেটা মিউজিক তৈরির জন্য জেনারেটিভ এআই প্রকাশ করে, প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্স শোনায়। উল্লম্ব অনুসন্ধান. আ.

মেটা বুধবার অডিওক্রাফ্ট প্রকাশ করেছে, তিনটি এআই মডেলের একটি সেট যা পাঠ্য বিবরণ থেকে স্বয়ংক্রিয়ভাবে শব্দ তৈরি করতে সক্ষম।

যেহেতু জেনারেটিভ এআই মডেল যা লিখিত প্রম্পট নেয় এবং সেগুলিকে চিত্রে পরিণত করে বা আরও পাঠ্য পরিপক্ক হতে থাকে, কম্পিউটার বিজ্ঞানীরা মেশিন লার্নিং ব্যবহার করে মিডিয়ার অন্যান্য রূপ তৈরির দিকে নজর দিচ্ছেন।

AI সিস্টেমের জন্য অডিও কঠিন, বিশেষ করে সঙ্গীত, যেহেতু সফ্টওয়্যারটিকে কয়েক মিনিটের মধ্যে সুসঙ্গত প্যাটার্ন তৈরি করতে শিখতে হবে এবং শুনতে হয় আকর্ষণীয় বা আনন্দদায়ক কিছু তৈরি করার জন্য যথেষ্ট সৃজনশীল হতে হবে।

"কয়েক মিনিটের একটি সাধারণ মিউজিক ট্র্যাক 44.1 kHz এ নমুনা (যা সঙ্গীত রেকর্ডিংয়ের মানক গুণ) লক্ষ লক্ষ টাইমস্টেপ নিয়ে গঠিত," টিম মেটা ব্যাখ্যা করেছে৷ অর্থাৎ, একটি অডিও-উৎপাদনকারী মডেলকে একটি মানব-বান্ধব ট্র্যাক তৈরি করতে প্রচুর ডেটা আউটপুট করতে হয়।

"তুলনামূলকভাবে, Llama এবং Llama 2-এর মতো পাঠ্য-ভিত্তিক জেনারেটিভ মডেলগুলিকে সাব-শব্দ হিসাবে প্রক্রিয়া করা পাঠ্য দিয়ে খাওয়ানো হয় যা প্রতি নমুনা মাত্র কয়েক হাজার টাইমস্টেপ উপস্থাপন করে।"

ফেসবুক জায়ান্ট অডিওক্রাফ্ট ব্যবহার করে লোকেদের কল্পনা করে যে তারা কোনো যন্ত্র বাজাতে শেখা ছাড়াই কম্পিউটার-জেনারেটেড শব্দ তৈরি করতে পরীক্ষা করবে। টুলকিট তিনটি মডেল নিয়ে গঠিত: মিউজিকজেন, অডিওজেন এবং এনকোডেক। 

মিউজিকজেনকে 20,000 ঘন্টার রেকর্ডিংয়ের উপর প্রশিক্ষণ দেওয়া হয়েছিল, মেটা দ্বারা মালিকানাধীন বা লাইসেন্সকৃত, তাদের সংশ্লিষ্ট পাঠ্য বিবরণের পাশাপাশি। অডিওজেন সঙ্গীতের পরিবর্তে সাউন্ড এফেক্ট তৈরির দিকে বেশি মনোযোগী এবং পাবলিক ডেটার উপর প্রশিক্ষিত ছিল। অবশেষে, এনকোডেককে একটি ক্ষতিকারক নিউরাল কোডেক হিসাবে বর্ণনা করা হয়েছে যা উচ্চ বিশ্বস্ততার সাথে অডিও সংকেত সংকুচিত এবং ডিকম্প্রেস করতে পারে।

মেটা বলেছিল যে এটি "ওপেন সোর্সিং" অডিওক্রাফ্ট, এবং এটি একটি ডিগ্রি। মডেল তৈরি এবং প্রশিক্ষণের জন্য প্রয়োজনীয় সফ্টওয়্যার, এবং অনুমান চালানো, একটি ওপেন-সোর্স MIT লাইসেন্সের অধীনে উপলব্ধ। কোডটি বিনামূল্যে (স্বাধীনতা এবং বিনামূল্যের বিয়ারের মতো) এবং বাণিজ্যিক অ্যাপ্লিকেশনের পাশাপাশি গবেষণা প্রকল্পগুলিতে ব্যবহার করা যেতে পারে।

বলেছে, মডেলের ওজন ওপেন সোর্স নয়। এগুলি একটি ক্রিয়েটিভ কমন্স লাইসেন্সের অধীনে ভাগ করা হয় যা বিশেষভাবে বাণিজ্যিক ব্যবহার নিষিদ্ধ করে৷ যেমনটি আমরা দেখেছি লামা 2, যখনই মেটা ওপেন সোর্সিং স্টাফ সম্পর্কে কথা বলে, চেক করুন সূক্ষ্ম মুদ্রণ.

MusicGen এবং AudioGen একটি ইনপুট টেক্সট প্রম্পট দেওয়া শব্দ তৈরি করে। আপনি Meta's AudioCraft-এ "বাতাসের সাথে শিস বাজানো" এবং "আকর্ষক সুর, গ্রীষ্মমন্ডলীয় পারকাশন, এবং উত্সাহী ছন্দ সহ পপ ডান্স ট্র্যাক, সমুদ্র সৈকতের জন্য উপযুক্ত" বর্ণনা থেকে তৈরি ছোট ক্লিপগুলি শুনতে পারেন অবতরণ পৃষ্ঠা, এখানে

সংক্ষিপ্ত সাউন্ড এফেক্টগুলো বাস্তবসম্মত, যদিও মিউজিকের মতো আমাদের মতে দারুণ নয়। তারা হিট একক গানের পরিবর্তে খারাপ হোল্ড মিউজিক বা লিফট গানের জন্য পুনরাবৃত্তিমূলক এবং জেনেরিক জিঙ্গেলের মতো শোনায়। 

মেটার গবেষকরা জানিয়েছেন, অডিওজেন-এর বর্ণনা এখানে গভীরভাবে - কাঁচা অডিওকে টোকেনের ক্রমানুসারে রূপান্তর করে এবং উচ্চ বিশ্বস্ততায় এগুলিকে অডিওতে রূপান্তর করে ইনপুট পুনর্গঠনের মাধ্যমে প্রশিক্ষণ দেওয়া হয়েছিল। একটি ভাষা মডেল শব্দ এবং শব্দের মধ্যে পারস্পরিক সম্পর্ক শিখতে অডিও টোকেনে ইনপুট টেক্সট প্রম্পটের স্নিপেট ম্যাপ করে। মিউজিকজেন সাউন্ড এফেক্টের পরিবর্তে মিউজিক নমুনাগুলিতে অনুরূপ প্রক্রিয়া ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল। 

"কাজটিকে একটি দুর্ভেদ্য ব্ল্যাক বক্স হিসাবে রাখার পরিবর্তে, আমরা কীভাবে এই মডেলগুলি বিকাশ করি এবং সেগুলি মানুষের পক্ষে ব্যবহার করা সহজ তা নিশ্চিত করা - তা গবেষকরা বা সামগ্রিকভাবে সঙ্গীত সম্প্রদায় - লোকেদের বুঝতে সাহায্য করে যে এই মডেলগুলি কী করতে পারে৷ করুন, তারা কী করতে পারে না তা বোঝেন এবং প্রকৃতপক্ষে সেগুলি ব্যবহার করার ক্ষমতা পান,” টিম মেটা যুক্তি দিয়েছিল।

"ভবিষ্যতে, জেনারেটিভ AI লোকেদের প্রাথমিক প্রোটোটাইপিং এবং গ্রেবক্সিং পর্যায়ে দ্রুত প্রতিক্রিয়া পাওয়ার অনুমতি দিয়ে পুনরাবৃত্তির সময়কে ব্যাপকভাবে উন্নত করতে সাহায্য করতে পারে - তারা মেটাভার্সের জন্য একটি বড় বিকাশকারী বিল্ডিং ওয়ার্ল্ডসই হোক না কেন, একজন সঙ্গীতশিল্পী (অপেশাদার, পেশাদার, বা অন্যথায়) তাদের পরবর্তী কম্পোজিশনে কাজ করা, অথবা একজন ছোট বা মাঝারি আকারের ব্যবসার মালিক তাদের সৃজনশীল সম্পদকে উচ্চ-স্তর করতে চাইছেন।"

আপনি AudioCraft কোড আনতে পারেন এখানে, এবং MusicGen এর সাথে পরীক্ষা করুন৷ এখানে এবং এটি চেষ্টা করে দেখুন ®

সময় স্ট্যাম্প:

থেকে আরো নিবন্ধনকর্মী