মেটা মিউজিক, সাউন্ড তৈরির জন্য জেনারেটিভ এআই প্রকাশ করে

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

মেটা মিউজিক তৈরির জন্য জেনারেটিভ এআই প্রকাশ করে, প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্স শোনায়। উল্লম্ব অনুসন্ধান. আ.

মেটা বুধবার অডিওক্রাফ্ট প্রকাশ করেছে, তিনটি এআই মডেলের একটি সেট যা পাঠ্য বিবরণ থেকে স্বয়ংক্রিয়ভাবে শব্দ তৈরি করতে সক্ষম।

যেহেতু জেনারেটিভ এআই মডেল যা লিখিত প্রম্পট নেয় এবং সেগুলিকে চিত্রে পরিণত করে বা আরও পাঠ্য পরিপক্ক হতে থাকে, কম্পিউটার বিজ্ঞানীরা মেশিন লার্নিং ব্যবহার করে মিডিয়ার অন্যান্য রূপ তৈরির দিকে নজর দিচ্ছেন।

AI সিস্টেমের জন্য অডিও কঠিন, বিশেষ করে সঙ্গীত, যেহেতু সফ্টওয়্যারটিকে কয়েক মিনিটের মধ্যে সুসঙ্গত প্যাটার্ন তৈরি করতে শিখতে হবে এবং শুনতে হয় আকর্ষণীয় বা আনন্দদায়ক কিছু তৈরি করার জন্য যথেষ্ট সৃজনশীল হতে হবে।

"কয়েক মিনিটের একটি সাধারণ মিউজিক ট্র্যাক 44.1 kHz এ নমুনা (যা সঙ্গীত রেকর্ডিংয়ের মানক গুণ) লক্ষ লক্ষ টাইমস্টেপ নিয়ে গঠিত," টিম মেটা ব্যাখ্যা করেছে৷ অর্থাৎ, একটি অডিও-উৎপাদনকারী মডেলকে একটি মানব-বান্ধব ট্র্যাক তৈরি করতে প্রচুর ডেটা আউটপুট করতে হয়।

"তুলনামূলকভাবে, Llama এবং Llama 2-এর মতো পাঠ্য-ভিত্তিক জেনারেটিভ মডেলগুলিকে সাব-শব্দ হিসাবে প্রক্রিয়া করা পাঠ্য দিয়ে খাওয়ানো হয় যা প্রতি নমুনা মাত্র কয়েক হাজার টাইমস্টেপ উপস্থাপন করে।"

ফেসবুক জায়ান্ট অডিওক্রাফ্ট ব্যবহার করে লোকেদের কল্পনা করে যে তারা কোনো যন্ত্র বাজাতে শেখা ছাড়াই কম্পিউটার-জেনারেটেড শব্দ তৈরি করতে পরীক্ষা করবে। টুলকিট তিনটি মডেল নিয়ে গঠিত: মিউজিকজেন, অডিওজেন এবং এনকোডেক।

মিউজিকজেনকে 20,000 ঘন্টার রেকর্ডিংয়ের উপর প্রশিক্ষণ দেওয়া হয়েছিল, মেটা দ্বারা মালিকানাধীন বা লাইসেন্সকৃত, তাদের সংশ্লিষ্ট পাঠ্য বিবরণের পাশাপাশি। অডিওজেন সঙ্গীতের পরিবর্তে সাউন্ড এফেক্ট তৈরির দিকে বেশি মনোযোগী এবং পাবলিক ডেটার উপর প্রশিক্ষিত ছিল। অবশেষে, এনকোডেককে একটি ক্ষতিকারক নিউরাল কোডেক হিসাবে বর্ণনা করা হয়েছে যা উচ্চ বিশ্বস্ততার সাথে অডিও সংকেত সংকুচিত এবং ডিকম্প্রেস করতে পারে।

মেটা বলেছিল যে এটি "ওপেন সোর্সিং" অডিওক্রাফ্ট, এবং এটি একটি ডিগ্রি। মডেল তৈরি এবং প্রশিক্ষণের জন্য প্রয়োজনীয় সফ্টওয়্যার, এবং অনুমান চালানো, একটি ওপেন-সোর্স MIT লাইসেন্সের অধীনে উপলব্ধ। কোডটি বিনামূল্যে (স্বাধীনতা এবং বিনামূল্যের বিয়ারের মতো) এবং বাণিজ্যিক অ্যাপ্লিকেশনের পাশাপাশি গবেষণা প্রকল্পগুলিতে ব্যবহার করা যেতে পারে।

বলেছে, মডেলের ওজন ওপেন সোর্স নয়। এগুলি একটি ক্রিয়েটিভ কমন্স লাইসেন্সের অধীনে ভাগ করা হয় যা বিশেষভাবে বাণিজ্যিক ব্যবহার নিষিদ্ধ করে৷ যেমনটি আমরা দেখেছি লামা 2, যখনই মেটা ওপেন সোর্সিং স্টাফ সম্পর্কে কথা বলে, চেক করুন সূক্ষ্ম মুদ্রণ.

MusicGen এবং AudioGen একটি ইনপুট টেক্সট প্রম্পট দেওয়া শব্দ তৈরি করে। আপনি Meta's AudioCraft-এ "বাতাসের সাথে শিস বাজানো" এবং "আকর্ষক সুর, গ্রীষ্মমন্ডলীয় পারকাশন, এবং উত্সাহী ছন্দ সহ পপ ডান্স ট্র্যাক, সমুদ্র সৈকতের জন্য উপযুক্ত" বর্ণনা থেকে তৈরি ছোট ক্লিপগুলি শুনতে পারেন অবতরণ পৃষ্ঠা, এখানে.

সংক্ষিপ্ত সাউন্ড এফেক্টগুলো বাস্তবসম্মত, যদিও মিউজিকের মতো আমাদের মতে দারুণ নয়। তারা হিট একক গানের পরিবর্তে খারাপ হোল্ড মিউজিক বা লিফট গানের জন্য পুনরাবৃত্তিমূলক এবং জেনেরিক জিঙ্গেলের মতো শোনায়।

মেটার গবেষকরা জানিয়েছেন, অডিওজেন-এর বর্ণনা এখানে গভীরভাবে - কাঁচা অডিওকে টোকেনের ক্রমানুসারে রূপান্তর করে এবং উচ্চ বিশ্বস্ততায় এগুলিকে অডিওতে রূপান্তর করে ইনপুট পুনর্গঠনের মাধ্যমে প্রশিক্ষণ দেওয়া হয়েছিল। একটি ভাষা মডেল শব্দ এবং শব্দের মধ্যে পারস্পরিক সম্পর্ক শিখতে অডিও টোকেনে ইনপুট টেক্সট প্রম্পটের স্নিপেট ম্যাপ করে। মিউজিকজেন সাউন্ড এফেক্টের পরিবর্তে মিউজিক নমুনাগুলিতে অনুরূপ প্রক্রিয়া ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল।

"কাজটিকে একটি দুর্ভেদ্য ব্ল্যাক বক্স হিসাবে রাখার পরিবর্তে, আমরা কীভাবে এই মডেলগুলি বিকাশ করি এবং সেগুলি মানুষের পক্ষে ব্যবহার করা সহজ তা নিশ্চিত করা - তা গবেষকরা বা সামগ্রিকভাবে সঙ্গীত সম্প্রদায় - লোকেদের বুঝতে সাহায্য করে যে এই মডেলগুলি কী করতে পারে৷ করুন, তারা কী করতে পারে না তা বোঝেন এবং প্রকৃতপক্ষে সেগুলি ব্যবহার করার ক্ষমতা পান,” টিম মেটা যুক্তি দিয়েছিল।

"ভবিষ্যতে, জেনারেটিভ AI লোকেদের প্রাথমিক প্রোটোটাইপিং এবং গ্রেবক্সিং পর্যায়ে দ্রুত প্রতিক্রিয়া পাওয়ার অনুমতি দিয়ে পুনরাবৃত্তির সময়কে ব্যাপকভাবে উন্নত করতে সাহায্য করতে পারে - তারা মেটাভার্সের জন্য একটি বড় বিকাশকারী বিল্ডিং ওয়ার্ল্ডসই হোক না কেন, একজন সঙ্গীতশিল্পী (অপেশাদার, পেশাদার, বা অন্যথায়) তাদের পরবর্তী কম্পোজিশনে কাজ করা, অথবা একজন ছোট বা মাঝারি আকারের ব্যবসার মালিক তাদের সৃজনশীল সম্পদকে উচ্চ-স্তর করতে চাইছেন।"

আপনি AudioCraft কোড আনতে পারেন এখানে, এবং MusicGen এর সাথে পরীক্ষা করুন৷ এখানে এবং এটি চেষ্টা করে দেখুন ®

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
PlatoData.Network উল্লম্ব জেনারেটিভ Ai. নিজেকে ক্ষমতায়িত করুন। এখানে প্রবেশ করুন.
প্লেটোএআইস্ট্রিম। Web3 ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
প্লেটোইএসজি। মোটরগাড়ি / ইভি, কার্বন, ক্লিনটেক, শক্তি, পরিবেশ সৌর, বর্জ্য ব্যবস্থাপনা. এখানে প্রবেশ করুন.
ব্লকঅফসেট। পরিবেশগত অফসেট মালিকানার আধুনিকীকরণ। এখানে প্রবেশ করুন.
উত্স: https://go.theregister.com/feed/www.theregister.com/2023/08/02/meta_audiocraft_release/

সময় স্ট্যাম্প: আগস্ট 2, 2023

সময় স্ট্যাম্প: জুন 23, 2023

মেটা সঙ্গীত, শব্দ তৈরির জন্য জেনারেটিভ এআই প্রকাশ করে

প্লেটো দ্বারা প্রকাশিত

থেকে আরো নিবন্ধনকর্মী

SETI: কিভাবে AI-বুস্টেড স্যাটেলাইট, রোবট অন্যান্য গ্রহে প্রাণের সন্ধানে সাহায্য করতে পারে

এলন মাস্কের xAI কি? আমরা এই কেটল পডকাস্টে আলোচনা করি

অ্যানথ্রোপিক ক্লাউড 2.1 চালু করেছে, তার সর্বশেষ এআই চ্যাটবট

ওয়েব নর্দমা 4chan থেকে পোস্টে প্রশিক্ষিত AI চ্যাটবট খারাপ আচরণ করেছে – ঠিক মানুষের সদস্যদের মতো

প্রাক্তন ফুজি এআই-তৈরি আইনি যুক্তিতে নতুন বিচার চেয়েছেন

Meta বাণিজ্যিক ব্যবহার সমর্থনকারী Llama 2 মডেল চালু করেছে

টেক্সাস বিশ্ববিদ্যালয়ের অধ্যাপক এআই সন্দেহে গ্রেড পিছিয়ে রেখেছেন

CISA এবং NCSC AI নিরাপত্তা মান বাড়ানোর প্রচেষ্টার নেতৃত্ব দেয়

AI এর সাথে মোকাবিলা করার জন্য ওপেন সোর্স লাইসেন্সগুলিকে বিকশিত করতে হবে

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব