থেকে সবকিছু তৈরি করতে AI ব্যবহার করা হচ্ছে চিত্র থেকে পাঠ থেকে কৃত্রিম প্রোটিন, এবং এখন তালিকায় আরেকটি জিনিস যোগ করা হয়েছে: বক্তৃতা। গত সপ্তাহ থেকে গবেষকরা মাইক্রোসফট একটি কাগজ প্রকাশ করেছে VALL-E নামক একটি নতুন AI-তে যা মাত্র তিন সেকেন্ড দীর্ঘ একটি নমুনার উপর ভিত্তি করে যে কারও ভয়েস নির্ভুলভাবে অনুকরণ করতে পারে। VALL-E তৈরি করা প্রথম স্পিচ সিমুলেটর নয়, তবে এটি তার পূর্বসূরীদের থেকে আলাদাভাবে তৈরি করা হয়েছে-এবং সম্ভাব্য অপব্যবহারের জন্য এটি একটি বড় ঝুঁকি বহন করতে পারে।
বেশিরভাগ বিদ্যমান টেক্সট-টু-স্পীচ মডেলগুলি নকল ভয়েস তৈরি করতে তরঙ্গরূপ (শব্দ তরঙ্গের গ্রাফিকাল উপস্থাপনা) ব্যবহার করে নকল ভয়েস তৈরি করতে, আনুমানিক একটি প্রদত্ত ভয়েসের সাথে সুর বা পিচের মতো বৈশিষ্ট্যগুলিকে টুইক করে। VALL-E, যদিও, কারো ভয়েসের একটি নমুনা নেয় এবং এটিকে টোকেন নামক উপাদানে ভেঙ্গে দেয়, তারপর সেই টোকেনগুলি ব্যবহার করে নতুন শব্দ তৈরি করতে "নিয়ম" এর উপর ভিত্তি করে যা এই ভয়েস সম্পর্কে ইতিমধ্যেই শিখেছে৷ যদি একটি ভয়েস বিশেষভাবে গভীর হয়, বা একজন বক্তা তাদের A-কে অনুনাসিকভাবে উচ্চারণ করে, অথবা তারা গড়ের চেয়ে বেশি একঘেয়ে হয়, এই সমস্ত বৈশিষ্ট্যগুলি AI গ্রহণ করবে এবং প্রতিলিপি করতে সক্ষম হবে।
মডেল একটি প্রযুক্তির উপর ভিত্তি করে বলা হয় মেটা দ্বারা EnCodec, যা এই অংশ অক্টোবর মুক্তি পায়. মানের কোন ক্ষতি ছাড়াই MP10 এর থেকে 3 গুণ ছোট অডিও কম্প্রেস করতে টুলটি একটি তিন-অংশের সিস্টেম ব্যবহার করে; এর নির্মাতারা কম-ব্যান্ডউইথ সংযোগের মাধ্যমে করা কলে ভয়েস এবং মিউজিকের গুণমান উন্নত করার জন্য এর একটি ব্যবহারের জন্য বোঝায়।
VALL-E কে প্রশিক্ষিত করার জন্য, এর নির্মাতারা একটি অডিও লাইব্রেরি ব্যবহার করেছেন যার নাম LibriLight, যার 60,000 ঘন্টার ইংরেজি বক্তৃতা প্রাথমিকভাবে অডিওবুক বর্ণনা দ্বারা গঠিত। মডেলটি তার সর্বোত্তম ফলাফল দেয় যখন ভয়েসটি সংশ্লেষিত হচ্ছে ট্রেনিং লাইব্রেরির একটি কণ্ঠের মতো (যার মধ্যে 7,000 টির বেশি, তাই এটি অর্ডারের চেয়ে বেশি লম্বা হওয়া উচিত নয়)।
কারও ভয়েস পুনরায় তৈরি করার পাশাপাশি, VALL-E তিন-সেকেন্ডের নমুনা থেকে অডিও পরিবেশকেও অনুকরণ করে। ফোনে রেকর্ড করা একটি ক্লিপ ব্যক্তিগতভাবে তৈরি করা একটির চেয়ে আলাদা শোনাবে এবং আপনি যদি কথা বলার সময় হাঁটছেন বা গাড়ি চালাচ্ছেন, তবে সেই পরিস্থিতিগুলির অনন্য ধ্বনিতত্ত্ব বিবেচনায় নেওয়া হয়।
কিছু নমুনা মোটামুটি বাস্তবসম্মত শোনাচ্ছে, অন্যরা এখনও খুব স্পষ্টতই কম্পিউটার-উত্পন্ন। কিন্তু কণ্ঠস্বরের মধ্যে লক্ষণীয় পার্থক্য রয়েছে; আপনি বলতে পারেন যে তারা এমন লোকেদের উপর ভিত্তি করে যাদের কথা বলার ধরন, পিচ এবং স্বরধ্বনির ধরণ রয়েছে।
যে দলটি VALL-E তৈরি করেছে তারা জানে যে এটি খুব সহজেই খারাপ অভিনেতাদের দ্বারা ব্যবহার করা যেতে পারে; রাজনীতিবিদ বা সেলিব্রিটিদের নকল শব্দ কামড় থেকে শুরু করে পরিচিত ভয়েস ব্যবহার করে ফোনে অর্থ বা তথ্যের অনুরোধ করা, প্রযুক্তির সুবিধা নেওয়ার অসংখ্য উপায় রয়েছে। তারা বুদ্ধিমত্তার সাথে VALL-E-এর কোড সর্বজনীনভাবে উপলব্ধ করা থেকে বিরত রয়েছে এবং তাদের কাগজের শেষে একটি নীতিশাস্ত্রের বিবৃতি অন্তর্ভুক্ত করেছে (যা খারাপ উদ্দেশ্যে AI ব্যবহার করতে চায় এমন কাউকে আটকাতে খুব বেশি কিছু করবে না)।
অনুরূপ সরঞ্জামগুলি উত্থিত হওয়ার এবং ভুল হাতে পড়ার আগে এটি সম্ভবত সময়ের ব্যাপার। গবেষকরা পরামর্শ দেন যে VALL-E-এর মতো মডেলগুলি যে ঝুঁকিগুলি উপস্থাপন করবে তা অডিও ক্লিপগুলি বাস্তব বা সংশ্লেষিত কিনা তা পরিমাপ করার জন্য সনাক্তকরণ মডেল তৈরি করে প্রশমিত করা যেতে পারে। AI থেকে আমাদের রক্ষা করার জন্য যদি আমাদের AI এর প্রয়োজন হয়, তাহলে কীভাবে বুঝবেন যে এই প্রযুক্তিগুলি নেট ইতিবাচক প্রভাব ফেলছে? সময় বলে দেবে.
চিত্র ক্রেডিট: Shutterstock.com/তঞ্চা
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- উত্স: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- সক্ষম
- সম্পর্কে
- হিসাব
- সঠিক
- যোগ
- সুবিধা
- AI
- সব
- ইতিমধ্যে
- এবং
- অন্য
- যে কেউ
- অডিও
- সহজলভ্য
- গড়
- খারাপ
- ভিত্তি
- আগে
- হচ্ছে
- সর্বোত্তম
- মধ্যে
- বিরতি
- ভবন
- নির্মিত
- নামক
- কল
- বহন
- সেলিব্রিটি
- বৈশিষ্ট্য
- ক্লিপ্স
- কোড
- উপাদান
- কম্পিউটার দ্বারা তৈরি
- সংযোগ
- পারা
- সৃষ্টি
- নির্মিত
- স্রষ্টাগণ
- ধার
- গভীর
- সনাক্তকরণ
- পার্থক্য
- বিভিন্ন
- নিচে
- পরিচালনা
- সহজে
- ইংরেজি
- পরিবেশ
- নীতিশাস্ত্র
- সব
- বিদ্যমান
- ফেসবুক
- নিরপেক্ষভাবে
- নকল
- পতন
- পরিচিত
- প্রথম
- থেকে
- উত্পাদন করা
- GitHub
- প্রদত্ত
- বৃহত্তর
- হাত
- জমিদারি
- ঘন্টার
- কিভাবে
- HTTPS দ্বারা
- প্রভাব
- উন্নতি
- in
- অন্তর্ভুক্ত
- তথ্য
- IT
- জানা
- গত
- জ্ঞানী
- লাইব্রেরি
- সম্ভবত
- তালিকা
- দীর্ঘ
- ক্ষতি
- প্রণীত
- মেকিং
- ব্যাপার
- মধ্যম
- মডেল
- মডেল
- টাকা
- অধিক
- পদক্ষেপ
- সঙ্গীত
- প্রয়োজন
- নেট
- নতুন
- অক্টোবর
- ONE
- ক্রম
- অন্যরা
- কাগজ
- অংশ
- বিশেষত
- নিদর্শন
- সম্প্রদায়
- ব্যক্তি
- ফোন
- বাছাই
- পিচ
- পিচ
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- রাজনীতিবিদরা
- ধনাত্মক
- সম্ভাব্য
- বর্তমান
- প্রাথমিকভাবে
- রক্ষা করা
- প্রকাশ্যে
- উদ্দেশ্য
- গুণ
- বাস্তব
- বাস্তবানুগ
- নথিভুক্ত
- মুক্ত
- অনুরোধ
- গবেষকরা
- ফলাফল
- ঝুঁকি
- ঝুঁকি
- পরিস্থিতিতে
- সেকেন্ড
- Shutterstock
- অনুরূপ
- কাল্পনিক
- ক্ষুদ্রতর
- So
- শব্দ
- বক্তা
- ভাষী
- বক্তৃতা
- বসন্ত
- বিবৃতি
- এখনো
- পদ্ধতি
- গ্রহণ করা
- লাগে
- কথা বলা
- টীম
- প্রযুক্তি
- প্রযুক্তিঃ
- পাঠ্য থেকে স্পিচ
- সার্জারির
- তাদের
- জিনিস
- তিন
- দ্বারা
- সময়
- বার
- থেকে
- টোকেন
- স্বন
- অত্যধিক
- টুল
- সরঞ্জাম
- রেলগাড়ি
- প্রশিক্ষণ
- টোয়েকিং
- অনন্য
- us
- ব্যবহার
- কণ্ঠস্বর
- ভয়েস
- চলাফেরা
- ঢেউখেলানো
- উপায়
- সপ্তাহান্তিক কাল
- কিনা
- যে
- যখন
- হু
- ইচ্ছা
- would
- ভুল
- ভুল হাত
- উৎপাদনের
- আপনি
- আপনার
- zephyrnet