মাইক্রোসফটের নতুন এআই মাত্র 3 সেকেন্ডে আপনার ভয়েস ক্লোন করতে পারে

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

মাইক্রোসফটের নতুন এআই মাত্র 3 সেকেন্ডে আপনার ভয়েস ক্লোন করতে পারে PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

থেকে সবকিছু তৈরি করতে AI ব্যবহার করা হচ্ছে চিত্র থেকে পাঠ থেকে কৃত্রিম প্রোটিন, এবং এখন তালিকায় আরেকটি জিনিস যোগ করা হয়েছে: বক্তৃতা। গত সপ্তাহ থেকে গবেষকরা মাইক্রোসফট একটি কাগজ প্রকাশ করেছে VALL-E নামক একটি নতুন AI-তে যা মাত্র তিন সেকেন্ড দীর্ঘ একটি নমুনার উপর ভিত্তি করে যে কারও ভয়েস নির্ভুলভাবে অনুকরণ করতে পারে। VALL-E তৈরি করা প্রথম স্পিচ সিমুলেটর নয়, তবে এটি তার পূর্বসূরীদের থেকে আলাদাভাবে তৈরি করা হয়েছে-এবং সম্ভাব্য অপব্যবহারের জন্য এটি একটি বড় ঝুঁকি বহন করতে পারে।

বেশিরভাগ বিদ্যমান টেক্সট-টু-স্পীচ মডেলগুলি নকল ভয়েস তৈরি করতে তরঙ্গরূপ (শব্দ তরঙ্গের গ্রাফিকাল উপস্থাপনা) ব্যবহার করে নকল ভয়েস তৈরি করতে, আনুমানিক একটি প্রদত্ত ভয়েসের সাথে সুর বা পিচের মতো বৈশিষ্ট্যগুলিকে টুইক করে। VALL-E, যদিও, কারো ভয়েসের একটি নমুনা নেয় এবং এটিকে টোকেন নামক উপাদানে ভেঙ্গে দেয়, তারপর সেই টোকেনগুলি ব্যবহার করে নতুন শব্দ তৈরি করতে "নিয়ম" এর উপর ভিত্তি করে যা এই ভয়েস সম্পর্কে ইতিমধ্যেই শিখেছে৷ যদি একটি ভয়েস বিশেষভাবে গভীর হয়, বা একজন বক্তা তাদের A-কে অনুনাসিকভাবে উচ্চারণ করে, অথবা তারা গড়ের চেয়ে বেশি একঘেয়ে হয়, এই সমস্ত বৈশিষ্ট্যগুলি AI গ্রহণ করবে এবং প্রতিলিপি করতে সক্ষম হবে।

মডেল একটি প্রযুক্তির উপর ভিত্তি করে বলা হয় মেটা দ্বারা EnCodec, যা এই অংশ অক্টোবর মুক্তি পায়. মানের কোন ক্ষতি ছাড়াই MP10 এর থেকে 3 গুণ ছোট অডিও কম্প্রেস করতে টুলটি একটি তিন-অংশের সিস্টেম ব্যবহার করে; এর নির্মাতারা কম-ব্যান্ডউইথ সংযোগের মাধ্যমে করা কলে ভয়েস এবং মিউজিকের গুণমান উন্নত করার জন্য এর একটি ব্যবহারের জন্য বোঝায়।

VALL-E কে প্রশিক্ষিত করার জন্য, এর নির্মাতারা একটি অডিও লাইব্রেরি ব্যবহার করেছেন যার নাম LibriLight, যার 60,000 ঘন্টার ইংরেজি বক্তৃতা প্রাথমিকভাবে অডিওবুক বর্ণনা দ্বারা গঠিত। মডেলটি তার সর্বোত্তম ফলাফল দেয় যখন ভয়েসটি সংশ্লেষিত হচ্ছে ট্রেনিং লাইব্রেরির একটি কণ্ঠের মতো (যার মধ্যে 7,000 টির বেশি, তাই এটি অর্ডারের চেয়ে বেশি লম্বা হওয়া উচিত নয়)।

কারও ভয়েস পুনরায় তৈরি করার পাশাপাশি, VALL-E তিন-সেকেন্ডের নমুনা থেকে অডিও পরিবেশকেও অনুকরণ করে। ফোনে রেকর্ড করা একটি ক্লিপ ব্যক্তিগতভাবে তৈরি করা একটির চেয়ে আলাদা শোনাবে এবং আপনি যদি কথা বলার সময় হাঁটছেন বা গাড়ি চালাচ্ছেন, তবে সেই পরিস্থিতিগুলির অনন্য ধ্বনিতত্ত্ব বিবেচনায় নেওয়া হয়।

কিছু নমুনা মোটামুটি বাস্তবসম্মত শোনাচ্ছে, অন্যরা এখনও খুব স্পষ্টতই কম্পিউটার-উত্পন্ন। কিন্তু কণ্ঠস্বরের মধ্যে লক্ষণীয় পার্থক্য রয়েছে; আপনি বলতে পারেন যে তারা এমন লোকেদের উপর ভিত্তি করে যাদের কথা বলার ধরন, পিচ এবং স্বরধ্বনির ধরণ রয়েছে।

যে দলটি VALL-E তৈরি করেছে তারা জানে যে এটি খুব সহজেই খারাপ অভিনেতাদের দ্বারা ব্যবহার করা যেতে পারে; রাজনীতিবিদ বা সেলিব্রিটিদের নকল শব্দ কামড় থেকে শুরু করে পরিচিত ভয়েস ব্যবহার করে ফোনে অর্থ বা তথ্যের অনুরোধ করা, প্রযুক্তির সুবিধা নেওয়ার অসংখ্য উপায় রয়েছে। তারা বুদ্ধিমত্তার সাথে VALL-E-এর কোড সর্বজনীনভাবে উপলব্ধ করা থেকে বিরত রয়েছে এবং তাদের কাগজের শেষে একটি নীতিশাস্ত্রের বিবৃতি অন্তর্ভুক্ত করেছে (যা খারাপ উদ্দেশ্যে AI ব্যবহার করতে চায় এমন কাউকে আটকাতে খুব বেশি কিছু করবে না)।

অনুরূপ সরঞ্জামগুলি উত্থিত হওয়ার এবং ভুল হাতে পড়ার আগে এটি সম্ভবত সময়ের ব্যাপার। গবেষকরা পরামর্শ দেন যে VALL-E-এর মতো মডেলগুলি যে ঝুঁকিগুলি উপস্থাপন করবে তা অডিও ক্লিপগুলি বাস্তব বা সংশ্লেষিত কিনা তা পরিমাপ করার জন্য সনাক্তকরণ মডেল তৈরি করে প্রশমিত করা যেতে পারে। AI থেকে আমাদের রক্ষা করার জন্য যদি আমাদের AI এর প্রয়োজন হয়, তাহলে কীভাবে বুঝবেন যে এই প্রযুক্তিগুলি নেট ইতিবাচক প্রভাব ফেলছে? সময় বলে দেবে.

চিত্র ক্রেডিট: Shutterstock.com/তঞ্চা

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
উত্স: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

সময় স্ট্যাম্প: জানুয়ারী 12, 2023

সময় স্ট্যাম্প: ফেব্রুয়ারী 17, 2024

মাইক্রোসফটের নতুন এআই মাত্র 3 সেকেন্ডে আপনার ভয়েস ক্লোন করতে পারে

প্লেটো দ্বারা প্রকাশিত

থেকে আরো এককতা হাব

দূরবর্তী গ্যালাক্সিতে হিলিয়াম পরিমাপ করা পদার্থবিদদের অন্তর্দৃষ্টি দিতে পারে কেন মহাবিশ্ব বিদ্যমান

প্রাইমরডিয়াল সি স্প্রেতে জীবনের বিল্ডিং ব্লক তৈরি হতে পারে

ইউক্রেনের সংঘাত বিশ্বকে পুনর্নবীকরণযোগ্য শক্তির দিকে নিয়ে গেছে, আইইএ রিপোর্ট বলছে

CRISPR জিন সম্পাদনার একটি যুগান্তকারী বছর ছিল - এবং এটি শুধুমাত্র শুরু হচ্ছে৷

কীভাবে প্রাণীর অনুভূতি অধ্যয়ন সেন্টিয়েন্ট এআই এর নৈতিক ধাঁধা সমাধান করতে সহায়তা করতে পারে

পৃথিবীর জন্য 'সানস্ক্রিন' হিসাবে মহাকাশে চাঁদের ধূলিকণার শুটিং জলবায়ু পরিবর্তন বন্ধ করতে সাহায্য করতে পারে

ওয়েমোর চালকবিহীন গাড়িগুলি অ্যারিজোনায় হাইওয়ে সানস সেফটি ড্রাইভারদের আঘাত করছে

এই এআই জটিল প্রোটিন ডিজাইন করতে পারে যা আমাদের প্রয়োজন অনুসারে পুরোপুরি তৈরি

এই গেটস-ব্যাকড স্টার্টআপ শক্তি-দক্ষ প্যানেলের বাইরে মডুলার বাড়ি তৈরি করে

NVIDIA-এর ক্ষুদ্র নতুন AI মাত্র কয়েক সেকেন্ডের মধ্যে ফটোগুলিকে সম্পূর্ণ 3D দৃশ্যে রূপান্তরিত করে

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব