هوش مصنوعی جدید مایکروسافت می تواند صدای شما را تنها در 3 ثانیه شبیه سازی کند

بازنشر افلاطون

دنبال: 0

Microsoft’s New AI Can Clone Your Voice in Just 3 Seconds PlatoBlockchain Data Intelligence. Vertical Search. Ai.

از هوش مصنوعی برای تولید همه چیز استفاده می شود تصاویر به متن به پروتئین های مصنوعی، و اکنون یک چیز دیگر به لیست اضافه شده است: سخنرانی. هفته گذشته محققان از مایکروسافت مقاله ای منتشر کرد بر روی یک هوش مصنوعی جدید به نام VALL-E که می‌تواند صدای هر کسی را بر اساس نمونه‌ای که تنها سه ثانیه طول می‌کشد، به دقت شبیه‌سازی کند. VALL-E اولین شبیه‌ساز گفتاری نیست که ساخته شده است، اما به روشی متفاوت از مدل‌های قبلی خود ساخته شده است و می‌تواند خطر بیشتری برای سوء استفاده احتمالی داشته باشد.

اکثر مدل‌های تبدیل متن به گفتار موجود، از شکل‌های موج (نمایش‌های گرافیکی امواج صوتی در حین حرکت در یک رسانه در طول زمان) برای ایجاد صداهای جعلی، تغییر دادن ویژگی‌هایی مانند تن یا زیر و بم برای تقریب صدای معین استفاده می‌کنند. با این حال، VALL-E یک نمونه از صدای یک نفر را می گیرد و آن را به اجزایی به نام نشانه ها تقسیم می کند، سپس از آن نشانه ها برای ایجاد صداهای جدید بر اساس "قوانین" استفاده می کند که قبلاً در مورد این صدا آموخته است. اگر صدایی بخصوص عمیق باشد، یا یک گوینده A های خود را به صورت بینی ای تلفظ کند، یا یکنواخت تر از حد متوسط باشد، همه اینها ویژگی هایی هستند که هوش مصنوعی آن ها را دریافت می کند و می تواند تکرار کند.

این مدل مبتنی بر فناوری به نام است EnCodec توسط Meta، که به تازگی در ماه اکتبر منتشر شد. این ابزار از یک سیستم سه قسمتی برای فشرده سازی صدا به 10 برابر کوچکتر از MP3 ها بدون افت کیفیت استفاده می کند. هدف سازندگان آن بهبود کیفیت صدا و موسیقی در تماس‌های برقرار شده از طریق اتصالات با پهنای باند کم بود.

برای آموزش VALL-E، سازندگان آن از یک کتابخانه صوتی به نام استفاده کردند LibriLight، که 60,000 ساعت سخنرانی انگلیسی آن عمدتاً از روایت کتاب صوتی تشکیل شده است. این مدل زمانی بهترین نتایج خود را به دست می‌آورد که صدای در حال سنتز شبیه به یکی از صداهای کتابخانه آموزشی باشد (که بیش از 7,000 عدد وجود دارد، بنابراین نباید خیلی بلند باشد).

VALL-E علاوه بر بازسازی صدای یک نفر، محیط صوتی را از نمونه سه ثانیه ای نیز شبیه سازی می کند. یک کلیپ ضبط شده از طریق تلفن با کلیپ ساخته شده به صورت شخصی متفاوت به نظر می رسد، و اگر هنگام صحبت کردن در حال پیاده روی یا رانندگی هستید، آکوستیک منحصر به فرد آن سناریوها در نظر گرفته می شود.

برخی از نمونه ها نسبتاً واقع گرایانه به نظر می رسند، در حالی که دیگران هنوز به وضوح توسط رایانه تولید می شوند. اما تفاوت های قابل توجهی بین صداها وجود دارد. می توانید بگویید که آنها بر اساس افرادی هستند که سبک های گفتاری، زیر و بم و الگوهای لحنی متفاوتی دارند.

تیم سازنده VALL-E می داند که می تواند به راحتی توسط بازیگران بد استفاده شود. از صداهای جعلی سیاستمداران یا افراد مشهور گرفته تا استفاده از صداهای آشنا برای درخواست پول یا اطلاعات از طریق تلفن، راه‌های بی‌شماری برای استفاده از این فناوری وجود دارد. آنها عاقلانه از در دسترس قرار دادن کد VALL-E خودداری کرده اند و یک بیانیه اخلاقی را در انتهای مقاله خود قرار داده اند (که برای منصرف کردن هر کسی که می خواهد از هوش مصنوعی برای اهداف پلید استفاده کند، کار زیادی انجام نمی دهد).

به احتمال زیاد فقط زمان زیادی است که ابزارهای مشابه به وجود بیایند و به دست اشتباه بیفتند. محققان پیشنهاد می‌کنند خطراتی که مدل‌هایی مانند VALL-E ایجاد می‌کنند را می‌توان با ساخت مدل‌های تشخیص برای سنجش واقعی یا ترکیبی بودن کلیپ‌های صوتی کاهش داد. اگر برای محافظت از ما در برابر هوش مصنوعی به هوش مصنوعی نیاز داریم، چگونه متوجه شویم که این فناوری‌ها تأثیر مثبت خالصی دارند؟ زمان نشان خواهد داد.

تصویر های اعتباری: Shutterstock.com/تانچا

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
منبع: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

تمبر زمان: ژانویه 12، 2023

تمبر زمان: ژوئیه 29، 2022

هوش مصنوعی جدید مایکروسافت می تواند صدای شما را تنها در 3 ثانیه شبیه سازی کند

بازنشر افلاطون

بیشتر از تکینگی هاب

بازیافت باتری خودروهای الکتریکی با یک سیستم حلقه بسته بزرگ جدید شتاب بیشتری می گیرد

ایالات غربی ایالات متحده برای مبارزه با خشکسالی های تاریخی به باروری ابرها روی می آورند

چگونه گیاهان زمین گرمایی می توانند منابع عظیم لیتیوم را در غرب آمریکا باز کنند؟

این قرنیه های مهندسی زیستی بینایی 14 نابینا را بازگرداند

دانشمندان با تمرین مغناطیسی جدید عضلات رشد یافته در آزمایشگاه را برای ربات ها تقویت می کنند

داستان‌های فناوری فوق‌العاده این هفته از سراسر وب (تا 6 می)

هوش مصنوعی جدید متا می‌تواند هر شیئی را در یک تصویر انتخاب و برش دهد، حتی آن‌هایی که قبلاً دیده نشده‌اند.

این سفیده تخم مرغ «بدون مرغ» از یک دستور پروتئین از DNA مرغ استفاده می کند

هیچ خوکی برای این سوسیس های خوک صدمه ندید، اما آنها گوشت واقعی (فرهنگی) هستند

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب