از هوش مصنوعی برای تولید همه چیز استفاده می شود تصاویر به متن به پروتئین های مصنوعی، و اکنون یک چیز دیگر به لیست اضافه شده است: سخنرانی. هفته گذشته محققان از مایکروسافت مقاله ای منتشر کرد بر روی یک هوش مصنوعی جدید به نام VALL-E که میتواند صدای هر کسی را بر اساس نمونهای که تنها سه ثانیه طول میکشد، به دقت شبیهسازی کند. VALL-E اولین شبیهساز گفتاری نیست که ساخته شده است، اما به روشی متفاوت از مدلهای قبلی خود ساخته شده است و میتواند خطر بیشتری برای سوء استفاده احتمالی داشته باشد.
اکثر مدلهای تبدیل متن به گفتار موجود، از شکلهای موج (نمایشهای گرافیکی امواج صوتی در حین حرکت در یک رسانه در طول زمان) برای ایجاد صداهای جعلی، تغییر دادن ویژگیهایی مانند تن یا زیر و بم برای تقریب صدای معین استفاده میکنند. با این حال، VALL-E یک نمونه از صدای یک نفر را می گیرد و آن را به اجزایی به نام نشانه ها تقسیم می کند، سپس از آن نشانه ها برای ایجاد صداهای جدید بر اساس "قوانین" استفاده می کند که قبلاً در مورد این صدا آموخته است. اگر صدایی بخصوص عمیق باشد، یا یک گوینده A های خود را به صورت بینی ای تلفظ کند، یا یکنواخت تر از حد متوسط باشد، همه اینها ویژگی هایی هستند که هوش مصنوعی آن ها را دریافت می کند و می تواند تکرار کند.
این مدل مبتنی بر فناوری به نام است EnCodec توسط Meta، که به تازگی در ماه اکتبر منتشر شد. این ابزار از یک سیستم سه قسمتی برای فشرده سازی صدا به 10 برابر کوچکتر از MP3 ها بدون افت کیفیت استفاده می کند. هدف سازندگان آن بهبود کیفیت صدا و موسیقی در تماسهای برقرار شده از طریق اتصالات با پهنای باند کم بود.
برای آموزش VALL-E، سازندگان آن از یک کتابخانه صوتی به نام استفاده کردند LibriLight، که 60,000 ساعت سخنرانی انگلیسی آن عمدتاً از روایت کتاب صوتی تشکیل شده است. این مدل زمانی بهترین نتایج خود را به دست میآورد که صدای در حال سنتز شبیه به یکی از صداهای کتابخانه آموزشی باشد (که بیش از 7,000 عدد وجود دارد، بنابراین نباید خیلی بلند باشد).
VALL-E علاوه بر بازسازی صدای یک نفر، محیط صوتی را از نمونه سه ثانیه ای نیز شبیه سازی می کند. یک کلیپ ضبط شده از طریق تلفن با کلیپ ساخته شده به صورت شخصی متفاوت به نظر می رسد، و اگر هنگام صحبت کردن در حال پیاده روی یا رانندگی هستید، آکوستیک منحصر به فرد آن سناریوها در نظر گرفته می شود.
برخی از نمونه ها نسبتاً واقع گرایانه به نظر می رسند، در حالی که دیگران هنوز به وضوح توسط رایانه تولید می شوند. اما تفاوت های قابل توجهی بین صداها وجود دارد. می توانید بگویید که آنها بر اساس افرادی هستند که سبک های گفتاری، زیر و بم و الگوهای لحنی متفاوتی دارند.
تیم سازنده VALL-E می داند که می تواند به راحتی توسط بازیگران بد استفاده شود. از صداهای جعلی سیاستمداران یا افراد مشهور گرفته تا استفاده از صداهای آشنا برای درخواست پول یا اطلاعات از طریق تلفن، راههای بیشماری برای استفاده از این فناوری وجود دارد. آنها عاقلانه از در دسترس قرار دادن کد VALL-E خودداری کرده اند و یک بیانیه اخلاقی را در انتهای مقاله خود قرار داده اند (که برای منصرف کردن هر کسی که می خواهد از هوش مصنوعی برای اهداف پلید استفاده کند، کار زیادی انجام نمی دهد).
به احتمال زیاد فقط زمان زیادی است که ابزارهای مشابه به وجود بیایند و به دست اشتباه بیفتند. محققان پیشنهاد میکنند خطراتی که مدلهایی مانند VALL-E ایجاد میکنند را میتوان با ساخت مدلهای تشخیص برای سنجش واقعی یا ترکیبی بودن کلیپهای صوتی کاهش داد. اگر برای محافظت از ما در برابر هوش مصنوعی به هوش مصنوعی نیاز داریم، چگونه متوجه شویم که این فناوریها تأثیر مثبت خالصی دارند؟ زمان نشان خواهد داد.
تصویر های اعتباری: Shutterstock.com/تانچا
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی به اینجا.
- منبع: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- قادر
- درباره ما
- حساب
- به درستی
- اضافه
- مزیت - فایده - سود - منفعت
- AI
- معرفی
- قبلا
- و
- دیگر
- هر کس
- سمعی
- در دسترس
- میانگین
- بد
- مستقر
- قبل از
- بودن
- بهترین
- میان
- می شکند
- بنا
- ساخته
- نام
- تماس ها
- حمل
- مشاهیر
- مشخصات
- کلیپ های
- رمز
- اجزاء
- تولید شده توسط رایانه
- اتصالات
- میتوانست
- ایجاد
- ایجاد شده
- سازندگان
- اعتبار
- عمیق
- کشف
- تفاوت
- مختلف
- پایین
- رانندگی
- به آسانی
- انگلیسی
- محیط
- اصول اخلاق
- همه چیز
- موجود
- فیس بوک
- منصفانه
- جعلی
- سقوط
- آشنا
- نام خانوادگی
- از جانب
- تولید می کنند
- GitHub
- داده
- بیشتر
- دست ها
- داشتن
- ساعت ها
- چگونه
- HTTPS
- تأثیر
- بهبود
- in
- مشمول
- اطلاعات
- IT
- دانستن
- نام
- آموخته
- کتابخانه
- احتمالا
- فهرست
- طولانی
- خاموش
- ساخته
- ساخت
- ماده
- متوسط
- مدل
- مدل
- پول
- بیش
- حرکت
- موسیقی
- نیاز
- خالص
- جدید
- اکتبر
- ONE
- سفارش
- دیگران
- مقاله
- بخش
- ویژه
- الگوهای
- مردم
- شخص
- تلفن
- انتخاب کنید
- قیر
- زمین
- افلاطون
- هوش داده افلاطون
- PlatoData
- سیاستمداران
- مثبت
- پتانسیل
- در حال حاضر
- در درجه اول
- محافظت از
- عمومی
- اهداف
- کیفیت
- واقعی
- واقع بینانه
- ثبت
- منتشر شد
- درخواست
- محققان
- نتایج
- خطر
- خطرات
- سناریوها
- ثانیه
- شاتر استوک
- مشابه
- شبیه ساز
- کوچکتر
- So
- صدا
- گوینده
- صحبت کردن
- سخنرانی - گفتار
- بهار
- بیانیه
- هنوز
- سیستم
- گرفتن
- طول می کشد
- سخنگو
- تیم
- فن آوری
- پیشرفته
- تبدیل متن به گفتار
- La
- شان
- چیز
- سه
- از طریق
- زمان
- بار
- به
- نشانه
- TONE
- هم
- ابزار
- ابزار
- قطار
- آموزش
- پیچاندن
- منحصر به فرد
- us
- استفاده کنید
- صدا
- صداها
- راه رفتن
- امواج
- راه
- هفته
- چه
- که
- در حین
- WHO
- اراده
- خواهد بود
- اشتباه
- دست های اشتباه
- بازده
- شما
- شما
- زفیرنت