"موتور صوتی" جدید از OpenAI تنها به 15 ثانیه برای شبیه سازی گفتار نیاز دارد - رمزگشایی

"موتور صوتی" جدید از OpenAI تنها به 15 ثانیه برای شبیه سازی گفتار نیاز دارد - رمزگشایی

New ‘Voice Engine’ from OpenAI Needs Only 15 Seconds to Clone Speech - Decrypt PlatoBlockchain Data Intelligence. Vertical Search. Ai.

OpenAI، شرکت هوش مصنوعی پشت ابزار مولد AI غالب ChatGPT، از فناوری شبیه‌سازی صوتی جدیدی که آن را «موتور صوتی» می‌نامد، رونمایی کرده است. این مدل صوتی می‌تواند صدا، لحن و دیگر الگوهای گفتار انسان را بر اساس نمونه نسبتاً کوچکی از صدای اصلی تکرار کند.

این شرکت در گزارش خود می گوید: «قابل توجه است که یک مدل کوچک با یک نمونه 15 ثانیه ای می تواند صداهای احساسی و واقعی ایجاد کند. پست وبلاگ جمعه.

برای مقایسه، پلتفرم صوتی هوش مصنوعی Eleven Labs دارای یک ابزار شبیه سازی صوتی فوری است که به نمونه های حداقل یک دقیقه ای نیاز دارد. برای بهترین نتایج، نزدیک به 10 دقیقه سخنرانی مداوم برای سطح خدمات حرفه ای آن مورد نیاز است.

این شرکت نمونه های مختلفی از توانایی این فناوری را نشان داد. در یک مثال، صدای یک بیمار جوان که به دلیل تومور عروقی مغز توانایی صحبت کردن خود را از دست داده بود، با استفاده از ضبط قدیمی‌تری که او برای یک پروژه مدرسه ساخته بود، شبیه‌سازی شد. این هست امروز او چگونه به نظر می رسدطبق گفته OpenAI.

OpenAI کار کرد طول عمر، یک سازمان غیرانتفاعی وابسته به دانشکده پزشکی در دانشگاه براون و سازندگان ابزاری به نام لیوکسیک "برنامه ارتباطی جایگزین" که برای افراد دارای معلولیت ساخته شده است. تیم توانست با یک ضبطی که زن انجام داد برای ارائه مدرسه:

سپس Open AI Voice Engine قادر به ارائه قابلیت تبدیل متن به گفتار فوری بود که به بیمار این امکان را می داد تا به طور موثر با صدای خودش صحبت کنه:

OpenAI همچنین نحوه کار را به نمایش گذاشت هی جن از فناوری خود برای تولید ترجمه‌هایی با صدای طبیعی از گفتار آپلود شده به یک زبان خاص در زبان دیگر استفاده می‌کند.

این شرکت می گوید که Voice Engine برای اولین بار در اواخر سال 2022 توسعه یافت و در حال حاضر برای تقویت صداهای از پیش تعیین شده موجود در API متن به گفتار OpenAI و همچنین ویژگی ChatGPT Voice و Read Aloud استفاده می شود. با آخرین پیشرفت ها، این شرکت می گوید که قبل از انتشار گسترده تر محتاطانه عمل می کند.

OpenAI با اذعان به عمل محکوم‌شده «دیپ‌فیک» نوشت: «امیدواریم گفت‌وگویی را در مورد استقرار مسئولانه صداهای مصنوعی و اینکه چگونه جامعه می‌تواند با این قابلیت‌های جدید سازگار شود، آغاز کنیم». صدای افراد مشهور، مقامات دولتی و شهروندان خصوصی به طور فزاینده ای برای اهداف پلید جعل هویت می شود. مبارزات سیاسی, تبلیغات جعلی و صریح فعالیت های جنایی. رئیس جمهور آمریکا جو بایدن بوده است هل دادن برای حفاظت بیشتر در برابر استفاده مخرب از جعل هویت صوتی هوش مصنوعی.

در واقع، متا تابستان گذشته فاش کرد که ابزار صوتی هوش مصنوعی آن به طور خاص به دلیل «خطرات احتمالی سوء استفاده"

OpenAI توضیح داد: «در راستای رویکرد ما به ایمنی هوش مصنوعی و تعهدات داوطلبانه‌مان، ما در حال حاضر پیش‌نمایش این فناوری را انتخاب می‌کنیم اما به طور گسترده منتشر نمی‌کنیم.

حتی قبل از انتشار عمومی، OpenAI محدودیت هایی را برای Voice Engine اعمال می کند - از جمله لیستی از افراد برجسته که از آنها تقلید نخواهد کرد.

ما معتقدیم که هرگونه استقرار گسترده فناوری صدای مصنوعی باید همراه با تجربیات احراز هویت صوتی باشد که تأیید می کند که گوینده اصلی آگاهانه صدای خود را به سرویس اضافه می کند و یک لیست صدای ممنوعه که تشخیص می دهد و از ایجاد صداهای بیش از حد جلوگیری می کند. شبیه به چهره های برجسته، "OpenAI نوشت.

شرکای آزمایش کننده Voice Engine امروز با سیاست های استفاده OpenAI موافقت کرده اند که جعل هویت فرد یا سازمان دیگری را بدون رضایت ممنوع می کند. علاوه بر این، این شرکت به رضایت صریح و آگاهانه از گوینده اصلی نیاز دارد و آنها به توسعه دهندگان اجازه نمی دهند تا راه هایی را برای تک تک کاربران ایجاد کنند تا صدای خود را شبیه سازی کنند.

در پست وبلاگ آمده است: «بر اساس این مکالمات و نتایج این آزمایش‌های مقیاس کوچک، ما تصمیم آگاهانه‌تری در مورد اینکه آیا و چگونه این فناوری را در مقیاس اجرا کنیم، خواهیم گرفت.

علاوه بر Voice Engine، Open AI روی چندین پروژه به صورت موازی کار می کند. مدیر عامل شرکت سام آلتمن فاش کرد که این شرکت در حال کار بر روی انتشار GPT-5 در سال جاری است. این شرکت همچنین ابزار ویدئویی مولد خود را به نمایش گذاشت سو. این شرکت ادعا می کند که Sora پیشرفته ترین تولید کننده ویدئو در بازار خواهد بود و از مدل هایی مانند Pika، Stable Video Diffusion و Runway ML پیشی خواهد گرفت.

Sora در حال حاضر فقط برای «تیم‌های قرمز» که توسط Open AI استخدام شده‌اند در دسترس است تا مطمئن شوند که نمی‌توان از آن سوء استفاده کرد.

Voice Engine مطمئناً می تواند از سایر ابزارهای شبیه سازی صدا، از جمله پیشنهادات Meta، ElevenLabs، WellSaid Labs و مدل های منبع باز مانند RVC.

Open AI نیز روی a کار می کند پروژه مخفی به نام Q* که تنها نام آن فاش شده است. سام آلتمن از ارائه هیچ جزئیاتی خودداری کرده است، اما گفت که تیم تحقیقاتی به شدت بر روی یافتن تکنیک‌ها و رویکردهایی متمرکز شده‌اند که هوش مصنوعی را بهتر می‌کنند.

ویرایش شده توسط رایان اوزاوا.

از اخبار ارزهای دیجیتال مطلع باشید، به‌روزرسانی‌های روزانه را در صندوق ورودی خود دریافت کنید.

تمبر زمان:

بیشتر از رمزگشایی کنید