به لطف EMO، مونالیزا اکنون می تواند صحبت کند

به لطف EMO، مونالیزا اکنون می تواند صحبت کند

محققان مؤسسه محاسبات هوشمند در گروه علی بابا ابزار هوش مصنوعی معروف به EMO: Emote Portrait Alive را توسعه داده‌اند که به پرتره‌ها جان می‌بخشد.

این ابزار به کاربران امکان می دهد صدا و تصویر را به یک تصویر ثابت اضافه کنند. با استفاده از این ابزار، می‌توان با پرتره‌ای قدیمی مانند La Gioconda اثر معروف لئوناردو داوینچی، که بیشتر با نام مونالیزا شناخته می‌شود، بازی کرد و او را وادار کرد که با حالت‌های سر، حرکت، حالات چهره و همگام‌سازی دقیق لب صحبت کند و آواز بخواند.

ابزار تولید پرتره-ویدیویی مبتنی بر صدا

در گزارش خود، "EMO: Emote Portrait Alive: تولید ویدئوهای پرتره بیانگر با مدل انتشار صوتی 2 ویدئو در شرایط ضعیف،"  محققان اطلاعاتی در مورد ابزار جدید، عملکردهای آن و نحوه استفاده از آن برای نتایج عالی ارائه دهید.

با استفاده از ابزار هوش مصنوعی ساخت پرتره مبتنی بر صدا، کاربران می توانند ویدیوهای آواتار آوازی را با حالات چهره ایجاد کنند. به گفته محققان، این ابزار به آنها اجازه می‌دهد فیلم‌هایی با هر مدت زمان «بسته به طول صدای ورودی» ایجاد کنند.

محققان می‌گویند: «یک تصویر شخصیت و یک صدای صوتی مانند آواز را وارد کنید، و روش ما می‌تواند ویدیوهای آواتار آوازی را با حالات بیانی چهره و حالت‌های مختلف سر ایجاد کند.»

روش ما از آهنگ‌ها به زبان‌های مختلف پشتیبانی می‌کند و سبک‌های پرتره متنوع را زنده می‌کند. این به طور مستقیم تغییرات تونال را در صدا تشخیص می‌دهد و امکان تولید آواتارهای پویا و غنی از بیان را فراهم می‌کند.

همچنین بخوانید: OpenAI مدعی است که نیویورک تایمز ChatGPT را "هک" کرده است تا پرونده حق نسخه برداری ایجاد کند.

صحبت کردن، آواز خواندن از روی یک پرتره

به گفته محققان، ابزار مجهز به هوش مصنوعی نه تنها موسیقی را پردازش می کند، بلکه صدای گفتاری به زبان های مختلف را نیز در خود جای می دهد.

محققان می‌گویند: «به‌علاوه، روش ما این قابلیت را دارد که پرتره‌های دوره‌های گذشته، نقاشی‌ها، و مدل‌های سه‌بعدی و محتوای تولید شده توسط هوش مصنوعی را متحرک کند، و آنها را با حرکت واقعی و واقع‌گرایی القا کند».

اما این موضوع اونجا تموم نمیشه. کاربران همچنین می‌توانند با پرتره‌ها و تصاویر ستاره‌های سینما که مونولوگ‌ها یا اجراهایی را به سبک‌ها و زبان‌های مختلف ارائه می‌کنند، بازی کنند.

برخی از علاقه مندان به هوش مصنوعی که به پلتفرم X روی آوردند، آن را «ذهن‌انگیز» توصیف کردند.

نازک شدن مرز بین واقعی و هوش مصنوعی

اخبار ابزار EMO توسط علی بابا باعث شده دیگر کاربران فکر کنند که مرز بین هوش مصنوعی و واقعیت در حال از بین رفتن است زیرا شرکت های فناوری به عرضه محصولات جدید ادامه می دهند.

"لبه بین هوش مصنوعی و واقعی باریک تر از همیشه است." روبن ارسال کرد در X، در حالی که دیگران فکر می کنند TikTok به زودی غرق در خلقت خواهد شد.

این اولین بار است که چنین نتیجه دقیق و واقعی را می بینم. هوش مصنوعی ویدیویی امسال وعده می دهد که قابل اعتماد باشد پل کاورت.

در حالی که دیگران فکر می کنند این می تواند یک تغییر بازی برای خلاقان باشد، مین چوی نیز در مورد آن محتاط است.

"امیدوارم فقط برای چیزهای خلاقانه. این می تواند در دستان اشتباه خطرناک باشد.»

به لطف EMO، مونالیزا اکنون می تواند صحبت کند

با استفاده از ابزار

در توضیح این فرآیند، محققان تاکید کردند که چارچوب EMO دارای دو مرحله است، اولین مرحله به نام Frames Encoding، جایی که ReferenceNet برای استخراج ویژگی‌ها از تصاویر مرجع و فریم‌های حرکتی مستقر می‌شود.

مرحله بعدی مرحله فرآیند انتشار است، که در آن یک رمزگذار صوتی از پیش آموزش دیده "جاسازی صدا را پردازش می کند." برای ایجاد تصاویر بی نقص از چهره، کاربران ماسک های ناحیه صورت و نویز چند فریم را ادغام می کنند.

در بخشی از توضیح آمده است: «این مکانیسم‌ها به ترتیب برای حفظ هویت شخصیت و تعدیل حرکات شخصیت ضروری هستند.

علاوه بر این، ماژول های زمانی برای دستکاری بعد زمانی و تنظیم حرکت سرعت مورد استفاده قرار می گیرند.

تمبر زمان:

بیشتر از متانیوز