The Mona Lisa Can Now Talk, Thanks To EMO

بازنشر افلاطون

دنبال: 0

محققان مؤسسه محاسبات هوشمند در گروه علی بابا ابزار هوش مصنوعی معروف به EMO: Emote Portrait Alive را توسعه داده‌اند که به پرتره‌ها جان می‌بخشد.

این ابزار به کاربران امکان می دهد صدا و تصویر را به یک تصویر ثابت اضافه کنند. با استفاده از این ابزار، می‌توان با پرتره‌ای قدیمی مانند La Gioconda اثر معروف لئوناردو داوینچی، که بیشتر با نام مونالیزا شناخته می‌شود، بازی کرد و او را وادار کرد که با حالت‌های سر، حرکت، حالات چهره و همگام‌سازی دقیق لب صحبت کند و آواز بخواند.

ابزار تولید پرتره-ویدیویی مبتنی بر صدا

در گزارش خود، "EMO: Emote Portrait Alive: تولید ویدئوهای پرتره بیانگر با مدل انتشار صوتی 2 ویدئو در شرایط ضعیف،" محققان اطلاعاتی در مورد ابزار جدید، عملکردهای آن و نحوه استفاده از آن برای نتایج عالی ارائه دهید.

با استفاده از ابزار هوش مصنوعی ساخت پرتره مبتنی بر صدا، کاربران می توانند ویدیوهای آواتار آوازی را با حالات چهره ایجاد کنند. به گفته محققان، این ابزار به آنها اجازه می‌دهد فیلم‌هایی با هر مدت زمان «بسته به طول صدای ورودی» ایجاد کنند.

محققان می‌گویند: «یک تصویر شخصیت و یک صدای صوتی مانند آواز را وارد کنید، و روش ما می‌تواند ویدیوهای آواتار آوازی را با حالات بیانی چهره و حالت‌های مختلف سر ایجاد کند.»

روش ما از آهنگ‌ها به زبان‌های مختلف پشتیبانی می‌کند و سبک‌های پرتره متنوع را زنده می‌کند. این به طور مستقیم تغییرات تونال را در صدا تشخیص می‌دهد و امکان تولید آواتارهای پویا و غنی از بیان را فراهم می‌کند.

همچنین بخوانید: OpenAI مدعی است که نیویورک تایمز ChatGPT را "هک" کرده است تا پرونده حق نسخه برداری ایجاد کند.

صحبت کردن، آواز خواندن از روی یک پرتره

به گفته محققان، ابزار مجهز به هوش مصنوعی نه تنها موسیقی را پردازش می کند، بلکه صدای گفتاری به زبان های مختلف را نیز در خود جای می دهد.

محققان می‌گویند: «به‌علاوه، روش ما این قابلیت را دارد که پرتره‌های دوره‌های گذشته، نقاشی‌ها، و مدل‌های سه‌بعدی و محتوای تولید شده توسط هوش مصنوعی را متحرک کند، و آنها را با حرکت واقعی و واقع‌گرایی القا کند».

اما این موضوع اونجا تموم نمیشه. کاربران همچنین می‌توانند با پرتره‌ها و تصاویر ستاره‌های سینما که مونولوگ‌ها یا اجراهایی را به سبک‌ها و زبان‌های مختلف ارائه می‌کنند، بازی کنند.

برخی از علاقه مندان به هوش مصنوعی که به پلتفرم X روی آوردند، آن را «ذهن‌انگیز» توصیف کردند.

2. مونالیزا در حال صحبت با شکسپیر pic.twitter.com/26k29aAz1P

— مین چوی (@minchoi) فوریه 28، 2024

نازک شدن مرز بین واقعی و هوش مصنوعی

اخبار ابزار EMO توسط علی بابا باعث شده دیگر کاربران فکر کنند که مرز بین هوش مصنوعی و واقعیت در حال از بین رفتن است زیرا شرکت های فناوری به عرضه محصولات جدید ادامه می دهند.

"لبه بین هوش مصنوعی و واقعی باریک تر از همیشه است." روبن ارسال کرد در X، در حالی که دیگران فکر می کنند TikTok به زودی غرق در خلقت خواهد شد.

این اولین بار است که چنین نتیجه دقیق و واقعی را می بینم. هوش مصنوعی ویدیویی امسال وعده می دهد که قابل اعتماد باشد پل کاورت.

در حالی که دیگران فکر می کنند این می تواند یک تغییر بازی برای خلاقان باشد، مین چوی نیز در مورد آن محتاط است.

"امیدوارم فقط برای چیزهای خلاقانه. این می تواند در دستان اشتباه خطرناک باشد.»

به لطف EMO، مونالیزا اکنون می تواند صحبت کند

با استفاده از ابزار

در توضیح این فرآیند، محققان تاکید کردند که چارچوب EMO دارای دو مرحله است، اولین مرحله به نام Frames Encoding، جایی که ReferenceNet برای استخراج ویژگی‌ها از تصاویر مرجع و فریم‌های حرکتی مستقر می‌شود.

مرحله بعدی مرحله فرآیند انتشار است، که در آن یک رمزگذار صوتی از پیش آموزش دیده "جاسازی صدا را پردازش می کند." برای ایجاد تصاویر بی نقص از چهره، کاربران ماسک های ناحیه صورت و نویز چند فریم را ادغام می کنند.

در بخشی از توضیح آمده است: «این مکانیسم‌ها به ترتیب برای حفظ هویت شخصیت و تعدیل حرکات شخصیت ضروری هستند.

علاوه بر این، ماژول های زمانی برای دستکاری بعد زمانی و تنظیم حرکت سرعت مورد استفاده قرار می گیرند.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
منبع: https://metanews.com/the-mona-lisa-can-now-talk-thanks-to-emo/

تمبر زمان: مارس 1، 2024

تمبر زمان: مار 10، 2023

به لطف EMO، مونالیزا اکنون می تواند صحبت کند

بازنشر افلاطون

ابزار تولید پرتره-ویدیویی مبتنی بر صدا

صحبت کردن، آواز خواندن از روی یک پرتره

نازک شدن مرز بین واقعی و هوش مصنوعی

با استفاده از ابزار

بیشتر از متانیوز

گزارش گلدمن ساکس هشدار می دهد که هوش مصنوعی می تواند 300 میلیون شغل را تحت تأثیر قرار دهد

سیستم ضد تقلب هزاران نفر را در Call of Duty ممنوع می کند

سهام هوش مصنوعی ثروتمندترین افراد جهان را 150 میلیارد دلار ثروتمندتر کرد

آمازون برای حل سردرد «کتاب‌های با هوش مصنوعی» وارد عمل می‌شود

نزدک سهام Ethereum Trust بلک راک را فهرست می کند

لگو، تاندربردز و پوکمون مورد علاقه کودکان برای پیوستن به Metaverse

کپی دیجیتالی زمین در یک ابر کامپیوتر

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب