محققان مؤسسه محاسبات هوشمند در گروه علی بابا ابزار هوش مصنوعی معروف به EMO: Emote Portrait Alive را توسعه دادهاند که به پرترهها جان میبخشد.
این ابزار به کاربران امکان می دهد صدا و تصویر را به یک تصویر ثابت اضافه کنند. با استفاده از این ابزار، میتوان با پرترهای قدیمی مانند La Gioconda اثر معروف لئوناردو داوینچی، که بیشتر با نام مونالیزا شناخته میشود، بازی کرد و او را وادار کرد که با حالتهای سر، حرکت، حالات چهره و همگامسازی دقیق لب صحبت کند و آواز بخواند.
ابزار تولید پرتره-ویدیویی مبتنی بر صدا
در گزارش خود، "EMO: Emote Portrait Alive: تولید ویدئوهای پرتره بیانگر با مدل انتشار صوتی 2 ویدئو در شرایط ضعیف،" محققان اطلاعاتی در مورد ابزار جدید، عملکردهای آن و نحوه استفاده از آن برای نتایج عالی ارائه دهید.
با استفاده از ابزار هوش مصنوعی ساخت پرتره مبتنی بر صدا، کاربران می توانند ویدیوهای آواتار آوازی را با حالات چهره ایجاد کنند. به گفته محققان، این ابزار به آنها اجازه میدهد فیلمهایی با هر مدت زمان «بسته به طول صدای ورودی» ایجاد کنند.
محققان میگویند: «یک تصویر شخصیت و یک صدای صوتی مانند آواز را وارد کنید، و روش ما میتواند ویدیوهای آواتار آوازی را با حالات بیانی چهره و حالتهای مختلف سر ایجاد کند.»
روش ما از آهنگها به زبانهای مختلف پشتیبانی میکند و سبکهای پرتره متنوع را زنده میکند. این به طور مستقیم تغییرات تونال را در صدا تشخیص میدهد و امکان تولید آواتارهای پویا و غنی از بیان را فراهم میکند.
همچنین بخوانید: OpenAI مدعی است که نیویورک تایمز ChatGPT را "هک" کرده است تا پرونده حق نسخه برداری ایجاد کند.
صحبت کردن، آواز خواندن از روی یک پرتره
به گفته محققان، ابزار مجهز به هوش مصنوعی نه تنها موسیقی را پردازش می کند، بلکه صدای گفتاری به زبان های مختلف را نیز در خود جای می دهد.
محققان میگویند: «بهعلاوه، روش ما این قابلیت را دارد که پرترههای دورههای گذشته، نقاشیها، و مدلهای سهبعدی و محتوای تولید شده توسط هوش مصنوعی را متحرک کند، و آنها را با حرکت واقعی و واقعگرایی القا کند».
اما این موضوع اونجا تموم نمیشه. کاربران همچنین میتوانند با پرترهها و تصاویر ستارههای سینما که مونولوگها یا اجراهایی را به سبکها و زبانهای مختلف ارائه میکنند، بازی کنند.
برخی از علاقه مندان به هوش مصنوعی که به پلتفرم X روی آوردند، آن را «ذهنانگیز» توصیف کردند.
2. مونالیزا در حال صحبت با شکسپیر pic.twitter.com/26k29aAz1P
— مین چوی (@minchoi) فوریه 28، 2024
نازک شدن مرز بین واقعی و هوش مصنوعی
اخبار ابزار EMO توسط علی بابا باعث شده دیگر کاربران فکر کنند که مرز بین هوش مصنوعی و واقعیت در حال از بین رفتن است زیرا شرکت های فناوری به عرضه محصولات جدید ادامه می دهند.
"لبه بین هوش مصنوعی و واقعی باریک تر از همیشه است." روبن ارسال کرد در X، در حالی که دیگران فکر می کنند TikTok به زودی غرق در خلقت خواهد شد.
این اولین بار است که چنین نتیجه دقیق و واقعی را می بینم. هوش مصنوعی ویدیویی امسال وعده می دهد که قابل اعتماد باشد پل کاورت.
در حالی که دیگران فکر می کنند این می تواند یک تغییر بازی برای خلاقان باشد، مین چوی نیز در مورد آن محتاط است.
"امیدوارم فقط برای چیزهای خلاقانه. این می تواند در دستان اشتباه خطرناک باشد.»
با استفاده از ابزار
در توضیح این فرآیند، محققان تاکید کردند که چارچوب EMO دارای دو مرحله است، اولین مرحله به نام Frames Encoding، جایی که ReferenceNet برای استخراج ویژگیها از تصاویر مرجع و فریمهای حرکتی مستقر میشود.
مرحله بعدی مرحله فرآیند انتشار است، که در آن یک رمزگذار صوتی از پیش آموزش دیده "جاسازی صدا را پردازش می کند." برای ایجاد تصاویر بی نقص از چهره، کاربران ماسک های ناحیه صورت و نویز چند فریم را ادغام می کنند.
در بخشی از توضیح آمده است: «این مکانیسمها به ترتیب برای حفظ هویت شخصیت و تعدیل حرکات شخصیت ضروری هستند.
علاوه بر این، ماژول های زمانی برای دستکاری بعد زمانی و تنظیم حرکت سرعت مورد استفاده قرار می گیرند.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://metanews.com/the-mona-lisa-can-now-talk-thanks-to-emo/
- : دارد
- :است
- :نه
- :جایی که
- 12
- 28
- 3d
- a
- درباره ما
- در مورد IT
- جای می گیرد
- مطابق
- دقیق
- اضافه کردن
- AI
- مجهز به هوش مصنوعی
- علی بابا
- گروه علیبابا
- زنده
- اجازه می دهد تا
- همچنین
- an
- و
- تحریک و تشجیع کردن
- هر
- هستند
- دور و بر
- AS
- At
- سمعی
- نماد
- آواتار ها
- BE
- بهتر
- میان
- هر دو
- مرز
- به ارمغان می آورد
- اما
- by
- CAN
- قابلیت
- محتاط
- صراف
- شخصیت
- GPT چت
- ادعای
- محاسبه
- شرایط
- محتوا
- ادامه دادن
- حق چاپ
- میتوانست
- ایجاد
- خلاقیت
- خالق
- خلاقیت ها
- قابل اعتماد
- da
- خطرناک
- تحویل
- مستقر
- شرح داده شده
- توسعه
- توسعه
- مختلف
- انتشار
- بعد
- ناپدید می شوند
- مختلف
- میکند
- مدت
- پویا
- لبه
- تعبیه کردن
- را قادر می سازد
- را قادر می سازد
- پشتیبانی می کند
- پایان
- علاقه مندان
- ضروری است
- تا کنون
- توضیح
- اصطلاحات
- رسا
- عصاره
- چهره
- معروف
- امکانات
- شرکت ها
- نام خانوادگی
- بار اول
- آب گرفتگی
- برای
- چارچوب
- از جانب
- توابع
- بازی
- تغییر دهنده ی بازی
- تولید می کنند
- مولد
- نسل
- GitHub
- دادن
- گروه
- دست ها
- آیا
- سر
- او
- زیاد
- برجسته
- چگونه
- چگونه
- HTTPS
- i
- هویت
- تصویر
- تصاویر
- in
- ورودی
- بینش
- موسسه
- ادغام
- هوشمند
- IT
- ITS
- JPG
- تنها
- شناخته شده
- زبان ها
- طول
- زندگی
- واقعی
- پسندیدن
- ساخته
- ساخت
- ماسک
- حداکثر عرض
- مکانیسم
- روش
- دقیقه
- مدل
- مدل
- ماژول ها
- حرکت
- جنبش ها
- سینما
- موسیقی
- جدید
- محصولات جدید
- نیویورک
- نیویورک تایمز
- بعد
- سر و صدا
- اکنون
- of
- قدیمی
- on
- ONE
- فقط
- or
- دیگر
- دیگران
- ما
- نقاشی
- بخش
- کامل
- اجرای
- سکو
- افلاطون
- هوش داده افلاطون
- PlatoData
- بازی
- تصویر
- پرتره
- به شمار
- دقیق
- حفظ کردن
- روند
- محصولات
- وعده
- خواندن
- واقعی
- واقع گرایی
- واقع بینانه
- واقعیت
- به رسمیت می شناسد
- مرجع
- منطقه
- گزارش
- محققان
- به ترتیب
- نتیجه
- نتایج
- سعید
- مشاهده گردید
- تنها
- بزودی
- گفته شده
- صحنه
- مراحل
- ستاره
- هنوز
- چنین
- پشتیبانی از
- همگام سازی
- صحبت
- سخنگو
- فن آوری
- نسبت به
- با تشکر
- که
- La
- نیویورک تایمز
- شان
- آنها
- آنجا.
- اشیاء
- فکر می کنم
- این
- در این سال
- زمان
- بار
- به
- در زمان
- ابزار
- درست
- توییتر
- دو
- زیر
- رها کردن
- استفاده کنید
- کاربران
- با استفاده از
- استفاده
- تغییرات
- مختلف
- VeloCity
- تصویری
- فیلم های
- آواز
- ضعیف
- که
- در حین
- WHO
- اراده
- با
- اشتباه
- دست های اشتباه
- X
- سال
- نیویورک
- زفیرنت