ব্যবহারকারীরা মাইক্রোসফটের ইমেজ টু ভিডিও টুল-ভাসা-এর দ্বারা মুগ্ধ

ব্যবহারকারীরা মাইক্রোসফটের ইমেজ টু ভিডিও টুল-ভাসা-এর দ্বারা মুগ্ধ

ব্যবহারকারীরা মাইক্রোসফটের ইমেজ টু ভিডিও টুল - VASA- PlatoBlockchain ডেটা ইন্টেলিজেন্স দ্বারা প্ররোচিত। উল্লম্ব অনুসন্ধান. আ.

AI আধিপত্যের দৌড় অব্যাহত থাকায়, মাইক্রোসফ্ট এখন তার সর্বশেষ টুল, VASA-1 এর মাধ্যমে মানুষের প্রতিকৃতি ছবিকে কথা বলার মুখ বা ভিডিওতে রূপান্তর করতে চায়।

টেক জায়ান্টের একটি গবেষণা পত্র অনুসারে, মাইক্রোসফ্ট এআই রেসকে অন্য স্তরে নিয়ে যাচ্ছে ভাসা 1, ভিজ্যুয়াল অ্যাফেক্টিভ স্কিল (VAS) সহ ভার্চুয়াল চরিত্রগুলির প্রাণবন্ত কথা বলা মুখগুলি তৈরি করার কাঠামো, সবই একটি প্রতিকৃতি থেকে।

এছাড়াও পড়ুন: ভিডিও গেম ইন্ডাস্ট্রি রাশ AI ওভার ইউনিয়নাইজ করতে

প্রতিকৃতি থেকে কথা বলা মুখ

যদিও এটি এখনও জনসাধারণের জন্য উপলব্ধ নয়, টুলটি একটি একক প্রতিকৃতি ফটো এবং বক্তৃতা অডিও নেয় এবং সুনির্দিষ্ট ঠোঁট-অডিও সিঙ্ক, প্রাণবন্ত মুখের আচরণ এবং রিয়েল-টাইমে উত্পন্ন প্রাকৃতিক মাথার নড়াচড়া সহ একটি হাইপার-রিয়ালিস্টিক কথা বলার মুখের ভিডিও তৈরি করে।

টুলটি এখনও মাইক্রোসফ্ট রিসার্চ টিমের সাথে রিসার্চ প্রিভিউ পর্যায়ে রয়েছে এবং ডেমো ভিডিওগুলি "চিত্তাকর্ষক দেখায়।"

যদিও Nvidia এবং Runway-এর মতো কোম্পানিগুলির ইতিমধ্যেই একই রকম মাথার নড়াচড়া এবং ঠোঁট সিঙ্ক প্রযুক্তি রয়েছে, VASA-1 মনে হচ্ছে "অনেক উচ্চ মানের এবং বাস্তববাদের" যা মুখের শিল্পকর্মকে হ্রাস করে। টম এর গাইড.

অতিরিক্তভাবে, অডিও চালিত অ্যানিমেশনের এই পদ্ধতিটিও সাম্প্রতিকের মতো ভ্লগার এআই গুগল রিসার্চ দ্বারা মডেল।

মাইক্রোসফ্টের মতে, যদিও প্রদর্শনের উদাহরণের সমস্ত চিত্রগুলি ডাল-ই দ্বারা তৈরি সিন্থেটিক, VASA-1 এখনও একটি বাস্তব চিত্রকে অ্যানিমেট করতে পারে।

ডেমো দেখায় যে বিভিন্ন লোক প্রায় স্বাভাবিক নড়াচড়া, মুখের অভিব্যক্তি, চোখের নড়াচড়ার সাথে কথা বলছে "অন্যান্য সরঞ্জামগুলিতে মুখের উপরে এবং নীচের চারপাশে কোনও শিল্পকর্ম দেখা যায় না।"

এটি কাজ করার জন্য একটি মুখ-ফরোয়ার্ড পোর্ট্রেট শৈলী ইমেজ প্রয়োজন হয় না.

ভাসা-১ এর লোকজন কথা বলেছে

ইতিমধ্যেই, AI উত্সাহীরা X প্ল্যাটফর্মে এটিকে "বন্য" এবং "উন্মাদ" হিসাবে বর্ণনা করা প্রযুক্তি দ্বারা হতবাক বলে মনে হচ্ছে।

"প্রতিটি প্রকাশের মধ্যে আমরা যে উন্নতি পাচ্ছি তা অবিশ্বাস্য," বলেছেন লিনাস একেনস্টাম।

অন্যরা মনে করেন যে বিশ্ব "মিডিয়া বিষয়বস্তু তৈরির উপায়ে ভূমিকম্পের পরিবর্তন" এবং কীভাবে এটি ব্যবহার করা হয় তা প্রত্যক্ষ করছে।

স্যাম নামে পরিচিত আরেকজন উত্সাহী বলেছেন, "এটি মন ছুঁয়ে যাওয়া, বাস্তববাদটি শীর্ষস্থানীয়।"

যদিও অন্যরা এই টুলটির ক্ষমতাকে চিনতে পারে, তারা মনে করে যে মাইক্রোসফটের পক্ষ থেকে এমন একটি টুল প্রবর্তন করা একটু দায়িত্বজ্ঞানহীন কাজ যা সহজেই ব্যবহার করা যেতে পারে। নির্বাচন deepfakes.

"নির্বাচনের আগে এই অধিকার বাদ দিতে চাই," লিখেছেন এক্স প্ল্যাটফর্মে রোয়ান চেউং।

অন্য ব্যবহারকারী ইভান কার্স্টেল একটি কঠোর সতর্কতা সহ মন্তব্য করেছেন: "মাইক্রোসফ্ট রিসার্চের VASA-1 একটি গেম-চেঞ্জার, শুধুমাত্র একটি ফটো এবং অডিও থেকে হাইপার-রিয়ালিস্টিক এআই-জেনারেটেড ভিডিও তৈরি করে।"

"ক্লাসিক সিনেমার কিংবদন্তি পুনরুজ্জীবিত করা থেকে ব্যক্তিগতকৃত মিডিয়া পর্যন্ত সম্ভাবনাগুলি অফুরন্ত। তবে আসুন গভীর নকল ঝুঁকি সম্পর্কে সতর্ক থাকি।"

ইতিমধ্যেই, বিশ্ব নির্বাচনী ডিপফেকের প্রবাহ দেখেছে যেখানে প্রচার প্রচারের জন্য এআই ব্যবহার করে রাজনীতিবিদদের কণ্ঠস্বর বা ছবি ব্যবহার করা হয়েছে। বিশ্ব জনসংখ্যার প্রায় এক-তৃতীয়াংশ এই বছর নির্বাচনে যাচ্ছে।

যাইহোক, মাইক্রোসফ্টের গবেষকরা ইঙ্গিত করেছেন যে এটি শুধুমাত্র প্রদর্শনের জন্য এবং বর্তমানে একটি পাবলিক রিলিজ বা বিকাশকারীদের জন্য এটি উপলব্ধ করার কোন পরিকল্পনা নেই।

VASA-1 কিভাবে কাজ করে?

টমস গাইড অনুসারে, গবেষকরা নিজেরাই মডেলের "একটি গানের সাথে পুরোপুরি ঠোঁট-সিঙ্ক করার ক্ষমতায় অবাক হয়েছেন, প্রশিক্ষণ ডেটাসেটে কোনও সঙ্গীত ব্যবহার না হওয়া সত্ত্বেও গায়কের কথাগুলিকে সমস্যা ছাড়াই প্রতিফলিত করে।"

উপরন্তু, VASA-1 বিখ্যাত ছবির মতো ঐতিহাসিক প্রতিকৃতি সহ বিভিন্ন চিত্র শৈলী পরিচালনা করে মোনালিসা.

টুলটি তার উন্নত লিপ-সিঙ্ক ক্ষমতার পিছনে গেমিংয়ে ব্যবহার করা যেতে পারে। বিশেষজ্ঞরা বলেছেন, এটি নিমজ্জনের জন্য একটি গেম চেঞ্জার হতে পারে।

অতিরিক্তভাবে, প্রযুক্তিটি সোশ্যাল মিডিয়া ভিডিওগুলির জন্য অবতার তৈরিতে সহায়ক হতে পারে, যেমনটি সিন্থেসিয়া এবং হেজেনের মতো সংস্থাগুলির ক্ষেত্রে।

AI-ভিত্তিক চলচ্চিত্র এবং মিউজিক ভিডিও নির্মাণগুলি আরও বাস্তবসম্মত ভিডিওর জন্য VASA-1 প্রযুক্তির সুবিধা নিতে পারে।

ওপেনএআই-তে মাইক্রোসফটের অংশীদারিত্ব থাকার সম্ভাবনা রয়েছে, VASA-1 একটি "ভবিষ্যত কপিলট" এর অংশ হতে পারে Sora, মিশ্রণ."

সময় স্ট্যাম্প:

থেকে আরো মেটানিউজ