অবতারের জন্য রিয়েল টাইম ফেসিয়াল অ্যানিমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

অবতারদের জন্য রিয়েল টাইম ফেসিয়াল অ্যানিমেশন

মুখের অভিব্যক্তি প্রাকৃতিক এবং বিশ্বাসযোগ্য অবতার মিথস্ক্রিয়াগুলির মাধ্যমে মেটাভার্সকে মানুষের দৈনন্দিন জীবনের একটি অংশ করার দিকে রবলক্সের অগ্রযাত্রার একটি গুরুত্বপূর্ণ পদক্ষেপ। যাইহোক, রিয়েল টাইমে ভার্চুয়াল 3D চরিত্রের মুখগুলি অ্যানিমেট করা একটি বিশাল প্রযুক্তিগত চ্যালেঞ্জ। অসংখ্য গবেষণার অগ্রগতি সত্ত্বেও, রিয়েল-টাইম ফেসিয়াল অ্যানিমেশন অ্যাপ্লিকেশনের সীমিত বাণিজ্যিক উদাহরণ রয়েছে। এটি Roblox-এ বিশেষভাবে চ্যালেঞ্জিং, যেখানে আমরা আমাদের ডেভেলপারদের কাছ থেকে ব্যবহারকারী ডিভাইস, বাস্তব-বিশ্বের অবস্থা এবং অত্যন্ত সৃজনশীল ব্যবহারের ক্ষেত্রে একটি চকচকে অ্যারে সমর্থন করি।

অবতারের জন্য রিয়েল টাইম ফেসিয়াল অ্যানিমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

অবতারের জন্য রিয়েল টাইম ফেসিয়াল অ্যানিমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

এই পোস্টে, আমরা ভিডিও থেকে মুখের অ্যানিমেশন নিয়ন্ত্রণগুলিকে রিগ্রেস করার জন্য একটি গভীর শিক্ষার কাঠামো বর্ণনা করব যা উভয়ই এই চ্যালেঞ্জগুলিকে মোকাবেলা করে এবং আমাদেরকে ভবিষ্যতের অনেক সুযোগের জন্য উন্মুক্ত করে। এই ব্লগ পোস্টে বর্ণিত কাঠামোটি একটি হিসাবেও উপস্থাপন করা হয়েছিল আলাপ at SIGGRAPH 2021.

ফেসিয়াল অ্যানিমেশন

একটি 3D ফেস-রিগ নিয়ন্ত্রণ এবং অ্যানিমেট করার জন্য বিভিন্ন বিকল্প রয়েছে৷ আমরা যেটি ব্যবহার করি তাকে বলা হয় ফেসিয়াল অ্যাকশন কোডিং সিস্টেম বা FACS, যা 3D ফেস মেশকে বিকৃত করার জন্য নিয়ন্ত্রণের একটি সেট (মুখের পেশী বসানোর উপর ভিত্তি করে) সংজ্ঞায়িত করে। 40 বছরের বেশি বয়সী হওয়া সত্ত্বেও, FACS নিয়ন্ত্রণগুলি স্বজ্ঞাত এবং রিগগুলির মধ্যে সহজে স্থানান্তরযোগ্য হওয়ার কারণে FACS এখনও ডি ফ্যাক্টো স্ট্যান্ডার্ড। একটি FACS রিগ ব্যায়াম করা হচ্ছে একটি উদাহরণ নীচে দেখা যেতে পারে.

অবতারের জন্য রিয়েল টাইম ফেসিয়াল অ্যানিমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

পদ্ধতি

ধারণাটি হল আমাদের গভীর শিক্ষা-ভিত্তিক পদ্ধতিতে একটি ভিডিওকে ইনপুট হিসাবে নেওয়া এবং প্রতিটি ফ্রেমের জন্য FACS-এর একটি সেট আউটপুট করা। এটি অর্জনের জন্য, আমরা একটি দুটি পর্যায়ের আর্কিটেকচার ব্যবহার করি: মুখ সনাক্তকরণ এবং FACS রিগ্রেশন।

অবতারের জন্য রিয়েল টাইম ফেসিয়াল অ্যানিমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

মুখ সনাক্তকরণ

সেরা কর্মক্ষমতা অর্জনের জন্য, আমরা তুলনামূলকভাবে সুপরিচিত MTCNN ফেস ডিটেকশন অ্যালগরিদমের একটি দ্রুত বৈকল্পিক প্রয়োগ করি। আসল MTCNN অ্যালগরিদম বেশ নির্ভুল এবং দ্রুত কিন্তু আমাদের ব্যবহারকারীদের দ্বারা ব্যবহৃত অনেক ডিভাইসে রিয়েল-টাইম ফেস ডিটেকশন সমর্থন করার জন্য যথেষ্ট দ্রুত নয়। এইভাবে এটি সমাধান করার জন্য আমরা আমাদের নির্দিষ্ট ব্যবহারের ক্ষেত্রে অ্যালগরিদম টুইক করেছি যেখানে একবার একটি মুখ সনাক্ত করা হলে, আমাদের MTCNN বাস্তবায়ন শুধুমাত্র ক্রমাগত ফ্রেমে চূড়ান্ত O-Net পর্যায় চালায়, যার ফলে গড় 10x গতি বৃদ্ধি পায়। আমরা পরবর্তী রিগ্রেশন স্টেজের আগে ফেস বাউন্ডিং বক্স সারিবদ্ধ করার জন্য MTCNN দ্বারা ভবিষ্যদ্বাণী করা মুখের ল্যান্ডমার্ক (চোখ, নাক এবং মুখের কোণগুলির অবস্থান) ব্যবহার করি। এই প্রান্তিককরণটি FACS রিগ্রেশন নেটওয়ার্কের গণনা হ্রাস করে ইনপুট চিত্রগুলির একটি শক্ত ক্রপ করার অনুমতি দেয়।

অবতারের জন্য রিয়েল টাইম ফেসিয়াল অ্যানিমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

FACS রিগ্রেশন 

আমাদের FACS রিগ্রেশন আর্কিটেকচার একটি মাল্টিটাস্ক সেটআপ ব্যবহার করে যা ফিচার এক্সট্র্যাক্টর হিসেবে শেয়ার্ড ব্যাকবোন (এনকোডার নামে পরিচিত) ব্যবহার করে ল্যান্ডমার্ক এবং FACS ওজনকে সহ-প্রশিক্ষণ দেয়।

এই সেটআপটি আমাদের মুখের অভিব্যক্তির সূক্ষ্মতাগুলিকে ক্যাপচার করে এমন বাস্তব চিত্রগুলির সাথে সিন্থেটিক অ্যানিমেশন সিকোয়েন্স থেকে শেখা FACS ওজনকে বৃদ্ধি করতে দেয়৷ FACS রিগ্রেশন সাব-নেটওয়ার্ক যা ল্যান্ডমার্ক রিগ্রেসর ব্যবহার করে পাশাপাশি প্রশিক্ষিত কারণগত convolutions; এই কনভোলিউশনগুলি সময়ের সাথে সাথে বৈশিষ্ট্যগুলির উপর কাজ করে যা এনকোডারে পাওয়া যায় এমন স্থানিক বৈশিষ্ট্যগুলির উপর কাজ করে এমন কনভোলিউশনগুলির বিপরীতে। এটি মডেলটিকে মুখের অ্যানিমেশনগুলির অস্থায়ী দিকগুলি শিখতে দেয় এবং এটিকে জিটারের মতো অসঙ্গতির প্রতি কম সংবেদনশীল করে তোলে।

অবতারের জন্য রিয়েল টাইম ফেসিয়াল অ্যানিমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

প্রশিক্ষণ

আমরা প্রাথমিকভাবে বাস্তব এবং সিন্থেটিক উভয় ইমেজ ব্যবহার করে শুধুমাত্র ল্যান্ডমার্ক রিগ্রেশনের জন্য মডেলকে প্রশিক্ষণ দিই। নির্দিষ্ট সংখ্যক ধাপের পর আমরা টেম্পোরাল FACS রিগ্রেশন সাবনেটওয়ার্কের ওজন শিখতে সিন্থেটিক সিকোয়েন্স যোগ করা শুরু করি। সিন্থেটিক অ্যানিমেশন সিকোয়েন্সগুলি আমাদের শিল্পী এবং প্রকৌশলীদের আন্তঃবিভাগীয় দল দ্বারা তৈরি করা হয়েছিল। সমস্ত ভিন্ন পরিচয়ের (মুখের জাল) জন্য ব্যবহৃত একটি স্বাভাবিক রগ আমাদের শিল্পী দ্বারা সেট আপ করা হয়েছিল যা FACS ওজন ধারণকারী অ্যানিমেশন ফাইলগুলি ব্যবহার করে স্বয়ংক্রিয়ভাবে অনুশীলন এবং রেন্ডার করা হয়েছিল। এই অ্যানিমেশন ফাইলগুলি ফেস-ক্যালিসথেনিক ভিডিও সিকোয়েন্সে চলমান ক্লাসিক কম্পিউটার ভিশন অ্যালগরিদম ব্যবহার করে তৈরি করা হয়েছিল এবং ক্যালিসথেনিক ভিডিওগুলি থেকে অনুপস্থিত চরম মুখের অভিব্যক্তিগুলির জন্য হ্যান্ড-অ্যানিমেটেড সিকোয়েন্সগুলির সাথে সম্পূরক। 

লোকসান

আমাদের গভীর শিক্ষার নেটওয়ার্ককে প্রশিক্ষিত করার জন্য, আমরা ল্যান্ডমার্ক এবং FACS ওজনগুলি রিগ্রেস করার জন্য রৈখিকভাবে বিভিন্ন ক্ষতির পদগুলিকে একত্রিত করি: 

  • অবস্থানগত ক্ষতি ল্যান্ডমার্কের জন্য, রিগ্রেসড পজিশনের RMSE (Llmks ), এবং FACS ওজনের জন্য, MSE (Lfacs ). 
  • টেম্পোরাল লস। FACS ওজনের জন্য, আমরা সিন্থেটিক অ্যানিমেশন সিকোয়েন্সের উপর অস্থায়ী ক্ষতি ব্যবহার করে জিটার কম করি। একটি বেগ হ্রাস (এলv ) দ্বারা অনুপ্রাণিত [চুদেইরো এট আল। 2019] হল লক্ষ্য এবং পূর্বাভাসিত বেগের মধ্যে MSE। এটি গতিশীল অভিব্যক্তির সামগ্রিক মসৃণতাকে উৎসাহিত করে। উপরন্তু, ত্বরণের উপর একটি নিয়মিতকরণ শব্দ (Lএক্সেসরিজ ) FACS ওজনের ঝাঁকুনি কমাতে যোগ করা হয়েছে (প্রতিক্রিয়াশীলতা রক্ষা করার জন্য এর ওজন কম রাখা হয়েছে)। 
  • সামঞ্জস্য হারান। আমরা একটি তত্ত্বাবধান না করা ধারাবাহিকতা ক্ষতিতে টীকা ছাড়াই বাস্তব চিত্রগুলি ব্যবহার করি (এলc ), অনুরূপ, একই, সমতুল্য [হনারি এট আল। 2018]। এটি বিভিন্ন ইমেজ ট্রান্সফরমেশনের অধীনে ল্যান্ডমার্ক ভবিষ্যদ্বাণীগুলিকে সমতুল্য হতে উত্সাহিত করে, প্রশিক্ষণের চিত্রগুলির একটি উপসেটের জন্য ল্যান্ডমার্ক লেবেলের প্রয়োজন ছাড়াই ফ্রেমের মধ্যে ল্যান্ডমার্ক অবস্থানের সামঞ্জস্যতা উন্নত করে৷

সম্পাদন

নির্ভুলতা কমানো বা ঝাঁকুনি না বাড়িয়ে এনকোডারের কার্যকারিতা উন্নত করতে, আমরা বৈশিষ্ট্য মানচিত্রের আকার হ্রাস করতে বেছে বেছে আনপ্যাড করা কনভোল্যুশন ব্যবহার করেছি। এটি আমাদের ফিচার ম্যাপের আকারের উপর স্ট্রাইডেড কনভোলিউশনের চেয়ে বেশি নিয়ন্ত্রণ দিয়েছে। অবশিষ্টাংশ বজায় রাখার জন্য, আমরা একটি আনপ্যাডেড কনভোলিউশনের আউটপুটে যোগ করার আগে বৈশিষ্ট্য মানচিত্রটিকে টুকরো টুকরো করে ফেলি। উপরন্তু, AVX এবং Neon FP8-এর মতো ভেক্টর ইন্সট্রাকশন সেটের সাথে দক্ষ মেমরি ব্যবহারের জন্য, আমরা বৈশিষ্ট্য মানচিত্রের গভীরতা 16-এর একাধিকতে সেট করেছি এবং এর ফলে 1.5x কর্মক্ষমতা বৃদ্ধি পায়।

আমাদের চূড়ান্ত মডেলটিতে 1.1 মিলিয়ন প্যারামিটার রয়েছে এবং কার্যকর করার জন্য 28.1 মিলিয়ন গুন-জমা প্রয়োজন। রেফারেন্সের জন্য, ভ্যানিলা মোবাইলনেট V2 (যার উপর ভিত্তি করে আমাদের আর্কিটেকচার) কার্যকর করার জন্য 300 মিলিয়ন গুন-জমা প্রয়োজন। আমরা ব্যবহার করি এনসিএনএন অন-ডিভাইস মডেল অনুমানের জন্য ফ্রেমওয়ার্ক এবং ভিডিওর একটি ফ্রেমের জন্য একক থ্রেডেড এক্সিকিউশন সময় (মুখ সনাক্তকরণ সহ) নীচের সারণীতে তালিকাভুক্ত করা হয়েছে। দয়া করে মনে রাখবেন 16ms এর একটি এক্সিকিউশন টাইম প্রতি সেকেন্ডে 60 ফ্রেম প্রক্রিয়াকরণ সমর্থন করবে (FPS)। 

অবতারের জন্য রিয়েল টাইম ফেসিয়াল অ্যানিমেশন PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

এরপর কি

আমাদের সিন্থেটিক ডেটা পাইপলাইন আমাদের প্রশিক্ষিত মডেলের অভিব্যক্তি এবং দৃঢ়তাকে পুনরাবৃত্তিমূলকভাবে উন্নত করতে দেয়। আমরা মিস করা অভিব্যক্তিগুলির প্রতিক্রিয়াশীলতা উন্নত করার জন্য সিন্থেটিক সিকোয়েন্স যোগ করেছি, এবং বিভিন্ন মুখের পরিচয় জুড়ে সুষম প্রশিক্ষণও। আমরা আমাদের আর্কিটেকচারের সাময়িক ফর্মুলেশন এবং ক্ষতি, একটি সাবধানে অপ্টিমাইজ করা ব্যাকবোন এবং সিন্থেটিক ডেটা থেকে ত্রুটিমুক্ত গ্রাউন্ড-ট্রুথের কারণে ন্যূনতম গণনা সহ উচ্চ-মানের অ্যানিমেশন অর্জন করি। FACS ওয়েটস সাবনেটওয়ার্কে সম্পাদিত টেম্পোরাল ফিল্টারিং আমাদের ঝাঁকুনি না বাড়িয়ে মেরুদণ্ডের স্তরগুলির সংখ্যা এবং আকার কমাতে দেয়। তত্ত্বাবধান না করা সামঞ্জস্যতা হারানোর ফলে আমাদের মডেলের সাধারণীকরণ এবং দৃঢ়তা উন্নত করে প্রকৃত ডেটার একটি বড় সেট দিয়ে প্রশিক্ষণ দেওয়া যায়। আমরা আমাদের মডেলগুলিকে আরও পরিমার্জিত এবং উন্নত করার জন্য কাজ চালিয়ে যাচ্ছি, যাতে আরও বেশি অভিব্যক্তিপূর্ণ, ঝাঁকুনি-মুক্ত এবং শক্তিশালী ফলাফল পাওয়া যায়। 

আপনি যদি রিয়েল-টাইম ফেসিয়াল ট্র্যাকিং এবং মেশিন লার্নিং-এর সামনের অংশে অনুরূপ চ্যালেঞ্জগুলিতে কাজ করতে আগ্রহী হন, অনুগ্রহ করে আমাদের কিছু পরীক্ষা করে দেখুন খোলা অবস্থান আমাদের দলের সাথে।

পোস্টটি অবতারদের জন্য রিয়েল টাইম ফেসিয়াল অ্যানিমেশন প্রথম দেখা রবলাক্স ব্লগ.

সময় স্ট্যাম্প:

থেকে আরো Roblox