মেটার নতুন এআই একটি চিত্রের যেকোনো বস্তুকে বাছাই করতে এবং কাটতে পারে-এমনকি যা আগে কখনও দেখা যায়নি

মেটার নতুন এআই একটি চিত্রের যেকোনো বস্তুকে বাছাই করতে এবং কাটতে পারে-এমনকি যা আগে কখনও দেখা যায়নি

মেটার নতুন এআই একটি চিত্রের যেকোনো বস্তুকে বেছে নিতে এবং কাটতে পারে—এমনকি এমনকী যা প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের আগে কখনও দেখা যায়নি। উল্লম্ব অনুসন্ধান. আ.

একটি ভিজ্যুয়াল দৃশ্যে পৃথক বস্তু বাছাই করা আমাদের কাছে স্বজ্ঞাত বলে মনে হয়, তবে মেশিনগুলি এই কাজের সাথে লড়াই করে। এখন মেটা থেকে একটি নতুন এআই মডেল একটি অবজেক্ট কী সে সম্পর্কে একটি বিস্তৃত ধারণা তৈরি করেছে, এটি আগে কখনও না দেখলেও বস্তুগুলিকে আলাদা করতে দেয়।

এটি একটি মোটামুটি প্রসাইক কম্পিউটার ভিশন টাস্ক বলে মনে হতে পারে, কিন্তু একটি ইমেজ পার্স করতে এবং একটি বস্তু যেখানে শেষ হয় এবং অন্যটি শুরু হয় সেখানে কাজ করতে সক্ষম হওয়া একটি চমত্কার মৌলিক দক্ষতা, যা ছাড়া আরও জটিল কাজগুলি অমীমাংসিত হবে৷

"অবজেক্ট সেগমেন্টেশন" নতুন কিছু নয়; এআই গবেষকরা কয়েক বছর ধরে এটি নিয়ে কাজ করেছেন। কিন্তু সাধারণত, এই মডেলগুলি তৈরি করা একটি সময়সাপেক্ষ প্রক্রিয়া যা ইমেজগুলির প্রচুর মানবিক টীকা এবং যথেষ্ট কম্পিউটিং সংস্থান প্রয়োজন। এবং সাধারণত ফলস্বরূপ মডেলগুলি বিশেষ ব্যবহারের ক্ষেত্রে অত্যন্ত বিশেষায়িত ছিল।

এখন যদিও, মেটার গবেষকরা সেগমেন্ট এনিথিং মডেল (এসএএম) উন্মোচন করেছেন, যা যে কোনও দৃশ্যে যে কোনও বস্তুকে কেটে ফেলতে সক্ষম, এটি আগে এর মতো কিছু দেখা হোক না কেন। টেক্সট বর্ণনা থেকে শুরু করে মাউস ক্লিক বা এমনকি আই-ট্র্যাকিং ডেটা পর্যন্ত বিভিন্ন ধরনের প্রম্পটের প্রতিক্রিয়ায় মডেলটি এটি করতে পারে।

"SAM বস্তুগুলি কী তা সম্পর্কে একটি সাধারণ ধারণা শিখেছে এবং এটি যে কোনও চিত্র বা কোনও ভিডিওতে যে কোনও বস্তুর জন্য মুখোশ তৈরি করতে পারে," গবেষকরা লিখেছেন একটি ব্লগ পোস্ট. "আমরা বিশ্বাস করি সম্ভাবনাগুলি বিস্তৃত, এবং আমরা এখনও কল্পনাও করিনি এমন অনেক সম্ভাব্য ব্যবহারের ক্ষেত্রে আমরা উত্তেজিত।"

মডেলটির বিকাশের চাবিকাঠি ছিল 1.1 বিলিয়ন সেগমেন্টেশন মাস্কের একটি বিশাল নতুন ডেটাসেট, যা একটি চিত্রের অঞ্চলগুলিকে বোঝায় যেগুলিকে বিচ্ছিন্ন এবং টীকা করা হয়েছে তা বোঝানোর জন্য যে সেগুলিতে একটি নির্দিষ্ট বস্তু রয়েছে৷ এটি ইমেজ এবং স্বয়ংক্রিয় প্রক্রিয়াগুলির ম্যানুয়াল মানব টীকাগুলির সংমিশ্রণের মাধ্যমে তৈরি করা হয়েছিল এবং এটি এখন পর্যন্ত একত্রিত এই ধরণের বৃহত্তম সংগ্রহ।

এই ধরনের একটি বিশাল ডেটাসেটের উপর প্রশিক্ষণের মাধ্যমে, মেটার গবেষকরা বলছেন যে এটি একটি বস্তু কী তার একটি সাধারণ ধারণা তৈরি করেছে, যা এটি এমন জিনিসগুলিকে ভাগ করতে দেয় যা এটি আগে দেখেনি। সাধারণীকরণের এই ক্ষমতা গবেষকদের SAM কে একটি "ফাউন্ডেশন মডেল" হিসেবে অভিহিত করতে পরিচালিত করে বিতর্কিত শব্দ অন্যান্য বিশাল প্রাক-প্রশিক্ষিত মডেল যেমন বর্ণনা করতে ব্যবহৃত হয় OpenAI এর GPT সিরিজ, যার ক্ষমতা অনুমিতভাবে এত সাধারণ যে তারা অনেকগুলি অ্যাপ্লিকেশনের ভিত্তি হিসাবে ব্যবহার করা যেতে পারে।

ইমেজ সেগমেন্টেশন স্পষ্টভাবে কম্পিউটার ভিশন টাস্কের বিস্তৃত পরিসরে একটি মূল উপাদান। আপনি যদি একটি দৃশ্যের বিভিন্ন উপাদান আলাদা করতে না পারেন তবে এটির সাথে আরও জটিল কিছু করা কঠিন। তাদের ব্লগে, গবেষকরা বলেছেন যে এটি ভিডিও এবং চিত্র সম্পাদনায় অমূল্য প্রমাণিত হতে পারে বা বৈজ্ঞানিক চিত্র বিশ্লেষণে সহায়তা করতে পারে।

সম্ভবত কোম্পানির মেটাভার্স উচ্চাকাঙ্ক্ষার জন্য আরও প্রাসঙ্গিকভাবে, তারা ব্যবহারকারীর দৃষ্টির উপর ভিত্তি করে নির্দিষ্ট বস্তু নির্বাচন করতে ভার্চুয়াল রিয়েলিটি হেডসেটের সাথে কীভাবে এটি ব্যবহার করা যেতে পারে তার একটি ডেমো প্রদান করে। তারা আরও বলে যে এটি একটি ওয়েব পৃষ্ঠার ভিজ্যুয়াল এবং পাঠ্য উভয় বিষয়বস্তু বুঝতে সক্ষম একটি মাল্টি-মোডাল সিস্টেম তৈরি করতে একটি বড় ভাষার মডেলের সাথে যুক্ত করা যেতে পারে।

বিস্তৃত প্রম্পট মোকাবেলা করার ক্ষমতা সিস্টেমটিকে বিশেষভাবে নমনীয় করে তোলে। ক ওয়েব পেজ নতুন মডেলটিকে ডেমো করে, কোম্পানিটি দেখায় যে একটি চিত্র বিশ্লেষণ করার পরে নির্দিষ্ট বস্তুগুলিকে কেবলমাত্র একটি মাউস কার্সার দিয়ে ক্লিক করে, আপনি যা ভাগ করতে চান তা টাইপ করে, বা সম্পূর্ণ চিত্রটিকে বিভক্ত করে আলাদা করার জন্য অনুরোধ করা যেতে পারে। পৃথক বস্তু।

এবং সবচেয়ে গুরুত্বপূর্ণভাবে, কোম্পানিটি গবেষণার উদ্দেশ্যে মডেল এবং ডেটাসেট উভয়ই ওপেন-সোর্স করছে যাতে অন্যরা তাদের কাজ তৈরি করতে পারে। কোম্পানিটি তার LLaMA বৃহৎ-ভাষা মডেলের সাথে একই পদ্ধতি গ্রহণ করেছিল, যার ফলে এটি দ্রুত অনলাইন লিক এবং spurring a পরীক্ষার তরঙ্গ শখ এবং হ্যাকারদের দ্বারা।

এসএএম-এর সাথেও একই ঘটনা ঘটবে কিনা তা দেখা বাকি আছে, তবে যেকোনও উপায়ে এটি এআই গবেষণা সম্প্রদায়ের জন্য একটি উপহার যা গুরুত্বপূর্ণ কম্পিউটার দৃষ্টি সমস্যাগুলির একটি হোস্টে অগ্রগতি ত্বরান্বিত করতে পারে।

চিত্র ক্রেডিট: মেটা এআই

সময় স্ট্যাম্প:

থেকে আরো এককতা হাব