মেটার নতুন এআই একটি ছবিতে যেকোনো বস্তু বাছাই করতে এবং কাটতে পারে-এমনকি যা আগে কখনো দেখা যায়নি

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

মেটার নতুন এআই একটি চিত্রের যেকোনো বস্তুকে বেছে নিতে এবং কাটতে পারে—এমনকি এমনকী যা প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের আগে কখনও দেখা যায়নি। উল্লম্ব অনুসন্ধান. আ.

একটি ভিজ্যুয়াল দৃশ্যে পৃথক বস্তু বাছাই করা আমাদের কাছে স্বজ্ঞাত বলে মনে হয়, তবে মেশিনগুলি এই কাজের সাথে লড়াই করে। এখন মেটা থেকে একটি নতুন এআই মডেল একটি অবজেক্ট কী সে সম্পর্কে একটি বিস্তৃত ধারণা তৈরি করেছে, এটি আগে কখনও না দেখলেও বস্তুগুলিকে আলাদা করতে দেয়।

এটি একটি মোটামুটি প্রসাইক কম্পিউটার ভিশন টাস্ক বলে মনে হতে পারে, কিন্তু একটি ইমেজ পার্স করতে এবং একটি বস্তু যেখানে শেষ হয় এবং অন্যটি শুরু হয় সেখানে কাজ করতে সক্ষম হওয়া একটি চমত্কার মৌলিক দক্ষতা, যা ছাড়া আরও জটিল কাজগুলি অমীমাংসিত হবে৷

"অবজেক্ট সেগমেন্টেশন" নতুন কিছু নয়; এআই গবেষকরা কয়েক বছর ধরে এটি নিয়ে কাজ করেছেন। কিন্তু সাধারণত, এই মডেলগুলি তৈরি করা একটি সময়সাপেক্ষ প্রক্রিয়া যা ইমেজগুলির প্রচুর মানবিক টীকা এবং যথেষ্ট কম্পিউটিং সংস্থান প্রয়োজন। এবং সাধারণত ফলস্বরূপ মডেলগুলি বিশেষ ব্যবহারের ক্ষেত্রে অত্যন্ত বিশেষায়িত ছিল।

এখন যদিও, মেটার গবেষকরা সেগমেন্ট এনিথিং মডেল (এসএএম) উন্মোচন করেছেন, যা যে কোনও দৃশ্যে যে কোনও বস্তুকে কেটে ফেলতে সক্ষম, এটি আগে এর মতো কিছু দেখা হোক না কেন। টেক্সট বর্ণনা থেকে শুরু করে মাউস ক্লিক বা এমনকি আই-ট্র্যাকিং ডেটা পর্যন্ত বিভিন্ন ধরনের প্রম্পটের প্রতিক্রিয়ায় মডেলটি এটি করতে পারে।

"SAM বস্তুগুলি কী তা সম্পর্কে একটি সাধারণ ধারণা শিখেছে এবং এটি যে কোনও চিত্র বা কোনও ভিডিওতে যে কোনও বস্তুর জন্য মুখোশ তৈরি করতে পারে," গবেষকরা লিখেছেন একটি ব্লগ পোস্ট. "আমরা বিশ্বাস করি সম্ভাবনাগুলি বিস্তৃত, এবং আমরা এখনও কল্পনাও করিনি এমন অনেক সম্ভাব্য ব্যবহারের ক্ষেত্রে আমরা উত্তেজিত।"

মডেলটির বিকাশের চাবিকাঠি ছিল 1.1 বিলিয়ন সেগমেন্টেশন মাস্কের একটি বিশাল নতুন ডেটাসেট, যা একটি চিত্রের অঞ্চলগুলিকে বোঝায় যেগুলিকে বিচ্ছিন্ন এবং টীকা করা হয়েছে তা বোঝানোর জন্য যে সেগুলিতে একটি নির্দিষ্ট বস্তু রয়েছে৷ এটি ইমেজ এবং স্বয়ংক্রিয় প্রক্রিয়াগুলির ম্যানুয়াল মানব টীকাগুলির সংমিশ্রণের মাধ্যমে তৈরি করা হয়েছিল এবং এটি এখন পর্যন্ত একত্রিত এই ধরণের বৃহত্তম সংগ্রহ।

এই ধরনের একটি বিশাল ডেটাসেটের উপর প্রশিক্ষণের মাধ্যমে, মেটার গবেষকরা বলছেন যে এটি একটি বস্তু কী তার একটি সাধারণ ধারণা তৈরি করেছে, যা এটি এমন জিনিসগুলিকে ভাগ করতে দেয় যা এটি আগে দেখেনি। সাধারণীকরণের এই ক্ষমতা গবেষকদের SAM কে একটি "ফাউন্ডেশন মডেল" হিসেবে অভিহিত করতে পরিচালিত করে বিতর্কিত শব্দ অন্যান্য বিশাল প্রাক-প্রশিক্ষিত মডেল যেমন বর্ণনা করতে ব্যবহৃত হয় OpenAI এর GPT সিরিজ, যার ক্ষমতা অনুমিতভাবে এত সাধারণ যে তারা অনেকগুলি অ্যাপ্লিকেশনের ভিত্তি হিসাবে ব্যবহার করা যেতে পারে।

ইমেজ সেগমেন্টেশন স্পষ্টভাবে কম্পিউটার ভিশন টাস্কের বিস্তৃত পরিসরে একটি মূল উপাদান। আপনি যদি একটি দৃশ্যের বিভিন্ন উপাদান আলাদা করতে না পারেন তবে এটির সাথে আরও জটিল কিছু করা কঠিন। তাদের ব্লগে, গবেষকরা বলেছেন যে এটি ভিডিও এবং চিত্র সম্পাদনায় অমূল্য প্রমাণিত হতে পারে বা বৈজ্ঞানিক চিত্র বিশ্লেষণে সহায়তা করতে পারে।

সম্ভবত কোম্পানির মেটাভার্স উচ্চাকাঙ্ক্ষার জন্য আরও প্রাসঙ্গিকভাবে, তারা ব্যবহারকারীর দৃষ্টির উপর ভিত্তি করে নির্দিষ্ট বস্তু নির্বাচন করতে ভার্চুয়াল রিয়েলিটি হেডসেটের সাথে কীভাবে এটি ব্যবহার করা যেতে পারে তার একটি ডেমো প্রদান করে। তারা আরও বলে যে এটি একটি ওয়েব পৃষ্ঠার ভিজ্যুয়াল এবং পাঠ্য উভয় বিষয়বস্তু বুঝতে সক্ষম একটি মাল্টি-মোডাল সিস্টেম তৈরি করতে একটি বড় ভাষার মডেলের সাথে যুক্ত করা যেতে পারে।

বিস্তৃত প্রম্পট মোকাবেলা করার ক্ষমতা সিস্টেমটিকে বিশেষভাবে নমনীয় করে তোলে। ক ওয়েব পেজ নতুন মডেলটিকে ডেমো করে, কোম্পানিটি দেখায় যে একটি চিত্র বিশ্লেষণ করার পরে নির্দিষ্ট বস্তুগুলিকে কেবলমাত্র একটি মাউস কার্সার দিয়ে ক্লিক করে, আপনি যা ভাগ করতে চান তা টাইপ করে, বা সম্পূর্ণ চিত্রটিকে বিভক্ত করে আলাদা করার জন্য অনুরোধ করা যেতে পারে। পৃথক বস্তু।

এবং সবচেয়ে গুরুত্বপূর্ণভাবে, কোম্পানিটি গবেষণার উদ্দেশ্যে মডেল এবং ডেটাসেট উভয়ই ওপেন-সোর্স করছে যাতে অন্যরা তাদের কাজ তৈরি করতে পারে। কোম্পানিটি তার LLaMA বৃহৎ-ভাষা মডেলের সাথে একই পদ্ধতি গ্রহণ করেছিল, যার ফলে এটি দ্রুত অনলাইন লিক এবং spurring a পরীক্ষার তরঙ্গ শখ এবং হ্যাকারদের দ্বারা।

এসএএম-এর সাথেও একই ঘটনা ঘটবে কিনা তা দেখা বাকি আছে, তবে যেকোনও উপায়ে এটি এআই গবেষণা সম্প্রদায়ের জন্য একটি উপহার যা গুরুত্বপূর্ণ কম্পিউটার দৃষ্টি সমস্যাগুলির একটি হোস্টে অগ্রগতি ত্বরান্বিত করতে পারে।

চিত্র ক্রেডিট: মেটা এআই

এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
উত্স: https://singularityhub.com/2023/04/10/metas-new-ai-can-identify-and-remove-objects-in-images/

সময় স্ট্যাম্প: এপ্রিল 10, 2023

সময় স্ট্যাম্প: জানুয়ারী 29, 2024

সর্বকালের উজ্জ্বলতম মহাজাগতিক বিস্ফোরণ: বিজ্ঞানীরা এর স্থায়ীত্বের রহস্য সমাধান করেছেন

উত্স ক্লাস্টার:

এককতা হাব

উত্স নোড: 1845408

সময় স্ট্যাম্প: জুন 8, 2023

ওয়েব থেকে এই সপ্তাহের অসাধারণ প্রযুক্তির গল্প (জুলাই 30 পর্যন্ত) PlatoBlockchain ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ.

সারা ওয়েব থেকে এই সপ্তাহের অসাধারণ টেক স্টোরিজ (July১ জুলাই পর্যন্ত)

উত্স ক্লাস্টার:

এককতা হাব

উত্স নোড: 1600178

সময় স্ট্যাম্প: জুলাই 30, 2022

বায়ু থেকে টন CO1.2 চুষতে কার্বন ক্যাপচার প্ল্যান্টে মার্কিন ডলার 2 বিলিয়ন বিনিয়োগ করে

উত্স ক্লাস্টার:

এককতা হাব

উত্স নোড: 1878327

সময় স্ট্যাম্প: আগস্ট 20, 2023

মেটার নতুন এআই একটি চিত্রের যেকোনো বস্তুকে বাছাই করতে এবং কাটতে পারে-এমনকি যা আগে কখনও দেখা যায়নি

প্লেটো দ্বারা প্রকাশিত

থেকে আরো এককতা হাব

আপনি শীঘ্রই জেনেটিক্যালি ইঞ্জিনিয়ারড গ্লো-ইন-দ্য-ডার্ক পেটুনিয়াস কিনতে সক্ষম হবেন

আমরা কি বার্ধক্য থেকে হার্ট বন্ধ করতে পারি? এই ল্যান্ডমার্ক জেনেটিক স্টাডি একটি শুরু

এখন পর্যন্ত সবচেয়ে বড় জেনেটিক স্টাডি ডিএনএ প্রোফাইল উন্মোচন করেছে যা ক্যান্সারের দিকে পরিচালিত করে

নতুন ডিএনএ 'ক্যামকর্ডার' সময়ের মাধ্যমে একটি কোষের বিকাশের 'চলচ্চিত্র' রেকর্ড করতে পারে

ওরেগন ওয়াইল্ড ফায়ার সারভাইভারদের জন্য 3D প্রিন্টেড বাড়ির একটি সম্প্রদায় তৈরি করা হচ্ছে

সর্বকালের উজ্জ্বলতম মহাজাগতিক বিস্ফোরণ: বিজ্ঞানীরা এর স্থায়ীত্বের রহস্য সমাধান করেছেন

সারা ওয়েব থেকে এই সপ্তাহের অসাধারণ টেক স্টোরিজ (July১ জুলাই পর্যন্ত)

বায়ু থেকে টন CO1.2 চুষতে কার্বন ক্যাপচার প্ল্যান্টে মার্কিন ডলার 2 বিলিয়ন বিনিয়োগ করে

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব