Meta의 새로운 AI는 이미지에서 이전에 본 적이 없는 개체를 포함하여 모든 개체를 선택하고 잘라낼 수 있습니다.

Meta의 새로운 AI는 이미지에서 이전에 본 적이 없는 개체를 포함하여 모든 개체를 선택하고 잘라낼 수 있습니다.

Meta의 새로운 AI는 이미지에서 어떤 개체라도 골라내고 잘라낼 수 있습니다. PlatoBlockchain Data Intelligence 이전에는 볼 수 없었던 개체도 마찬가지입니다. 수직 검색. 일체 포함.

시각적 장면에서 별도의 개체를 선택하는 것은 우리에게 직관적인 것처럼 보이지만 기계는 이 작업에 어려움을 겪습니다. 이제 Meta의 새로운 AI 모델은 개체가 무엇인지에 대한 광범위한 아이디어를 개발하여 이전에 본 적이 없는 개체도 구분할 수 있습니다.

상당히 평범한 컴퓨터 비전 작업처럼 보일 수 있지만 이미지를 구문 분석하고 한 개체가 끝나고 다른 개체가 시작되는 위치를 계산할 수 있는 것은 매우 기본적인 기술이며, 그렇지 않으면 더 복잡한 작업을 해결할 수 없습니다.

"개체 분할"은 새로운 것이 아닙니다. AI 연구원들은 수년 동안 그것에 대해 연구했습니다. 그러나 일반적으로 이러한 모델을 구축하는 것은 이미지에 대한 많은 사람의 주석과 상당한 컴퓨팅 리소스가 필요한 시간 소모적인 프로세스였습니다. 그리고 일반적으로 결과 모델은 특정 사용 사례에 대해 고도로 전문화되었습니다.

그러나 이제 Meta의 연구원들은 이전에 본 적이 있는지 여부에 관계없이 어떤 장면에서든 물체를 잘라낼 수 있는 SAM(Segment Anything Model)을 공개했습니다. 모델은 또한 텍스트 설명에서 마우스 클릭 또는 시선 추적 데이터에 이르기까지 다양한 프롬프트에 대한 응답으로 이 작업을 수행할 수 있습니다.

"SAM은 물체가 무엇인지에 대한 일반적인 개념을 학습했으며 모든 이미지 또는 비디오의 모든 물체에 대한 마스크를 생성할 수 있습니다."라고 연구원은 썼습니다. 블로그 게시. "우리는 가능성이 광범위하다고 믿으며 아직 상상조차 하지 못한 많은 잠재적 사용 사례에 흥분하고 있습니다."

이 모델 개발의 핵심은 1.1억 개의 분할 마스크로 구성된 대규모 새 데이터 세트였습니다. 이 데이터 세트는 이미지의 영역을 분리하고 특정 개체를 포함하고 있음을 나타내기 위해 주석을 달았습니다. 이미지에 대한 사람의 수동 주석과 자동화된 프로세스의 조합을 통해 생성되었으며 현재까지 수집된 이러한 유형의 컬렉션 중 가장 큰 컬렉션입니다.

이러한 방대한 데이터 세트에 대한 교육을 통해 Meta의 연구원은 객체가 무엇인지에 대한 일반적인 개념을 개발했으며 이를 통해 이전에 본 적이 없는 항목을 분할할 수 있다고 말합니다. 이러한 일반화 능력으로 인해 연구원들은 SAM을 "기초 모델"이라고 불렀습니다. 논란의 여지가 있는 용어 다음과 같은 다른 대규모 사전 훈련 모델을 설명하는 데 사용됩니다. OpenAI의 GPT 이 시리즈의 기능은 매우 일반적이어서 다양한 응용 프로그램의 기반으로 사용할 수 있습니다.

이미지 분할은 확실히 광범위한 컴퓨터 비전 작업의 핵심 요소입니다. 장면의 다른 구성 요소를 분리할 수 없다면 더 복잡한 작업을 수행하기 어렵습니다. 연구원들은 블로그에서 비디오 및 이미지 편집에서 매우 유용하거나 과학적 이미지 분석에 도움이 될 수 있다고 말합니다.

아마도 회사의 메타버스 야망에 더 적절하게, 가상 현실 헤드셋과 함께 사용하여 사용자의 시선을 기반으로 특정 개체를 선택하는 방법에 대한 데모를 제공합니다. 그들은 또한 잠재적으로 웹 페이지의 시각적 및 텍스트 콘텐츠를 모두 이해할 수 있는 다중 모드 시스템을 만들기 위해 대규모 언어 모델과 쌍을 이룰 수 있다고 말합니다.

다양한 프롬프트를 처리할 수 있는 기능은 시스템을 특히 유연하게 만듭니다. 안에 웹 페이지 새 모델을 시연하면서 회사는 이미지를 분석한 후 마우스 커서로 특정 개체를 클릭하거나 분할하려는 대상을 입력하거나 전체 이미지를 별도의 개체.

그리고 가장 중요한 것은 회사가 연구 목적으로 모델과 데이터 세트를 모두 오픈 소싱하여 다른 사람들이 작업을 기반으로 구축할 수 있도록 한다는 것입니다. 이것은 회사가 LLaMA 대규모 언어 모델에서 취한 것과 동일한 접근 방식으로, 온라인 유출 그리고 박차 실험의 물결 애호가와 해커에 의해.

SAM에서도 같은 일이 일어날지는 두고 봐야겠지만, 어느 쪽이든 중요한 컴퓨터 비전 문제에 대한 진전을 가속화할 수 있는 AI 연구 커뮤니티에 선물입니다.

이미지 신용 : 메타 AI

타임 스탬프 :

더보기 특이점 허브