텍스트-이미지 모델은 가짜 데이터를 통해 더욱 효율적으로 학습합니다.

텍스트-이미지 모델은 가짜 데이터를 통해 더욱 효율적으로 학습합니다.

텍스트-이미지 모델은 가짜 데이터 PlatoBlockchain Data Intelligence를 통해 더욱 효율적으로 학습합니다. 수직 검색. 일체 포함.

MIT와 Google의 컴퓨터 과학자에 따르면 합성 이미지는 AI 모델이 실제 스냅에 비해 시각적 표현을 더 정확하게 학습하는 데 도움이 될 수 있습니다. 그 결과, 서면 설명을 바탕으로 그림을 더 잘 만드는 신경망이 탄생합니다.

모든 텍스트-이미지 모델의 핵심은 개체를 단어로 매핑하는 기능입니다. 예를 들어 "맑은 날 빨간 풍선을 들고 있는 아이"와 같은 입력 텍스트 프롬프트가 주어지면 설명과 유사한 이미지를 반환해야 합니다. 이를 위해서는 어린이, 빨간 풍선, 화창한 날의 모습을 시각적으로 표현하는 방법을 배워야 합니다. 

MIT-Google 팀은 신경망이 실제 스냅을 사용하는 것이 아니라 AI가 만든 사진으로 훈련을 받은 후 프롬프트에서 더 정확한 이미지를 생성할 수 있다고 믿습니다. 이를 입증하기 위해 그룹은 개발했습니다. StableRep, 인기 있는 오픈 소스 텍스트-이미지 모델인 Stable Diffusion에서 생성된 그림에서 설명적인 캡션을 올바른 해당 이미지로 바꾸는 방법을 학습합니다.

즉, 확립되고 훈련된 AI 모델을 사용하여 다른 모델을 가르치는 것입니다.

과학자들의 사전 인쇄 논문으로서 다음을 통해 발표됨 arXiv 지난 달 말에 "합성 이미지만으로 StableRep이 학습한 표현은 대규모 데이터 세트에서 동일한 텍스트 프롬프트 세트와 해당 실제 이미지를 사용하여 SimCLR 및 CLIP이 학습한 표현의 성능을 능가합니다."라고 말했습니다. SimCLR 및 CLIP은 텍스트 프롬프트에서 이미지를 만드는 데 사용할 수 있는 기계 학습 알고리즘입니다.

"언어 감독을 추가하면 20천만 개의 합성 이미지로 훈련된 StableRep은 50천만 개의 실제 이미지로 훈련된 CLIP보다 더 나은 정확도를 달성합니다."라고 논문은 계속됩니다.

기계 학습 알고리즘은 객체의 특징과 단어의 의미 사이의 관계를 숫자 배열로 포착합니다. StableRep을 사용함으로써 연구원들은 이 프로세스를 보다 신중하게 제어할 수 있습니다. 즉, 동일한 프롬프트에서 Stable Diffusion으로 생성된 여러 이미지에 대한 모델을 훈련할 수 있습니다. 이는 모델이 더 다양한 시각적 표현을 학습할 수 있고 어떤 이미지가 다른 이미지보다 프롬프트와 더 밀접하게 일치하는지 확인할 수 있음을 의미합니다. 

나는 우리가 실제 데이터로 훈련된 일부 모델과 합성 데이터로 훈련된 생태계를 갖게 될 것이라고 생각합니다.

"우리는 단순히 데이터를 제공하는 것이 아니라 상황과 변화를 통해 상위 수준의 개념에 대해 더 많이 배울 수 있도록 모델을 가르치고 있습니다." 이번 연구의 수석 연구원이자 MIT 전기 공학 박사 과정 학생인 Lijie Fan은 다음과 같이 말했습니다. 설명 이번 주. "모두 동일한 텍스트에서 생성되고 모두 동일한 기본 사물에 대한 묘사로 처리되는 여러 이미지를 사용할 때 모델은 픽셀뿐만 아니라 이미지 뒤에 있는 개념, 즉 객체에 대해 더 깊이 파고듭니다."

위에서 언급한 것처럼 이 접근 방식은 실제 이미지보다 신경망을 훈련하는 데 더 적은 수의 합성 이미지를 사용할 수 있고 더 나은 결과를 얻을 수 있다는 것을 의미합니다. 이는 AI 개발자에게 윈윈(win-win)입니다.

StableRep과 같은 방법은 텍스트-이미지 모델이 언젠가 합성 데이터에 대해 훈련될 수 있음을 의미합니다. 이를 통해 개발자는 실제 이미지에 덜 의존할 수 있으며 AI 엔진이 사용 가능한 온라인 리소스를 소진하는 경우 필요할 수 있습니다.

논문의 공동 저자이자 MIT 컴퓨터 비전 부교수인 필립 이솔라(Phillip Isola)는 “[합성 이미지에 대한 AI 모델 훈련]이 점점 더 일반화될 것이라고 생각합니다.”라고 말했습니다. 등록. "실제 데이터와 합성 데이터로 훈련된 일부 모델의 생태계를 갖게 될 것이며 아마도 대부분의 모델은 두 가지 모두에 대해 훈련될 것입니다."

AI가 생성한 이미지에만 의존하기는 어렵습니다. 품질과 해상도가 실제 사진보다 떨어지는 경우가 많기 때문입니다. 이를 생성하는 텍스트-이미지 모델은 다른 방식으로도 제한됩니다. Stable Diffusion이 항상 텍스트 프롬프트에 충실한 이미지를 생성하는 것은 아닙니다.

Isola는 합성 이미지를 사용하는 것이 저작권 침해의 잠재적인 문제를 피할 수 없다고 경고했습니다. 합성 이미지를 생성하는 모델은 보호된 자료에 대해 훈련을 받았을 가능성이 높기 때문입니다.

“합성 데이터에는 저작권 데이터의 정확한 사본이 포함될 수 있습니다. 그러나 합성 데이터는 민감한 속성을 제거하기 위해 생성 모델을 편집함으로써 잠재적으로 개입할 수 있기 때문에 IP 및 개인 정보 보호 문제를 해결할 수 있는 새로운 기회도 제공합니다.”라고 그는 설명했습니다.

또한 팀은 AI 생성 이미지에 대한 훈련 시스템이 잠재적으로 기본 텍스트-이미지 모델에서 학습된 편견을 악화시킬 수 있다고 경고했습니다. ®

타임 스탬프 :

더보기 등록