IIIT Allahabad의 연구원이 제안하는 T2CI GAN: 텍스트에서 압축 이미지를 생성하는 딥 러닝 모델

플라톤에 의해 재발행

팔로워 : 0

지난 몇 년 동안 시각적 데이터에 대한 텍스트 설명 작성은 주목할만한 연구 문제가 되었습니다. 그러나 서면 설명에서 시각적 데이터를 생성하기 위한 문제 설명은 자연어 처리와 컴퓨터 비전 기술의 융합을 요구하기 때문에 여전히 훨씬 더 어렵습니다. 사용 가능한 기술은 GAN(Generative Adversarial Networks)을 사용하여 텍스트 설명에서 압축되지 않은 이미지를 생성합니다. 생성적 적대 신경망(Generative Adversarial Networks)은 텍스트, 사진, 비디오 및 음성 녹음을 생성할 수 있는 일종의 기계 학습 프레임워크입니다. 이전에 GAN은 다른 딥 러닝 알고리즘의 훈련, 특정 목적을 위한 영화 또는 애니메이션 제작, 사진에 대한 적절한 캡션 생성을 위한 이미지 데이터 세트를 생성하는 데 성공적으로 사용되었습니다.

실제로 대부분의 시각적 입력은 압축된 형태로 처리되고 전송됩니다. 제안하는 작업에서는 저장 및 계산 효율성을 달성하기 위해 DCGAN(Deep Convolutional GAN)을 활용하여 시각적 데이터를 압축 표현 형식으로 직접 생성하려고 노력합니다. 텍스트 기반 설명에서 압축된 이미지를 생성할 수 있는 새로운 GAN 기반 모델인 T2CI-GAN이 IIIT Allahabad의 컴퓨터 비전 및 생체 인식 연구소와 인도 Vignan 대학의 연구원에 의해 최근 생성되었습니다. 이 접근 방식은 다양한 스마트 장치 간의 이미지 저장 및 콘텐츠 공유에 대한 여러 옵션을 조사하기 위한 출발점이 될 수 있습니다.

이전 연구에서 연구원들은 GAN 및 기타 딥 러닝 모델을 사용하여 데이터의 특징 추출, 텍스트 및 이미지 데이터 분할, 긴 텍스트 추출에서 단어 감지, 압축된 JPEG 이미지 생성과 같은 다양한 작업을 처리했습니다. 이 새로운 모델은 지금까지 문헌에서 거의 주목을 받지 못했던 계산 문제를 해결하기 위해 이러한 초기 계획을 확장합니다. 텍스트 설명에서 이미지를 생성하기 위해 다른 연구팀에서 활용하는 몇 가지 딥 러닝 기반 기술만이 압축된 이미지를 생성합니다. 또한 이미지를 생성하고 압축하는 대부분의 기존 시스템은 독립적으로 수행하는 문제에 접근하므로 컴퓨팅 작업량과 처리 시간이 늘어납니다.

제안된 T2CI-GAN은 텍스트 설명에서 압축된 시각적 이미지를 입력으로 출력하는 딥러닝 기반 모델입니다. 이는 텍스트 설명에서 시각적 표현을 생성하고 해당 이미지를 더욱 압축하는 기존 접근 방식에서 크게 벗어났습니다. 이 모델의 주요 판매 기능은 텍스트 설명을 매핑하고 압축된 이미지를 직접 생성하는 기능입니다.

연구팀은 텍스트 설명에서 압축된 이미지를 생성하기 위해 두 가지 GAN 기반 모델을 만들었습니다. 압축된 JPEG DCT(이산 코사인 변환) 이미지의 데이터 세트가 이러한 모델 중 첫 번째 모델을 훈련하는 데 사용되었습니다. 학습 후 이 모델은 텍스트 설명에서 압축된 이미지를 생성할 수 있습니다. 반면, 연구원의 두 번째 GAN 기반 모델을 훈련하는 데는 RGB 사진 세트가 사용되었습니다. 이 모델은 일련의 데이터 포인트를 방정식으로 명시적으로 표현하는 이미지의 JPEG 압축 DCT 표현을 생성하는 기능을 개발했습니다. 제안된 모델은 잘 알려진 오픈 소스 벤치마크 데이터세트 Oxford-102 Flower Pictures의 RGB 및 JPEG 압축 버전을 모두 사용하여 평가되었습니다. JPEG 압축 도메인에서 이 모델은 매우 고무적인 최첨단 성능을 달성했습니다.

제공된 사진을 스마트폰이나 기타 스마트 장치와 쉽게 공유하려는 경우 T2CI-GAN 모델을 활용하여 자동 이미지 검색 시스템을 향상시킬 수 있습니다. 또한 이는 미디어 및 커뮤니케이션 전문가에게 유용한 도구가 될 수 있으며, 이를 통해 온라인에 게시할 특정 사진의 더 가벼운 버전을 찾을 수 있습니다.

최근 기술의 발전으로 인해 우리가 사는 세상은 기계 대 기계, 인간 대 기계의 연결로 나아가고 있습니다. 기계가 이를 읽거나 이해하려면 압축된 형태의 사실이 필요하기 때문에 T2CI-GAN은 이러한 상황에서 매우 중요합니다. 이 모델은 현재 JPEG 압축 형식으로만 사진을 생성합니다. 따라서 연구원들의 장기적인 목표는 압축 알고리즘에 대한 제한 없이 모든 압축 형식의 이미지를 생성하도록 확장하는 것입니다. 팀의 연구 논문이 게시된 후 모델의 소스 코드도 일반 대중에게 공개됩니다.

이 글은 '연구 논문'을 바탕으로 Marktechpost 직원이 작성한 연구 요약 기사입니다.T2CI-GAN: 생성적 적대 신경망(Generative Adversarial Network)을 사용한 텍스트-압축 이미지 생성'. 이 연구에 대한 모든 크레딧은 이 프로젝트의 연구원에게 전달됩니다. 확인 종이 와 참고 기사.

잊지 말고 꼭 참여해주세요 우리의 ML 서브레딧

Khushboo Gupta는 MarktechPost의 컨설팅 인턴입니다. 그녀는 현재 고아에 있는 인도 공과대학(IIT)에서 기술 학사 과정을 밟고 있습니다. 그녀는 기계 학습, 자연어 처리 및 웹 개발 분야에 열정을 갖고 있습니다. 그녀는 여러 가지 챌린지에 참여하여 기술 분야에 대해 더 많이 배우는 것을 즐깁니다.

<!–

–>

타임 스탬프 : 2022 년 10 월 29 일2022 년 10 월 31 일