이미지를 더 좋게 만드는 AI 도구 | 콴타 매거진

이미지를 더 좋게 만드는 AI 도구 | 콴타 매거진

이미지를 더 좋게 만드는 AI 도구 | Quanta Magazine PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

개요

이는 범죄와 SF의 가장 큰 진부한 표현 중 하나입니다. 수사관이 컴퓨터 화면에 흐릿한 사진을 가져와서 보정해 달라고 요청하면 펑, 이미지에 초점이 맞춰지고 몇 가지 중요한 단서를 드러냅니다. 스토리텔링의 편리함은 훌륭하지만 수십 년 동안 실망스러운 소설이었습니다. 이미지를 너무 많이 부풀리면 눈에 띄게 픽셀화됩니다. 더 많은 작업을 수행하기에는 데이터가 충분하지 않습니다.

“순진하게 이미지 크기를 확대하면 이미지가 흐려질 것입니다. 자세한 내용이 많이 나올 것이지만, 틀릴 것”이라고 말했다. 브라이언 카탄 자로, Nvidia의 응용 딥 러닝 연구 담당 부사장.

최근 연구자와 전문가들은 인공 지능 알고리즘을 이미지 향상 도구에 통합하여 프로세스를 더욱 쉽고 강력하게 만들기 시작했지만 이미지에서 검색할 수 있는 데이터의 양에는 여전히 제한이 있습니다. 다행스럽게도 연구자들은 향상 알고리즘을 더욱 발전시키면서 이러한 한계에 대처할 수 있는 새로운 방법을 찾고 있으며 때로는 이를 극복할 방법도 찾고 있습니다.

지난 XNUMX년 동안 연구자들은 상세하고 인상적인 그림을 생성할 수 있는 생성적 적대 네트워크(GAN)라는 새로운 종류의 AI 모델을 사용하여 이미지를 향상시키기 시작했습니다. “갑자기 이미지가 훨씬 좋아 보이기 시작했어요.”라고 말했습니다. 토머 미카엘리, 이스라엘 Technion의 전기 엔지니어. 그러나 그는 GAN이 만든 이미지가 높은 수준의 왜곡을 보여주었다는 사실에 놀랐습니다. 이는 향상된 이미지가 그것이 보여주는 기본 현실에 얼마나 가까운지를 측정하는 것입니다. GAN은 예쁘고 자연스러워 보이는 이미지를 생성했지만 실제로는 정확하지 않은 세부 사항을 구성하거나 "환각"하여 높은 수준의 왜곡으로 등록되었습니다.

Michaeli는 사진 복원 분야가 두 개의 서로 다른 하위 커뮤니티로 나뉘는 것을 지켜보았습니다. “하나는 GAN이 만든 멋진 사진을 보여줬습니다. 다른 하나는 데이터를 보여줬는데 보기에 좋지 않아서 이미지를 많이 보여주지 못했다”고 말했다.

2017년에 Michaeli와 그의 대학원생인 Yochai Blau는 이 이분법을 좀 더 공식적으로 조사했습니다. 그들은 인간의 주관적 판단과 잘 연관되는 인지 품질에 대한 알려진 척도를 사용하여 왜곡과 인지 품질의 그래프에 다양한 이미지 향상 알고리즘의 성능을 표시했습니다. Michaeli가 예상한 대로 일부 알고리즘은 매우 높은 시각적 품질을 제공한 반면 다른 알고리즘은 왜곡이 적고 매우 정확했습니다. 그러나 두 가지 장점을 모두 갖고 있는 사람은 아무도 없었습니다. 당신은 둘 중 하나를 선택해야했습니다. 연구자들은 이렇게 이름 붙였다. 인식-왜곡 트레이드오프.

미카엘리도 다른 연구자들에게 도전했다 주어진 왜곡 수준에 대해 최상의 이미지 품질을 생성할 수 있는 알고리즘을 생각해 내고, 예쁜 사진 알고리즘과 좋은 통계 알고리즘을 공정하게 비교할 수 있습니다. 그 이후로 수백 명의 AI 연구자들이 알고리즘의 왜곡 및 인식 품질에 대해 보고했습니다. Michaeli와 Blau 논문 인용 절충안을 설명한 것입니다.

때로는 인식-왜곡 균형의 의미가 심각하지 않은 경우도 있습니다. 예를 들어 Nvidia는 고화질 화면이 일부 저해상도 시각적 콘텐츠를 제대로 렌더링하지 못한다는 사실을 발견하여 지난 XNUMX월 딥 러닝을 사용하여 스트리밍 비디오를 향상시키는 도구를 출시했습니다. 이 경우 Nvidia의 엔지니어들은 알고리즘이 비디오를 업스케일링할 때 원본 비디오에 없는 일부 시각적 세부 정보를 구성한다는 사실을 수용하여 정확성보다 지각 품질을 선택했습니다. “모델이 환각을 일으키고 있어요. 그것은 모두 추측입니다.”라고 Catanzaro는 말했습니다. "대부분의 경우 초해상도 모델이 일관적이라면 잘못된 추측을 해도 괜찮습니다."

개요

물론 연구 및 의학 분야의 응용 분야에서는 훨씬 더 높은 정확성이 요구됩니다. AI 기술은 이미징 분야에서 큰 발전을 가져왔지만 "때때로 과적합이나 가짜 기능 [추가]와 같은 원치 않는 부작용이 나타나므로 극도의 주의를 기울여 다뤄야 합니다."라고 말했습니다. 야오 준지에, Duke University의 생체 의학 엔지니어입니다. 지난해 그는 공동집필을 했다. 종이 AI 도구가 뇌의 혈류와 신진대사를 측정하는 기존 방법을 어떻게 개선할 수 있는지 설명하는 동시에 인식-왜곡 균형의 정확한 측면을 안전하게 유지합니다.

이미지에서 추출할 수 있는 데이터 양에 대한 제한을 피하는 한 가지 방법은 단순히 더 많은 이미지의 데이터를 통합하는 것입니다. 하지만 이는 종종 그렇게 간단하지 않습니다. 위성 이미지를 통해 환경을 연구하는 연구자들은 다양한 소스의 시각적 데이터를 결합하는 데 진전을 이루었습니다. 2021년에는 중국과 영국 연구진이 융합된 데이터 두 가지 유형의 위성을 통해 세계에서 두 번째로 큰 열대 우림이자 가장 큰 생물 다양성 저장소 중 하나인 콩고 분지의 삼림 벌채를 더 잘 볼 수 있습니다. 연구원들은 수십 년 동안 삼림 벌채를 측정해 온 두 개의 Landsat 위성에서 데이터를 수집하고 딥 러닝 기술을 사용하여 이미지 해상도를 30미터에서 10미터로 개선했습니다. 그런 다음 해당 이미지 세트를 감지기 배열이 약간 다른 두 개의 Sentinel-2 위성의 데이터와 융합했습니다. 결합된 이미지를 통해 "Sentinel-11 또는 Landsat-21/2 이미지만 사용할 때보다 7%~8% 더 많은 교란 영역을 감지할 수 있었습니다"라고 그들은 썼습니다.

Michaeli는 정보 접근성에 대한 엄격한 제한을 통과하지 못하더라도 우회할 수 있는 또 다른 방법을 제안합니다. 낮은 품질의 이미지를 향상하는 방법에 대해 하나의 확고한 답에 안주하는 대신 모델은 원본 이미지에 대해 여러 가지 다른 해석을 보여줄 수 있습니다. "라는 제목의 논문에서탐색 가능한 초해상도,” 그는 이미지 향상 도구가 어떻게 사용자에게 다양한 제안을 제시할 수 있는지 보여주었습니다. 칙칙한 셔츠를 입고 있는 사람의 흐릿한 저해상도 이미지는 셔츠에 검은색과 흰색의 세로 줄무늬, 가로 줄무늬 또는 체크 무늬가 있는 고해상도 이미지로 재구성될 수 있으며 모두 동일하게 그럴듯합니다. .

또 다른 예에서 Michaeli는 낮은 품질의 번호판 사진을 찍어 선도적인 AI 이미지 강화 장치를 통해 실행했는데, 그 결과 번호판의 1이 1과 가장 비슷하게 보이는 것으로 나타났습니다. 그러나 Michaeli가 설계한 좀 더 개방적인 다른 알고리즘으로 이미지를 처리하면 숫자가 8, XNUMX 또는 XNUMX일 가능성이 동일해 보였습니다. 이 접근 방식은 숫자가 XNUMX이라는 잘못된 결론을 내리지 않고 다른 숫자를 배제하는 데 도움이 될 수 있습니다.

다양한 분야가 각자의 방식으로 인식-왜곡 상충관계를 해결하기 위해 고군분투하고 있기 때문에 AI 이미지에서 얼마나 많은 것을 추출할 수 있는지, 그리고 해당 이미지를 얼마나 신뢰할 수 있는지에 대한 질문이 여전히 핵심입니다. Michaeli는 “이렇게 멋진 이미지를 출력하려면 알고리즘이 세부 사항만 구성한다는 점을 명심해야 합니다.”라고 말했습니다. 우리는 그러한 환각을 완화할 수 있지만, 전능하고 범죄를 해결하는 "강화" 버튼은 여전히 ​​꿈으로 남을 것입니다.

타임 스탬프 :

더보기 콴타마진