Инструменты искусственного интеллекта улучшают внешний вид изображений | Журнал Кванта

Инструменты искусственного интеллекта улучшают внешний вид изображений | Журнал Кванта

Инструменты искусственного интеллекта улучшают внешний вид изображений | Журнал Quanta PlatoРазведка данных на основе блокчейна. Вертикальный поиск. Ай.

Введение

Это одно из самых распространенных клише в криминальной и научной фантастике: следователь вытаскивает на экран компьютера размытую фотографию и просит ее улучшить, и — бац, изображение фокусируется, открывая важную зацепку. Это замечательное удобство для рассказывания историй, но на протяжении десятилетий это была разочаровывающая фантастика — если слишком сильно увеличить изображение, оно станет заметно пиксельным. Недостаточно данных, чтобы сделать больше.

«Если вы просто наивно увеличите изображение, оно будет размытым. Будет много деталей, но они будут неправильными», — сказал он. Брайан Катандзаро, вице-президент по прикладным исследованиям глубокого обучения в Nvidia.

В последнее время исследователи и специалисты начали включать алгоритмы искусственного интеллекта в свои инструменты улучшения изображений, что делает процесс проще и эффективнее, но все еще существуют ограничения на объем данных, которые можно получить из любого изображения. К счастью, по мере того, как исследователи продвигают алгоритмы улучшения все дальше, они находят новые способы справиться с этими ограничениями, а иногда даже находят способы их преодоления.

В последнее десятилетие исследователи начали улучшать изображения с помощью нового типа модели искусственного интеллекта, называемой генеративно-состязательной сетью или GAN, которая может создавать детальные, впечатляющие изображения. «Изображения внезапно стали выглядеть намного лучше», — сказал Томер Михаэли, инженер-электрик в Технионе в Израиле. Но он был удивлен, что изображения, сделанные с помощью GAN, показали высокий уровень искажений, который показывает, насколько близко улучшенное изображение к основной реальности того, что оно показывает. GAN создавали изображения, которые выглядели красивыми и естественными, но на самом деле они создавали или «галлюцинировали» неточные детали, что регистрировалось как высокий уровень искажений.

Михаэли наблюдал, как сфера реставрации фотографий разделилась на два отдельных подсообщества. «Один показал хорошие фотографии, многие из них были сделаны GAN. Другой показал данные, но не показал много изображений, потому что они выглядели некрасиво», — сказал он.

В 2017 году Михаэли и его аспирант Йохай Блау изучили эту дихотомию более формально. Они нанесли производительность различных алгоритмов улучшения изображения на график зависимости искажения от качества восприятия, используя известную меру качества восприятия, которая хорошо коррелирует с субъективными суждениями людей. Как и ожидал Михаэли, некоторые алгоритмы обеспечили очень высокое качество изображения, тогда как другие оказались очень точными и с низким уровнем искажений. Но ни у кого не было обоих преимуществ; вам нужно было выбрать одно или другое. Исследователи назвали это компромисс между восприятием и искажением.

Михаэли также бросил вызов другим исследователям разработать алгоритмы, которые могли бы обеспечить наилучшее качество изображения при заданном уровне искажений, чтобы обеспечить справедливое сравнение между алгоритмами красивого изображения и алгоритмами с хорошей статистикой. С тех пор сотни исследователей ИИ сообщили об искажениях и качествах восприятия своих алгоритмов. со ссылкой на статью Михаэли и Блау это описывало компромисс.

Иногда последствия компромисса между восприятием и искажением не столь ужасны. Nvidia, например, обнаружила, что экраны высокой четкости плохо отображают визуальный контент низкой четкости, поэтому в феврале она выпустила инструмент, который использует глубокое обучение для повышения качества потокового видео. В этом случае инженеры Nvidia предпочли качество восприятия точности, приняв тот факт, что когда алгоритм повышает качество видео, он добавляет некоторые визуальные детали, которых нет в исходном видео. «У модели галлюцинации. Это все предположения», — сказал Катандзаро. «В большинстве случаев модель со сверхвысоким разрешением может ошибаться, если она непротиворечива».

Введение

Применение в исследованиях и медицине, конечно, требует гораздо большей точности. Технология искусственного интеллекта привела к значительному прогрессу в области визуализации, но «иногда она сопровождается нежелательными побочными эффектами, такими как переоснащение или [добавление] ложных функций, и поэтому к ней необходимо относиться с особой осторожностью», — сказал он. Цзюньцзе Яо, биомедицинский инженер из Университета Дьюка. В прошлом году он стал соавтором бумаги описывающее, как инструменты искусственного интеллекта могут улучшить существующие методы измерения кровотока и метаболизма в мозге, оставаясь при этом в безопасности на точной стороне компромисса между искажением восприятия.

Один из способов обойти ограничения на объем данных, которые можно извлечь из изображения, — это просто включить данные из большего количества изображений, хотя зачастую это не так просто. Исследователи, изучающие окружающую среду с помощью спутниковых снимков, добились прогресса в объединении различных источников визуальных данных. В 2021 году группа исследователей из Китая и Великобритании объединенные данные с двух разных типов спутников, чтобы лучше увидеть вырубку лесов в бассейне Конго, втором по величине тропическом лесу в мире и одном из крупнейших хранилищ биоразнообразия. Исследователи взяли данные с двух спутников Landsat, которые десятилетиями измеряли вырубку лесов, и использовали методы глубокого обучения, чтобы улучшить разрешение изображений с 30 до 10 метров. Затем они объединили этот набор изображений с данными двух спутников Sentinel-2, которые имеют немного другой набор детекторов. Комбинированные изображения «позволили обнаружить на 11–21% больше нарушенных территорий, чем это было возможно с использованием одних только изображений Sentinel-2 или Landsat-7/8», пишут они.

Михаэли предлагает другой способ обойти, если не преодолеть, жесткие ограничения на доступность информации. Вместо того, чтобы прийти к одному однозначному ответу на вопрос, как улучшить изображение низкого качества, модели могут показывать несколько различных интерпретаций исходного изображения. В статье под названием «Исследуемое суперразрешение»он помог продемонстрировать, как инструменты улучшения изображений могут предлагать пользователю множество предложений. Одно нечеткое изображение с низким разрешением человека, носящего что-то вроде сероватой рубашки, можно реконструировать в изображение с более высоким разрешением, на котором рубашка имеет черно-белые вертикальные полосы, горизонтальные полосы или клетку, и все это одинаково правдоподобно. .

В другом примере Михаэли взял фотографию номерного знака низкого качества и пропустил ее через ведущий инструмент обработки изображений на базе искусственного интеллекта, который показал, что цифра 1 на номерном знаке больше всего похожа на ноль. Но когда изображение было обработано другим, более открытым алгоритмом, разработанным Михаэли, цифра с одинаковой вероятностью выглядела как ноль, 1 или 8. Этот подход мог помочь исключить другие цифры, не делая ошибочного заключения, что цифра равна нулю.

Поскольку разные дисциплины по-своему пытаются найти компромисс между восприятием и искажением, вопрос о том, как много мы можем извлечь из изображений ИИ и насколько мы можем доверять этим изображениям, остается центральным. «Мы должны помнить, что для вывода этих красивых изображений алгоритмы просто создают детали», — сказал Михаэли. Мы можем смягчить эти галлюцинации, но всемогущая кнопка «улучшения» для раскрытия преступлений останется мечтой.

Отметка времени:

Больше от Квантовый журнал