Інструменти AI, які роблять зображення кращими | Журнал Quanta

Інструменти AI, які роблять зображення кращими | Журнал Quanta

Інструменти AI, які роблять зображення кращими | Журнал Quanta PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Вступ

Це одне з найпопулярніших кліше у кримінальній та науковій фантастиці: слідчий показує розмиту фотографію на екрані комп’ютера та просить її покращити, і бум, зображення стає у фокусі, відкриваючи якусь важливу підказку. Це чудова зручність для оповідання, але десятиліттями це було неприємною вигадкою — надто роздувши зображення, воно стане помітно піксельним. Недостатньо даних, щоб зробити більше.

«Якщо ви просто наївно збільшите масштаб зображення, воно буде розмитим. Там буде багато деталей, але це буде неправильно», – сказав Брайан Катандзаро, віце-президент із прикладних досліджень глибокого навчання Nvidia.

Нещодавно дослідники та професіонали почали включати алгоритми штучного інтелекту в свої інструменти для покращення зображень, роблячи процес простішим і потужнішим, але все ще існують обмеження щодо того, скільки даних можна отримати з будь-якого зображення. На щастя, оскільки дослідники просувають алгоритми вдосконалення все далі, вони знаходять нові способи впоратися з цими обмеженнями — навіть іноді знаходять способи їх подолати.

В останнє десятиліття дослідники почали вдосконалювати зображення за допомогою моделі штучного інтелекту, яка називається генеративною суперницькою мережею (GAN), яка може створювати детальні вражаючі зображення. «Зображення раптом стали виглядати набагато краще», — сказав він Томер Міхаелі, інженер-електрик Техніону в Ізраїлі. Але він був здивований тим, що зображення, зроблені за допомогою GAN, показали високий рівень спотворення, який вимірює, наскільки покращене зображення наближене до реальності того, що воно показує. GAN створювали зображення, які виглядали гарними та природними, але насправді вони вигадували або «галюцинували» деталі, які не були точними, що реєструвалося як високий рівень спотворення.

Міхаелі спостерігав, як галузь реставрації фотографій розділилася на дві окремі підспільноти. «На одному були гарні фотографії, багато зроблені GAN. Інший показував дані, але вони не показували багато зображень, тому що вони виглядали непривабливо», – сказав він.

У 2017 році Міхаелі та його аспірант Йохай Блау поглянули на цю дихотомію більш формально. Вони побудували продуктивність різних алгоритмів покращення зображення на графіку залежності спотворення від якості сприйняття, використовуючи відомий показник якості сприйняття, який добре корелює з суб’єктивним судженням людини. Як і очікував Мікаелі, деякі алгоритми забезпечили дуже високу якість зображення, тоді як інші були дуже точними з низьким спотворенням. Але ніхто не мав обох переваг; ви повинні були вибрати те чи інше. Дослідники охрестили це компроміс між сприйняттям і спотворенням.

Міхаелі також кинув виклик іншим дослідникам розробити алгоритми, які могли б створити найкращу якість зображення для певного рівня викривлення, щоб забезпечити справедливе порівняння між алгоритмами гарного зображення та алгоритмами гарної статистики. З тих пір сотні дослідників штучного інтелекту повідомили про спотворення та сприйняття своїх алгоритмів, посилаючись на статтю Міхаелі та Блау що описує компроміс.

Іноді наслідки компромісу між сприйняттям і спотворенням не є страшними. Nvidia, наприклад, виявила, що екрани високої чіткості погано відтворюють візуальний вміст низької чіткості, тому в лютому вона випустила інструмент, який використовує глибоке навчання для високоякісного потокового відео. У цьому випадку інженери Nvidia вибрали сприйнятливу якість, а не точність, погоджуючись з тим фактом, що коли алгоритм підвищує масштаб відео, він створить деякі візуальні деталі, яких немає в оригінальному відео. «У моделі галюцинації. Це все лише припущення», — сказав Катандзаро. «Здебільшого модель із надвисокою роздільною здатністю вгадує неправильно, якщо вона послідовна».

Вступ

Застосування в дослідженнях і медицині, звичайно, вимагає набагато більшої точності. Технологія штучного інтелекту призвела до значних успіхів у створенні зображень, але вона «іноді супроводжується небажаними побічними ефектами, такими як переобладнання або [додавання] підроблених функцій, і тому до неї потрібно ставитися надзвичайно обережно», — сказав він. Цзюньцзе Яо, біомедичний інженер в Університеті Дьюка. Минулого року він написав у співавторстві a папір описуючи, як інструменти штучного інтелекту можуть покращити існуючі методи вимірювання кровотоку та метаболізму в мозку, залишаючись безпечно на компромісі між сприйняттям і спотворенням.

Один із способів обійти обмеження щодо кількості даних, які можна отримати із зображення, — це просто включити дані з більшої кількості зображень — хоча це часто не так просто. Дослідники, які вивчають навколишнє середовище за допомогою супутникових зображень, досягли успіху в поєднанні різних джерел візуальних даних. У 2021 році група дослідників у Китаї та Великобританії злиті дані з двох різних типів супутників, щоб краще побачити вирубку лісів у басейні Конго, другому за величиною тропічному лісі у світі та одному з найбільших сховищ біорізноманіття. Дослідники взяли дані з двох супутників Landsat, які десятиліттями вимірювали вирубку лісів, і використали методи глибокого навчання, щоб покращити роздільну здатність зображень з 30 метрів до 10 метрів. Потім вони поєднали цей набір зображень із даними двох супутників Sentinel-2, які мають дещо інший масив детекторів. Комбіновані зображення «дозволили виявити на 11-21% більше порушених територій, ніж це було можливо за допомогою лише зображень Sentinel-2 або Landsat-7/8», – пишуть вони.

Мікаелі пропонує інший спосіб обійти жорсткі обмеження на доступність інформації, якщо не через. Замість того, щоб зупинитися на одній твердій відповіді, як покращити зображення низької якості, моделі можуть демонструвати кілька різних інтерпретацій оригінального зображення. У статті під назвою «Досліджувана суперроздільна здатність”, він допоміг продемонструвати, як інструменти для покращення зображення можуть надавати користувачеві численні пропозиції. Одне нечітке зображення людини з низькою роздільною здатністю, яка носить сіру сорочку, може бути реконструйоване на зображення з вищою роздільною здатністю, де на сорочці є чорні та білі вертикальні смуги, горизонтальні смуги або клітки, і всі вони однаково правдоподібні .

В іншому прикладі Мікаелі сфотографував номерний знак низької якості та пропустив його через провідну програму покращення зображення штучного інтелекту, яка показала, що 1 на номерному знаку більше схожа на нуль. Але коли зображення було оброблено іншим, більш відкритим алгоритмом, який розробив Мікаелі, цифра з однаковою ймовірністю була нулем, 1 або 8. Цей підхід міг допомогти виключити інші цифри без помилкового висновку, що цифра дорівнює нулю.

Оскільки різні дисципліни по-своєму борються з компромісом між сприйняттям і викривленням, питання про те, скільки ми можемо отримати із зображень ШІ та наскільки ми можемо довіряти цим зображенням, залишається центральним. «Ми маємо пам’ятати, що для виведення цих гарних зображень алгоритми лише створюють деталі», — сказав Мікаелі. Ми можемо пом’якшити ці галюцинації, але всемогутня кнопка «підвищення» для розкриття злочинів залишиться мрією.

Часова мітка:

Більше від Квантамагазин