ШІ-генерація зображень розвивається з астрономічними швидкостями. Чи можемо ми все-таки визначити, чи зображення є підробкою? PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

ШІ-генерація зображень розвивається з астрономічними швидкостями. Чи можемо ми все-таки визначити, чи фото є підробкою?

Фальшива фотографія не є чимось новим. У 1910-х роках британський письменник Артур Конан Дойл був відомий як обдурений двома сестрами-школярками, які виготовили фотографії елегантних фей, що метушилися в їхньому саду.

Перша з п’яти фотографій «фей Коттінглі», зроблена Елсі Райт у 1917 році. Авторство зображення: Вікіпедія

Сьогодні важко повірити, що ці фотографії могли когось обдурити, але лише у 1980-х роках експерт на ім’я Джеффрі Кроулі мав нахабність безпосередньо застосувати свої знання про плівкову фотографію та зробити висновок про очевидне.

Фотографії були підробленими, як пізніше зізналася одна з сестер.

Трохи дивне зображення усміхненого чоловіка, який тримає стару фотокамеру
У 1982 році Джеффрі Кроулі дійшов висновку, що фотографії фей були підробкою. Так само і цей. Авторство зображення: Брендан Мерфі / надано автором

Полювання на артефакти та здоровий глузд

Цифрова фотографія відкрила безліч методів як для фальсифікаторів, так і для детективів.

Сучасна судово-медична експертиза підозрілих зображень включає пошук властивостей цифрової фотографії, таких як дослідження метадані, вбудовані у фотографії, використовуючи таке програмне забезпечення, як Adobe Photoshop, для виправлення спотворень у зображеннях та пошук яскравих ознак маніпуляції, як-от дублювання регіонів, щоб приховати оригінальні функції.

Іноді цифрові зміни надто тонкі, щоб їх виявити, але вони помітні, коли ми регулюємо спосіб розподілу світлих і темних пікселів. Наприклад, у 2010 році NASA випустило a фото супутників Сатурна Діона і Титан. Він ні в якому разі не був підробкою, але був очищений, щоб видалити бродячі артефакти, які й потрапили увагу теоретиків змови.

Цікаво, я вставив зображення в Photoshop. Ілюстрація нижче приблизно відтворює, як це виглядало.

Знімок екрана редагування зображення з діаграмами для регулювання темного та світлого кольорів
Симуляція, яка показує, як редагування можна виявити, коли регулюються рівні світла та темряви. Авторство зображення: Брендан Мерфі / надано автором

Більшість цифрових фотографій мають стислі формати, такі як JPEG, зменшені за рахунок видалення більшої частини інформації, отриманої камерою. Стандартизовані алгоритми гарантують, що видалена інформація має мінімальний видимий вплив, але залишає сліди.

Стиснення будь-якої області зображення залежатиме від того, що відбувається на зображенні та поточних налаштувань камери; коли підроблене зображення поєднує в собі кілька джерел, це часто можна виявити за допомогою ретельний аналіз артефактів стиснення.

Деяка криміналістична методологія має мало спільного з форматом зображення, але по суті візуальна детективна робота. Чи всі на фотографії освітлені однаково? Чи мають сенс тіні та відображення? Чи вуха та руки показують світло й тінь у потрібних місцях? Що відбивається в очах людей? Чи додадуться всі лінії та кути кімнати, якщо ми змоделюємо сцену в 3D?

Можливо, Артура Конан Дойла ввели в оману казкові фотографії, але я думаю, що його творіння Шерлок Холмс було б як вдома у світі криміналістичного аналізу фотографій.

Нова ера штучного інтелекту

Команда поточний вибух образів створений методом перетворення тексту в зображення штучний інтелект багато в чому більш радикальний, ніж перехід від плівки до цифрової фотографії.

Тепер ми можемо створювати будь-яке зображення, просто набравши текст. Ці зображення не є франкен-фотографіями, створеними шляхом збивання вже існуючих згустків пікселів. Це абсолютно нові зображення із зазначеним вмістом, якістю та стилем.

Донедавна складні нейронні мережі, які використовувалися для створення цих зображень, були обмежено доступні для громадськості. Ситуація змінилася 23 серпня 2022 року після виходу для громадськості Stable Diffusion з відкритим кодом. Тепер будь-хто з відеокартою Nvidia ігрового рівня на своєму комп’ютері може створювати зображення зі штучним інтелектом без будь-якої дослідницької лабораторії чи бізнес-шлюзу.

Це спонукало багатьох запитати: «чи зможемо ми знову повірити в те, що бачимо онлайн?”. Це залежить.

Штучний інтелект для перетворення тексту в зображення отримує розум від навчання — аналізу великої кількості пар зображення/підпису. Сильні та слабкі сторони кожної системи частково випливають із того, на яких образах її навчали. Ось приклад: так Stable Diffusion бачить прасування Джорджа Клуні.

Трохи дивне зображення чоловіка зі спотвореними рисами обличчя, що тримає білий рушник
Це Джордж Клуні прасує… чи не так? Авторство зображення: Брендан Мерфі / надано автором

Це далеко не реально. Все, що має Stable Diffusion, це інформація, яку він дізнався, і хоча очевидно, що він бачив Джорджа Клуні та може пов’язати цей рядок літер із рисами актора, він не є експертом по Клуні.

Однак він би побачив і перетравив набагато більше фотографій чоловіків середнього віку загалом, тож давайте подивимось, що станеться, коли ми запитаємо про типового чоловіка середнього віку за тим самим сценарієм.

Трохи дивне зображення чоловіка середнього віку з округлими рисами обличчя, який дивиться на камеру та тримає сорочку
Не-Джордж-Клуні прасує. Авторство зображення: Брендан Мерфі / надано автором

Це явне покращення, але все ще не зовсім реалістичне. Як завжди було, хитра геометрія рук і вух є хорошим місцем для пошуку ознак фальшивості, хоча в цьому середовищі ми дивимось на просторову геометрію, а не на ознаки неможливого освітлення.

Можуть бути й інші підказки. Якби ми ретельно реконструювали кімнату, кути були б квадратними? Чи мали б сенс полиці? Судово-медичний експерт, який звик вивчати цифрові фотографії, напевно, міг би це зробити.

Ми більше не можемо вірити своїм очам

Якщо ми розширимо знання системи перетворення тексту в зображення, вона може працювати ще краще. Ви можете додати свої власні описані фотографії, щоб доповнити наявне навчання. Цей процес відомий як текстова інверсія.

Нещодавно Google випустив Будка мрії, альтернативний, більш витончений метод для введення конкретних людей, об’єктів або навіть художніх стилів у системи штучного інтелекту тексту в зображення.

Цей процес вимагає потужного обладнання, але результати приголомшливі. Деякі чудові роботи почали публікуватися на Reddit. Подивіться на фотографії у публікації нижче які показують зображення, розміщені в DreamBooth, і реалістичні підроблені зображення від Stable Diffusion.



Ми більше не можемо вірити своїм очам, але, можливо, ми все ще можемо довіряти судмедекспертам, принаймні поки що. Цілком можливо, що майбутні системи можуть бути навмисно навчені обманювати їх.

Ми стрімко рухаємось до епохи, коли ідеальна фотографія та навіть відео стануть звичайним явищем. Наскільки це буде значущим, покаже час, а тим часом варто згадати урок фотографій фей Коттінглі — іноді людям просто хочеться вірити, навіть у явні фейки.Бесіда

Ця стаття перевидана з Бесіда за ліцензією Creative Commons. Читати оригінал статті.

Зображення Фото: Брендан Мерфі / аавтор надав

Часова мітка:

Більше від Хаб сингулярності