AI-beeldgeneratie vordert met astronomische snelheden. Kunnen we nog steeds zien of een foto nep is? PlatoBlockchain-gegevensintelligentie. Verticaal zoeken. Ai.

AI-beeldgeneratie vordert met astronomische snelheden. Kunnen we nog steeds zien of een foto nep is?

Nepfotografie is niets nieuws. In de jaren 1910 werd de Britse auteur Arthur Conan Doyle op beroemde wijze misleid door twee schoolgaande zussen die foto's hadden gemaakt van elegante feeรซn die in hun tuin rondscharrelden.

De eerste van de vijf 'Cottingley Fairies'-foto's, gemaakt door Elsie Wright in 1917. Image Credit: Wikipedia

Tegenwoordig is het moeilijk te geloven dat deze foto's iemand voor de gek hadden kunnen houden, maar het was pas in de jaren tachtig dat een expert genaamd Geoffrey Crawley het lef had om zijn kennis van filmfotografie direct toe te passen en het voor de hand liggende af te leiden.

De foto's waren nep, zoals later toegegeven door een van de zussen zelf.

Een enigszins griezelig beeld van een glimlachende man die een oldschool fotografiecamera vasthoudt
In 1982 concludeerde Geoffrey Crawley dat de feeรซnfoto's nep waren. Zo ook deze. Image Credit: Brendan Murphy / auteur verstrekt

Op jacht naar artefacten en gezond verstand

Digitale fotografie heeft een schat aan technieken geopend voor zowel fakers als detectives.

Bij forensisch onderzoek van verdachte beelden wordt tegenwoordig gezocht naar eigenschappen die inherent zijn aan digitale fotografie, zoals het onderzoeken van metadata ingesloten in de foto's, software zoals Adobe Photoshop gebruiken om vervormingen in afbeeldingen te corrigeren, en op zoek naar veelbetekenende tekenen van manipulatie, zoals regio's die worden gedupliceerd om originele kenmerken te verdoezelen.

Soms zijn digitale bewerkingen te subtiel om te detecteren, maar komen ze in beeld wanneer we de manier aanpassen waarop lichte en donkere pixels worden verdeeld. In 2010 bracht NASA bijvoorbeeld een foto van de manen Dione en Titan van Saturnus. Het was op geen enkele manier nep, maar was schoongemaakt om verdwaalde artefacten te verwijderen - wat een... de aandacht van complottheoretici.

Nieuwsgierig zette ik de afbeelding in Photoshop. De onderstaande afbeelding geeft ongeveer weer hoe dit eruit zag.

Screenshot van een beeldbewerkingsscherm met grafieken voor donkere en lichte aanpassingen
Een simulatie die laat zien hoe bewerking kan worden gedetecteerd wanneer de niveaus van licht en donker worden aangepast. Image Credit: Brendan Murphy / auteur verstrekt

De meeste digitale foto's zijn in gecomprimeerde formaten zoals JPEG, afgeslankt door het verwijderen van veel van de informatie die door de camera is vastgelegd. Gestandaardiseerde algoritmen zorgen ervoor dat de verwijderde informatie een minimale zichtbare impact heeft, maar laat wel sporen achter.

De compressie van elk deel van een afbeelding hangt af van wat er in de afbeelding gebeurt en van de huidige camera-instellingen; wanneer een nepafbeelding meerdere bronnen combineert, is het vaak mogelijk om dit te detecteren door: zorgvuldige analyse van de compressie-artefacten.

Sommige forensische methoden hebben weinig te maken met het formaat van een afbeelding, maar zijn in wezen visueel speurwerk. Is iedereen op de foto op dezelfde manier belicht? Zijn schaduwen en reflecties logisch? Staan oren en handen op de juiste plaatsen licht en schaduw? Wat wordt weerspiegeld in de ogen van mensen? Zouden alle lijnen en hoeken van de kamer kloppen als we de scรจne in 3D zouden modelleren?

Arthur Conan Doyle is misschien voor de gek gehouden door sprookjesfoto's, maar ik denk dat zijn creatie Sherlock Holmes zich thuis zou voelen in de wereld van forensische fotoanalyse.

Een nieuw tijdperk van kunstmatige intelligentie

De huidige explosie van afbeeldingen gemaakt door tekst-naar-afbeelding kunstmatige intelligentie tools is in veel opzichten ingrijpender dan de verschuiving van film naar digitale fotografie.

We kunnen nu elke gewenste afbeelding oproepen, gewoon door te typen. Deze afbeeldingen zijn geen franken-foto's die zijn gemaakt door reeds bestaande klompjes pixels aan elkaar te knutselen. Het zijn geheel nieuwe afbeeldingen met de inhoud, kwaliteit en stijl gespecificeerd.

Tot voor kort waren de complexe neurale netwerken die werden gebruikt om deze beelden te genereren, beperkt beschikbaar voor het publiek. Dit veranderde op 23 augustus 2022, met de openbaarmaking van de open source stabiele diffusie. Nu kan iedereen met een Nvidia grafische kaart op gaming-niveau in hun computer AI-beeldinhoud maken zonder enig onderzoekslaboratorium of zakelijke poortwachters.

Dit heeft velen ertoe aangezet zich af te vragen: โ€œkunnen we ooit nog geloven wat we online zien?โ€. Dat hangt ervan af.

Tekst-naar-beeld AI haalt zijn intelligentie uit training: de analyse van een groot aantal afbeelding/bijschrift-paren. De sterke en zwakke punten van elk systeem zijn gedeeltelijk afgeleid van de beelden waarop het is getraind. Hier is een voorbeeld: zo ziet Stable Diffusion George Clooney zijn strijkwerk doen.

Een enigszins griezelig beeld van een man met vervormde gelaatstrekken die een witte handdoek vasthoudt
Dit is George Clooney die aan het strijken is... of toch niet? Image Credit: Brendan Murphy / auteur verstrekt

Dit is verre van realistisch. Het enige wat Stable Diffusion hoeft te doen, is de informatie die het heeft geleerd, en hoewel het duidelijk is dat het George Clooney heeft gezien en die reeks letters kan koppelen aan de functies van de acteur, is het geen Clooney-expert.

Het zou echter veel meer foto's van mannen van middelbare leeftijd in het algemeen hebben gezien en verwerkt, dus laten we eens kijken wat er gebeurt als we in hetzelfde scenario om een โ€‹โ€‹generieke man van middelbare leeftijd vragen.

Een enigszins griezelig beeld van een man van middelbare leeftijd met ronde gelaatstrekken die naar de camera kijkt en een shirt vasthoudt
Niet-George-Clooney die aan het strijken is. Image Credit: Brendan Murphy / auteur verstrekt

Dit is een duidelijke verbetering, maar nog niet helemaal realistisch. Zoals altijd het geval is geweest, is de lastige geometrie van handen en oren een goede plek om naar tekenen van vervalsing te zoeken, hoewel we in dit medium eerder naar de ruimtelijke geometrie kijken dan naar de verhalen van onmogelijke verlichting.

Mogelijk zijn er nog andere aanwijzingen. Als we de kamer zorgvuldig zouden reconstrueren, zouden de hoeken dan vierkant zijn? Zouden de planken zinvol zijn? Een forensisch expert die gewend is digitale foto's te onderzoeken, zou daar waarschijnlijk een beroep op kunnen doen.

We kunnen onze ogen niet meer geloven

Als we de kennis van een tekst-naar-beeldsysteem uitbreiden, kan het nog beter. U kunt uw eigen beschreven foto's toevoegen als aanvulling op de bestaande training. Dit proces staat bekend als: tekstuele inversie.

Onlangs heeft Google uitgebracht Droomcabine, een alternatieve, meer geavanceerde methode voor het injecteren van specifieke mensen, objecten of zelfs kunststijlen in tekst-naar-beeld AI-systemen.

Dit proces vereist zware hardware, maar de resultaten zijn verbluffend. Er is begonnen met het delen van geweldig werk op Reddit. Kijk naar de foto's in het bericht hieronder die afbeeldingen tonen die in DreamBooth zijn geplaatst en realistische nepafbeeldingen van Stable Diffusion.



We kunnen onze ogen niet meer geloven, maar misschien kunnen we die van forensische experts voorlopig nog vertrouwen. Het is heel goed mogelijk dat toekomstige systemen opzettelijk kunnen worden getraind om ook hen voor de gek te houden.

We gaan snel een tijdperk in waarin perfecte foto's en zelfs video gemeengoed zullen zijn. De tijd zal leren hoe belangrijk dit zal zijn, maar in de tussentijd is het de moeite waard om de les van de Cottingley Fairy-foto's te onthouden - soms willen mensen gewoon geloven, zelfs in duidelijke vervalsingen.The Conversation

Dit artikel is opnieuw gepubliceerd vanaf The Conversation onder een Creative Commons-licentie. Lees de originele artikel.

Krediet van het beeld: Brendan Murphy/author voorzien

Tijdstempel:

Meer van Hub voor singulariteit