AI-billedgenerering går frem med astronomiske hastigheder. Kan vi stadig se, om et billede er falsk? PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

AI-billedgenerering går frem med astronomiske hastigheder. Kan vi stadig se, om et billede er falsk?

Falsk fotografering er ikke noget nyt. I 1910'erne blev den britiske forfatter Arthur Conan Doyle berømt bedraget af to skolesøstre, der havde fremstillet fotografier af elegante feer, der snurrede i deres have.

Det første af de fem 'Cottingley Fairies'-fotografier, taget af Elsie Wright i 1917. Billedkredit: Wikipedia

I dag er det svært at tro, at disse billeder kunne have narret nogen, men det var først i 1980'erne, at en ekspert ved navn Geoffrey Crawley havde mod til direkte at anvende sin viden om filmfotografering og udlede det åbenlyse.

Fotografierne var falske, som senere indrømmet af en af ​​søstrene selv.

Et lidt uhyggeligt billede af en smilende mand, der holder et oldschool fotografikamera
I 1982 udledte Geoffrey Crawley, at fe-fotografierne var falske. Det er denne også. Billedkredit: Brendan Murphy / angivet forfatter

Jagt efter artefakter og sund fornuft

Digital fotografering har åbnet et væld af teknikker for både fakere og detektiver.

Retsmedicinsk undersøgelse af mistænkte billeder involverer i dag jagt efter kvaliteter, der er forbundet med digital fotografering, såsom at undersøge metadata indlejret i billederne, ved hjælp af software såsom Adobe Photoshop til at korrigere forvrængninger i billeder, og søger efter tydelige tegn på manipulation, såsom områder, der duplikeres for at skjule originale træk.

Nogle gange er digitale redigeringer for subtile til at opdage, men springer til syne, når vi justerer den måde, lyse og mørke pixels fordeles på. For eksempel udgav NASA i 2010 en foto af Saturns måner Dione og Titan. Det var på ingen måde falsk, men var blevet ryddet op for at fjerne vildfarne artefakter - hvilket fik opmærksomhed fra konspirationsteoretikere.

Nysgerrig satte jeg billedet ind i Photoshop. Illustrationen nedenfor genskaber nogenlunde, hvordan dette så ud.

Skærmbillede af en billedredigeringsskærm med diagrammer til mørk og lys justering
En simulering, der viser, hvordan redigering kan detekteres, når niveauet af lys og mørke justeres. Billedkredit: Brendan Murphy / angivet forfatter

De fleste digitale fotografier er i komprimerede formater såsom JPEG, slanket ned ved at fjerne meget af den information, kameraet fanger. Standardiserede algoritmer sikrer, at den fjernede information har minimal synlig indvirkning - men den efterlader spor.

Komprimeringen af ​​et hvilket som helst område af et billede vil afhænge af, hvad der foregår i billedet og de aktuelle kameraindstillinger; når et falsk billede kombinerer flere kilder, er det ofte muligt at opdage dette ved omhyggelig analyse af kompressionsartefakter.

Nogle retsmedicinske metoder har meget lidt at gøre med formatet på et billede, men er i det væsentlige visuelt detektivarbejde. Er alle på billedet oplyst på samme måde? Giver skygger og refleksioner mening? Viser ører og hænder lys og skygge de rigtige steder? Hvad afspejles i folks øjne? Ville alle linjer og vinkler i rummet hænge sammen, hvis vi modellerede scenen i 3D?

Arthur Conan Doyle er måske blevet narret af fefotos, men jeg tror, ​​at hans kreation Sherlock Holmes ville være hjemme i verden af ​​retsmedicinske fotoanalyser.

En ny æra af kunstig intelligens

aktuelle eksplosion af billeder skabt af tekst-til-billede kunstig intelligens værktøjer er på mange måder mere radikal end skiftet fra film til digital fotografering.

Vi kan nu fremtrylle ethvert billede, vi ønsker, bare ved at skrive. Disse billeder er ikke franken-billeder, der er lavet ved at samle allerede eksisterende pixelklumper. De er helt nye billeder med det specificerede indhold, kvalitet og stil.

Indtil for nylig har de komplekse neurale netværk, der blev brugt til at generere disse billeder, haft begrænset tilgængelighed for offentligheden. Dette ændrede sig den 23. august 2022 med udgivelsen til offentligheden af open source stabil diffusion. Nu kan alle med et Nvidia-grafikkort på spilniveau i deres computer skabe AI-billedindhold uden forskningslaboratorier eller forretningsporte for deres aktiviteter.

Det har fået mange til at spørge:kan vi nogensinde tro, hvad vi ser online igen?”. Det kommer an på.

Tekst-til-billede AI får sin viden fra træning - analysen af ​​et stort antal billede/tekst-par. Styrkerne og svaghederne ved hvert system er delvist afledt af, hvilke billeder det er blevet trænet på. Her er et eksempel: sådan ser Stable Diffusion George Clooney stryge.

Et lidt uhyggeligt billede af en mand med forvrængede træk, der holder et hvidt håndklæde
Det er George Clooney, der stryger...eller er det? Billedkredit: Brendan Murphy / angivet forfatter

Dette er langt fra realistisk. Alt Stable Diffusion skal fortsætte er den information, den har lært, og selvom det er tydeligt, at den har set George Clooney og kan knytte den række af bogstaver til skuespillerens træk, er det ikke en Clooney-ekspert.

Den ville dog have set og fordøjet mange flere billeder af midaldrende mænd generelt, så lad os se, hvad der sker, når vi beder om en generisk midaldrende mand i samme scenarie.

Et lidt uhyggeligt billede af en midaldrende mand med afrundede træk, der kigger på kameraet og holder en skjorte
Ikke-George-Clooney stryger. Billedkredit: Brendan Murphy / angivet forfatter

Dette er en klar forbedring, men stadig ikke helt realistisk. Som det altid har været tilfældet, er hænders og ørers vanskelige geometri gode steder at lede efter tegn på falskneri - selvom vi i dette medie ser på den rumlige geometri snarere end beretningerne om umulig belysning.

Der kan være andre spor. Hvis vi omhyggeligt rekonstruerede rummet, ville hjørnerne så være firkantede? Ville hylderne give mening? En retsmedicinsk ekspert, der er vant til at undersøge digitale fotografier, kunne sandsynligvis ringe til det.

Vi kan ikke længere tro vores øjne

Hvis vi udvider et tekst-til-billede-systems viden, kan det gøre det endnu bedre. Du kan tilføje dine egne beskrevne fotografier som supplement til eksisterende træning. Denne proces er kendt som tekstinversion.

For nylig har Google udgivet Drømmebod, en alternativ, mere sofistikeret metode til at injicere specifikke mennesker, genstande eller endda kunststile i tekst-til-billede AI-systemer.

Denne proces kræver kraftig hardware, men resultaterne er svimlende. Noget godt arbejde er begyndt at blive delt på Reddit. Se på billederne i opslaget nedenfor der viser billeder sat i DreamBooth og realistiske falske billeder fra Stable Diffusion.



Vi kan ikke længere tro vores egne øjne, men vi kan stadig være i stand til at stole på retsmedicinske eksperters, i det mindste lige nu. Det er fuldt ud muligt, at fremtidige systemer bevidst kan trænes til også at narre dem.

Vi bevæger os hurtigt ind i en æra, hvor perfekt fotografering og endda video vil være almindelig. Tiden vil vise, hvor betydningsfuldt dette vil være, men i mellemtiden er det værd at huske lektien fra Cottingley Fairy-billederne - nogle gange vil folk bare tro, selv på åbenlyse forfalskninger.The Conversation

Denne artikel er genudgivet fra The Conversation under en Creative Commons-licens. Læs oprindelige artikel.

Billede Credit: Brendan Murphy / auhor leveret

Tidsstempel:

Mere fra Singularitet Hub