AI-bildegenerering skrider frem med astronomiske hastigheter. Kan vi fortsatt finne ut om et bilde er falskt? PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

AI-bildegenerering skrider frem med astronomiske hastigheter. Kan vi fortsatt finne ut om et bilde er falskt?

Falsk fotografering er ikke noe nytt. På 1910-tallet ble den britiske forfatteren Arthur Conan Doyle berømt lurt av to søstre i skolealder som hadde produsert fotografier av elegante feer som snurret i hagen deres.

Det første av de fem 'Cottingley Fairies'-fotografiene, tatt av Elsie Wright i 1917. Bildekreditt: Wikipedia

I dag er det vanskelig å tro at disse bildene kunne ha lurt noen, men det var ikke før på 1980-tallet en ekspert ved navn Geoffrey Crawley hadde den frekkelse å bruke sin kunnskap om filmfotografering direkte og utlede det åpenbare.

Fotografiene var falske, som senere innrømmet av en av søstrene selv.

Et litt uhyggelig bilde av en smilende mann som holder et gammeldags fotokamera
I 1982 trakk Geoffrey Crawley ut at fefotografiene var falske. Det samme er denne. Bildekreditt: Brendan Murphy / oppgitt forfatter

Jakt på gjenstander og sunn fornuft

Digital fotografering har åpnet opp et vell av teknikker for både falske og detektiver.

Rettsmedisinsk undersøkelse av mistenkte bilder involverer i dag jakt etter kvaliteter som er iboende til digital fotografering, som å undersøke metadata innebygd i bildene, ved å bruke programvare som Adobe Photoshop for å korrigere forvrengninger i bilder, og leter etter tydelige tegn på manipulasjon, for eksempel områder som dupliseres for å skjule originale funksjoner.

Noen ganger er digitale redigeringer for subtile til å oppdage, men hopper til syne når vi justerer måten lyse og mørke piksler fordeles på. For eksempel, i 2010 ga NASA ut en bilde av Saturns måner Dione og Titan. Den var på ingen måte falsk, men hadde blitt ryddet opp for å fjerne bortkommen gjenstander - som ble oppmerksomheten til konspirasjonsteoretikere.

Nysgjerrig la jeg bildet inn i Photoshop. Illustrasjonen nedenfor gjenskaper omtrent hvordan dette så ut.

Skjermbilde av en bilderedigeringsskjerm med diagrammer for mørk og lys justering
En simulering som viser hvordan redigering kan oppdages når nivåer av lys og mørke justeres. Bildekreditt: Brendan Murphy / oppgitt forfatter

De fleste digitale fotografier er i komprimerte formater som JPEG, slanket ned ved å fjerne mye av informasjonen som fanges opp av kameraet. Standardiserte algoritmer sikrer at informasjonen som fjernes har minimal synlig innvirkning – men den etterlater seg spor.

Komprimeringen av en hvilken som helst region av et bilde vil avhenge av hva som skjer i bildet og gjeldende kamerainnstillinger; når et falskt bilde kombinerer flere kilder, er det ofte mulig å oppdage dette ved nøye analyse av kompresjonsartefakter.

Noen rettsmedisinske metoder har lite å gjøre med formatet til et bilde, men er det i hovedsak visuelt detektivarbeid. Lyser alle på bildet på samme måte? Er skygger og refleksjoner fornuftig? Viser ører og hender lys og skygge på de riktige stedene? Hva gjenspeiles i folks øyne? Ville alle linjene og vinklene i rommet gått opp hvis vi modellerte scenen i 3D?

Arthur Conan Doyle kan ha blitt lurt av eventyrbilder, men jeg tror at kreasjonen hans Sherlock Holmes ville vært hjemme i verden av rettsmedisinsk fotoanalyse.

En ny æra av kunstig intelligens

De gjeldende eksplosjon av bilder laget av tekst-til-bilde kunstig intelligens verktøy er på mange måter mer radikalt enn skiftet fra film til digital fotografering.

Vi kan nå fremkalle et hvilket som helst bilde vi vil, bare ved å skrive. Disse bildene er ikke franken-bilder laget ved å flette sammen allerede eksisterende piksler. De er helt nye bilder med innholdet, kvaliteten og stilen spesifisert.

Inntil nylig har de komplekse nevrale nettverkene som brukes til å generere disse bildene hatt begrenset tilgjengelighet for publikum. Dette endret seg 23. august 2022, med utgivelsen til offentligheten av åpen kildekode stabil diffusjon. Nå kan alle som har et Nvidia-grafikkort på spillnivå i datamaskinen, lage AI-bildeinnhold uten noe forskningslaboratorium eller forretningsporter for sine aktiviteter.

Dette har fått mange til å spørre, "kan vi noen gang tro det vi ser på nettet igjen?". Det kommer an på.

Tekst-til-bilde AI får smartene sine fra trening – analysen av et stort antall bilde/teksting-par. Styrkene og svakhetene til hvert system er delvis avledet fra bare hvilke bilder det har blitt trent på. Her er et eksempel: dette er hvordan Stable Diffusion ser George Clooney stryke.

Et litt uhyggelig bilde av en mann med forvrengte trekk som holder et hvitt håndkle
Dette er George Clooney som stryker...eller er det? Bildekreditt: Brendan Murphy / oppgitt forfatter

Dette er langt fra realistisk. Alt Stable Diffusion trenger å gå på er informasjonen den har lært, og selv om det er klart at den har sett George Clooney og kan knytte den rekken av bokstaver til skuespillerens funksjoner, er den ikke en Clooney-ekspert.

Imidlertid ville den ha sett og fordøyd mange flere bilder av middelaldrende menn generelt, så la oss se hva som skjer når vi ber om en generisk middelaldrende mann i samme scenario.

Et litt uhyggelig bilde av en middelaldrende mann med avrundede trekk som ser på kameraet og holder en skjorte
Ikke-George-Clooney stryker. Bildekreditt: Brendan Murphy / oppgitt forfatter

Dette er en klar forbedring, men likevel ikke helt realistisk. Som alltid har vært tilfelle, er den vanskelige geometrien til hender og ører gode steder å lete etter tegn på falskhet – selv om vi i dette mediet ser på den romlige geometrien i stedet for fortellingene om umulig belysning.

Det kan være andre ledetråder. Hvis vi nøye rekonstruerte rommet, ville hjørnene vært firkantede? Vil hyllene være fornuftige? En rettsmedisinsk ekspert som er vant til å undersøke digitale fotografier, kan sannsynligvis ringe det.

Vi kan ikke lenger tro våre øyne

Hvis vi utvider kunnskapen til et tekst-til-bilde-system, kan det gjøre det enda bedre. Du kan legge til dine egne beskrevne bilder for å supplere eksisterende opplæring. Denne prosessen er kjent som tekstuell inversjon.

Nylig har Google gitt ut Drømmebod, en alternativ, mer sofistikert metode for å injisere spesifikke personer, objekter eller til og med kunststiler i tekst-til-bilde AI-systemer.

Denne prosessen krever kraftig maskinvare, men resultatene er svimlende. Noe flott arbeid har begynt å bli delt på Reddit. Se på bildene i innlegget under som viser bilder satt inn i DreamBooth og realistiske falske bilder fra Stable Diffusion.



Vi kan ikke lenger tro våre egne øyne, men vi kan fortsatt stole på rettsmedisinske eksperter, i det minste foreløpig. Det er fullt mulig at fremtidige systemer bevisst kan trenes til å lure dem også.

Vi beveger oss raskt inn i en tid hvor perfekt fotografering og til og med video vil være vanlig. Tiden vil vise hvor betydelig dette vil være, men i mellomtiden er det verdt å huske leksjonen fra Cottingley Fairy-bildene - noen ganger vil folk bare tro, selv på åpenbare forfalskninger.Den Conversation

Denne artikkelen er publisert fra Den Conversation under en Creative Commons-lisens. Les opprinnelige artikkelen.

Bilde Credit: Brendan Murphy / author gitt

Tidstempel:

Mer fra Singularity Hub