AI Image Generation Is Advancing at Astronomical Speeds. Can We Still Tell if a Picture Is Fake? PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Generiranje slik z umetno inteligenco napreduje z astronomsko hitrostjo. Ali lahko še vedno ugotovimo, ali je slika lažna?

Lažna fotografija ni nič novega. V 1910-ih sta britanskega pisatelja Arthurja Conana Doyla slavno prevarali dve šoloobvezni sestri, ki sta izdelali fotografije elegantnih vil, ki so divjale na njihovem vrtu.

Prva od petih fotografij 'Cottingley Fairies', ki jih je posnela Elsie Wright leta 1917. Avtorstvo slike: Wikipedia

Danes je težko verjeti, da bi te fotografije lahko koga preslepile, vendar je šele v osemdesetih letih prejšnjega stoletja strokovnjak po imenu Geoffrey Crawley imel pogum, da je neposredno uporabil svoje znanje o filmski fotografiji in izpeljal očitno.

Fotografije so bile lažne, kot je kasneje priznala ena od sester.

Nekoliko nenavadna podoba nasmejanega moškega, ki drži starodobno fotografsko kamero
Leta 1982 je Geoffrey Crawley sklepal, da so fotografije pravljic ponarejene. Tudi ta je. Avtorstvo slike: Brendan Murphy / naveden avtor

Lov na artefakte in zdrav razum

Digitalna fotografija je odprla bogastvo tehnik za ponarejevalce in detektive.

Forenzični pregled sumljivih slik danes vključuje iskanje lastnosti, ki so lastne digitalni fotografiji, kot je pregled metapodatki, vdelani v fotografije, z uporabo programske opreme, kot je Adobe Photoshop, za popravljanje popačenj na slikah in iščejo znake manipulacije, kot so podvojitve regij, da se zakrijejo izvirne funkcije.

Včasih so digitalna urejanja preveč subtilna, da bi jih zaznali, vendar pa pridejo v oči, ko prilagodimo način porazdelitve svetlih in temnih slikovnih pik. Na primer, leta 2010 je NASA izdala a fotografija Saturnovih lun Dione in Titana. Nikakor ni bil ponaredek, ampak je bil očiščen, da so odstranili potepuške artefakte – ki so bili pozornosti teoretikov zarote.

Radoveden sem dal sliko v Photoshop. Spodnja ilustracija poustvari približno, kako je to izgledalo.

Posnetek zaslona za urejanje slik z grafikoni za prilagajanje temne in svetle barve
Simulacija, ki prikazuje, kako je mogoče zaznati urejanje, ko se prilagodijo ravni svetlobe in teme. Avtorstvo slike: Brendan Murphy / naveden avtor

Večina digitalnih fotografij je v stisnjenih formatih, kot je JPEG, zmanjšanih z odstranitvijo velikega dela informacij, ki jih je posnel fotoaparat. Standardizirani algoritmi zagotavljajo, da imajo odstranjene informacije minimalen viden učinek, vendar puščajo sledi.

Stiskanje katerega koli področja slike bo odvisno od dogajanja na sliki in trenutnih nastavitev kamere; ko lažna slika združuje več virov, je to pogosto mogoče odkriti z natančno analizo artefaktov stiskanja.

Nekatere forenzične metodologije nimajo veliko skupnega s formatom slike, vendar so v bistvu vizualno detektivsko delo. Ali so vsi na fotografiji osvetljeni enako? Ali so sence in odsevi smiselni? Ali ušesa in roke kažejo svetlobo in sence na pravih mestih? Kaj se odraža v očeh ljudi? Ali bi se vse linije in koti sobe sešteli, če bi modelirali prizor v 3D?

Arthurja Conana Doyla so morda preslepile pravljične fotografije, a mislim, da bi bila njegova stvaritev Sherlock Holmes prav doma v svetu forenzične analize fotografij.

Nova doba umetne inteligence

O trenutna eksplozija slik ustvarjeno s pretvorbo besedila v sliko Umetna inteligenca orodij je v mnogih pogledih bolj radikalen kot prehod s filma na digitalno fotografijo.

Zdaj lahko samo s tipkanjem pričaramo poljubno sliko. Te slike niso frankirane fotografije, ustvarjene s sestavljanjem že obstoječih grudic slikovnih pik. To so popolnoma nove slike z določeno vsebino, kakovostjo in slogom.

Do nedavnega so bile kompleksne nevronske mreže, ki so se uporabljale za ustvarjanje teh slik, omejeno dostopne javnosti. To se je spremenilo 23. avgusta 2022 z objavo v javnosti odprtokodna stabilna difuzija. Zdaj lahko vsakdo, ki ima v svojem računalniku grafično kartico Nvidia na ravni iger, ustvari slikovno vsebino z umetno inteligenco brez kakršnega koli raziskovalnega laboratorija ali poslovnega nadzora svojih dejavnosti.

To je mnoge spodbudilo k vprašanju, "ali lahko še kdaj verjamemo temu, kar vidimo na spletu?”. Odvisno.

Umetna inteligenca za pretvorbo besedila v sliko pridobi svojo pamet z usposabljanjem – analizo velikega števila parov slika/napis. Prednosti in slabosti vsakega sistema delno izhajajo iz tega, na kakšnih slikah je bil učen. Tukaj je primer: tako Stable Diffusion vidi Georgea Clooneyja pri likanju.

Nekoliko nenavadna podoba moškega z izkrivljenimi potezami, ki drži belo brisačo
To je George Clooney, ki lika ... ali pač? Avtorstvo slike: Brendan Murphy / naveden avtor

To je daleč od realnega. Vse, kar mora Stable Diffusion nadaljevati, so informacije, ki se jih je naučil, in čeprav je jasno, da je videl Georgea Clooneyja in lahko ta niz črk poveže z igralčevimi potezami, ni strokovnjak za Clooneya.

Vendar pa bi videl in prebavil veliko več fotografij moških srednjih let na splošno, zato poglejmo, kaj se zgodi, ko vprašamo generičnega moškega srednjih let v istem scenariju.

Nekoliko nenavadna podoba moškega srednjih let z zaobljenimi potezami, ki gleda v kamero in drži srajco
Ne-George-Clooney, ki lika svoje. Avtorstvo slike: Brendan Murphy / naveden avtor

To je očitno izboljšanje, vendar še vedno ni povsem realno. Kot se je vedno dogajalo, je zapletena geometrija rok in ušes dobra mesta za iskanje znakov ponarejanja - čeprav v tem mediju gledamo na prostorsko geometrijo in ne na znake nemogoče osvetlitve.

Morda so še drugi namigi. Če bi skrbno rekonstruirali sobo, bi bili vogali kvadratni? Ali bi bile police smiselne? Forenzični izvedenec, ki je vajen pregledovanja digitalnih fotografij, bi se verjetno lahko o tem pogovarjal.

Ne moremo več verjeti svojim očem

Če razširimo znanje sistema za pretvorbo besedila v sliko, je lahko še boljši. Za dopolnitev obstoječega usposabljanja lahko dodate svoje opisane fotografije. Ta postopek je znan kot besedilna inverzija.

Pred kratkim je Google izdal Dream Booth, alternativna, bolj izpopolnjena metoda za vbrizgavanje določenih ljudi, predmetov ali celo umetniških stilov v sisteme umetne inteligence besedila v sliko.

Ta postopek zahteva močno strojno opremo, vendar so rezultati osupljivi. Nekaj ​​odličnega dela se je začelo deliti na Redditu. Poglejte fotografije v spodnji objavi ki prikazujejo slike, vstavljene v DreamBooth, in realistične lažne slike iz Stable Diffusion.



Ne moremo več verjeti svojim očem, morda pa vsaj za zdaj še lahko zaupamo forenzikom. Povsem možno je, da bodo prihodnji sistemi namerno usposobljeni za preslepitev tudi njih.

Hitro se pomikamo v obdobje, ko bo popolna fotografija in celo video nekaj običajnega. Čas bo pokazal, kako pomembno bo to, medtem pa se je vredno spomniti lekcije fotografij Cottingley Fairy – včasih ljudje preprosto želijo verjeti, tudi v očitne ponaredke.Pogovor

Ta članek je ponovno objavljen Pogovor pod licenco Creative Commons. Preberi Originalni članek.

Kreditno slike: Brendan Murphy / author pod pogojem

Časovni žig:

Več od Središče singularnosti