A mesterséges intelligencia képgenerálása csillagászati ​​sebességgel halad. Még mindig megállapíthatjuk, hogy egy kép hamis? PlatoBlockchain adatintelligencia. Függőleges keresés. Ai.

A mesterséges intelligencia képgenerálása csillagászati ​​sebességgel halad. Még mindig megállapíthatjuk, hogy egy kép hamis?

A hamis fényképezés nem újdonság. Az 1910-es években a brit írót, Arthur Conan Doyle-t híresen megtévesztette két iskoláskorú nővér, akik fényképeket készítettek a kertjükben kavargó elegáns tündérekről.

Az első az öt „Cottingley Fairies” fénykép közül, Elsie Wright készítette 1917-ben. A kép forrása: Wikipédia

Ma már nehéz elhinni, hogy ezek a fotók bárkit is megtéveszthettek volna, de egy Geoffrey Crawley nevű szakértőnek csak az 1980-as években volt bátorsága, hogy közvetlenül alkalmazza filmfotózással kapcsolatos tudását, és következtessen a nyilvánvaló dolgokra.

A fényképek hamisak, ahogy később maga az egyik nővér is elismerte.

Egy kissé furcsa kép egy mosolygó férfiról, aki egy oldschool fényképezőgépet tart
1982-ben Geoffrey Crawley arra a következtetésre jutott, hogy a tündérfotók hamisak. Ilyen ez is. A kép forrása: Brendan Murphy / szerző biztosított

Vadászat műtermékekre és józan észre

A digitális fényképezés technikák tárházát nyitotta meg a hamisítók és a nyomozók számára egyaránt.

A gyanús képek igazságügyi orvosszakértői vizsgálata manapság magában foglalja a digitális fényképezésben rejlő tulajdonságok keresését, mint pl. a képekbe ágyazott metaadatokat, olyan szoftverek segítségével, mint az Adobe Photoshop a képek torzításainak kijavítására, és manipuláció árulkodó jeleit keresve, például a régiók duplikálása az eredeti jellemzők elfedésére.

Néha a digitális szerkesztések túl finomak ahhoz, hogy észrevegyék, de a világos és sötét képpontok eloszlásának beállításakor beugrik a látvány. Például 2010-ben a NASA kiadott egy fotó a Szaturnusz Dione és Titan holdjáról. Semmi esetre sem volt hamis, de kitakarították, hogy eltávolítsák a kósza műtárgyakat – az összeesküvés-elméletek híveinek figyelmét.

Kíváncsi vagyok, betettem a képet Photoshopba. Az alábbi illusztráció nagyjából visszaadja, hogyan nézett ki.

Képszerkesztő képernyő képernyőképe sötét és világos beállítási diagramokkal
Egy szimuláció, amely bemutatja, hogyan észlelhető a szerkesztés a világos és a sötétség szintjének beállításakor. A kép forrása: Brendan Murphy / szerző biztosított

A legtöbb digitális fénykép tömörített formátumú, például JPEG, amelyet a fényképezőgép által rögzített információk nagy részének eltávolításával karcsúsítanak. A szabványosított algoritmusok biztosítják, hogy az eltávolított információ minimális látható hatást fejtsen ki, de nyomokat hagy maga után.

A kép bármely részének tömörítése attól függ, hogy mi történik a képen és a kamera aktuális beállításaitól; ha egy hamis kép több forrást is kombinál, gyakran ez észlelhető a tömörítési műtermékek gondos elemzése.

Egyes kriminalisztikai módszereknek kevés köze van a kép formátumához, de lényegében igen vizuális detektív munka. A képen mindenki egyformán világít? Van értelme az árnyékoknak és a tükröződéseknek? A fülek és a kezek a megfelelő helyen mutatják a fényt és az árnyékot? Mi tükröződik az emberek szemében? A szoba összes vonala és szöge összeadódik, ha 3D-ben modellezzük a jelenetet?

Lehet, hogy Arthur Conan Doyle-t megtévesztették a tündérfotók, de úgy gondolom, hogy Sherlock Holmes című alkotása otthon lenne a kriminalisztikai fotóelemzés világában.

A mesterséges intelligencia új korszaka

A aktuális képek robbanása szövegből képbe történő létrehozása mesterséges intelligencia Az eszközök sok szempontból radikálisabbak, mint a filmről a digitális fényképezésre való átállás.

Mostantól bármilyen képet varázsolhatunk, csak gépeléssel. Ezek a képek nem franken-fotók, amelyeket már meglévő pixelcsomók összefűzésével készítettek. Teljesen új képek, meghatározott tartalommal, minőséggel és stílussal.

Egészen a közelmúltig az ilyen képek előállításához használt összetett neurális hálózatok korlátozottan voltak elérhetőek a nyilvánosság számára. Ez 23. augusztus 2022-án megváltozott, amikor nyilvánosságra hozták a nyílt forráskódú Stable Diffusion. Mostantól bárki, akinek játékszintű Nvidia grafikus kártyája van a számítógépében, létrehozhat mesterséges intelligencia képtartalmat anélkül, hogy kutatólaboratóriumot vagy üzleti kaput kellene őriznie.

Ez sokakat arra késztetett, hogy megkérdezzék:el tudjuk-e hinni még egyszer, amit az interneten látunk?”. Attól függ.

Szöveg-kép mesterséges intelligencia a képzésből – nagyszámú kép/felirat pár elemzéséből – nyeri ki okosságát. Az egyes rendszerek erősségei és gyengeségei részben abból adódnak, hogy milyen képek alapján képezték ki őket. Íme egy példa: így látja a Stable Diffusion, ahogy George Clooney vasal.

Egy kissé elképesztő kép egy torz arcvonású férfiról, aki fehér törülközőt tart
Itt George Clooney vasal… vagy nem? A kép forrása: Brendan Murphy / szerző biztosított

Ez messze nem reális. A Stable Diffusionnek csak a megtudott információra van szüksége, és bár nyilvánvaló, hogy látta George Clooney-t, és össze tudja kapcsolni ezt a betűsort a színész vonásaival, ez nem Clooney-szakértő.

Azonban sokkal több fotót látott volna és emésztett volna meg általában középkorú férfiakról, szóval lássuk, mi történik, ha egy általános középkorú férfit kérünk ugyanebben a forgatókönyvben.

Enyhén elképesztő kép egy középkorú, lekerekített arcvonású férfiról, aki a kamerába néz, és egy inget tart
Nem-George-Clooney vasal. A kép forrása: Brendan Murphy / szerző biztosított

Ez egyértelmű javulás, de még mindig nem egészen reális. Mint mindig, a kezek és a fülek trükkös geometriája jó hely a hamisítás nyomainak keresésére – bár ebben a közegben inkább a térbeli geometriát nézzük, nem pedig a lehetetlen megvilágításról szóló beszámolókat.

Lehetnek más nyomok is. Ha gondosan rekonstruálnánk a szobát, négyzet alakúak lennének a sarkok? Van értelme a polcoknak? A digitális fényképek vizsgálatához szokott igazságügyi szakértő valószínűleg felhívhatja ezt a kérdést.

Már nem hiszünk a szemünknek

Ha kiterjesztjük egy szöveg-kép rendszer tudását, még jobb eredményre juthat. A meglévő képzés kiegészítéseként saját, leírt fényképeket is hozzáadhat. Ez a folyamat az úgynevezett szöveges inverzió.

Nemrég a Google kiadta Dream Booth, egy alternatív, kifinomultabb módszer adott személyek, tárgyak vagy akár művészeti stílusok szöveg-kép AI-rendszerekbe való beillesztésére.

Ez a folyamat nagy teherbírású hardvert igényel, de az eredmények megdöbbentőek. Néhány nagyszerű munka megosztása megkezdődött a Redditen. Nézd meg a képeket az alábbi bejegyzésben amelyek a DreamBoothba helyezett képeket és a Stable Diffusion valósághű hamis képeit mutatják.



Már nem hiszünk a szemünknek, de még bízhatunk a törvényszéki szakértőkben, legalábbis egyelőre. Teljesen lehetséges, hogy a jövőbeli rendszereket szándékosan kiképezhetik, hogy becsapják őket.

Gyorsan haladunk egy olyan korszak felé, ahol a tökéletes fényképezés és akár videózás is általános lesz. Az idő megmutatja, hogy ez mennyire lesz jelentős, de addig is érdemes felidézni a Cottingley Fairy fotók tanulságát – az emberek néha csak hinni akarnak, még a nyilvánvaló hamisításokban is.A beszélgetés

Ezt a cikket újra kiadják A beszélgetés Creative Commons licenc alatt. Olvassa el a eredeti cikk.

Kép: Brendan Murphy / aszerző biztosította

Időbélyeg:

Még több Singularity Hub