Orodja umetne inteligence za boljše slike | Revija Quanta

Orodja umetne inteligence za boljše slike | Revija Quanta

Orodja umetne inteligence za boljše podobe | Revija Quanta PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Predstavitev

To je eden največjih klišejev v kriminalu in znanstveni fantastiki: preiskovalec prikaže zamegljeno fotografijo na računalniškem zaslonu in zahteva, da se izboljša, in bum, slika se izostri in razkrije nekaj bistvenih sledi. To je čudovita priročnost za pripovedovanje zgodb, vendar je že desetletja frustrirajoča izmišljotina – če preveč povečate sliko, postane vidno slikovita. Ni dovolj podatkov, da bi naredili več.

»Če samo naivno izboljšate sliko, bo zamegljena. Veliko bo podrobnosti, vendar bo napačno,« je dejal Bryan Catanzaro, podpredsednik za raziskave uporabnega globokega učenja pri Nvidii.

Pred kratkim so raziskovalci in strokovnjaki začeli vključevati algoritme umetne inteligence v svoja orodja za izboljšanje slike, zaradi česar je postopek lažji in zmogljivejši, vendar še vedno obstajajo omejitve, koliko podatkov je mogoče pridobiti iz katere koli slike. Na srečo, ko raziskovalci vse bolj pospešujejo algoritme za izboljšanje, iščejo nove načine za spopadanje s temi omejitvami – včasih celo najdejo načine, kako jih premagati.

V zadnjem desetletju so raziskovalci začeli izboljševati slike z novo vrsto modela umetne inteligence, imenovanega generativno kontradiktorno omrežje ali GAN, ki bi lahko ustvaril podrobne slike impresivnega videza. "Slike so nenadoma postale veliko boljše," je dejal Tomer Michaeli, inženir elektrotehnike pri Technionu v Izraelu. Vendar je bil presenečen, da so slike, ki so jih ustvarili GAN-ji, pokazale visoko stopnjo popačenja, ki meri, kako blizu je izboljšana slika temeljni resničnosti tega, kar prikazuje. GAN-ji so ustvarili slike, ki so bile videti lepe in naravne, vendar so si dejansko izmišljevale ali »halucinirale« podrobnosti, ki niso bile natančne, kar je bilo zabeleženo kot visoka stopnja popačenja.

Michaeli je opazoval, kako se področje restavriranja fotografij razdeli na dve različni podskupnosti. »Eden je pokazal lepe slike, veliko jih je naredil GAN. Drugi je pokazal podatke, vendar ni veliko slik, ker niso bile videti lepo,« je dejal.

Leta 2017 sta Michaeli in njegov podiplomski študent Yochai Blau to dihotomijo pogledala bolj formalno. Učinkovitost različnih algoritmov za izboljšanje slike so narisali na graf popačenja v primerjavi s kakovostjo zaznavanja, pri čemer so uporabili znano mero za kakovost zaznavanja, ki je v dobri korelaciji s subjektivno presojo ljudi. Kot je Michaeli pričakoval, so nekateri algoritmi povzročili zelo visoko vizualno kakovost, drugi pa so bili zelo natančni z nizkim popačenjem. Toda nobeden ni imel obeh prednosti; morali ste izbrati enega ali drugega. Raziskovalci so to poimenovali kompromis zaznavanje-izkrivljanje.

Michaeli tudi izzval druge raziskovalce pripraviti algoritme, ki bi lahko proizvedli najboljšo kakovost slike za določeno stopnjo popačenja, omogočiti poštene primerjave med algoritmi lepe slike in algoritmi dobre statistike. Od takrat je na stotine raziskovalcev umetne inteligence poročalo o izkrivljanju in zaznavnih lastnostih njihovih algoritmov, citiranje dokumenta Michaeli in Blau ki opisuje kompromis.

Včasih posledice kompromisa med zaznavanjem in izkrivljanjem niso strašne. Nvidia je na primer ugotovila, da zasloni z visoko ločljivostjo niso dobro upodabljali nekaterih vizualnih vsebin z nižjo ločljivostjo, zato je februarja izdala orodje, ki uporablja globoko učenje za izboljšanje pretočnega videa. V tem primeru so Nvidijini inženirji izbrali zaznavno kakovost namesto natančnosti, pri čemer so sprejeli dejstvo, da bo algoritem, ko nadgradi video, ustvaril nekaj vizualnih podrobnosti, ki jih ni v izvirnem videu. »Manekenka halucinira. Vse je ugibanje,« je dejal Catanzaro. "Večino časa je v redu, če model z visoko ločljivostjo ugiba narobe, če je dosleden."

Predstavitev

Aplikacije v raziskavah in medicini seveda zahtevajo veliko večjo natančnost. Tehnologija umetne inteligence je privedla do velikega napredka pri slikanju, vendar "včasih prihaja z neželenimi stranskimi učinki, kot je prekomerno opremljanje ali [dodajanje] ponarejenih funkcij, in je zato treba z njo ravnati zelo previdno," je dejal. Junjie Yao, biomedicinski inženir na univerzi Duke. Lani je kot soavtor napisal a papirja opisuje, kako lahko orodja umetne inteligence izboljšajo obstoječe metode merjenja krvnega pretoka in metabolizma v možganih – pri tem pa varno ostanejo na natančni strani kompromisa med zaznavanjem in popačenjem.

Eden od načinov za izogibanje omejitvam količine podatkov, ki jih je mogoče izvleči iz slike, je preprosto vključitev podatkov iz več slik – čeprav to pogosto ni tako preprosto. Raziskovalci, ki preučujejo okolje s pomočjo satelitskih posnetkov, so napredovali pri kombiniranju različnih virov vizualnih podatkov. Leta 2021 je skupina raziskovalcev na Kitajskem in v Združenem kraljestvu zlitih podatkov iz dveh različnih vrst satelitov, da bi dobili boljši pogled na krčenje gozdov v Kongovskem bazenu, drugem največjem tropskem deževnem gozdu na svetu in enem največjih skladišč biotske raznovrstnosti. Raziskovalci so vzeli podatke iz dveh satelitov Landsat, ki sta desetletja merila krčenje gozdov, in uporabili tehnike globokega učenja za izboljšanje ločljivosti slik s 30 metrov na 10 metrov. Ta niz slik so nato združili s podatki iz dveh satelitov Sentinel-2, ki imata nekoliko drugačen niz detektorjev. Kombinirani posnetki so "omogočili zaznati 11 % do 21 % več motenih območij, kot je bilo mogoče samo z uporabo slik Sentinel-2 ali Landsat-7/8," so zapisali.

Michaeli predlaga drug način, kako se izogniti trdim omejitvam dostopnosti informacij, če že ne skozi. Namesto da bi se odločili za en trdni odgovor, kako izboljšati sliko nizke kakovosti, bi modeli lahko prikazali več različnih interpretacij izvirne slike. V prispevku z naslovom »Raziskovalna super ločljivost,« je pomagal prikazati, kako lahko orodja za izboljšanje slike uporabniku ponudijo več predlogov. Eno mehko sliko osebe z nizko ločljivostjo, ki nosi nekaj, kar je videti kot sivkasta srajca, bi lahko rekonstruirali v sliko z višjo ločljivostjo, na kateri ima srajca črno-bele navpične črte, vodoravne črte ali karo, ki so vsi enako verjetni .

V drugem primeru je Michaeli posnel nizkokakovostno fotografijo registrske tablice in jo spustil skozi vodilni izboljševalec slike z umetno inteligenco, ki je pokazal, da je 1 na registrski tablici videti najbolj podobna ničli. Ko pa je bila slika obdelana z drugačnim, bolj odprtim algoritmom, ki ga je zasnoval Michaeli, je bilo videti, da je številka enako verjetno nič, 1 ali 8. Ta pristop bi lahko pomagal izključiti druge številke, ne da bi napačno sklepali, da je številka nič.

Medtem ko se različne discipline na svoje načine spopadajo s kompromisom med zaznavanjem in popačenjem, ostaja osrednje vprašanje, koliko lahko izvlečemo iz posnetkov umetne inteligence in koliko lahko tem slikam zaupamo. "Upoštevati moramo, da algoritmi za izpis teh lepih slik samo izdelajo podrobnosti," je dejal Michaeli. Te halucinacije lahko omilimo, vendar bo vsemogočen gumb za »izboljšanje« za reševanje zločinov ostal le sanje.

Časovni žig:

Več od Quantamagazine