AI-verktøyene får bilder til å se bedre ut | Quanta Magazine

AI-verktøyene får bilder til å se bedre ut | Quanta Magazine

AI-verktøyene får bilder til å se bedre ut | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Introduksjon

Det er en av de største klisjeene innen krim og science fiction: En etterforsker trekker opp et uskarpt bilde på en dataskjerm og ber om at det skal forbedres, og boom, bildet kommer i fokus, og avslører noen viktige ledetråder. Det er en fantastisk historiefortelling, men det har vært en frustrerende fiksjon i flere tiår – spreng et bilde for mye, og det blir synlig pikselert. Det er ikke nok data til å gjøre mer.

«Hvis du bare naivt oppskalerer et bilde, kommer det til å bli uskarpt. Det kommer til å være mange detaljer, men det kommer til å bli feil,” sa Bryan Catanzaro, visepresident for anvendt dyplæringsforskning hos Nvidia.

Nylig har forskere og fagfolk begynt å inkorporere kunstig intelligens-algoritmer i sine bildeforbedrende verktøy, noe som gjør prosessen enklere og kraftigere, men det er fortsatt grenser for hvor mye data som kan hentes fra et bilde. Heldigvis, ettersom forskere presser forbedringsalgoritmer enda lenger, finner de nye måter å takle disse grensene på - selv til tider å finne måter å overvinne dem.

I løpet av det siste tiåret begynte forskere å forbedre bilder med en ny type AI-modell kalt et generativt motstridende nettverk, eller GAN, som kunne produsere detaljerte, imponerende bilder. "Bildene begynte plutselig å se mye bedre ut," sa Tomer Michaeli, en elektroingeniør ved Technion i Israel. Men han var overrasket over at bilder laget av GAN-er viste høye nivåer av forvrengning, som måler hvor nært et forbedret bilde er den underliggende virkeligheten til det det viser. GAN-er produserte bilder som så pene og naturlige ut, men de fant faktisk opp, eller "hallusinerte", detaljer som ikke var nøyaktige, noe som ble registrert som høye nivåer av forvrengning.

Michaeli så feltet for fotorestaurering delt i to distinkte undersamfunn. «En viste fine bilder, mange laget av GAN-er. Den andre viste data, men de viste ikke mange bilder, fordi de så ikke fine ut, sa han.

I 2017 undersøkte Michaeli og hans hovedfagsstudent Yochai Blau denne todelingen mer formelt. De plottet ytelsen til forskjellige bildeforbedringsalgoritmer på en graf av forvrengning versus perseptuell kvalitet, ved å bruke et kjent mål for perseptuell kvalitet som korrelerer godt med menneskers subjektive dømmekraft. Som Michaeli forventet, resulterte noen av algoritmene i svært høy visuell kvalitet, mens andre var svært nøyaktige, med lav forvrengning. Men ingen hadde begge fordelene; du måtte velge det ene eller det andre. Forskerne kalte dette avveiningen mellom persepsjon og forvrengning.

Michaeli også utfordret andre forskere å komme opp med algoritmer som kan produsere den beste bildekvaliteten for et gitt nivå av forvrengning, for å tillate rettferdige sammenligninger mellom pene-bilde-algoritmene og nice-stats. Siden den gang har hundrevis av AI-forskere rapportert om forvrengnings- og persepsjonskvalitetene til algoritmene deres, siterer Michaeli og Blau-avisen som beskrev avveiningen.

Noen ganger er ikke implikasjonene av avveiningen mellom persepsjon og forvrengning alvorlige. Nvidia, for eksempel, fant ut at høyoppløselige skjermer ikke gjengir noe visuelt innhold med lavere oppløsning, så i februar ga den ut et verktøy som bruker dyp læring for å oppskalere streaming av video. I dette tilfellet valgte Nvidias ingeniører perseptuell kvalitet fremfor nøyaktighet, og aksepterte det faktum at når algoritmen oppskalerer video, vil den utgjøre noen visuelle detaljer som ikke er i den originale videoen. «Modellen er hallusinerende. Alt er en gjetning,» sa Catanzaro. "For det meste er det greit for en superoppløsningsmodell å gjette feil, så lenge den er konsistent."

Introduksjon

Anvendelser innen forskning og medisin krever selvsagt langt mer nøyaktighet. AI-teknologi har ført til store fremskritt innen bildebehandling, men det "noen ganger kommer med uønskede bivirkninger, som overfitting eller [legge til] falske funksjoner, og må derfor behandles med ekstrem forsiktighet," sa Junjie Yao, en biomedisinsk ingeniør ved Duke University. I fjor var han med på å skrive en papir beskriver hvordan AI-verktøy kan forbedre eksisterende metoder for å måle blodstrøm og metabolisme i hjernen – samtidig som de holder seg trygt på den nøyaktige siden av avveiningen mellom persepsjon og forvrengning.

En måte å omgå grensene for hvor mye data som kan trekkes ut fra et bilde, er å ganske enkelt inkorporere data fra flere bilder – selv om det ofte ikke er så enkelt. Forskere som studerer miljøet gjennom satellittbilder har gjort fremskritt med å kombinere ulike kilder til visuelle data. I 2021, en gruppe forskere i Kina og Storbritannia sammenslåtte data fra to forskjellige typer satellitter for å få en bedre oversikt over avskoging i Kongo-bassenget, den nest største tropiske regnskogen i verden og en av de største lagrene av biologisk mangfold. Forskerne tok data fra to Landsat-satellitter, som har målt avskoging i flere tiår, og brukte dyplæringsteknikker for å avgrense oppløsningen på bildene fra 30 meter til 10 meter. De smeltet deretter sammen bildesettet med data fra to Sentinel-2-satellitter, som har et litt annet utvalg av detektorer. De kombinerte bildene "tillot 11% til 21% flere forstyrrede områder å bli oppdaget enn det som var mulig med Sentinel-2- eller Landsat-7/8-bildene alene," skrev de.

Michaeli foreslår en annen måte å komme seg rundt, om ikke gjennom, harde grenser for tilgjengeligheten til informasjon. I stedet for å bestemme seg for ett fast svar for hvordan man kan forbedre et bilde av lav kvalitet, kan modellene vise flere forskjellige tolkninger av originalbildet. I en artikkel med tittelen "Utforskbar superoppløsning,” hjalp han med å demonstrere hvordan bildeforbedringsverktøy kan presentere en bruker med flere forslag. Et uklart bilde med lav oppløsning av en person som har på seg noe som ser ut til å være en gråaktig skjorte, kan rekonstrueres til et bilde med høyere oppløsning der skjorten har svarte og hvite vertikale striper, horisontale striper eller ruter, som alle er like plausible .

I et annet eksempel tok Michaeli et lavkvalitetsbilde av en bilskilt og kjørte den gjennom en ledende AI-bildeforsterker, som viste at en 1 på bilskiltet så mest ut som en null. Men når bildet ble behandlet av en annen, mer åpen algoritme som Michaeli designet, så sifferet like sannsynlig ut til å være en null, 1 eller 8. Denne tilnærmingen kunne bidra til å utelukke andre tall uten å feilaktig konkludere med at sifferet var null.

Ettersom ulike disipliner kjemper med avveiningen mellom persepsjon og forvrengning på sine egne måter, forblir spørsmålet om hvor mye vi kan trekke ut fra AI-bilder og hvor mye vi kan stole på disse bildene sentralt. "Vi bør huske på at for å sende ut disse fine bildene, utgjør algoritmene bare detaljer," sa Michaeli. Vi kan dempe disse hallusinasjonene, men den allmektige, kriminalitetsløsende «forbedre»-knappen vil forbli en drøm.

Tidstempel:

Mer fra Quantamagazin