AI-værktøjerne får billeder til at se bedre ud | Quanta Magasinet

AI-værktøjerne får billeder til at se bedre ud | Quanta Magasinet

The AI Tools Making Images Look Better | Quanta Magazine PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Introduktion

Det er en af ​​de største klicheer inden for krimi og science fiction: En efterforsker trækker et sløret billede op på en computerskærm og beder om at få det forbedret, og bom, billedet kommer i fokus og afslører et væsentligt spor. Det er en vidunderlig historiefortælling, men det har været en frustrerende fiktion i årtier - spræng et billede for meget op, og det bliver synligt pixeleret. Der er ikke nok data til at gøre mere.

"Hvis du bare naivt opskalerer et billede, bliver det sløret. Der kommer til at være mange detaljer, men det bliver forkert,” sagde Bryan Catanzaro, vicepræsident for anvendt deep learning-forskning hos Nvidia.

For nylig er forskere og fagfolk begyndt at inkorporere kunstig intelligens-algoritmer i deres billedforbedrende værktøjer, hvilket gør processen nemmere og mere kraftfuld, men der er stadig grænser for, hvor meget data der kan hentes fra ethvert billede. Heldigvis, efterhånden som forskere skubber forbedringsalgoritmer endnu længere, finder de nye måder at klare disse grænser på - endda til tider at finde måder at overvinde dem.

I det sidste årti begyndte forskere at forbedre billeder med en ny slags AI-model kaldet et generativt modstridende netværk eller GAN, som kunne producere detaljerede, imponerende billeder. "Billederne begyndte pludselig at se meget bedre ud," sagde Tomer Michaeli, en elektroingeniør ved Technion i Israel. Men han var overrasket over, at billeder lavet af GAN'er viste høje niveauer af forvrængning, som måler, hvor tæt et forbedret billede er på den underliggende virkelighed af det, det viser. GAN'er producerede billeder, der så smukke og naturlige ud, men de fandt faktisk op eller "hallucinerede" detaljer, der ikke var nøjagtige, hvilket blev registreret som høje niveauer af forvrængning.

Michaeli så feltet for fotogendannelse opdelt i to adskilte undersamfund. “En viste flotte billeder, mange lavet af GAN'ere. Den anden viste data, men de viste ikke mange billeder, for de så ikke pæne ud,” sagde han.

I 2017 undersøgte Michaeli og hans kandidatstuderende Yochai Blau denne dikotomi mere formelt. De plottede ydeevnen af ​​forskellige billedforbedringsalgoritmer på en graf over forvrængning versus perceptuel kvalitet ved at bruge et kendt mål for perceptuel kvalitet, der korrelerer godt med menneskers subjektive dømmekraft. Som Michaeli forventede, resulterede nogle af algoritmerne i meget høj visuel kvalitet, mens andre var meget præcise med lav forvrængning. Men ingen havde begge fordele; man skulle vælge det ene eller det andet. Forskerne døbte dette afvejningen mellem opfattelse og forvrængning.

Michaeli også udfordrede andre forskere at komme med algoritmer, der kunne producere den bedste billedkvalitet for et givet niveau af forvrængning, for at tillade rimelige sammenligninger mellem algoritmerne for smukke billeder og de pæne statistiske algoritmer. Siden da har hundredvis af AI-forskere rapporteret om forvrængning og perceptionskvaliteter af deres algoritmer, med henvisning til Michaeli og Blau-avisen der beskrev afvejningen.

Nogle gange er implikationerne af afvejningen mellem opfattelse og forvrængning ikke voldsomme. Nvidia fandt for eksempel ud af, at high-definition-skærme ikke renderede noget visuelt indhold i lavere definition, så i februar udgav det et værktøj, der bruger dyb læring til at opskalere streaming video. I dette tilfælde valgte Nvidias ingeniører perceptuel kvalitet frem for nøjagtighed, idet de accepterede det faktum, at når algoritmen opskalerer video, vil den udgøre nogle visuelle detaljer, som ikke er i den originale video. ”Modellen er hallucinerende. Det hele er et gæt,” sagde Catanzaro. "Det meste af tiden er det fint for en superopløsningsmodel at gætte forkert, så længe den er konsistent."

Introduktion

Anvendelser inden for forskning og medicin kræver naturligvis langt mere nøjagtighed. AI-teknologi har ført til store fremskridt inden for billeddannelse, men den "kommer nogle gange med uønskede bivirkninger, såsom overfitting eller [tilføje] falske funktioner, og den skal derfor behandles med ekstrem forsigtighed," sagde Junjie Yao, en biomedicinsk ingeniør ved Duke University. Sidste år var han med til at skrive en papir beskriver, hvordan AI-værktøjer kan forbedre eksisterende metoder til måling af blodgennemstrømning og stofskifte i hjernen - samtidig med at de forbliver sikkert på den nøjagtige side af afvejningen mellem perception og forvrængning.

En måde at omgå grænser for, hvor meget data der kan udtrækkes fra et billede, er simpelthen at inkorporere data fra flere billeder - selvom det ofte ikke er så enkelt. Forskere, der studerer miljøet gennem satellitbilleder, har gjort fremskridt med at kombinere forskellige kilder til visuelle data. I 2021 en gruppe forskere i Kina og Storbritannien sammensmeltede data fra to forskellige typer satellitter for at få et bedre overblik over skovrydning i Congo-bassinet, den næststørste tropiske regnskov i verden og en af ​​de største lagre af biodiversitet. Forskerne tog data fra to Landsat-satellitter, som har målt skovrydning i årtier, og brugte deep learning-teknikker til at forfine billedernes opløsning fra 30 meter til 10 meter. De fusionerede derefter det billedsæt med data fra to Sentinel-2-satellitter, som har en lidt anderledes række af detektorer. De kombinerede billeder "tillod 11% til 21% flere forstyrrede områder at blive opdaget, end det var muligt ved brug af Sentinel-2- eller Landsat-7/8-billederne alene," skrev de.

Michaeli foreslår en anden måde at komme uden om, hvis ikke gennem, hårde grænser for tilgængeligheden af ​​information. I stedet for at nøjes med ét fast svar på, hvordan man forbedrer et billede af lav kvalitet, kunne modellerne vise flere forskellige fortolkninger af det originale billede. I et papir med titlen "Udforskbar superopløsning,” hjalp han med at demonstrere, hvordan billedforbedringsværktøjer kunne præsentere en bruger for flere forslag. Et sløret billede i lav opløsning af en person, der bærer, hvad der ser ud til at være en grålig skjorte, kunne rekonstrueres til et billede i højere opløsning, hvor skjorten har sorte og hvide lodrette striber, vandrette striber eller tern, som alle er lige plausible .

I et andet eksempel tog Michaeli et lavkvalitetsfoto af en nummerplade og kørte det gennem en førende AI-billedforstærker, som viste, at et 1 på nummerpladen mest lignede et nul. Men når billedet blev behandlet af en anden, mere åben algoritme, som Michaeli designede, så tallet lige sandsynligt ud til at være et nul, 1 eller 8. Denne tilgang kunne hjælpe med at udelukke andre tal uden fejlagtigt at konkludere, at cifferet var nul.

Mens forskellige discipliner kæmper med afvejningen mellem opfattelse og forvrængning på deres egne måder, forbliver spørgsmålet om, hvor meget vi kan udvinde fra AI-billeder, og hvor meget vi kan stole på disse billeder, centralt. "Vi bør huske på, at for at udskrive disse flotte billeder, udgør algoritmerne kun detaljer," sagde Michaeli. Vi kan afbøde disse hallucinationer, men den almægtige, kriminalitetsløsende "forbedr"-knap vil forblive en drøm.

Tidsstempel:

Mere fra Quantamagazin