AI-verktygen får bilder att se bättre ut | Quanta Magazine

AI-verktygen får bilder att se bättre ut | Quanta Magazine

AI-verktygen får bilder att se bättre ut | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Beskrivning

Det är en av de största klichéerna inom kriminalitet och science fiction: En utredare drar upp ett suddigt foto på en datorskärm och ber om att det ska förbättras, och boom, bilden hamnar i fokus och avslöjar en viktig ledtråd. Det är en underbar berättande bekvämlighet, men det har varit en frustrerande fiktion i årtionden - spräng en bild för mycket, och den blir synligt pixlad. Det finns inte tillräckligt med data för att göra mer.

"Om du bara naivt uppskalar en bild kommer den att bli suddig. Det kommer att bli mycket detaljer, men det kommer att bli fel”, sa Bryan Catanzaro, vice vd för tillämpad djupinlärningsforskning på Nvidia.

Nyligen har forskare och proffs börjat införliva artificiell intelligensalgoritmer i sina bildförbättrande verktyg, vilket gör processen enklare och kraftfullare, men det finns fortfarande gränser för hur mycket data som kan hämtas från vilken bild som helst. Lyckligtvis, när forskare driver förbättringsalgoritmer allt längre, hittar de nya sätt att hantera dessa begränsningar - även, ibland, att hitta sätt att övervinna dem.

Under det senaste decenniet har forskare börjat förbättra bilder med en ny typ av AI-modell som kallas ett generativt motståndsnätverk, eller GAN, som kunde producera detaljerade, imponerande bilder. "Bilderna började plötsligt se mycket bättre ut," sa Tomer Michaeli, en elektroingenjör vid Technion i Israel. Men han blev förvånad över att bilder gjorda av GAN visade höga nivåer av distorsion, vilket mäter hur nära en förbättrad bild är den underliggande verkligheten av vad den visar. GAN producerade bilder som såg vackra och naturliga ut, men de skapade faktiskt, eller "hallucinerade", detaljer som inte var korrekta, vilket registrerades som höga nivåer av distorsion.

Michaeli såg området för fotorestaurering delas upp i två distinkta undergrupper. ”En visade fina bilder, många gjorda av GANs. Den andra visade data, men de visade inte många bilder, eftersom de inte såg snygga ut”, sa han.

Under 2017 undersökte Michaeli och hans doktorand Yochai Blau denna dikotomi mer formellt. De plottade prestandan för olika bildförbättringsalgoritmer på en graf av förvrängning kontra perceptuell kvalitet, med hjälp av ett känt mått på perceptuell kvalitet som korrelerar väl med människors subjektiva bedömning. Som Michaeli förväntade sig, resulterade vissa av algoritmerna i mycket hög visuell kvalitet, medan andra var mycket exakta, med låg distorsion. Men ingen hade båda fördelarna; man var tvungen att välja det ena eller det andra. Forskarna kallade detta avvägningen mellan uppfattning och snedvridning.

Michaeli också utmanade andra forskare att komma med algoritmer som skulle kunna producera den bästa bildkvaliteten för en given nivå av förvrängning, för att möjliggöra rättvisa jämförelser mellan algoritmerna för vackra bilder och de med trevliga statistiska. Sedan dess har hundratals AI-forskare rapporterat om förvrängnings- och uppfattningsegenskaperna hos sina algoritmer, citerar Michaeli och Blau tidningen som beskrev avvägningen.

Ibland är konsekvenserna av avvägningen mellan uppfattning och snedvridning inte allvarliga. Nvidia, till exempel, fann att högupplösta skärmar inte renderade en del visuellt innehåll med lägre upplösning, så i februari släppte det ett verktyg som använder djupinlärning för att uppskala strömmande video. I det här fallet valde Nvidias ingenjörer perceptuell kvalitet framför noggrannhet, och accepterade det faktum att när algoritmen uppskalar video kommer den att utgöra några visuella detaljer som inte finns i originalvideon. ”Modellen är hallucinerande. Allt är en gissning, sa Catanzaro. "För det mesta är det bra för en superupplösningsmodell att gissa fel, så länge den är konsekvent."

Beskrivning

Tillämpningar inom forskning och medicin kräver naturligtvis mycket mer precision. AI-teknik har lett till stora framsteg inom bildbehandling, men det "ibland kommer med oönskade biverkningar, som att överanpassa eller [lägga till] falska funktioner, och måste därför behandlas med extrem försiktighet," sa Junjie Yao, en biomedicinsk ingenjör vid Duke University. Förra året var han med och skrev en papper beskriver hur AI-verktyg kan förbättra befintliga metoder för att mäta blodflöde och metabolism i hjärnan – samtidigt som de håller sig på den exakta sidan av avvägningen mellan perception och distorsion.

Ett sätt att kringgå gränser för hur mycket data som kan extraheras från en bild är att helt enkelt infoga data från fler bilder – även om det ofta inte är så enkelt. Forskare som studerar miljön genom satellitbilder har gjort framsteg när det gäller att kombinera olika källor för visuell data. År 2021, en grupp forskare i Kina och Storbritannien sammansmälta data från två olika typer av satelliter för att få en bättre överblick över avskogningen i Kongobäckenet, den näst största tropiska regnskogen i världen och en av de största förråden av biologisk mångfald. Forskarna tog data från två Landsat-satelliter, som har mätt avskogning i decennier, och använde djupinlärningstekniker för att förfina bildernas upplösning från 30 meter till 10 meter. De smälte sedan samman bilduppsättningen med data från två Sentinel-2-satelliter, som har en något annorlunda uppsättning av detektorer. De kombinerade bilderna "tillät 11% till 21% fler störda områden att upptäckas än vad som var möjligt med enbart Sentinel-2- eller Landsat-7/8-bilderna", skrev de.

Michaeli föreslår ett annat sätt att komma runt, om inte genom, hårda gränser för tillgängligheten till information. Istället för att lösa ett bestämt svar för hur man förbättrar en bild av låg kvalitet, kan modellerna visa flera olika tolkningar av originalbilden. I en tidning med titeln "Utforskbar superupplösning”, hjälpte han till att visa hur bildförbättringsverktyg kan ge en användare flera förslag. En suddig, lågupplöst bild av en person som bär vad som ser ut att vara en gråaktig skjorta skulle kunna rekonstrueras till en bild med högre upplösning där tröjan har svarta och vita vertikala ränder, horisontella ränder eller rutor, som alla är lika rimliga .

I ett annat exempel tog Michaeli ett lågkvalitativt foto av en registreringsskylt och körde den genom en ledande AI-bildförstärkare, som visade att en 1 på registreringsskylten mest såg ut som en nolla. Men när bilden bearbetades av en annan, mer öppen algoritm som Michaeli designade, såg siffran lika sannolikt ut att vara en nolla, 1 eller 8. Detta tillvägagångssätt kunde hjälpa till att utesluta andra siffror utan att felaktigt dra slutsatsen att siffran var noll.

När olika discipliner brottas med avvägningen mellan perception och distorsion på sina egna sätt, förblir frågan om hur mycket vi kan extrahera från AI-bilder och hur mycket vi kan lita på dessa bilder central. "Vi bör komma ihåg att för att producera dessa fina bilder, utgör algoritmerna bara detaljer," sa Michaeli. Vi kan mildra dessa hallucinationer, men den allsmäktiga, brottslösande "förbättra"-knappen kommer att förbli en dröm.

Tidsstämpel:

Mer från Quantamagazin