De AI-tools die ervoor zorgen dat afbeeldingen er beter uitzien | Quanta-tijdschrift

De AI-tools die ervoor zorgen dat afbeeldingen er beter uitzien | Quanta-tijdschrift

De AI-tools die ervoor zorgen dat afbeeldingen er beter uitzien | Quanta Magazine PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Introductie

Het is een van de grootste clichés in misdaad- en sciencefiction: een onderzoeker haalt een wazige foto op een computerscherm en vraagt ​​om verbetering, en boem, het beeld wordt scherp en onthult een essentiële aanwijzing. Het is een geweldig gemak bij het vertellen van verhalen, maar het is al tientallen jaren een frustrerende fictie: blaas een afbeelding te veel op, en het wordt zichtbaar korrelig. Er zijn niet genoeg gegevens om meer te doen.

“Als je een afbeelding naïef opschaalt, wordt het wazig. Er zullen veel details zijn, maar het zal verkeerd zijn”, zei hij Bryan Catanzaro, vice-president van toegepast deep learning-onderzoek bij Nvidia.

Onlangs zijn onderzoekers en professionals begonnen met het integreren van algoritmen voor kunstmatige intelligentie in hun beeldverbeterende tools, waardoor het proces eenvoudiger en krachtiger wordt, maar er zijn nog steeds grenzen aan de hoeveelheid gegevens die uit een afbeelding kunnen worden gehaald. Gelukkig vinden onderzoekers, nu onderzoekers steeds verder gaan met verbeteringsalgoritmen, nieuwe manieren om met die beperkingen om te gaan – en soms zelfs manieren om ze te overwinnen.

In het afgelopen decennium zijn onderzoekers begonnen met het verbeteren van afbeeldingen met een nieuw soort AI-model, een generatief vijandig netwerk (GAN), dat gedetailleerde, indrukwekkend uitziende afbeeldingen kan produceren. “De beelden begonnen er ineens een stuk beter uit te zien”, zegt hij Tomer Michaeli, een elektrotechnisch ingenieur bij Technion in Israël. Maar hij was verrast dat beelden gemaakt door GAN's een hoge mate van vervorming vertoonden, wat meet hoe dicht een verbeterd beeld is bij de onderliggende realiteit van wat het laat zien. GAN's produceerden beelden die er mooi en natuurlijk uitzagen, maar feitelijk verzonnen of 'hallucinerende' details waren die niet nauwkeurig waren en die als hoge niveaus van vervorming werden geregistreerd.

Michaeli zag hoe het vakgebied van de fotorestauratie zich in twee afzonderlijke subgemeenschappen opsplitste. “Eén daarvan liet mooie foto’s zien, veel gemaakt door GAN’s. De andere liet gegevens zien, maar ze lieten niet veel afbeeldingen zien, omdat ze er niet mooi uitzagen”, zei hij.

In 2017 onderzochten Michaeli en zijn afgestudeerde student Yochai Blau deze tweedeling formeler. Ze hebben de prestaties van verschillende beeldverbeteringsalgoritmen uitgezet in een grafiek van vervorming versus perceptuele kwaliteit, waarbij ze een bekende maatstaf voor perceptuele kwaliteit gebruikten die goed correleert met het subjectieve oordeel van mensen. Zoals Michaeli had verwacht, resulteerden sommige algoritmen in een zeer hoge visuele kwaliteit, terwijl andere zeer nauwkeurig waren, met weinig vervorming. Maar geen enkele had beide voordelen; je moest het een of het ander kiezen. De onderzoekers noemden dit de wisselwerking tussen perceptie en vervorming.

Michaël ook daagde andere onderzoekers uit om algoritmen te bedenken die de beste beeldkwaliteit kunnen produceren voor een bepaald vervormingsniveau, om eerlijke vergelijkingen mogelijk te maken tussen de algoritmen voor mooie plaatjes en die voor mooie statistieken. Sindsdien hebben honderden AI-onderzoekers gerapporteerd over de vervormings- en perceptiekwaliteiten van hun algoritmen. onder verwijzing naar het artikel van Michaeli en Blau die de wisselwerking beschreef.

Soms zijn de implicaties van de wisselwerking tussen perceptie en vervorming niet ernstig. Nvidia ontdekte bijvoorbeeld dat high-definition schermen bepaalde visuele inhoud met een lagere definitie niet goed weergaven, dus bracht het in februari een tool uit die deep learning gebruikt om streaming video op te schalen. In dit geval kozen de technici van Nvidia voor perceptuele kwaliteit boven nauwkeurigheid, waarbij ze het feit accepteerden dat wanneer het algoritme video opschaalt, er enkele visuele details zullen verschijnen die niet in de originele video voorkomen. “Het model hallucineert. Het is allemaal een gok,' zei Catanzaro. “Meestal is het prima als een superresolutiemodel verkeerd gokt, zolang het maar consistent is.”

Introductie

Toepassingen in onderzoek en geneeskunde vereisen uiteraard veel meer nauwkeurigheid. AI-technologie heeft geleid tot grote vooruitgang op het gebied van beeldvorming, maar gaat ‘soms gepaard met ongewenste bijwerkingen, zoals overfitting of [toevoegen] nepkenmerken, en moet daarom met uiterste zorg worden behandeld’, zegt Junjie Yao, een biomedisch ingenieur aan de Duke University. Vorig jaar schreef hij mee aan A papier beschrijven hoe AI-instrumenten de bestaande methoden voor het meten van de bloedstroom en het metabolisme in de hersenen kunnen verbeteren – terwijl ze veilig aan de nauwkeurige kant van de afweging tussen perceptie en vervorming blijven.

Eén manier om de beperkingen op de hoeveelheid gegevens die uit een afbeelding kunnen worden gehaald te omzeilen, is door eenvoudigweg gegevens uit meer afbeeldingen op te nemen, hoewel dat vaak niet zo eenvoudig is. Onderzoekers die de omgeving bestuderen via satellietbeelden hebben vooruitgang geboekt bij het combineren van verschillende bronnen van visuele gegevens. In 2021 zal een groep onderzoekers in China en Groot-Brittannië gefuseerde gegevens van twee verschillende soorten satellieten om een ​​beter beeld te krijgen van de ontbossing in het Congobekken, het op een na grootste tropische regenwoud ter wereld en een van de grootste biodiversiteitsvoorraden. De onderzoekers gebruikten gegevens van twee Landsat-satellieten, die al tientallen jaren de ontbossing meten, en gebruikten deep learning-technieken om de resolutie van de beelden te verfijnen van 30 meter naar 10 meter. Vervolgens hebben ze die beeldset samengevoegd met gegevens van twee Sentinel-2-satellieten, die over een iets andere reeks detectoren beschikken. Dankzij de gecombineerde beelden “konden 11% tot 21% meer verstoorde gebieden worden gedetecteerd dan mogelijk was met alleen de Sentinel-2- of Landsat-7/8-beelden”, schreven ze.

Michaeli stelt een andere manier voor om de harde grenzen aan de toegankelijkheid van informatie te omzeilen, of zelfs te omzeilen. In plaats van genoegen te nemen met één vast antwoord over hoe je een afbeelding van lage kwaliteit kunt verbeteren, zouden modellen meerdere verschillende interpretaties van de originele afbeelding kunnen laten zien. In een artikel met de titel “Verkenbare superresolutie”, hielp hij aantonen hoe hulpmiddelen voor beeldverbetering een gebruiker meerdere suggesties konden bieden. Eén vaag beeld met een lage resolutie van een persoon die een ogenschijnlijk grijs overhemd draagt, kan worden gereconstrueerd tot een beeld met een hogere resolutie waarin het overhemd zwarte en witte verticale strepen, horizontale strepen of ruiten heeft, die allemaal even plausibel zijn. .

In een ander voorbeeld nam Michaeli een foto van lage kwaliteit van een kentekenplaat en liet deze door een toonaangevende AI-beeldverbeteraar lopen, waaruit bleek dat een 1 op de kentekenplaat het meest op een nul leek. Maar toen het beeld werd verwerkt door een ander, meer open algoritme dat Michaeli had ontworpen, leek het even waarschijnlijk dat het cijfer een nul, 1 of 8 was. Deze aanpak zou kunnen helpen andere cijfers uit te sluiten zonder ten onrechte te concluderen dat het cijfer nul was.

Terwijl verschillende disciplines op hun eigen manier worstelen met de wisselwerking tussen perceptie en vervorming, blijft de vraag hoeveel we uit AI-beelden kunnen halen en hoeveel we op die beelden kunnen vertrouwen centraal staan. “We moeten niet vergeten dat de algoritmen slechts details verzinnen om deze mooie beelden te kunnen produceren”, zegt Michaeli. We kunnen die hallucinaties verzachten, maar de almachtige, misdaadoplossende ‘verbeter’-knop zal een droom blijven.

Tijdstempel:

Meer van Quanta tijdschrift