Les outils d'IA qui améliorent l'apparence des images | Magazine Quanta

Les outils d'IA qui améliorent l'apparence des images | Magazine Quanta

Les outils d'IA qui améliorent l'apparence des images | Quanta Magazine PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Introduction

C'est l'un des plus grands clichés du crime et de la science-fiction : un enquêteur affiche une photo floue sur un écran d'ordinateur et demande qu'elle soit améliorée, et boum, l'image devient nette, révélant un indice essentiel. C'est une merveilleuse commodité de narration, mais c'est une fiction frustrante depuis des décennies : si vous faites trop exploser une image, elle devient visiblement pixellisée. Il n'y a pas assez de données pour faire plus.

« Si vous agrandissez naïvement une image, elle deviendra floue. Il y aura beaucoup de détails, mais ce sera faux », a déclaré Bryan Catanzaro, vice-président de la recherche appliquée sur l'apprentissage profond chez Nvidia.

Récemment, des chercheurs et des professionnels ont commencé à intégrer des algorithmes d’intelligence artificielle dans leurs outils d’amélioration d’images, rendant le processus plus simple et plus puissant, mais il existe encore des limites à la quantité de données pouvant être récupérées à partir d’une image. Heureusement, à mesure que les chercheurs poussent les algorithmes d’amélioration toujours plus loin, ils trouvent de nouveaux moyens de faire face à ces limites – et parfois même de trouver des moyens de les surmonter.

Au cours de la dernière décennie, les chercheurs ont commencé à améliorer les images avec un nouveau type de modèle d’IA appelé réseau contradictoire génératif, ou GAN, qui pourrait produire des images détaillées et impressionnantes. "Les images ont soudainement commencé à être bien meilleures", a déclaré Tomer Michaeli, ingénieur électricien au Technion en Israël. Mais il a été surpris que les images réalisées par les GAN présentent des niveaux élevés de distorsion, qui mesurent la proximité d'une image améliorée avec la réalité sous-jacente de ce qu'elle montre. Les GAN produisaient des images jolies et naturelles, mais ils inventaient ou « hallucinaient » des détails qui n'étaient pas précis, ce qui enregistrait des niveaux élevés de distorsion.

Michaeli a vu le domaine de la restauration de photos se diviser en deux sous-communautés distinctes. « L’un d’entre eux montrait de belles photos, dont beaucoup avaient été réalisées par des GAN. L'autre montrait des données, mais pas beaucoup d'images, parce qu'elles n'étaient pas belles », a-t-il déclaré.

En 2017, Michaeli et son étudiant diplômé Yochai Blau se sont penchés sur cette dichotomie de manière plus formelle. Ils ont tracé les performances de divers algorithmes d'amélioration d'image sur un graphique de distorsion par rapport à la qualité perceptuelle, en utilisant une mesure connue de la qualité perceptuelle qui correspond bien au jugement subjectif des humains. Comme Michaeli s'y attendait, certains algorithmes ont abouti à une qualité visuelle très élevée, tandis que d'autres étaient très précis, avec une faible distorsion. Mais aucun n’avait les deux avantages ; il fallait choisir l'un ou l'autre. Les chercheurs ont surnommé cela le compromis perception-distorsion.

Michaeli aussi a défié d’autres chercheurs proposer des algorithmes capables de produire la meilleure qualité d'image pour un niveau de distorsion donné, afin de permettre des comparaisons équitables entre les algorithmes de jolies images et ceux de belles statistiques. Depuis, des centaines de chercheurs en IA ont rendu compte des qualités de distorsion et de perception de leurs algorithmes, citant l'article de Michaeli et Blau qui décrivait le compromis.

Parfois, les implications du compromis perception-distorsion ne sont pas désastreuses. Nvidia, par exemple, a constaté que les écrans haute définition ne restituaient pas correctement certains contenus visuels de basse définition. En février, la société a donc publié un outil qui utilise l'apprentissage en profondeur pour mettre à niveau la vidéo en streaming. Dans ce cas, les ingénieurs de Nvidia ont choisi la qualité de perception plutôt que la précision, acceptant le fait que lorsque l'algorithme met à l'échelle la vidéo, il rattrape certains détails visuels qui ne figurent pas dans la vidéo originale. « Le modèle hallucine. Tout cela n'est qu'une supposition », a déclaré Catanzaro. "La plupart du temps, il est acceptable qu'un modèle à super-résolution se trompe, à condition que cela soit cohérent."

Introduction

Les applications dans la recherche et la médecine exigent bien entendu beaucoup plus de précision. La technologie de l’IA a conduit à des avancées majeures dans le domaine de l’imagerie, mais elle « s’accompagne parfois d’effets secondaires indésirables, tels qu’un surajustement ou l’ajout de fausses fonctionnalités, et doit donc être traitée avec une extrême prudence », a déclaré Junjie Yao, ingénieur biomédical à l'Université Duke. L'année dernière, il a co-écrit un papier décrivant comment les outils d’IA peuvent améliorer les méthodes existantes de mesure du flux sanguin et du métabolisme dans le cerveau – tout en restant en toute sécurité du côté précis du compromis perception-distorsion.

Une façon de contourner les limites de la quantité de données pouvant être extraites d'une image consiste simplement à incorporer les données d'un plus grand nombre d'images, même si cela n'est souvent pas si simple. Les chercheurs qui étudient l’environnement grâce à l’imagerie satellite ont progressé dans la combinaison de différentes sources de données visuelles. En 2021, un groupe de chercheurs en Chine et au Royaume-Uni données fusionnées à partir de deux types différents de satellites pour avoir une meilleure vue de la déforestation dans le bassin du Congo, la deuxième plus grande forêt tropicale humide au monde et l'une des plus grandes réserves de biodiversité. Les chercheurs ont extrait les données de deux satellites Landsat, qui mesurent la déforestation depuis des décennies, et ont utilisé des techniques d'apprentissage profond pour affiner la résolution des images de 30 mètres à 10 mètres. Ils ont ensuite fusionné cet ensemble d’images avec les données de deux satellites Sentinel-2, dotés d’un réseau de détecteurs légèrement différent. L’imagerie combinée « a permis de détecter 11 à 21 % de zones perturbées en plus par rapport à ce qui était possible en utilisant uniquement les images Sentinel-2 ou Landsat-7/8 », ont-ils écrit.

Michaeli suggère une autre façon de contourner, voire de franchir, les limites strictes de l'accessibilité à l'information. Au lieu de se contenter d’une réponse ferme sur la manière d’améliorer une image de mauvaise qualité, les modèles pourraient montrer plusieurs interprétations différentes de l’image originale. Dans un article intitulé «Super résolution explorable", il a contribué à démontrer comment les outils d'amélioration d'image pouvaient présenter à un utilisateur plusieurs suggestions. Une image floue à basse résolution d'une personne portant ce qui semble être une chemise grisâtre pourrait être reconstruite en une image à plus haute résolution dans laquelle la chemise présente des rayures verticales noires et blanches, des rayures horizontales ou des carreaux, qui sont tous également plausibles. .

Dans un autre exemple, Michaeli a pris une photo de mauvaise qualité d’une plaque d’immatriculation et l’a passée via un outil d’amélioration d’image IA de pointe, qui a montré que le 1 sur la plaque d’immatriculation ressemblait plus à un zéro. Mais lorsque l'image a été traitée par un algorithme différent, plus ouvert, conçu par Michaeli, le chiffre semblait également susceptible d'être un zéro, un 1 ou un 8. Cette approche pourrait aider à exclure d'autres chiffres sans conclure à tort que le chiffre était zéro.

Alors que différentes disciplines s’attaquent à leur manière au compromis perception-distorsion, la question de savoir dans quelle mesure nous pouvons extraire des images de l’IA et dans quelle mesure nous pouvons faire confiance à ces images reste centrale. "Nous devons garder à l'esprit que pour produire ces belles images, les algorithmes se contentent d'inventer des détails", a déclaré Michaeli. Nous pouvons atténuer ces hallucinations, mais le bouton « améliorer » tout-puissant permettant de résoudre les crimes restera un rêve.

Horodatage:

Plus de Quantamamagazine