Τα Εργαλεία AI που κάνουν τις εικόνες να φαίνονται καλύτερες | Περιοδικό Quanta

Τα Εργαλεία AI που κάνουν τις εικόνες να φαίνονται καλύτερες | Περιοδικό Quanta

Τα Εργαλεία AI που κάνουν τις εικόνες να φαίνονται καλύτερες | Quanta Magazine PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εισαγωγή

Είναι ένα από τα μεγαλύτερα κλισέ στο έγκλημα και την επιστημονική φαντασία: Ένας ερευνητής τραβάει μια θολή φωτογραφία σε μια οθόνη υπολογιστή και ζητά να βελτιωθεί, και η εικόνα έρχεται στο επίκεντρο, αποκαλύπτοντας κάποια ουσιαστική ένδειξη. Είναι μια θαυμάσια ευκολία αφήγησης, αλλά είναι μια απογοητευτική μυθοπλασία για δεκαετίες — ανατινάξτε μια εικόνα πάρα πολύ και γίνεται ορατά pixelated. Δεν υπάρχουν αρκετά δεδομένα για να κάνουμε περισσότερα.

«Αν απλώς αναβαθμίσετε αφελώς μια εικόνα, θα είναι θολή. Θα υπάρχουν πολλές λεπτομέρειες, αλλά θα είναι λάθος», είπε Μπράιαν Καταντζάρο, αντιπρόεδρος εφαρμοσμένης έρευνας βαθιάς μάθησης στη Nvidia.

Πρόσφατα, ερευνητές και επαγγελματίες άρχισαν να ενσωματώνουν αλγόριθμους τεχνητής νοημοσύνης στα εργαλεία βελτίωσης εικόνας, κάνοντας τη διαδικασία ευκολότερη και πιο ισχυρή, αλλά εξακολουθούν να υπάρχουν όρια στο πόσα δεδομένα μπορούν να ανακτηθούν από οποιαδήποτε εικόνα. Ευτυχώς, καθώς οι ερευνητές προωθούν τους αλγόριθμους βελτίωσης όλο και περισσότερο, βρίσκουν νέους τρόπους για να αντιμετωπίσουν αυτά τα όρια - ακόμη και, μερικές φορές, βρίσκουν τρόπους για να τα ξεπεράσουν.

Την περασμένη δεκαετία, οι ερευνητές άρχισαν να βελτιώνουν τις εικόνες με ένα νέο είδος μοντέλου AI που ονομάζεται Generative Adversarial Network ή GAN, το οποίο θα μπορούσε να παράγει λεπτομερείς, εντυπωσιακές εικόνες. «Οι εικόνες άρχισαν ξαφνικά να φαίνονται πολύ καλύτερες», είπε Tomer Michaeli, ηλεκτρολόγος μηχανικός στο Technion στο Ισραήλ. Όμως εξεπλάγη που οι εικόνες που έγιναν από τα GAN έδειξαν υψηλά επίπεδα παραμόρφωσης, το οποίο μετρά πόσο κοντά είναι μια βελτιωμένη εικόνα στην υποκείμενη πραγματικότητα αυτού που δείχνει. Τα GAN παρήγαγαν εικόνες που φαίνονταν όμορφες και φυσικές, αλλά στην πραγματικότητα επινόησαν, ή «παραισθήσεις», λεπτομέρειες που δεν ήταν ακριβείς, οι οποίες καταγράφονταν ως υψηλά επίπεδα παραμόρφωσης.

Ο Michaeli παρακολούθησε το πεδίο της αποκατάστασης φωτογραφιών να χωρίζεται σε δύο διακριτές υποκοινότητες. «Το ένα έδειξε ωραίες φωτογραφίες, πολλές από τους GAN. Ο άλλος έδειχνε δεδομένα, αλλά δεν έδειχναν πολλές εικόνες, γιατί δεν φαίνονταν ωραία», είπε.

Το 2017, ο Michaeli και ο μεταπτυχιακός φοιτητής του Yochai Blau εξέτασαν αυτή τη διχοτόμηση πιο επίσημα. Σχεδίασαν την απόδοση διαφόρων αλγορίθμων βελτίωσης εικόνας σε ένα γράφημα παραμόρφωσης έναντι αντιληπτικής ποιότητας, χρησιμοποιώντας ένα γνωστό μέτρο για την αντιληπτική ποιότητα που συσχετίζεται καλά με την υποκειμενική κρίση των ανθρώπων. Όπως περίμενε ο Michaeli, ορισμένοι από τους αλγόριθμους είχαν πολύ υψηλή οπτική ποιότητα, ενώ άλλοι ήταν πολύ ακριβείς, με χαμηλή παραμόρφωση. Αλλά κανένα δεν είχε και τα δύο πλεονεκτήματα. έπρεπε να διαλέξεις το ένα ή το άλλο. Οι ερευνητές το ονόμασαν αυτό ο συμβιβασμός αντίληψης-στρέβλωσης.

Μιχαήλ επίσης προκάλεσε άλλους ερευνητές να καταλήξουν σε αλγόριθμους που θα μπορούσαν να παράγουν την καλύτερη ποιότητα εικόνας για ένα δεδομένο επίπεδο παραμόρφωσης, για να επιτρέψουν δίκαιες συγκρίσεις μεταξύ των αλγορίθμων της όμορφης εικόνας και των αλγορίθμων με ωραία στατιστικά στοιχεία. Έκτοτε, εκατοντάδες ερευνητές τεχνητής νοημοσύνης έχουν αναφέρει τις ιδιότητες παραμόρφωσης και αντίληψης των αλγορίθμων τους, επικαλούμενη την εφημερίδα Michaeli and Blau που περιέγραψε την ανταλλαγή.

Μερικές φορές, οι συνέπειες της αντιστάθμισης αντίληψης-στρέβλωσης δεν είναι τρομερές. Η Nvidia, για παράδειγμα, διαπίστωσε ότι οι οθόνες υψηλής ευκρίνειας δεν απέδιδαν όμορφα κάποιο οπτικό περιεχόμενο χαμηλότερης ευκρίνειας, έτσι τον Φεβρουάριο κυκλοφόρησε ένα εργαλείο που χρησιμοποιεί βαθιά εκμάθηση για να αναβαθμίσει το βίντεο ροής. Σε αυτήν την περίπτωση, οι μηχανικοί της Nvidia επέλεξαν την αντιληπτική ποιότητα αντί της ακρίβειας, αποδεχόμενοι το γεγονός ότι όταν ο αλγόριθμος αναβαθμίζει το βίντεο, θα δημιουργήσει κάποιες οπτικές λεπτομέρειες που δεν υπάρχουν στο αρχικό βίντεο. «Το μοντέλο έχει παραισθήσεις. Είναι όλα μια εικασία», είπε ο Catanzaro. «Τις περισσότερες φορές είναι καλό για ένα μοντέλο υπερ-ανάλυσης να μαντεύει λάθος, αρκεί να είναι συνεπές».

Εισαγωγή

Οι εφαρμογές στην έρευνα και την ιατρική απαιτούν φυσικά πολύ μεγαλύτερη ακρίβεια. Η τεχνολογία AI έχει οδηγήσει σε σημαντικές προόδους στην απεικόνιση, αλλά «μερικές φορές συνοδεύεται από ανεπιθύμητες παρενέργειες, όπως υπερβολική τοποθέτηση ή [προσθήκη] πλαστών χαρακτηριστικών, και επομένως πρέπει να αντιμετωπίζεται με εξαιρετική προσοχή», είπε. Τζούντζι Γιάο, βιοϊατρικός μηχανικός στο Πανεπιστήμιο Duke. Πέρυσι, συνέγραψε α χαρτί περιγράφοντας πώς τα εργαλεία τεχνητής νοημοσύνης μπορούν να βελτιώσουν τις υπάρχουσες μεθόδους μέτρησης της ροής του αίματος και του μεταβολισμού στον εγκέφαλο — παραμένοντας με ασφάλεια στην ακριβή πλευρά της αντιστάθμισης αντίληψης-παραμόρφωσης.

Ένας τρόπος για να παρακάμψετε τα όρια σχετικά με το πόσα δεδομένα μπορούν να εξαχθούν από μια εικόνα είναι απλώς να ενσωματώσετε δεδομένα από περισσότερες εικόνες — αν και αυτό συχνά δεν είναι τόσο απλό. Οι ερευνητές που μελετούν το περιβάλλον μέσω δορυφορικών εικόνων έχουν σημειώσει πρόοδο στο συνδυασμό διαφορετικών πηγών οπτικών δεδομένων. Το 2021, μια ομάδα ερευνητών στην Κίνα και το Ηνωμένο Βασίλειο συγχωνευμένα δεδομένα από δύο διαφορετικούς τύπους δορυφόρων για να έχετε καλύτερη εικόνα της αποψίλωσης των δασών στη λεκάνη του Κονγκό, το δεύτερο μεγαλύτερο τροπικό δάσος στον κόσμο και ένα από τα μεγαλύτερα καταστήματα βιοποικιλότητας. Οι ερευνητές πήραν δεδομένα από δύο δορυφόρους Landsat, οι οποίοι έχουν μετρήσει την αποψίλωση των δασών για δεκαετίες, και χρησιμοποίησαν τεχνικές βαθιάς εκμάθησης για να βελτιώσουν την ανάλυση των εικόνων από 30 μέτρα σε 10 μέτρα. Στη συνέχεια συντήξαν αυτό το σύνολο εικόνων με δεδομένα από δύο δορυφόρους Sentinel-2, οι οποίοι έχουν μια ελαφρώς διαφορετική σειρά ανιχνευτών. Οι συνδυασμένες εικόνες «επέτρεψαν τον εντοπισμό 11% έως 21% περισσότερων διαταραγμένων περιοχών από ό,τι ήταν δυνατό χρησιμοποιώντας μόνο τις εικόνες Sentinel-2 ή Landsat-7/8», έγραψαν.

Ο Michaeli προτείνει έναν άλλο τρόπο για να παρακάμψετε, αν όχι να ξεπεράσετε, τα σκληρά όρια στην προσβασιμότητα των πληροφοριών. Αντί να καταλήξουν σε μια σταθερή απάντηση για το πώς να βελτιώσετε μια εικόνα χαμηλής ποιότητας, τα μοντέλα θα μπορούσαν να εμφανίζουν πολλές διαφορετικές ερμηνείες της αρχικής εικόνας. Σε μια εφημερίδα με τίτλο «Εξερευνήσιμη Σούπερ Ανάλυση», βοήθησε να καταδειχθεί πώς τα εργαλεία βελτίωσης εικόνας θα μπορούσαν να παρουσιάσουν σε έναν χρήστη πολλαπλές προτάσεις. Μια ασαφής, χαμηλής ανάλυσης εικόνα ενός ατόμου που φοράει κάτι που φαίνεται να είναι γκριζωπό πουκάμισο θα μπορούσε να ανακατασκευαστεί σε μια εικόνα υψηλότερης ανάλυσης στην οποία το πουκάμισο έχει ασπρόμαυρες κάθετες ρίγες, οριζόντιες ρίγες ή τσεκ, τα οποία είναι εξίσου εύλογα .

Σε ένα άλλο παράδειγμα, ο Michaeli τράβηξε μια φωτογραφία χαμηλής ποιότητας μιας πινακίδας κυκλοφορίας και την πέρασε μέσω ενός κορυφαίου βελτιωτικού εικόνας AI, το οποίο έδειξε ότι το 1 στην πινακίδα κυκλοφορίας έμοιαζε περισσότερο με μηδέν. Αλλά όταν η εικόνα υποβλήθηκε σε επεξεργασία από έναν διαφορετικό, πιο ανοιχτό αλγόριθμο που σχεδίασε ο Michaeli, το ψηφίο φαινόταν εξίσου πιθανό να είναι μηδέν, 1 ή 8. Αυτή η προσέγγιση θα μπορούσε να βοηθήσει στον αποκλεισμό άλλων αριθμών χωρίς να συμπεράνει λανθασμένα ότι το ψηφίο ήταν μηδέν.

Καθώς οι διαφορετικοί κλάδοι παλεύουν με την αντιστάθμιση αντίληψης-παραμόρφωσης με τους δικούς τους τρόπους, το ερώτημα του πόσα μπορούμε να εξαγάγουμε από τις εικόνες τεχνητής νοημοσύνης και πόσο μπορούμε να εμπιστευτούμε αυτές τις εικόνες παραμένει κεντρικό. «Θα πρέπει να έχουμε κατά νου ότι για να βγουν αυτές οι ωραίες εικόνες, οι αλγόριθμοι συνθέτουν απλώς λεπτομέρειες», είπε ο Michaeli. Μπορούμε να μετριάσουμε αυτές τις παραισθήσεις, αλλά το πανίσχυρο κουμπί «ενίσχυση» που λύνει το έγκλημα θα παραμείνει ένα όνειρο.

Σφραγίδα ώρας:

Περισσότερα από Quantamamagazine