Τα Εργαλεία AI που κάνουν τις εικόνες να φαίνονται καλύτερες

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Τα Εργαλεία AI που κάνουν τις εικόνες να φαίνονται καλύτερες | Quanta Magazine PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Είναι ένα από τα μεγαλύτερα κλισέ στο έγκλημα και την επιστημονική φαντασία: Ένας ερευνητής τραβάει μια θολή φωτογραφία σε μια οθόνη υπολογιστή και ζητά να βελτιωθεί, και η εικόνα έρχεται στο επίκεντρο, αποκαλύπτοντας κάποια ουσιαστική ένδειξη. Είναι μια θαυμάσια ευκολία αφήγησης, αλλά είναι μια απογοητευτική μυθοπλασία για δεκαετίες — ανατινάξτε μια εικόνα πάρα πολύ και γίνεται ορατά pixelated. Δεν υπάρχουν αρκετά δεδομένα για να κάνουμε περισσότερα.

«Αν απλώς αναβαθμίσετε αφελώς μια εικόνα, θα είναι θολή. Θα υπάρχουν πολλές λεπτομέρειες, αλλά θα είναι λάθος», είπε Μπράιαν Καταντζάρο, αντιπρόεδρος εφαρμοσμένης έρευνας βαθιάς μάθησης στη Nvidia.

Πρόσφατα, ερευνητές και επαγγελματίες άρχισαν να ενσωματώνουν αλγόριθμους τεχνητής νοημοσύνης στα εργαλεία βελτίωσης εικόνας, κάνοντας τη διαδικασία ευκολότερη και πιο ισχυρή, αλλά εξακολουθούν να υπάρχουν όρια στο πόσα δεδομένα μπορούν να ανακτηθούν από οποιαδήποτε εικόνα. Ευτυχώς, καθώς οι ερευνητές προωθούν τους αλγόριθμους βελτίωσης όλο και περισσότερο, βρίσκουν νέους τρόπους για να αντιμετωπίσουν αυτά τα όρια - ακόμη και, μερικές φορές, βρίσκουν τρόπους για να τα ξεπεράσουν.

Την περασμένη δεκαετία, οι ερευνητές άρχισαν να βελτιώνουν τις εικόνες με ένα νέο είδος μοντέλου AI που ονομάζεται Generative Adversarial Network ή GAN, το οποίο θα μπορούσε να παράγει λεπτομερείς, εντυπωσιακές εικόνες. «Οι εικόνες άρχισαν ξαφνικά να φαίνονται πολύ καλύτερες», είπε Tomer Michaeli, ηλεκτρολόγος μηχανικός στο Technion στο Ισραήλ. Όμως εξεπλάγη που οι εικόνες που έγιναν από τα GAN έδειξαν υψηλά επίπεδα παραμόρφωσης, το οποίο μετρά πόσο κοντά είναι μια βελτιωμένη εικόνα στην υποκείμενη πραγματικότητα αυτού που δείχνει. Τα GAN παρήγαγαν εικόνες που φαίνονταν όμορφες και φυσικές, αλλά στην πραγματικότητα επινόησαν, ή «παραισθήσεις», λεπτομέρειες που δεν ήταν ακριβείς, οι οποίες καταγράφονταν ως υψηλά επίπεδα παραμόρφωσης.

Ο Michaeli παρακολούθησε το πεδίο της αποκατάστασης φωτογραφιών να χωρίζεται σε δύο διακριτές υποκοινότητες. «Το ένα έδειξε ωραίες φωτογραφίες, πολλές από τους GAN. Ο άλλος έδειχνε δεδομένα, αλλά δεν έδειχναν πολλές εικόνες, γιατί δεν φαίνονταν ωραία», είπε.

Το 2017, ο Michaeli και ο μεταπτυχιακός φοιτητής του Yochai Blau εξέτασαν αυτή τη διχοτόμηση πιο επίσημα. Σχεδίασαν την απόδοση διαφόρων αλγορίθμων βελτίωσης εικόνας σε ένα γράφημα παραμόρφωσης έναντι αντιληπτικής ποιότητας, χρησιμοποιώντας ένα γνωστό μέτρο για την αντιληπτική ποιότητα που συσχετίζεται καλά με την υποκειμενική κρίση των ανθρώπων. Όπως περίμενε ο Michaeli, ορισμένοι από τους αλγόριθμους είχαν πολύ υψηλή οπτική ποιότητα, ενώ άλλοι ήταν πολύ ακριβείς, με χαμηλή παραμόρφωση. Αλλά κανένα δεν είχε και τα δύο πλεονεκτήματα. έπρεπε να διαλέξεις το ένα ή το άλλο. Οι ερευνητές το ονόμασαν αυτό ο συμβιβασμός αντίληψης-στρέβλωσης.

Μιχαήλ επίσης προκάλεσε άλλους ερευνητές να καταλήξουν σε αλγόριθμους που θα μπορούσαν να παράγουν την καλύτερη ποιότητα εικόνας για ένα δεδομένο επίπεδο παραμόρφωσης, για να επιτρέψουν δίκαιες συγκρίσεις μεταξύ των αλγορίθμων της όμορφης εικόνας και των αλγορίθμων με ωραία στατιστικά στοιχεία. Έκτοτε, εκατοντάδες ερευνητές τεχνητής νοημοσύνης έχουν αναφέρει τις ιδιότητες παραμόρφωσης και αντίληψης των αλγορίθμων τους, επικαλούμενη την εφημερίδα Michaeli and Blau που περιέγραψε την ανταλλαγή.

Μερικές φορές, οι συνέπειες της αντιστάθμισης αντίληψης-στρέβλωσης δεν είναι τρομερές. Η Nvidia, για παράδειγμα, διαπίστωσε ότι οι οθόνες υψηλής ευκρίνειας δεν απέδιδαν όμορφα κάποιο οπτικό περιεχόμενο χαμηλότερης ευκρίνειας, έτσι τον Φεβρουάριο κυκλοφόρησε ένα εργαλείο που χρησιμοποιεί βαθιά εκμάθηση για να αναβαθμίσει το βίντεο ροής. Σε αυτήν την περίπτωση, οι μηχανικοί της Nvidia επέλεξαν την αντιληπτική ποιότητα αντί της ακρίβειας, αποδεχόμενοι το γεγονός ότι όταν ο αλγόριθμος αναβαθμίζει το βίντεο, θα δημιουργήσει κάποιες οπτικές λεπτομέρειες που δεν υπάρχουν στο αρχικό βίντεο. «Το μοντέλο έχει παραισθήσεις. Είναι όλα μια εικασία», είπε ο Catanzaro. «Τις περισσότερες φορές είναι καλό για ένα μοντέλο υπερ-ανάλυσης να μαντεύει λάθος, αρκεί να είναι συνεπές».

Οι εφαρμογές στην έρευνα και την ιατρική απαιτούν φυσικά πολύ μεγαλύτερη ακρίβεια. Η τεχνολογία AI έχει οδηγήσει σε σημαντικές προόδους στην απεικόνιση, αλλά «μερικές φορές συνοδεύεται από ανεπιθύμητες παρενέργειες, όπως υπερβολική τοποθέτηση ή [προσθήκη] πλαστών χαρακτηριστικών, και επομένως πρέπει να αντιμετωπίζεται με εξαιρετική προσοχή», είπε. Τζούντζι Γιάο, βιοϊατρικός μηχανικός στο Πανεπιστήμιο Duke. Πέρυσι, συνέγραψε α χαρτί περιγράφοντας πώς τα εργαλεία τεχνητής νοημοσύνης μπορούν να βελτιώσουν τις υπάρχουσες μεθόδους μέτρησης της ροής του αίματος και του μεταβολισμού στον εγκέφαλο — παραμένοντας με ασφάλεια στην ακριβή πλευρά της αντιστάθμισης αντίληψης-παραμόρφωσης.

Ένας τρόπος για να παρακάμψετε τα όρια σχετικά με το πόσα δεδομένα μπορούν να εξαχθούν από μια εικόνα είναι απλώς να ενσωματώσετε δεδομένα από περισσότερες εικόνες — αν και αυτό συχνά δεν είναι τόσο απλό. Οι ερευνητές που μελετούν το περιβάλλον μέσω δορυφορικών εικόνων έχουν σημειώσει πρόοδο στο συνδυασμό διαφορετικών πηγών οπτικών δεδομένων. Το 2021, μια ομάδα ερευνητών στην Κίνα και το Ηνωμένο Βασίλειο συγχωνευμένα δεδομένα από δύο διαφορετικούς τύπους δορυφόρων για να έχετε καλύτερη εικόνα της αποψίλωσης των δασών στη λεκάνη του Κονγκό, το δεύτερο μεγαλύτερο τροπικό δάσος στον κόσμο και ένα από τα μεγαλύτερα καταστήματα βιοποικιλότητας. Οι ερευνητές πήραν δεδομένα από δύο δορυφόρους Landsat, οι οποίοι έχουν μετρήσει την αποψίλωση των δασών για δεκαετίες, και χρησιμοποίησαν τεχνικές βαθιάς εκμάθησης για να βελτιώσουν την ανάλυση των εικόνων από 30 μέτρα σε 10 μέτρα. Στη συνέχεια συντήξαν αυτό το σύνολο εικόνων με δεδομένα από δύο δορυφόρους Sentinel-2, οι οποίοι έχουν μια ελαφρώς διαφορετική σειρά ανιχνευτών. Οι συνδυασμένες εικόνες «επέτρεψαν τον εντοπισμό 11% έως 21% περισσότερων διαταραγμένων περιοχών από ό,τι ήταν δυνατό χρησιμοποιώντας μόνο τις εικόνες Sentinel-2 ή Landsat-7/8», έγραψαν.

Ο Michaeli προτείνει έναν άλλο τρόπο για να παρακάμψετε, αν όχι να ξεπεράσετε, τα σκληρά όρια στην προσβασιμότητα των πληροφοριών. Αντί να καταλήξουν σε μια σταθερή απάντηση για το πώς να βελτιώσετε μια εικόνα χαμηλής ποιότητας, τα μοντέλα θα μπορούσαν να εμφανίζουν πολλές διαφορετικές ερμηνείες της αρχικής εικόνας. Σε μια εφημερίδα με τίτλο «Εξερευνήσιμη Σούπερ Ανάλυση», βοήθησε να καταδειχθεί πώς τα εργαλεία βελτίωσης εικόνας θα μπορούσαν να παρουσιάσουν σε έναν χρήστη πολλαπλές προτάσεις. Μια ασαφής, χαμηλής ανάλυσης εικόνα ενός ατόμου που φοράει κάτι που φαίνεται να είναι γκριζωπό πουκάμισο θα μπορούσε να ανακατασκευαστεί σε μια εικόνα υψηλότερης ανάλυσης στην οποία το πουκάμισο έχει ασπρόμαυρες κάθετες ρίγες, οριζόντιες ρίγες ή τσεκ, τα οποία είναι εξίσου εύλογα .

Σε ένα άλλο παράδειγμα, ο Michaeli τράβηξε μια φωτογραφία χαμηλής ποιότητας μιας πινακίδας κυκλοφορίας και την πέρασε μέσω ενός κορυφαίου βελτιωτικού εικόνας AI, το οποίο έδειξε ότι το 1 στην πινακίδα κυκλοφορίας έμοιαζε περισσότερο με μηδέν. Αλλά όταν η εικόνα υποβλήθηκε σε επεξεργασία από έναν διαφορετικό, πιο ανοιχτό αλγόριθμο που σχεδίασε ο Michaeli, το ψηφίο φαινόταν εξίσου πιθανό να είναι μηδέν, 1 ή 8. Αυτή η προσέγγιση θα μπορούσε να βοηθήσει στον αποκλεισμό άλλων αριθμών χωρίς να συμπεράνει λανθασμένα ότι το ψηφίο ήταν μηδέν.

Καθώς οι διαφορετικοί κλάδοι παλεύουν με την αντιστάθμιση αντίληψης-παραμόρφωσης με τους δικούς τους τρόπους, το ερώτημα του πόσα μπορούμε να εξαγάγουμε από τις εικόνες τεχνητής νοημοσύνης και πόσο μπορούμε να εμπιστευτούμε αυτές τις εικόνες παραμένει κεντρικό. «Θα πρέπει να έχουμε κατά νου ότι για να βγουν αυτές οι ωραίες εικόνες, οι αλγόριθμοι συνθέτουν απλώς λεπτομέρειες», είπε ο Michaeli. Μπορούμε να μετριάσουμε αυτές τις παραισθήσεις, αλλά το πανίσχυρο κουμπί «ενίσχυση» που λύνει το έγκλημα θα παραμείνει ένα όνειρο.

SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
PlatoESG. Αυτοκίνητο / EVs, Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
ChartPrime. Ανεβάστε το Trading Game σας με το ChartPrime. Πρόσβαση εδώ.
BlockOffsets. Εκσυγχρονισμός της περιβαλλοντικής αντιστάθμισης ιδιοκτησίας. Πρόσβαση εδώ.
πηγή: https://www.quantamagazine.org/the-ai-tools-making-images-look-better-20230823/

Σφραγίδα ώρας: Αύγουστος 23, 2023

Σφραγίδα ώρας: 22 Νοεμβρίου 2022

Τα Εργαλεία AI που κάνουν τις εικόνες να φαίνονται καλύτερες | Περιοδικό Quanta

Αναδημοσίευση από τον Πλάτωνα

Περισσότερα από Quantamamagazine

Οι φρέσκες ακτίνες Χ αποκαλύπτουν ένα σύμπαν τόσο αδύνατο όσο προβλέπει η κοσμολογία | Περιοδικό Quanta

Πώς αποδεικνύεις ένα μυστικό;

Μέσα στους αρχαίους αστεροειδείς, οι ακτίνες γάμμα δημιούργησαν δομικά στοιχεία ζωής

Οι υπεργραφές αποκαλύπτουν λύση σε πρόβλημα 50 ετών

Οι εξαιρετικά μακριές εκρήξεις αμφισβητούν τις θεωρίες μας για τους κοσμικούς κατακλυσμούς | Περιοδικό Quanta

Οι απατεώνες πετάνε πλανητικές ιδέες εκτός τροχιάς | Περιοδικό Quanta

Το (συχνά) παραβλέπεται πείραμα που αποκάλυψε τον κβαντικό κόσμο | Περιοδικό Quanta

Ο μαγνητισμός μπορεί να έδωσε στη ζωή τη μοριακή του ασυμμετρία | Περιοδικό Quanta

Ένας μαθηματικός που χορεύει μεταξύ άλγεβρας και γεωμετρίας

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός

Εισαγωγή