Instrumentele AI care fac imaginile să arate mai bine | Revista Quanta

Instrumentele AI care fac imaginile să arate mai bine | Revista Quanta

Instrumentele AI care fac imaginile să arate mai bine | Revista Quanta PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Introducere

Este unul dintre cele mai mari clișee din crime și science fiction: un investigator scoate o fotografie neclară pe ecranul unui computer și cere să fie îmbunătățită, iar boom, imaginea intră în centrul atenției, dezvăluind un indiciu esențial. Este o comoditate minunată de a povesti, dar a fost o ficțiune frustrantă de zeci de ani - aruncați în aer o imagine prea mult și devine vizibil pixelată. Nu există suficiente date pentru a face mai mult.

„Dacă în mod naiv măriți o imagine, aceasta va fi neclară. Vor fi multe detalii, dar va fi greșit”, a spus Bryan Catanzaro, vicepreședinte al cercetării aplicate de deep learning la Nvidia.

Recent, cercetătorii și profesioniștii au început să încorporeze algoritmi de inteligență artificială în instrumentele lor de îmbunătățire a imaginii, făcând procesul mai ușor și mai puternic, dar există încă limite ale numărului de date care pot fi preluate din orice imagine. Din fericire, pe măsură ce cercetătorii împing algoritmii de îmbunătățire din ce în ce mai departe, ei găsesc noi modalități de a face față acestor limite – chiar și, uneori, găsesc modalități de a le depăși.

În ultimul deceniu, cercetătorii au început să îmbunătățească imaginile cu un nou tip de model AI numit rețea generativă adversară sau GAN, care ar putea produce imagini detaliate, cu aspect impresionant. „Imaginile au început brusc să arate mult mai bine”, a spus Tomer Michaeli, inginer electrician la Technion din Israel. Dar a fost surprins de faptul că imaginile realizate de GAN-uri au arătat niveluri ridicate de distorsiune, care măsoară cât de aproape este o imagine îmbunătățită de realitatea subiacentă a ceea ce arată. GAN-urile au produs imagini care arătau frumoase și naturale, dar de fapt inventau, sau „halucinau”, detalii care nu erau exacte, care s-au înregistrat ca niveluri ridicate de distorsiune.

Michaeli a urmărit domeniul restaurării fotografiilor împărțit în două subcomunități distincte. „Una a arătat imagini frumoase, multe făcute de GAN-uri. Celelalte au arătat date, dar nu au arătat multe imagini, pentru că nu arătau frumos”, a spus el.

În 2017, Michaeli și studentul său absolvent Yochai Blau au analizat această dihotomie mai formal. Ei au reprezentat performanța diferiților algoritmi de îmbunătățire a imaginii pe un grafic al distorsiunii față de calitatea perceptivă, folosind o măsură cunoscută pentru calitatea perceptivă care se corelează bine cu judecata subiectivă a oamenilor. După cum se aștepta Michaeli, unii algoritmi au avut ca rezultat o calitate vizuală foarte înaltă, în timp ce alții au fost foarte precisi, cu distorsiuni scăzute. Dar niciunul nu avea ambele avantaje; trebuia să alegi una sau alta. Cercetătorii au numit asta compromisul percepție-distorsiune.

De asemenea, Michaeli a provocat alți cercetători pentru a veni cu algoritmi care ar putea produce cea mai bună calitate a imaginii pentru un anumit nivel de distorsiune, pentru a permite comparații corecte între algoritmii de imagine frumoasă și cei cu statistici frumoase. De atunci, sute de cercetători AI au raportat despre distorsiunile și calitățile de percepție ale algoritmilor lor, citând lucrarea Michaeli şi Blau care a descris compromisul.

Uneori, implicațiile compromisului percepție-distorsiune nu sunt grave. Nvidia, de exemplu, a constatat că ecranele de înaltă definiție nu redau frumos conținut vizual de definiție inferioară, așa că în februarie a lansat un instrument care folosește învățarea profundă pentru a îmbunătăți conținutul video în flux. În acest caz, inginerii Nvidia au ales calitatea perceptivă în detrimentul acurateței, acceptând faptul că atunci când algoritmul crește videoclipul, va alcătui câteva detalii vizuale care nu sunt în videoclipul original. „Modelul este halucinant. Totul este o presupunere”, a spus Catanzaro. „De cele mai multe ori este bine ca un model de super-rezoluție să ghicească greșit, atâta timp cât este consecvent.”

Introducere

Aplicațiile în cercetare și medicină necesită, desigur, mult mai multă acuratețe. Tehnologia AI a condus la progrese majore în imagistica, dar „uneori vine cu efecte secundare nedorite, cum ar fi supraajustarea sau [adăugarea] caracteristici false și, prin urmare, trebuie tratată cu grijă extremă”, a spus Junjie Yao, inginer biomedical la Universitatea Duke. Anul trecut, a co-scris a hârtie descriind modul în care instrumentele AI pot îmbunătăți metodele existente de măsurare a fluxului sanguin și a metabolismului în creier - rămânând în siguranță pe partea exactă a compromisului percepție-distorsiune.

O modalitate de a ocoli limitele privind cantitatea de date care pot fi extrase dintr-o imagine este să încorporați pur și simplu date din mai multe imagini - deși acest lucru nu este adesea atât de simplu. Cercetătorii care studiază mediul prin intermediul imaginilor satelitare au făcut progrese în combinarea diferitelor surse de date vizuale. În 2021, un grup de cercetători din China și Marea Britanie date fuzionate de la două tipuri diferite de sateliți pentru a obține o imagine mai bună asupra defrișărilor din Bazinul Congo, a doua cea mai mare pădure tropicală din lume și unul dintre cele mai mari depozite de biodiversitate. Cercetătorii au luat date de la doi sateliți Landsat, care au măsurat defrișarea de zeci de ani și au folosit tehnici de învățare profundă pentru a perfecționa rezoluția imaginilor de la 30 de metri la 10 metri. Apoi au fuzionat acel set de imagini cu date de la doi sateliți Sentinel-2, care au o gamă ușor diferită de detectoare. Imaginile combinate „au permis să fie detectate cu 11% până la 21% mai multe zone perturbate decât a fost posibil folosind doar imaginile Sentinel-2 sau Landsat-7/8”, au scris ei.

Michaeli sugerează o altă modalitate de a ocoli, dacă nu și prin, limitele dure ale accesibilității informațiilor. În loc să se stabilească pe un răspuns ferm pentru a îmbunătăți o imagine de calitate scăzută, modelele ar putea prezenta mai multe interpretări diferite ale imaginii originale. Într-o lucrare intitulată „Super rezoluție explorabilă”, a ajutat la demonstrarea modului în care instrumentele de îmbunătățire a imaginii ar putea prezenta unui utilizator mai multe sugestii. O imagine neclară, cu rezoluție scăzută, a unei persoane care poartă ceea ce pare a fi o cămașă gri ar putea fi reconstruită într-o imagine de rezoluție mai mare în care cămașa are dungi verticale alb-negru, dungi orizontale sau carouri, toate acestea fiind la fel de plauzibile. .

Într-un alt exemplu, Michaeli a făcut o fotografie de calitate scăzută a unei plăcuțe de înmatriculare și a trecut-o printr-un instrument de îmbunătățire a imaginii AI, care a arătat că un 1 de pe plăcuța de înmatriculare seamănă cel mai mult cu un zero. Dar atunci când imaginea a fost procesată de un alt algoritm, mai deschis, pe care l-a proiectat Michaeli, cifra părea la fel de probabil să fie zero, 1 sau 8. Această abordare ar putea ajuta la excluderea altor numere fără a concluziona în mod eronat că cifra era zero.

Pe măsură ce diferite discipline se confruntă cu compromisul percepție-distorsiune în felul lor, întrebarea cât de mult putem extrage din imaginile AI și cât de mult putem avea încredere în aceste imagini rămâne centrală. „Ar trebui să ținem cont de faptul că pentru a scoate aceste imagini frumoase, algoritmii fac doar detalii”, a spus Michaeli. Putem atenua acele halucinații, dar butonul de „îmbunătățire” atotputernic, care rezolvă crimele, va rămâne un vis.

Timestamp-ul:

Mai mult de la Quantamagazina