AI tööriistad, mis muudavad pildid paremaks | Ajakiri Quanta

AI tööriistad, mis muudavad pildid paremaks | Ajakiri Quanta

AI tööriistad, mis muudavad pildid paremaks | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Sissejuhatus

See on üks suuremaid klišeesid krimi- ja ulmekirjanduses: uurija tõmbab arvutiekraanile uduse foto ja palub seda täiustada ning buum, pilt satub fookusesse, paljastades mõne olulise vihje. See on suurepärane jutuvestmise mugavus, kuid see on aastakümneid olnud pettumust valmistav väljamõeldis – puhuge pilt liiga palju õhku ja see muutub nähtavalt pikslituks. Rohkemate tegemiseks pole piisavalt andmeid.

"Kui muudate pilti lihtsalt naiivselt üles, on see udune. Seal on palju detaile, kuid see on vale, ”ütles Bryan Catanzaro, Nvidia rakendusliku süvaõppe uuringute asepresident.

Hiljuti on teadlased ja spetsialistid hakanud oma pilti parandavatesse tööriistadesse lisama tehisintellekti algoritme, muutes protsessi lihtsamaks ja võimsamaks, kuid siiski on piirangud sellele, kui palju andmeid on võimalik igalt pildilt hankida. Õnneks avastavad teadlased täiustamisalgoritme üha kaugemale ajades uusi viise nende piirangutega toimetulemiseks – mõnikord isegi nende ületamiseks.

Viimasel kümnendil hakkasid teadlased pilte täiustama uut tüüpi tehisintellekti mudeliga, mida nimetatakse generatiivseks võistlevaks võrguks ehk GAN-iks, mis võiks toota üksikasjalikke muljetavaldava välimusega pilte. "Pildid hakkasid äkki palju paremad välja nägema," ütles Tomer Michaeli, elektriinsener Technionis Iisraelis. Kuid ta oli üllatunud, et GAN-ide tehtud piltidel oli kõrge moonutuse tase, mis mõõdab, kui lähedal on täiustatud pilt selle tegelikule tegelikkusele. GAN-id valmistasid pilte, mis nägid välja ilusad ja loomulikud, kuid tegelikult moodustasid need ebatäpsed või "hallutsineerivad" üksikasjad, mis registreeriti kõrge moonutuse tasemena.

Michaeli jälgis, kuidas fotode taastamise valdkond jagunes kaheks erinevaks alamkogukonnaks. “Üks näitas toredaid pilte, paljud GANide tehtud. Teised näitasid andmeid, aga nad ei näidanud palju pilte, sest need ei näinud kenad välja,” rääkis ta.

2017. aastal uurisid Michaeli ja tema kraadiõppur Yochai Blau seda dihhotoomiat ametlikumalt. Nad joonistasid erinevate pildiparandusalgoritmide toimivuse graafikule moonutuste ja tajukvaliteedi vahel, kasutades tuntud tajukvaliteedi mõõdikut, mis korreleerub hästi inimeste subjektiivse hinnanguga. Nagu Michaeli eeldas, andsid mõned algoritmid väga kõrge visuaalse kvaliteediga, samas kui teised olid väga täpsed ja vähese moonutusega. Kuid ühelgi polnud mõlemat eelist; tuli valida üks või teine. Teadlased nimetasid seda taju-moonutuse kompromiss.

Michaeli ka esitas teistele teadlastele väljakutse tulla välja algoritmidega, mis suudaksid toota parima pildikvaliteedi antud moonutustaseme korral, et võimaldada ilusa pildi ja ilusa statistikaga algoritmide õiglast võrdlust. Sellest ajast peale on sajad AI-teadlased teatanud oma algoritmide moonutusest ja tajumisomadustest, viidates Michaeli ja Blau paberile mis kirjeldas kompromissi.

Mõnikord ei ole taju-moonutuse kompromissi tagajärjed kohutavad. Näiteks leidis Nvidia, et kõrglahutusega ekraanid ei renderda hästi mõnda madalama eraldusvõimega visuaalset sisu, mistõttu avaldas ta veebruaris tööriista, mis kasutab video voogesituse täiustamiseks süvaõpet. Sel juhul valisid Nvidia insenerid tajukvaliteedi täpsuse asemel, nõustudes tõsiasjaga, et kui algoritm videot täiustab, moodustab see mõned visuaalsed detailid, mida algses videos pole. «Modell on hallutsinatsioonid. See kõik on oletus,” ütles Catanzaro. "Enamasti sobib ülieraldusvõimega mudel valesti arvata, kui see on järjepidev."

Sissejuhatus

Teadusuuringute ja meditsiini rakendused nõuavad loomulikult palju suuremat täpsust. Tehisintellekti tehnoloogia on toonud kaasa suuri edusamme pildistamises, kuid mõnikord kaasnevad sellega soovimatud kõrvalmõjud, nagu liigne paigaldamine või võltsfunktsioonide lisamine, ja seetõttu tuleb seda käsitleda äärmise ettevaatusega. Junjie Yao, Duke'i ülikooli biomeditsiiniinsener. Eelmisel aastal kirjutas ta kaasa a paber kirjeldades, kuidas tehisintellekti tööriistad saavad parandada olemasolevaid meetodeid verevoolu ja ainevahetuse mõõtmiseks ajus – jäädes samas ohutult taju-moonutuse kompromissi täpsele poolele.

Üks viis pildilt eraldatavate andmete piirangutest mööda hiilimiseks on lihtsalt lisada andmeid rohkematelt piltidelt – kuigi see pole sageli nii lihtne. Teadlased, kes uurivad keskkonda satelliidipiltide abil, on teinud edusamme erinevate visuaalsete andmete allikate kombineerimisel. 2021. aastal tegi Hiina ja Ühendkuningriigi teadlaste rühm sulandatud andmed kahte erinevat tüüpi satelliidilt, et saada parem ülevaade metsade raadamisest Kongo basseinis, mis on maailma suuruselt teine ​​troopiline vihmamets ja üks suurimaid bioloogilise mitmekesisuse hoidla. Teadlased võtsid andmeid kahelt Landsati satelliidilt, mis on aastakümneid raadamist mõõtnud, ja kasutasid süvaõppe tehnikaid, et täpsustada piltide eraldusvõimet 30 meetrilt 10 meetrini. Seejärel ühendasid nad selle pildikomplekti kahe Sentinel-2 satelliidi andmetega, millel on veidi erinev detektorite hulk. Kombineeritud kujutised "võimaldas tuvastada 11% kuni 21% rohkem häiritud alasid, kui oli võimalik ainult Sentinel-2 või Landsat-7/8 pilte kasutades," kirjutasid nad.

Michaeli soovitab veel üht viisi teabele juurdepääsu rangetest piirangutest üle saamiseks, kui mitte läbi. Selle asemel, et leppida ühe kindla vastusega madala kvaliteediga pildi parandamiseks, võivad mudelid näidata algse pildi mitut erinevat tõlgendust. Paberis pealkirjaga "Uuritav ülilahutusvõime”, aitas ta demonstreerida, kuidas pildi täiustamise tööriistad saaksid kasutajale mitmeid soovitusi esitada. Üks hägune madala eraldusvõimega kujutis inimesest, kes kannab näiliselt hallikat särki, saab rekonstrueerida kõrgema eraldusvõimega kujutiseks, kus särgil on mustad ja valged vertikaalsed triibud, horisontaalsed triibud või ruudud, mis kõik on võrdselt usutavad. .

Teises näites tegi Michaeli numbrimärgist madala kvaliteediga foto ja lasi selle läbi juhtiva tehisintellekti pildiparandaja, mis näitas, et numbrimärgil olev 1 sarnanes kõige enam nulliga. Kuid kui pilti töödeldi Michaeli kavandatud erineva, avatuma algoritmiga, näis number võrdselt tõenäoline null, 1 või 8. See lähenemine võib aidata välistada muid numbreid, ilma et saaks ekslikult järeldada, et number on null.

Kuna erinevad distsipliinid võitlevad taju-moonutuste kompromissiga omal moel, jääb keskseks küsimus, kui palju saame tehisintellekti kujutistest välja võtta ja kui palju saame neid pilte usaldada. "Peaksime meeles pidama, et nende kenade piltide väljastamiseks moodustavad algoritmid lihtsalt üksikasjad, " ütles Michaeli. Me saame neid hallutsinatsioone leevendada, kuid kõikvõimas kuritegusid lahendav "täiustamise" nupp jääb unistuseks.

Ajatempel:

Veel alates Kvantamagazin