Tekoälytyökalut, jotka tekevät kuvista paremman | Quanta-lehti

Tekoälytyökalut, jotka tekevät kuvista paremman | Quanta-lehti

Tekoälytyökalut, jotka tekevät kuvista paremman | Quanta Magazine PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

esittely

Se on yksi rikollisuuden ja tieteiskirjallisuuden suurimmista kliseistä: tutkija vetää sumean valokuvan tietokoneen näytölle ja pyytää parantamaan sitä, ja boom, kuva tarkentuu paljastaen olennaisen vihjeen. Se on upea tarinankerronta, mutta se on ollut turhauttavaa fiktiota vuosikymmeniä - räjäyttää kuvaa liikaa ja siitä tulee näkyvästi pikseloitunut. Tietoa ei ole tarpeeksi, jotta voisi tehdä enemmän.

”Jos vain skaalat kuvan naiivisti, siitä tulee epäselvä. Siellä on paljon yksityiskohtia, mutta se tulee olemaan väärin", sanoi Bryan Catanzaro, Nvidian soveltavan syväoppimisen tutkimuksen varatoimitusjohtaja.

Viime aikoina tutkijat ja ammattilaiset ovat alkaneet sisällyttää tekoälyalgoritmeja kuvanparannustyökaluihinsa, mikä tekee prosessista helpomman ja tehokkaamman, mutta silti on rajat sille, kuinka paljon tietoa voidaan hakea mistä tahansa kuvasta. Onneksi, kun tutkijat työntävät parannusalgoritmeja yhä pidemmälle, he löytävät uusia tapoja selviytyä noista rajoista – jopa löytää tapoja ylittää ne.

Viimeisen vuosikymmenen aikana tutkijat aloittivat kuvien parantamisen uudenlaisella tekoälymallilla, jota kutsutaan generatiiviseksi adversarial networkiksi tai GANiksi, joka voi tuottaa yksityiskohtaisia, vaikuttavan näköisiä kuvia. "Kuvat alkoivat yhtäkkiä näyttää paljon paremmilta", sanoi Tomer Michaeli, sähköinsinööri Technionissa Israelissa. Hän oli kuitenkin yllättynyt siitä, että GAN:ien tekemät kuvat osoittivat suurta vääristymistasoa, mikä mittaa, kuinka lähellä parannettu kuva on sen esittämän taustalla olevaa todellisuutta. GAN:t tuottivat kuvia, jotka näyttivät kauniilta ja luonnollisilta, mutta ne itse asiassa keksivät tai "hallusinaatioita" yksityiskohtia, jotka eivät olleet tarkkoja, mikä kirjattiin korkeiksi vääristymisasteiksi.

Michaeli katseli valokuvien restauroinnin alan jakautuvan kahteen erilliseen alayhteisöön. ”Yhdessä näytettiin hienoja kuvia, monet GANien tekemät. Toiset näyttivät dataa, mutta he eivät näyttäneet paljon kuvia, koska ne eivät näyttäneet hyvältä", hän sanoi.

Vuonna 2017 Michaeli ja hänen jatko-opiskelijansa Yochai Blau tarkastelivat tätä kaksijakoisuutta muodollisemmin. He piirtivät eri kuvanparannusalgoritmien suorituskyvyn vääristymän ja havainnon laadun kuvaajalle käyttämällä tunnettua havaintolaadun mittaa, joka korreloi hyvin ihmisten subjektiivisen harkintaan. Kuten Michaeli odotti, jotkin algoritmit johtivat erittäin korkeaan visuaaliseen laatuun, kun taas toiset olivat erittäin tarkkoja ja vähäisiä vääristymiä. Mutta kummallakaan ei ollut molempia etuja; piti valita jompikumpi. Tutkijat nimesivät tämän havainto-vääristymä kompromissi.

Michaeli myös haastoi muita tutkijoita keksiä algoritmeja, jotka voisivat tuottaa parhaan kuvanlaadun tietyllä vääristymistasolla, mahdollistaa oikeudenmukaisen vertailun kauniiden kuvien algoritmien ja kauniiden tilastojen välillä. Sittemmin sadat tekoälytutkijat ovat raportoineet algoritmiensa vääristymistä ja havaintoominaisuuksista, lainaten Michaeli ja Blau -lehteä joka kuvaili kompromissia.

Joskus havainto-vääristymän kompromissin vaikutukset eivät ole vakavia. Esimerkiksi Nvidia havaitsi, että teräväpiirtonäytöt eivät toistaneet hienosti jotain heikomman tarkkuuden visuaalista sisältöä, joten helmikuussa se julkaisi työkalun, joka käyttää syväoppimista skaalausvideon tehostamiseen. Tässä tapauksessa Nvidian insinöörit valitsivat havaintolaadun tarkkuuden sijaan hyväksyen sen tosiasian, että kun algoritmi skaalaa videota, se muodostaa joitain visuaalisia yksityiskohtia, joita ei ole alkuperäisessä videossa. ”Malli on hallusinoiva. Kaikki on arvailua, Catanzaro sanoi. "Useimmiten superresoluutiomallin on hyvä arvata väärin, kunhan se on johdonmukainen."

esittely

Tutkimuksen ja lääketieteen sovellukset vaativat tietysti paljon enemmän tarkkuutta. Tekoälyteknologia on johtanut suuriin edistysaskeliin kuvantamisessa, mutta siihen "joskus liittyy ei-toivottuja sivuvaikutuksia, kuten liiallista sovittamista tai [lisäämällä] väärennettyjä ominaisuuksia, ja siksi sitä on käsiteltävä äärimmäisen huolellisesti", sanoi sanoi. Junjie Yao, biolääketieteen insinööri Duken yliopistossa. Viime vuonna hän oli mukana kirjoittamassa a paperi kuvataan, kuinka tekoälytyökalut voivat parantaa olemassa olevia menetelmiä veren virtauksen ja aineenvaihdunnan mittaamiseksi aivoissa – samalla kun pysyt turvallisesti havainto-vääristymän kompromissin oikealla puolella.

Yksi tapa kiertää rajoituksia sille, kuinka paljon dataa voidaan poimia kuvasta, on yksinkertaisesti sisällyttää tietoja useammista kuvista – vaikka se ei useinkaan ole niin yksinkertaista. Satelliittikuvien avulla ympäristöä tutkivat tutkijat ovat edistyneet erilaisten visuaalisen tiedon lähteiden yhdistämisessä. Vuonna 2021 tutkijoiden ryhmä Kiinassa ja Isossa-Britanniassa sulautettua dataa kahdelta eri satelliitilta saadaksesi paremman kuvan Kongon altaan metsäkadosta, joka on maailman toiseksi suurin trooppinen sademetsä ja yksi suurimmista biologisen monimuotoisuuden varastoista. Tutkijat ottivat tietoja kahdesta Landsat-satelliitista, jotka ovat mitanneet metsien häviämistä vuosikymmeniä, ja käyttivät syväoppimistekniikoita tarkentamaan kuvien resoluutiota 30 metristä 10 metriin. Sitten he yhdistivät tuon kuvasarjan kahden Sentinel-2-satelliitin tietoihin, joilla on hieman erilainen ilmaisimien ryhmä. Yhdistetyt kuvat "mahdollistivat 11-21% enemmän häiriintyneiden alueiden havaitsemisen kuin oli mahdollista käyttämällä pelkästään Sentinel-2- tai Landsat-7/8-kuvia", he kirjoittivat.

Michaeli ehdottaa toista tapaa kiertää tiedon saatavuuden kovia rajoituksia, ellei niiden läpi. Sen sijaan, että asettuisivat yhteen vakaaseen ratkaisuun huonolaatuisen kuvan parantamiseen, mallit voisivat näyttää useita erilaisia ​​tulkintoja alkuperäisestä kuvasta. Lehdessä nimeltä "Tutkittava superresoluutio”, hän auttoi osoittamaan, kuinka kuvanparannustyökalut voivat esittää käyttäjälle useita ehdotuksia. Yksi sumea, matalaresoluutioinen kuva henkilöstä, jolla on yllään harmahtava paita, voitaisiin rekonstruoida korkearesoluutioiseksi kuvaksi, jossa paidassa on mustavalkoisia pystyraitoja, vaakasuoria raitoja tai ruutuja, jotka kaikki ovat yhtä uskottavia .

Toisessa esimerkissä Michaeli otti huonolaatuisen valokuvan rekisterikilvestä ja suoritti sen johtavan tekoälykuvan parantajan läpi, mikä osoitti, että rekisterikilven 1 näytti eniten nollalta. Mutta kun kuvaa käsiteltiin toisella, avoimemmalla algoritmilla, jonka Michaelin suunnitteli, numero näytti yhtä todennäköiseltä nollalta, 1:ltä tai 8:lta. Tämä lähestymistapa voisi auttaa sulkemaan pois muita numeroita ilman, että se päättelee virheellisesti, että numero oli nolla.

Kun eri tieteenalat kamppailevat havainto-vääristymän kompromissin kanssa omalla tavallaan, kysymys siitä, kuinka paljon voimme poimia tekoälykuvasta ja kuinka paljon voimme luottaa näihin kuviin, on edelleen keskeinen. "Meidän pitäisi pitää mielessä, että näiden mukavien kuvien tulostamiseksi algoritmit vain muodostavat yksityiskohtia", Michaeli sanoi. Voimme lieventää näitä hallusinaatioita, mutta kaikkivoipa, rikosten ratkaiseva "parannus"-painike jää haaveeksi.

Aikaleima:

Lisää aiheesta Kvantamagatsiini