A mesterséges intelligencia eszközök, amelyek szebbé teszik a képeket | Quanta Magazin

A mesterséges intelligencia eszközök, amelyek szebbé teszik a képeket | Quanta Magazin

A mesterséges intelligencia eszközök, amelyek szebbé teszik a képeket | Quanta Magazine PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

Bevezetés

Ez az egyik legnagyobb klisé a krimiben és a tudományos-fantasztikus irodalomban: egy nyomozó elővesz egy elmosódott fényképet a számítógép képernyőjén, és azt kéri, hogy javítsák ki, és bumm, a kép fókuszba kerül, felfedve néhány lényeges nyomot. Csodálatos történetmesélési kényelem, de évtizedek óta frusztráló fikció – túlságosan felrobbantja a képet, és láthatóan pixelessé válik. Nincs elég adat a továbbiak elvégzéséhez.

„Ha csak naivan felskáláz egy képet, az elmosódott lesz. Sok részlet lesz benne, de tévedés lesz” – mondta Bryan Catanzaro, az Nvidia alkalmazott mély tanulási kutatásának alelnöke.

A közelmúltban a kutatók és a szakemberek mesterséges intelligencia algoritmusokat kezdenek beépíteni képjavító eszközeikbe, megkönnyítve és hatékonyabbá téve a folyamatot, de még mindig vannak korlátok, hogy mennyi adatot lehet lekérni bármilyen képről. Szerencsére, ahogy a kutatók egyre tovább tolják a javító algoritmusokat, új módokat találnak arra, hogy megbirkózzanak ezekkel a korlátokkal – néha még arra is, hogy leküzdjék őket.

Az elmúlt évtizedben a kutatók egy újfajta mesterséges intelligencia modellel, az úgynevezett generatív ellenséges hálózattal (GAN) kezdték javítani a képeket, amely részletes, lenyűgöző megjelenésű képeket tudott készíteni. „A képek hirtelen sokkal jobban kezdtek kinézni” – mondta Tomer Michaeli, villamosmérnök az izraeli Technionnál. Meglepte azonban, hogy a GAN-ok által készített képek nagymértékű torzítást mutattak, ami azt méri, hogy a javított kép mennyire közel áll a megjelenített valósághoz. A GAN-ok olyan képeket készítettek, amelyek szépnek és természetesnek tűntek, de valójában nem pontos részleteket alkottak, vagy „hallucináltak”, ami nagymértékű torzításként nyilvánult meg.

Michaeli figyelte, ahogy a fotó-restaurálás területe két különálló alközösségre szakadt. „Az egyik szép képeket mutatott, sokat a GAN-ok készítettek. A másik mutatott adatokat, de nem sok képet mutattak, mert nem néztek ki jól” – mondta.

2017-ben Michaeli és végzős diákja, Yochai Blau formálisabban vizsgálta ezt a kettősséget. Különböző képjavító algoritmusok teljesítményét ábrázolták a torzítás és az észlelési minőség grafikonján, az észlelési minőség ismert mértékét használva, amely jól korrelál az emberek szubjektív megítélésével. Ahogy Michaeli várta, egyes algoritmusok nagyon jó vizuális minőséget eredményeztek, míg mások nagyon pontosak voltak, alacsony torzítással. De egyiknek sem volt mindkét előnye; választanod kellett az egyiket vagy a másikat. A kutatók ezt elnevezték az észlelés-torzítás kompromisszuma.

Michaeli is kihívta a többi kutatót olyan algoritmusok kidolgozása, amelyek adott torzítási szint mellett a legjobb képminőséget produkálják, lehetővé téve a szép képet és a szép statisztikát tartalmazó algoritmusok tisztességes összehasonlítását. Azóta mesterséges intelligenciakutatók százai számoltak be algoritmusaik torzulásáról és észlelési tulajdonságairól, Michaeli és Blau lapra hivatkozva ami leírta a kompromisszumot.

Néha az észlelés-torzítás kompromisszum következményei nem vészesek. Az Nvidia például azt találta, hogy a nagyfelbontású képernyők nem adnak vissza megfelelően bizonyos alacsonyabb felbontású vizuális tartalmakat, ezért februárban kiadott egy eszközt, amely mély tanulást használ a streaming videók feljavításához. Ebben az esetben az Nvidia mérnökei az észlelési minőséget választották a pontosság helyett, elfogadva azt a tényt, hogy amikor az algoritmus feljavítja a videót, akkor olyan vizuális részleteket alkot, amelyek nem szerepelnek az eredeti videóban. „A modell hallucinál. Mindez csak találgatás” – mondta Catanzaro. "A legtöbbször rendben van, ha egy szuperfelbontású modell rosszul tippel, feltéve, hogy konzisztens."

Bevezetés

A kutatási és orvostudományi alkalmazások természetesen sokkal nagyobb pontosságot igényelnek. Az AI-technológia jelentős előrelépéshez vezetett a képalkotásban, de „néha nemkívánatos mellékhatásokkal jár, mint például a túlillesztés vagy hamis funkciók hozzáadása, ezért rendkívül óvatosan kell bánni vele” – mondta. Junjie Yao, orvosbiológiai mérnök a Duke Egyetemen. Tavaly társszerzője volt a papír annak leírása, hogy az AI-eszközök hogyan javíthatják az agy véráramlásának és anyagcseréjének mérésére szolgáló meglévő módszereket – miközben biztonságosan az észlelés-torzítás kompromisszumának pontos oldalán maradnak.

A képből kinyerhető adatmennyiség korlátozásának egyik módja az, ha egyszerűen több képből építünk be adatokat – bár ez gyakran nem olyan egyszerű. A környezetet műholdfelvételeken keresztül kutató kutatók előrehaladást értek el a különböző vizuális adatforrások kombinálása terén. 2021-ben egy kutatócsoport Kínában és az Egyesült Királyságban összeolvadt adatok két különböző típusú műholdról, hogy jobb képet kapjunk a Kongói-medence erdőirtásáról, amely a világ második legnagyobb trópusi esőerdeje és a biodiverzitás egyik legnagyobb tárháza. A kutatók két Landsat műholdról vettek adatokat, amelyek évtizedek óta mérték az erdőirtást, és mély tanulási technikákkal finomították a képek felbontását 30 méterről 10 méterre. Ezután összeolvasztották ezt a képkészletet két Sentinel-2 műhold adataival, amelyek detektorai kissé eltérőek. A kombinált felvételek „11-21%-kal több zavart terület észlelését tette lehetővé, mint amennyit csak a Sentinel-2 vagy Landsat-7/8 képek segítségével lehetett volna” – írták.

Michaeli egy másik módot javasol az információhoz való hozzáférés szigorú korlátainak megkerülésére, ha nem is. Ahelyett, hogy egy határozott választ adnának arra vonatkozóan, hogyan lehet javítani egy gyenge minőségű képet, a modellek többféleképpen is értelmezhetik az eredeti képet. című lapbanFeltárható szuperfelbontás”, segített bemutatni, hogy a képjavító eszközök hogyan adhatnak több javaslatot a felhasználónak. Egy szürkés ingnek tűnő személyről készült homályos, kis felbontású kép rekonstruálható egy nagyobb felbontású képpé, amelyen az ingen fekete-fehér függőleges csíkok, vízszintes csíkok vagy kockák láthatók, amelyek mindegyike egyformán valószínű. .

Egy másik példában Michaeli rossz minőségű fotót készített egy rendszámtábláról, és átfuttatta egy vezető mesterséges intelligencia képjavítón, ami azt mutatta, hogy a rendszámtáblán lévő 1 leginkább nullának tűnt. De amikor a képet egy másik, Michaeli által tervezett, nyitottabb algoritmussal dolgozták fel, a számjegy valószínűleg nullának, 1-nek vagy 8-nak tűnt. Ez a megközelítés segíthet kizárni más számjegyeket anélkül, hogy téves következtetést vonna le arról, hogy a számjegy nulla.

Mivel a különböző tudományágak a maguk módján küzdenek az észlelés-torzítás kompromisszumával, továbbra is központi kérdés marad az a kérdés, hogy mennyit tudunk kinyerni az AI-képekből, és mennyire bízhatunk meg ezekben a képekben. „Ne feledjük, hogy ezeknek a szép képeknek a kiadásához az algoritmusok csak részleteket alkotnak” – mondta Michaeli. Csillapíthatjuk ezeket a hallucinációkat, de a mindenre képes, bűnmegoldó „javítás” gomb álom marad.

Időbélyeg:

Még több Quantamagazine