A számítástechnika úttörője segíti a mesterséges intelligencia megtekintését | Quanta Magazin

A számítástechnika úttörője segíti a mesterséges intelligencia megtekintését | Quanta Magazin

The Computing Pioneer Helping AI See | Quanta Magazine PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Bevezetés

Amikor Alekszej Efros 1980-as években költözött családjával Oroszországból Kaliforniába, elhozta szovjet gyártású személyi számítógépét, az Elektronika BK-0010-et. A gépnek nem volt külső tárolója, és néhány óránként túlmelegedett, így ahhoz, hogy videojátékokat tudjon játszani, kódot kellett írnia, hibaelhárítást kellett végeznie, és gyorsan kellett játszania – mielőtt a gép leállt. Ez a ciklus, amely a legtöbb napon ismétlődött, felgyorsította a tanulást.

"Nagy szerencsém volt, hogy ez a szovjet számítógép nem volt túl jó!" - mondta Efros, aki könnyedén nevet, és enyhe orosz akcentussal beszél. Manapság nem játszik annyi játékot, de ez a hajlandóság, hogy felfedezze és a legtöbbet hozza ki eszközeiből, megmarad.

A Kaliforniai Egyetem (Berkeley) végzős iskolájában Efros túrázni kezdett, és felfedezni kezdte a Bay Area természeti szépségeit. Nem sokkal később elkezdte egyesíteni a számítógépek iránti szenvedélyét a látnivalók élvezetével. Kifejlesztett egy módszert a lyukak zökkenőmentes befoltozására a fényképeken – például egy vörösfenyős erdő fényképén lévő eltévedt szemeteskukát természetes kinézetű fákkal helyettesítette. Az Adobe Photoshop később átvette a technika egy változatát a „tartalom-tudatos kitöltés” ​​eszközéhez.

Jelenleg a Berkeley Artificial Intelligence Research Lab informatikusa, Efros hatalmas online adatkészleteket kombinál gépi tanulási algoritmusokkal, hogy megértse, modellezze és újrateremtse a vizuális világot. 2016-ban a Számítógépek Szövetsége neki ítélte oda Díj a számítástechnikában valósághű szintetikus képeket létrehozó munkásságáért „képalkimista. "

Bevezetés

Efros szerint a kutatók minden erőfeszítése ellenére a gépek még mindig alapvetően másként látnak, mint mi. „A színfoltok és a fényesség megköveteli, hogy a most látottakat összekapcsoljuk az emlékeinkkel, hol láttuk ezeket a dolgokat korábban” – mondta Efros. "Ez a kapcsolat értelmet ad annak, amit látunk." Túl gyakran előfordul, hogy a gépek anélkül látják, hogy mi van az adott pillanatban, anélkül, hogy összekapcsolnák azzal, amit korábban láttak.

De a különbségnek lehetnek előnyei. A számítógépes látás terén Efros nagyra értékeli annak azonnali tudását, hogy a tárgyak és jelenetek felismerésére tervezett algoritmus működik-e a képen. Néhány számítógépes látással kapcsolatos kérdése – mint pl.Mitől hasonlít Párizsra?” – filozófiai beállítottságúak. Mások, például hogyan kell kezelni a tartós torzítás az adatkészletekben, praktikusak és nyomósak.

„Jelenleg sokan csinálnak mesterséges intelligenciát nyelvvel” – mondta Efros. „Szeretném megnézni azokat a teljesen vizuális mintákat, amelyek hátramaradtak.” A számítógépes látás javításával nemcsak jobb gyakorlati alkalmazásokat remél, mint például az önvezető autók; ezeket a meglátásokat is ki akarja bányászni, hogy jobban megértse az általa „emberi vizuális intelligenciának” nevezett dolgokat – hogyan értelmezik az emberek azt, amit látnak.

Quanta Magazine találkozott Efrosszal a berkeley-i irodájában, hogy beszéljen a tudományos szuperképességekről, a látvány leírásának nehézségeiről, és arról, hogy a mesterséges intelligencia valójában mennyire veszélyes. Az interjút az egyértelműség kedvéért sűrítettük és szerkesztettük.

Bevezetés

Hogyan fejlődött a számítógépes látás diákkorod óta?

Amikor elkezdtem a doktori fokozatot, szinte semmi hasznos nem volt. Egyes robotok számítógépes látás segítségével csavartak be néhány csavart, de ez a fajta nagyon ellenőrzött ipari beállításra korlátozódott. Aztán hirtelen a fényképezőgépem arcokat észlelt, és élesebbé tette őket.

Manapság a számítógépes látás számos alkalmazásban megtalálható, például az önvezető autókban. Ez tovább tart, mint egyesek először gondolták, de még mindig van előrelépés. Aki nem vezet, annak ez rendkívül izgalmas.

Várj, nem vezetsz?

Nem, nem látok elég jól ahhoz, hogy vezessek! [Nevet.] Számomra ez egy nagy változást jelentene – ha lenne egy autóm, amivel elvezetnék a helyekre.

Nem vettem észre, hogy a látásod akadályozta a vezetésben. Látod a képeket, amikkel dolgozol a számítógép monitorán?

Ha elég nagyra csinálom őket. Láthatod, hogy a betűtípusaim elég nagyok. Úgy születtem, hogy nem látok jól. Szerintem mindenki más fura, mert őrülten jó a látása.

Befolyásolta-e kutatási irányát a nem furcsa státusza?

Ki tudja? Határozottan nem volt olyan érzése, hogy „Ó, én nem látok jól, ezért olyan számítógépeket fogok készíteni, amelyek jobban látnak.” Nem, ez sosem volt motivációm.

Ahhoz, hogy jó tudós legyél, szükséged van egy titkos szuperképességre. Valamit mindenkinél jobban kell csinálnod. A tudományban az a nagyszerű, hogy nem mindannyian rendelkezünk egyforma szuperképességgel. Talán ez volt a szuperképességem, mert nem látok jól, lehet, hogy jobban rálátásom van a látásproblémára.

Bevezetés

Korán megértettem az előzetes adatok fontosságát a világra nézve. Jómagam nem láttam jól, de a korábbi tapasztalataim emléke eléggé kitöltötte a lyukakat ahhoz, hogy alapvetően olyan jól működhessek, mint egy normális ember. A legtöbben nem tudják, hogy nem látok jól. Ez adott nekem – azt hiszem – azt az egyedi megérzést, hogy talán kevésbé a pixelekről, hanem inkább a memóriáról van szó.

A számítógépek csak azt látják, ami most van, míg mi a pillanatot látjuk összekapcsolva mindazzal, amit korábban láttunk.

Lehetséges egyáltalán szavakkal kifejezni azokat a finom vizuális mintákat, amelyek például Párizshoz hasonlítanak?

Amikor egy adott városban tartózkodik, néha egyszerűen csak tudja, melyik városban van – ez van je ne sais quoi, pedig még sosem jártál az adott utcasarkon. Ezt nagyon nehéz szavakkal leírni, de a pixelekben ott van.

[Párizsról] beszélhetnénk arról, hogy általában hatemeletes épületekről van szó, és általában a negyedik emeleten vannak erkélyek. Ezt szavakba is lehetne önteni, de sok nem nyelvi. Számomra ez izgalmas.

A közelmúltban végzett munkája magában foglalja a számítógépek oktatását vizuális adatok bevitele emberi látást utánzó módon. Hogyan működik?

Jelenleg a számítógépek óriási adathalmazzal rendelkeznek: véletlenszerű képek milliárdjai kapartak le az internetről. Véletlenszerű képeket készítenek, feldolgoznak egy képet, majd készítenek egy másik véletlenszerű képet, feldolgozzák azt stb. A [számítógép vizuális] rendszerét úgy edzi, hogy újra és újra átmegy ezen az adathalmazon.

Az a mód, ahogyan mi – biológiai ágensek – felvesszük az adatokat, nagyon eltérő. Amikor új helyzettel állunk szemben, ez az egyetlen alkalom, amikor ezek az adatok a rendelkezésünkre állnak. Soha nem voltunk pontosan ilyen helyzetben, ebben a szobában, ilyen világítással, így öltözve. Először is, ezeket az adatokat arra használjuk, hogy megtegyük, amit tennünk kell, hogy megértsük a világot. Ezután ezeket az adatokat arra használjuk, hogy tanuljunk belőlük, [hogy előre jelezzük] a jövőt.

Bevezetés

Ezenkívül az általunk látott adatok nem véletlenszerűek. Amit most látsz, nagyon korrelál azzal, amit néhány másodperccel ezelőtt láttál. Képzelheted videónak is. A videó összes képkockája korrelál egymással, ami nagyon különbözik attól, ahogy a számítógépek feldolgozzák az adatokat.

Érdeklődöm, hogy a tanulási megközelítésünk olyan legyen, amelyben a számítógépek látják a beérkező adatokat, feldolgozzák azokat, és menet közben tanulnak belőlük.

Szerintem ez nem olyan egyszerű, mintha a számítógépek videókat néznének állóképek helyett.

Nem, még mindig szüksége van [számítógépekre] az alkalmazkodáshoz. Olyan tanulási megközelítések érdekelnek, amelyek a beérkező adatokat látják, majd menet közben feldolgozzák és tanulnak belőlük. Az egyik megközelítésünk az úgynevezett tesztidős képzés. Az ötlet az, hogy miközben egy képsorozatot nézel, például egy videót, a dolgok megváltozhatnak. Tehát nem akarja, hogy a modelljét javítsák. Ahogy a biológiai ágens mindig alkalmazkodik a környezetéhez, mi is azt akarjuk, hogy a számítógép folyamatosan alkalmazkodjon.

A szokásos paradigma az, hogy először egy nagy adathalmazra oktat, majd telepíti. Dall·E-t és ChatGPT-t 2021 körül képezték ki az interneten, majd [tudásuk] megfagyott. Aztán kidobja azt, amit már tud. Egy természetesebb módszer a [tesztidős képzés], hogy megpróbáljuk befogadni az adatokat, és a munkahelyen tanulni, nem pedig külön képzési és telepítési szakaszok.

Határozottan van egy probléma a számítógépekkel, az úgynevezett tartományváltás vagy adathalmaz torzítás – ez az elképzelés, hogy ha a képzési adatok nagyon eltérnek a rendszer üzembe helyezésekor használt adatoktól, a dolgok nem fognak működni. nagyon jól. Egy kicsit haladunk előre, de még nem tartunk egészen ott.

Bevezetés

Hasonló a probléma ahhoz, ahogy a bankok figyelmeztetik a befektetőket, hogy a múltbeli teljesítmény nem biztos, hogy előrejelzi a jövőbeli bevételeket?

Pontosan ez a probléma. A való világban a dolgok változnak. Például, ha egy mezei egér egy házban köt ki, akkor az rendben lesz. Soha nem szabadulsz meg ettől az egértől! [Nevet.] Mezőn született, még soha nem volt házban, mégis megtalálja és megeszi az összes készletedet. Nagyon gyorsan alkalmazkodik, tanul és alkalmazkodik az új környezethez.

Ez a képesség nem létezik a jelenlegi [számítógépes látás] rendszerekben. Önvezetéssel, ha Kaliforniában betanít egy autót, majd Minnesotában teszteli – bumm! - van hó. Még soha nem látott havat. Összezavarodik.

Most az emberek úgy kezelik ezt, hogy annyi adatot szereznek be, hogy [a rendszer] gyakorlatilag mindent látott. Akkor nem kell alkalmazkodni. De ettől még hiányoznak a ritka események.

Úgy tűnik tehát, hogy az AI-rendszerek jelentik az előrevezető utat. Hol marad ez az emberben?

Az OpenAI-ból származó munka mind a szöveges fronton (ChatGPT), mind a képi fronton (Dall·E) hihetetlenül izgalmas és meglepő volt. Megerősíti ezt az elképzelést, hogy ha elegendő adat áll rendelkezésre, az ésszerűen egyszerű módszerek meglepően jó eredményeket hozhatnak.

Bevezetés

De a ChatGPT ráébredt arra, hogy az emberek nem olyan kreatívak és kivételesek, mint amilyennek magunkat látjuk. Legtöbbször a bennünk lévő mintafelismerők vehetik át az uralmat. Olyan mondatokban beszélünk, amelyek olyan kifejezésekből vagy mondatokból készültek, amelyeket korábban hallottunk. Természetesen a képzelet és a kreativitás járatai vannak. Képesek vagyunk olyan dolgokra, amelyekre a számítógépek nem képesek – legalábbis egyelőre. De legtöbbször a ChatGPT helyettesíthet minket, és a legtöbb ember nem venné észre.

Ez megalázó. De ez egyben motiváció is arra, hogy kitörjünk ezekből a mintákból, hogy több fantáziát kapjunk, hogy ne ragadjunk bele a klisékbe és a pastiszokba.

Egyes tudósok aggodalmukat fejezték ki az MI által az emberiségre nézve jelentett kockázatok miatt. Aggódsz?

Sok kutató, akit nagyon tisztelek, figyelmeztetett a mesterséges intelligenciára. Nem akarom kicsinyíteni ezeket a szavakat. Ezek közül sok érvényes pont. De perspektívába kell helyezni a dolgokat.

A civilizációra jelenleg nem a számítógépek, hanem az emberek jelentik a legnagyobb veszélyt. A nukleáris Armageddon és az éghajlatváltozás sokkal sürgetőbb aggodalmak. Az Orosz Föderáció megtámadta teljesen ártatlan szomszédját. Oroszországban születtem, és különösen borzasztó, hogy egykori honfitársaim tehetik ezt. Mindent megteszek annak érdekében, hogy ez maradjon az első számú téma.

Azt gondolhatjuk, hogy az AI forradalom életünk legfontosabb eseménye. De az AI forradalom semmivé lesz, ha nem mentjük meg a szabad világot.

Szóval egyáltalán nem aggódik az AI miatt?

Nem. Tudod, szeretek aggódni. Nagy aggódó vagyok! De ha Putyin a világot rombolja itt van [fejéhez emeli a kezét], és itt van a klímaváltozás [a vállára engedi a kezét], akkor az AI itt van lent [a kezét a lábára teszi]. Ez az aggodalmam töredéke Putyinnal és a klímaváltozással szemben.

Időbélyeg:

Még több Quantamagazine