Ali AI ve, kaj je jabolko? Ona želi izvedeti.

Ponovno objavil Platon

Spremljevalci: 0

Ali AI ve, kaj je jabolko? Ona želi izvedeti. | Revija Quanta PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Začnite govoriti z Ellie Pavlick o svojem delu – išče dokaze o razumevanju znotraj velikih jezikovnih modelov (LLM) – in morda zveni, kot da se iz tega norčuje. Besedna zveza "valja z roko" je priljubljena in če omeni "pomen" ali "razumevanje", bo to pogosto prišlo z vpadljivimi narekovaji. To je samo Pavlickin način, da ostane poštena. Kot računalniška znanstvenica, ki preučuje jezikovne modele na univerzi Brown in Google DeepMind, ve, da je sprejemanje inherentne mehkosti naravnega jezika edini način, da ga vzamemo resno. "To je znanstvena disciplina - in je malo mehka," je rekla.

Natančnost in nianse so sobivali v Pavlickinem svetu že od adolescence, ko je uživala v matematiki in naravoslovju, »vendar se je vedno identificirala kot bolj ustvarjalna vrsta«. Kot dodiplomska študentka je pridobila diplomo iz ekonomije in igranja saksofona, preden je nadaljevala z doktoratom iz računalništva, področja, kjer se še vedno počuti kot tujka. "Veliko ljudi [misli], da bodo inteligentni sistemi zelo podobni računalniški kodi: čedni in priročni kot veliko sistemov [ki jih] dobro razumemo," je dejala. »Preprosto verjamem, da so odgovori zapleteni. Če imam rešitev, ki je preprosta, sem skoraj prepričan, da je napačna. In nočem se motiti."

Naključno srečanje z računalniškim znanstvenikom, ki je po naključju delal na področju obdelave naravnega jezika, je Pavlickovo pripeljalo do tega, da se je lotila svojega doktorskega dela preučevanja, kako lahko računalniki kodirajo semantiko ali pomen v jeziku. "Mislim, da je nekaj srbelo," je rekla. "Potopi se v filozofijo in to se ujema z veliko stvarmi, na katerih trenutno delam." Zdaj se eno od Pavlickovih primarnih področij raziskovanja osredotoča na "prizemljitev" - vprašanje, ali je pomen besed odvisen od stvari, ki obstajajo neodvisno od samega jezika, kot so čutne zaznave, družbene interakcije ali celo druge misli. Jezikovni modeli se v celoti urijo na besedilu, zato zagotavljajo plodno platformo za raziskovanje, kako je osnova pomembna za pomen. Toda samo vprašanje že desetletja skrbi jezikoslovce in druge mislece.

"To niso le 'tehnične' težave," je dejal Pavlick. "Jezik je tako velik, da se mi zdi, kot da zajema vse."

Quanta s Pavlickom govoril o tem, kako iz filozofije narediti znanost, kaj pomeni "pomen" in o pomenu neseksi rezultatov. Intervju je bil zgoščen in urejen zaradi jasnosti.

Kaj empirično pomeni "razumevanje" ali "pomen"? Kaj konkretno iščete?

Ko sem začenjal svoj raziskovalni program pri Brownu, smo se odločili, da pomen na nek način vključuje koncepte. Zavedam se, da je to teoretična zaveza, ki je ne sprejemajo vsi, vendar se zdi intuitivna. Če uporabljate besedo »jabolko« za pomen jabolka, potrebujete koncept jabolka. To mora biti stvar, ne glede na to, ali uporabljate to besedo ali ne. To pomeni "imeti pomen": obstajati mora koncept, nekaj, kar ubesedite.

V modelu želim najti koncepte. Želim nekaj, kar lahko zgrabim znotraj nevronske mreže, dokaz, da obstaja stvar, ki interno predstavlja »jabolko«, kar omogoča, da se ga dosledno omenja z isto besedo. Ker se zdi, da obstaja ta notranja struktura, ki ni naključna in poljubna. Najdete lahko te drobce z dobro definirano funkcijo, ki nekaj zanesljivo naredijo.

Osredotočal sem se na karakterizacijo te notranje strukture. Kakšno obliko ima? Lahko je neka podmnožica uteži znotraj nevronske mreže ali nekakšna linearna algebraična operacija nad temi utežmi, nekakšna geometrijska abstrakcija. Vendar mora igrati vzročno vlogo [v vedenju modela]: povezan je s temi vhodi, ne pa s tistimi, in s temi izhodi in ne s tistimi.

To se zdi kot nekaj, kar bi lahko začeli imenovati "pomen". Gre za to, da ugotovimo, kako najti to strukturo in vzpostaviti odnose, tako da, ko vse postavimo na svoje mesto, lahko to uporabimo pri vprašanjih, kot je "Ali ve, kaj pomeni 'jabolko'?"

Ste našli kakšen primer te strukture?

Ja, eno povzroči vključuje, ko jezikovni model pridobi del informacije. Če vprašate model »Kaj je glavno mesto Francije«, mora povedati »Pariz«, »Kaj je glavno mesto Poljske« pa mora vrniti »Varšava«. Vse te odgovore bi si lahko zlahka zapomnil in lahko bi bili raztreseni povsod [znotraj modela] — ni pravega razloga, da bi potreboval povezavo med temi stvarmi.

Namesto tega smo našli majhno mesto v modelu, kjer to povezavo v bistvu združi v en majhen vektor. Če ga dodate v »Kaj je glavno mesto Francije«, bo pridobil »Pariz«; in ta isti vektor, če vprašate »Kaj je glavno mesto Poljske«, bo pridobil »Varšava«. To je kot ta sistematični vektor "pridobi glavno mesto".

To je res vznemirljiva ugotovitev, ker se zdi, kot da [model] združuje te majhne koncepte in nato nanje uporablja splošne algoritme. In čeprav iščemo ta res [preprosta] vprašanja, gre za iskanje dokazov o teh surovih sestavinah, ki jih model uporablja. V tem primeru bi se bilo lažje izogniti pomnjenju - v mnogih pogledih so ta omrežja zasnovana za to. Namesto tega [informacije] razdeli na koščke in o njih »razpravlja«. In upamo, da bomo, ko pridemo do boljših eksperimentalnih načrtov, morda našli nekaj podobnega za bolj zapletene vrste konceptov.

Kako je ozemljitev povezana s temi predstavitvami?

Način, kako se ljudje učimo jezika, temelji na toni nejezikovnih vnosov: vaših telesnih občutkov, čustev, ali ste lačni, karkoli. To velja za zelo pomembno za pomen.

Toda obstajajo tudi drugi pojmi ozemljitve, ki so bolj povezani z notranjimi predstavami. Obstajajo besede, ki niso očitno povezane s fizičnim svetom, vendar imajo še vedno pomen. Beseda, kot je "demokracija", je priljubljen primer. To je stvar v vaši glavi: lahko razmišljam o demokraciji, ne da bi o njej govoril. Torej je osnova lahko od jezika do te stvari, te notranje reprezentacije.

Vendar trdite, da so lahko tudi stvari, ki so bolj zunanje, kot je barva, še vedno zasidrane na notranjih "konceptualnih" predstavah, ne da bi se zanašale na zaznave. Kako bi to delovalo?

No, jezikovni model nima oči, kajne? Ne “ve” ničesar o barvah. Torej morda [zajame] nekaj bolj splošnega, kot je razumevanje odnosov med njimi. Vem, da ko združim modro in rdečo, dobim vijolično; te vrste odnosov bi lahko definirale to notranjo [osnovno] strukturo.

Študentu LLM lahko podamo primere barv z uporabo RGB kod [nizov številk, ki predstavljajo barve]. Če rečete »V redu, tukaj je rdeča« in ji daste kodo RGB za rdečo in »Tu je modra« s kodo RGB za modro, nato pa rečete »Povej mi, kaj je vijolična«, bi moralo ustvariti kodo RGB za vijolična. To preslikavo bi moralo biti dober pokazatelj, da je notranja struktura modela dobra - manjkajo mu zaznave [za barvo], vendar je konceptualna struktura tam.

Zapleteno je to, da si [model] lahko samo zapomni kode RGB, ki so vsepovsod v njegovih podatkih o usposabljanju. Zato smo vse barve »zasukali« [stran od njihovih dejanskih vrednosti RGB]: LLM bi povedali, da je beseda »rumena« povezana s kodo RGB za zeleno in tako naprej. Model se je dobro obnesel: ko ste zahtevali zeleno, bi vam dal obrnjeno različico kode RGB. To nakazuje, da obstaja nekakšna doslednost njegovih notranjih predstavitev barve. To je uporaba znanja o njihovih odnosih, ne samo pomnjenje.

To je bistvo ozemljitve. Preslikava imena v barvo je poljubna. Gre bolj za odnose med njimi. Torej je bilo razburljivo.

Kako so lahko ta filozofsko zveneča vprašanja znanstvena?

Pred kratkim sem izvedel za miselni eksperiment: Kaj če bi ocean zaplaval na pesek in [ko bi se] potegnil nazaj, bi vzorci ustvarili pesem? Ali ima pesem pomen? To se zdi super abstraktno in lahko imate to dolgo filozofsko razpravo.

Dobra stvar pri jezikovnih modelih je, da ne potrebujemo miselnega eksperimenta. Ne gre za "teoretično, ali bi bila taka in taka stvar inteligentna?" Samo: Ali je ta stvar inteligentna? Postane znanstveno in empirično.

Včasih so ljudje zaničujoči; tam je "stohastične papige” pristop. Mislim, da [izhaja iz] strahu, da bodo ljudje preveč pripisali inteligenco tem stvarem - kar tudi vidimo. In da bi to popravili, ljudje pravijo: »Ne, vse je le prevara. To sta dim in ogledala.”

To je malo medvedja storitev. Naleteli smo na nekaj precej vznemirljivega in povsem novega in vredno je, da to poglobljeno razumemo. To je ogromna priložnost, ki je ne bi smeli zanemariti, ker nas skrbi pretirano tolmačenje modelov.

Seveda ti"smo tudi izdelali Raziskave razkritje točno te vrste pretirane interpretacije.

To delo, pri katerem so ljudje odkrivali vse »plitve hevristike«, ki so jih modeli izkoriščali [za posnemanje razumevanja], je bilo zelo temeljno za moje odraščanje kot znanstvenik. Ampak to je zapleteno. To je kot, ne razglasite zmage prehitro. V meni je malo skepticizma ali paranoje, da je bila ocena izvedena pravilno, tudi tista, za katero vem, da sem jo oblikoval zelo skrbno!

To je torej del tega: ne pretiravati. Drugi del je, da če imate opravka s temi sistemi [jezikovnega modela], veste, da niso na človeški ravni - način, kako rešujejo stvari, ni tako inteligenten, kot se zdi.

Ko je na tem področju predmet razprave toliko osnovnih metod in izrazov, kako sploh meriti uspeh?

Kar mislim, da iščemo kot znanstveniki, je natančen, ljudem razumljiv opis tega, kar nas zanima - v tem primeru inteligenca. In potem dodamo besede, ki nam pomagajo priti tja. Potrebujemo nekakšen delovni besednjak.

Ampak to je težko, ker potem lahko vstopiš v to bitko semantike. Ko ljudje rečejo: "Ali ima pomen: da ali ne?" Nevem. Pogovor usmerjamo na napačno stvar.

Kar poskušam ponuditi, je natančen prikaz vedenja, ki smo ga želeli razložiti. In na tej točki je nekako sporno, ali želite to imenovati "pomen" ali "predstavitev" ali katera koli od teh nabitih besed. Bistvo je, da je na mizi teorija ali predlagani model - ocenimo to.

Kako se torej lahko raziskave jezikovnih modelov premaknejo k temu bolj neposrednemu pristopu?

Vrste globokih vprašanj, na katera bi res rad imel odgovor — Kateri so gradniki inteligence? Kako izgleda človeška inteligenca? Kako izgleda inteligenca modela? — so res pomembne. Ampak mislim, da stvari, ki se morajo zgoditi v naslednjih 10 letih, niso zelo seksi.

Če se želimo ukvarjati s temi [notranjimi] predstavitvami, potrebujemo metode za njihovo iskanje - metode, ki so znanstveno utemeljene. Če je narejeno na pravi način, ta nizkocenovna, super v plevelu metodološka stvar ne bo prinesla naslovnic. Toda to je res pomembna stvar, ki nam bo omogočila, da pravilno odgovorimo na ta globoka vprašanja.

Medtem se bodo modeli še naprej spreminjali. Torej bo veliko stvari, ki jih bodo ljudje še naprej objavljali, kot da gre za »preboj«, vendar verjetno ni. Po mojem mnenju je prezgodaj za velike preboje.

Ljudje preučujejo te zelo preproste naloge, na primer vprašati [jezikovni model, ki ga je treba dokončati] »Janez je dal pijačo _______« in poskušajo videti, ali piše »Janez« ali »Mary«. To nima občutka rezultata, ki pojasnjuje inteligenco. Vendar dejansko verjamem, da so orodja, ki jih uporabljamo za opis tega dolgočasnega problema, bistvena za odgovor na globoka vprašanja o inteligenci.

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
vir: https://www.quantamagazine.org/does-ai-know-what-an-apple-is-she-aims-to-find-out-20240425/

Časovni žig: April 25, 2024

Časovni žig: Jan 17, 2024

Ponovno objavil Platon

Kaj empirično pomeni "razumevanje" ali "pomen"? Kaj konkretno iščete?

Ste našli kakšen primer te strukture?

Kako je ozemljitev povezana s temi predstavitvami?

Vendar trdite, da so lahko tudi stvari, ki so bolj zunanje, kot je barva, še vedno zasidrane na notranjih "konceptualnih" predstavah, ne da bi se zanašale na zaznave. Kako bi to delovalo?

Kako so lahko ta filozofsko zveneča vprašanja znanstvena?

Seveda ti"smo tudi izdelali Raziskave razkritje točno te vrste pretirane interpretacije.

Ko je na tem področju predmet razprave toliko osnovnih metod in izrazov, kako sploh meriti uspeh?

Kako se torej lahko raziskave jezikovnih modelov premaknejo k temu bolj neposrednemu pristopu?

Rastline najdejo svetlobo s pomočjo vrzeli med svojimi celicami | Revija Quanta

Najstnik rešuje trdovratno uganko o podobnih praštevilih

Študije o izumrlih človeških genomih prejele Nobelovo nagrado za medicino

Vprašanje o vrteči se črti pomaga razkriti, zakaj so realna števila posebna

Svetlobni obroč črne luknje bi lahko šifriral njene notranje skrivnosti

Ključ do ekologije najde v celicah, ki kradejo od drugih

Kako se znanstveniki lotevajo zapletene naloge napovedovanja sončnega cikla | Revija Quanta

V "drugih možganih" črevesja se pojavijo ključni dejavniki zdravja | Revija Quanta

Nov preboj približuje matrično množenje idealu | Revija Quanta

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun

Predstavitev

Predstavitev

Kaj empirično pomeni "razumevanje" ali "pomen"? Kaj konkretno iščete?

Ste našli kakšen primer te strukture?

Predstavitev

Kako je ozemljitev povezana s temi predstavitvami?

Vendar trdite, da so lahko tudi stvari, ki so bolj zunanje, kot je barva, še vedno zasidrane na notranjih "konceptualnih" predstavah, ne da bi se zanašale na zaznave. Kako bi to delovalo?

Predstavitev

Kako so lahko ta filozofsko zveneča vprašanja znanstvena?

Seveda ti"smo tudi izdelali Raziskave razkritje točno te vrste pretirane interpretacije.

Predstavitev

Ko je na tem področju predmet razprave toliko osnovnih metod in izrazov, kako sploh meriti uspeh?

Predstavitev

Kako se torej lahko raziskave jezikovnih modelov premaknejo k temu bolj neposrednemu pristopu?

Več od Quantamagazine

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun