Predstavitev
Začnite govoriti z Ellie Pavlick o svojem delu – išče dokaze o razumevanju znotraj velikih jezikovnih modelov (LLM) – in morda zveni, kot da se iz tega norčuje. Besedna zveza "valja z roko" je priljubljena in če omeni "pomen" ali "razumevanje", bo to pogosto prišlo z vpadljivimi narekovaji. To je samo Pavlickin način, da ostane poštena. Kot računalniška znanstvenica, ki preučuje jezikovne modele na univerzi Brown in Google DeepMind, ve, da je sprejemanje inherentne mehkosti naravnega jezika edini način, da ga vzamemo resno. "To je znanstvena disciplina - in je malo mehka," je rekla.
Natančnost in nianse so sobivali v Pavlickinem svetu že od adolescence, ko je uživala v matematiki in naravoslovju, »vendar se je vedno identificirala kot bolj ustvarjalna vrsta«. Kot dodiplomska študentka je pridobila diplomo iz ekonomije in igranja saksofona, preden je nadaljevala z doktoratom iz računalništva, področja, kjer se še vedno počuti kot tujka. "Veliko ljudi [misli], da bodo inteligentni sistemi zelo podobni računalniški kodi: čedni in priročni kot veliko sistemov [ki jih] dobro razumemo," je dejala. »Preprosto verjamem, da so odgovori zapleteni. Če imam rešitev, ki je preprosta, sem skoraj prepričan, da je napačna. In nočem se motiti."
Naključno srečanje z računalniškim znanstvenikom, ki je po naključju delal na področju obdelave naravnega jezika, je Pavlickovo pripeljalo do tega, da se je lotila svojega doktorskega dela preučevanja, kako lahko računalniki kodirajo semantiko ali pomen v jeziku. "Mislim, da je nekaj srbelo," je rekla. "Potopi se v filozofijo in to se ujema z veliko stvarmi, na katerih trenutno delam." Zdaj se eno od Pavlickovih primarnih področij raziskovanja osredotoča na "prizemljitev" - vprašanje, ali je pomen besed odvisen od stvari, ki obstajajo neodvisno od samega jezika, kot so čutne zaznave, družbene interakcije ali celo druge misli. Jezikovni modeli se v celoti urijo na besedilu, zato zagotavljajo plodno platformo za raziskovanje, kako je osnova pomembna za pomen. Toda samo vprašanje že desetletja skrbi jezikoslovce in druge mislece.
"To niso le 'tehnične' težave," je dejal Pavlick. "Jezik je tako velik, da se mi zdi, kot da zajema vse."
Quanta s Pavlickom govoril o tem, kako iz filozofije narediti znanost, kaj pomeni "pomen" in o pomenu neseksi rezultatov. Intervju je bil zgoščen in urejen zaradi jasnosti.
Predstavitev
Kaj empirično pomeni "razumevanje" ali "pomen"? Kaj konkretno iščete?
Ko sem začenjal svoj raziskovalni program pri Brownu, smo se odločili, da pomen na nek način vključuje koncepte. Zavedam se, da je to teoretična zaveza, ki je ne sprejemajo vsi, vendar se zdi intuitivna. Če uporabljate besedo »jabolko« za pomen jabolka, potrebujete koncept jabolka. To mora biti stvar, ne glede na to, ali uporabljate to besedo ali ne. To pomeni "imeti pomen": obstajati mora koncept, nekaj, kar ubesedite.
V modelu želim najti koncepte. Želim nekaj, kar lahko zgrabim znotraj nevronske mreže, dokaz, da obstaja stvar, ki interno predstavlja »jabolko«, kar omogoča, da se ga dosledno omenja z isto besedo. Ker se zdi, da obstaja ta notranja struktura, ki ni naključna in poljubna. Najdete lahko te drobce z dobro definirano funkcijo, ki nekaj zanesljivo naredijo.
Osredotočal sem se na karakterizacijo te notranje strukture. Kakšno obliko ima? Lahko je neka podmnožica uteži znotraj nevronske mreže ali nekakšna linearna algebraična operacija nad temi utežmi, nekakšna geometrijska abstrakcija. Vendar mora igrati vzročno vlogo [v vedenju modela]: povezan je s temi vhodi, ne pa s tistimi, in s temi izhodi in ne s tistimi.
To se zdi kot nekaj, kar bi lahko začeli imenovati "pomen". Gre za to, da ugotovimo, kako najti to strukturo in vzpostaviti odnose, tako da, ko vse postavimo na svoje mesto, lahko to uporabimo pri vprašanjih, kot je "Ali ve, kaj pomeni 'jabolko'?"
Ste našli kakšen primer te strukture?
Ja, eno povzroči vključuje, ko jezikovni model pridobi del informacije. Če vprašate model »Kaj je glavno mesto Francije«, mora povedati »Pariz«, »Kaj je glavno mesto Poljske« pa mora vrniti »Varšava«. Vse te odgovore bi si lahko zlahka zapomnil in lahko bi bili raztreseni povsod [znotraj modela] — ni pravega razloga, da bi potreboval povezavo med temi stvarmi.
Namesto tega smo našli majhno mesto v modelu, kjer to povezavo v bistvu združi v en majhen vektor. Če ga dodate v »Kaj je glavno mesto Francije«, bo pridobil »Pariz«; in ta isti vektor, če vprašate »Kaj je glavno mesto Poljske«, bo pridobil »Varšava«. To je kot ta sistematični vektor "pridobi glavno mesto".
To je res vznemirljiva ugotovitev, ker se zdi, kot da [model] združuje te majhne koncepte in nato nanje uporablja splošne algoritme. In čeprav iščemo ta res [preprosta] vprašanja, gre za iskanje dokazov o teh surovih sestavinah, ki jih model uporablja. V tem primeru bi se bilo lažje izogniti pomnjenju - v mnogih pogledih so ta omrežja zasnovana za to. Namesto tega [informacije] razdeli na koščke in o njih »razpravlja«. In upamo, da bomo, ko pridemo do boljših eksperimentalnih načrtov, morda našli nekaj podobnega za bolj zapletene vrste konceptov.
Predstavitev
Kako je ozemljitev povezana s temi predstavitvami?
Način, kako se ljudje učimo jezika, temelji na toni nejezikovnih vnosov: vaših telesnih občutkov, čustev, ali ste lačni, karkoli. To velja za zelo pomembno za pomen.
Toda obstajajo tudi drugi pojmi ozemljitve, ki so bolj povezani z notranjimi predstavami. Obstajajo besede, ki niso očitno povezane s fizičnim svetom, vendar imajo še vedno pomen. Beseda, kot je "demokracija", je priljubljen primer. To je stvar v vaši glavi: lahko razmišljam o demokraciji, ne da bi o njej govoril. Torej je osnova lahko od jezika do te stvari, te notranje reprezentacije.
Vendar trdite, da so lahko tudi stvari, ki so bolj zunanje, kot je barva, še vedno zasidrane na notranjih "konceptualnih" predstavah, ne da bi se zanašale na zaznave. Kako bi to delovalo?
No, jezikovni model nima oči, kajne? Ne “ve” ničesar o barvah. Torej morda [zajame] nekaj bolj splošnega, kot je razumevanje odnosov med njimi. Vem, da ko združim modro in rdečo, dobim vijolično; te vrste odnosov bi lahko definirale to notranjo [osnovno] strukturo.
Študentu LLM lahko podamo primere barv z uporabo RGB kod [nizov številk, ki predstavljajo barve]. Če rečete »V redu, tukaj je rdeča« in ji daste kodo RGB za rdečo in »Tu je modra« s kodo RGB za modro, nato pa rečete »Povej mi, kaj je vijolična«, bi moralo ustvariti kodo RGB za vijolična. To preslikavo bi moralo biti dober pokazatelj, da je notranja struktura modela dobra - manjkajo mu zaznave [za barvo], vendar je konceptualna struktura tam.
Zapleteno je to, da si [model] lahko samo zapomni kode RGB, ki so vsepovsod v njegovih podatkih o usposabljanju. Zato smo vse barve »zasukali« [stran od njihovih dejanskih vrednosti RGB]: LLM bi povedali, da je beseda »rumena« povezana s kodo RGB za zeleno in tako naprej. Model se je dobro obnesel: ko ste zahtevali zeleno, bi vam dal obrnjeno različico kode RGB. To nakazuje, da obstaja nekakšna doslednost njegovih notranjih predstavitev barve. To je uporaba znanja o njihovih odnosih, ne samo pomnjenje.
To je bistvo ozemljitve. Preslikava imena v barvo je poljubna. Gre bolj za odnose med njimi. Torej je bilo razburljivo.
Predstavitev
Kako so lahko ta filozofsko zveneča vprašanja znanstvena?
Pred kratkim sem izvedel za miselni eksperiment: Kaj če bi ocean zaplaval na pesek in [ko bi se] potegnil nazaj, bi vzorci ustvarili pesem? Ali ima pesem pomen? To se zdi super abstraktno in lahko imate to dolgo filozofsko razpravo.
Dobra stvar pri jezikovnih modelih je, da ne potrebujemo miselnega eksperimenta. Ne gre za "teoretično, ali bi bila taka in taka stvar inteligentna?" Samo: Ali je ta stvar inteligentna? Postane znanstveno in empirično.
Včasih so ljudje zaničujoči; tam je "stohastične papige” pristop. Mislim, da [izhaja iz] strahu, da bodo ljudje preveč pripisali inteligenco tem stvarem - kar tudi vidimo. In da bi to popravili, ljudje pravijo: »Ne, vse je le prevara. To sta dim in ogledala.”
To je malo medvedja storitev. Naleteli smo na nekaj precej vznemirljivega in povsem novega in vredno je, da to poglobljeno razumemo. To je ogromna priložnost, ki je ne bi smeli zanemariti, ker nas skrbi pretirano tolmačenje modelov.
Seveda ti"smo tudi izdelali Raziskave razkritje točno te vrste pretirane interpretacije.
To delo, pri katerem so ljudje odkrivali vse »plitve hevristike«, ki so jih modeli izkoriščali [za posnemanje razumevanja], je bilo zelo temeljno za moje odraščanje kot znanstvenik. Ampak to je zapleteno. To je kot, ne razglasite zmage prehitro. V meni je malo skepticizma ali paranoje, da je bila ocena izvedena pravilno, tudi tista, za katero vem, da sem jo oblikoval zelo skrbno!
To je torej del tega: ne pretiravati. Drugi del je, da če imate opravka s temi sistemi [jezikovnega modela], veste, da niso na človeški ravni - način, kako rešujejo stvari, ni tako inteligenten, kot se zdi.
Predstavitev
Ko je na tem področju predmet razprave toliko osnovnih metod in izrazov, kako sploh meriti uspeh?
Kar mislim, da iščemo kot znanstveniki, je natančen, ljudem razumljiv opis tega, kar nas zanima - v tem primeru inteligenca. In potem dodamo besede, ki nam pomagajo priti tja. Potrebujemo nekakšen delovni besednjak.
Ampak to je težko, ker potem lahko vstopiš v to bitko semantike. Ko ljudje rečejo: "Ali ima pomen: da ali ne?" Nevem. Pogovor usmerjamo na napačno stvar.
Kar poskušam ponuditi, je natančen prikaz vedenja, ki smo ga želeli razložiti. In na tej točki je nekako sporno, ali želite to imenovati "pomen" ali "predstavitev" ali katera koli od teh nabitih besed. Bistvo je, da je na mizi teorija ali predlagani model - ocenimo to.
Predstavitev
Kako se torej lahko raziskave jezikovnih modelov premaknejo k temu bolj neposrednemu pristopu?
Vrste globokih vprašanj, na katera bi res rad imel odgovor — Kateri so gradniki inteligence? Kako izgleda človeška inteligenca? Kako izgleda inteligenca modela? — so res pomembne. Ampak mislim, da stvari, ki se morajo zgoditi v naslednjih 10 letih, niso zelo seksi.
Če se želimo ukvarjati s temi [notranjimi] predstavitvami, potrebujemo metode za njihovo iskanje - metode, ki so znanstveno utemeljene. Če je narejeno na pravi način, ta nizkocenovna, super v plevelu metodološka stvar ne bo prinesla naslovnic. Toda to je res pomembna stvar, ki nam bo omogočila, da pravilno odgovorimo na ta globoka vprašanja.
Medtem se bodo modeli še naprej spreminjali. Torej bo veliko stvari, ki jih bodo ljudje še naprej objavljali, kot da gre za »preboj«, vendar verjetno ni. Po mojem mnenju je prezgodaj za velike preboje.
Ljudje preučujejo te zelo preproste naloge, na primer vprašati [jezikovni model, ki ga je treba dokončati] »Janez je dal pijačo _______« in poskušajo videti, ali piše »Janez« ali »Mary«. To nima občutka rezultata, ki pojasnjuje inteligenco. Vendar dejansko verjamem, da so orodja, ki jih uporabljamo za opis tega dolgočasnega problema, bistvena za odgovor na globoka vprašanja o inteligenci.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- vir: https://www.quantamagazine.org/does-ai-know-what-an-apple-is-she-aims-to-find-out-20240425/
- :ima
- : je
- :ne
- :kje
- ][str
- $GOR
- 10
- a
- Sposobna
- O meni
- o IT
- POVZETEK
- abstrakcija
- Račun
- dejansko
- dodajte
- AI
- Cilje
- AIR
- algoritmi
- vsi
- omogočajo
- omogoča
- Prav tako
- vedno
- an
- zasidrana
- in
- Še ena
- odgovor
- odgovor
- odgovori
- kaj
- karkoli
- Apple
- Uporabi
- Uporaba
- pristop
- samovoljna
- SE
- območja
- trdijo
- okoli
- AS
- vprašati
- sprašuje
- povezan
- At
- pripisujejo
- stran
- nazaj
- Osnovni
- V bistvu
- Bitka
- BE
- ker
- postane
- bilo
- pred
- vedenje
- vedenja
- Verjemite
- Boljše
- med
- Big
- Bit
- Bloki
- Modra
- odmori
- preboj
- preboji
- rjav
- Building
- vendar
- by
- klic
- CAN
- Lahko dobiš
- Kapital
- ujame
- ki
- primeru
- nekatere
- priložnost
- spreminjanje
- jasnost
- Koda
- Kode
- barva
- združujejo
- kako
- prihaja
- Zaveza
- dokončanje
- zapleten
- računalnik
- Računalništvo
- računalniki
- Koncept
- koncepti
- idejni
- povezane
- povezava
- šteje
- dosledno
- priročno
- Pogovor
- popravi
- pravilno
- bi
- Tečaj
- Creative
- Trenutno
- datum
- ponudba
- Razprava
- desetletja
- odločil
- globoko
- globoko
- Deepmind
- opredeliti
- poda
- Demokracija
- odvisno
- opisati
- opis
- zasnovan
- modeli
- neposredna
- disciplina
- do
- ne
- Ne
- opravljeno
- dont
- navzdol
- drink
- zaslužili
- lažje
- Economics
- vkrcati
- objame
- čustva
- zajema
- srečanje
- popolnoma
- bistvena
- vzpostaviti
- oceniti
- Ocena
- Tudi
- vsi
- vse
- dokazi
- točno
- Primer
- Primeri
- zanimivo
- obstajajo
- poskus
- eksperimentalni
- pojasnjujejo
- Pojasni
- izkoriščanje
- Raziskovati
- zunanja
- oči
- Priljubljeni
- strah
- občutek
- počuti
- Polje
- Najdi
- iskanje
- Ujema
- Osredotoča
- osredotoča
- za
- obrazec
- je pokazala,
- temeljno
- Francija
- iz
- plodno
- zabava
- funkcija
- dal
- splošno
- ustvarjajo
- ustvarila
- dobili
- Daj
- dogaja
- dobro
- zgrabi
- Zelen
- prizemljen
- se zgodi
- se je zgodilo
- Trdi
- Imajo
- Glava
- Naslovi
- pomoč
- jo
- hit
- pošten
- upam,
- Kako
- Kako
- HTTPS
- velika
- človeškega
- človeško inteligenco
- Ljudje
- Lačni
- i
- identificirati
- if
- Pomembnost
- Pomembno
- in
- neodvisno
- indikacija
- Podatki
- inherentno
- vhod
- vhodi
- Namesto
- Intelligence
- Inteligentna
- interakcije
- notranji
- interno
- Intervju
- v
- intuitivno
- vključuje
- IT
- ITS
- sam
- jpg
- samo
- Imejte
- vzdrževanje
- Otrok
- vrste
- Vedite
- znanje
- ve
- jezik
- velika
- UČITE
- naučili
- Led
- kot
- linearna
- malo
- LLM
- Long
- Poglej
- izgleda kot
- si
- Sklop
- revije
- IZDELA
- Izdelava
- več
- kartiranje
- math
- Zadeve
- mogoče
- me
- pomeni
- kar pomeni,
- pomeni
- merjenje
- omenja
- Metode
- morda
- moti
- manjka
- Model
- modeli
- več
- premikanje
- my
- Ime
- naravna
- Obdelava Natural Language
- Nimate
- potrebe
- mreža
- omrežij
- Živčne
- nevronska mreža
- Novo
- Naslednja
- lepo
- št
- zdaj
- Nuance
- številke
- ocean
- of
- ponudba
- pogosto
- on
- enkrat
- ONE
- samo
- na
- Delovanje
- Priložnost
- or
- Ostalo
- ven
- izhodi
- več
- del
- vzorci
- ljudje
- performance
- opravljeno
- filozofija
- fizično
- kos
- kosov
- Kraj
- platforma
- platon
- Platonova podatkovna inteligenca
- PlatoData
- Predvajaj
- Točka
- Poljska
- natančna
- precej
- primarni
- verjetno
- problem
- Težave
- obravnavati
- Proizvedeno
- Program
- predlagano
- zagotavljajo
- Založništvo
- Quantamagazine
- vprašanje
- vprašanja
- precej
- kotacije
- naključno
- Surovi
- zlahka
- pravo
- uresničitev
- res
- Razlog
- Pred kratkim
- Rdeča
- glejte
- besedilu
- Odnosi
- Razmerja
- zanašanje
- predstavljajo
- zastopanje
- predstavlja
- Raziskave
- povzroči
- Rezultati
- vrnitev
- RGB
- Pravica
- vloga
- usmerjanje
- Je dejal
- Enako
- SAND
- pravijo,
- pravi
- razpršene
- Znanost
- znanstveno
- Znanstvenik
- Znanstveniki
- glej
- zdi se
- Zdi se,
- semantika
- občutki
- resno
- je
- shouldnt
- Podoben
- Enostavno
- saj
- Skepticizem
- majhna
- Dimna
- So
- socialna
- Rešitev
- Reševanje
- nekaj
- Nekaj
- Kmalu
- zvok
- posebej
- Začetek
- Začetek
- Še vedno
- Struktura
- Študij
- uspeh
- taka
- Predlaga
- Super
- Preverite
- sistemi
- miza
- Bodite
- pogovor
- Naloge
- povej
- Pogoji
- besedilo
- da
- O
- Glavno mesto
- njihove
- Njih
- POTEM
- Teoretični
- Teorija
- Tukaj.
- te
- jih
- stvar
- stvari
- mislim
- misleci
- ta
- tisti,
- čeprav?
- mislil
- do
- Ton
- tudi
- orodja
- proti
- usposobljeni
- usposabljanje
- poskuša
- tip
- razumevanje
- univerza
- us
- uporaba
- uporabo
- Vrednote
- različica
- zelo
- zmaga
- želeli
- je
- način..
- načini
- we
- Dobro
- dobro opredeljen
- so bili
- Kaj
- karkoli
- kdaj
- ali
- ki
- WHO
- celoti
- bo
- z
- v
- brez
- beseda
- besede
- delo
- deluje
- svet
- Skrbi
- vredno
- bi
- bi dal
- Napačen
- let
- ja
- še
- Vi
- Vaša rutina za
- zefirnet