Kako lahko selektivno pozabljanje pomaga AI, da se bolje uči

Ponovno objavil Platon

Spremljevalci: 0

Kako lahko selektivno pozabljanje pomaga AI, da se bolje uči | Revija Quanta PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Skupina računalniških znanstvenikov je ustvarila a okretnejši, bolj prilagodljiv tip modela strojnega učenja. Trik: Občasno mora pozabiti, kar ve. In čeprav ta novi pristop ne bo izpodrinil ogromnih modelov, ki podpirajo največje aplikacije, bi lahko razkril več o tem, kako ti programi razumejo jezik.

Nova raziskava pomeni "pomemben napredek na tem področju", je dejal Jea Kwon, inženir AI na Inštitutu za osnovno znanost v Južni Koreji.

Jezikovne motorje AI, ki so danes v uporabi, večinoma poganja umetne nevronske mreže. Vsak "nevron" v omrežju je matematična funkcija, ki sprejema signale od drugih nevronov, izvaja nekatere izračune in pošilja signale naprej skozi več plasti nevronov. Sprva je pretok informacij bolj ali manj naključen, toda z usposabljanjem se pretok informacij med nevroni izboljša, ko se omrežje prilagaja podatkom o usposabljanju. Če bi raziskovalec AI želel ustvariti dvojezični model, bi na primer usposobil model z velikim kupom besedila iz obeh jezikov, kar bi prilagodilo povezave med nevroni tako, da bi besedilo v enem jeziku povezalo z enakovrednim. besede v drugi.

Toda ta proces usposabljanja zahteva veliko računalniške moči. Če model ne deluje dobro ali če se potrebe uporabnika kasneje spremenijo, ga je težko prilagoditi. "Recite, da imate model, ki ima 100 jezikov, vendar si predstavljajte, da en jezik, ki ga želite, ni pokrit," je rekel Mikel Artetxe, soavtor nove raziskave in ustanovitelj AI startupa Reka. "Lahko bi začeli znova iz nič, vendar ni idealno."

Artetxe in njegovi kolegi so poskušali zaobiti te omejitve. Pred nekaj leti, Artetxe in drugi so izurili nevronsko mrežo v enem jeziku, nato pa izbrisali, kar je vedela o gradnikih besed, imenovanih žetoni. Ti so shranjeni v prvi plasti nevronske mreže, imenovani vdelana plast. Vse druge plasti modela so pustili pri miru. Potem ko so izbrisali žetone prvega jezika, so ponovno usposobili model za drugi jezik, ki je napolnil vdelano plast z novimi žetoni iz tega jezika.

Čeprav je model vseboval neusklajene informacije, je preusposabljanje delovalo: model se je lahko naučil in obdelal nov jezik. Raziskovalci so domnevali, da medtem ko je vdelana plast shranila informacije, značilne za besede, uporabljene v jeziku, so globlje ravni omrežja shranile bolj abstraktne informacije o konceptih, ki stojijo za človeškimi jeziki, kar je nato pomagalo modelu pri učenju drugega jezika.

»Živimo v istem svetu. Iste stvari konceptualiziramo z različnimi besedami« v različnih jezikih Yihong Chen, glavni avtor nedavnega prispevka. »Zato imate v modelu to isto sklepanje na visoki ravni. Jabolko je nekaj sladkega in sočnega, ne le beseda.”

Medtem ko je bil ta pristop pozabljanja učinkovit način za dodajanje novega jezika že usposobljenemu modelu, je bilo ponovno usposabljanje še vedno zahtevno – zahtevalo je veliko jezikovnih podatkov in procesorske moči. Chen je predlagal prilagoditev: namesto usposabljanja, brisanja vdelane plasti in nato ponovnega usposabljanja, bi morali občasno ponastaviti vdelano plast med začetnim krogom usposabljanja. "S tem se celoten model navadi na ponastavitev," je dejal Artetxe. "To pomeni, da je, ko želite model razširiti na drug jezik, lažje, ker ste to počeli."

Raziskovalci so vzeli pogosto uporabljen jezikovni model, imenovan Roberta, so ga trenirali s svojo tehniko periodičnega pozabljanja in ga primerjali z zmogljivostjo istega modela, ko je bil treniran s standardnim pristopom brez pozabljanja. Model pozabljanja se je odrezal nekoliko slabše od običajnega, saj je prejel oceno 85.1 v primerjavi s 86.1 na enem običajnem merilu jezikovne natančnosti. Nato so ponovno usposobili modele za druge jezike, pri čemer so uporabili veliko manjše nabore podatkov s samo 5 milijoni žetonov namesto 70 milijard, ki so jih uporabili med prvim usposabljanjem. Natančnost standardnega modela se je v povprečju zmanjšala na 53.3, pozabljenega modela pa le na 62.7.

Tudi model pozabljanja se je odrezal veliko bolje, če je ekipa med preusposabljanjem uvedla računske omejitve. Ko so raziskovalci zmanjšali dolžino treninga s 125,000 korakov na samo 5,000, se je natančnost modela pozabljanja v povprečju zmanjšala na 57.8, medtem ko je standardni model padel na 37.2, kar ni nič boljše od naključnih ugibanj.

Ekipa je ugotovila, da se zdi, da občasno pozabljanje izboljša model pri učenju jezikov na splošno. "Ker [so] med usposabljanjem kar naprej pozabljali in se znova učili, postane učenje omrežja nečesa novega pozneje lažje," je dejal Evgenij Nikišin, raziskovalka v Mila, raziskovalnem centru za globoko učenje v Quebecu. Predlaga, da ko jezikovni modeli razumejo jezik, to počnejo na globlji ravni kot le pomene posameznih besed.

Pristop je podoben delovanju naših lastnih možganov. »Človeški spomin na splošno ni zelo dober pri natančnem shranjevanju velikih količin podrobnih informacij. Namesto tega si ljudje ponavadi zapomnimo bistvo svojih izkušenj, abstrahiramo in ekstrapoliramo,« je dejal. Benjamin Levy, nevroznanstvenik na Univerzi v San Franciscu. "Omogočanje umetne inteligence s procesi, ki so bolj podobni ljudem, kot je prilagodljivo pozabljanje, je eden od načinov, kako jim omogočiti bolj prilagodljivo delovanje."

Poleg tega, kar lahko pove o tem, kako deluje razumevanje, Artetxe upa, da bi lahko tudi bolj prilagodljivi jezikovni modeli pozabljanja pomagali prenesti najnovejše dosežke umetne inteligence v več jezikov. Čeprav so modeli z umetno inteligenco dobri pri obvladovanju španščine in angleščine, dveh jezikov z dovolj gradiva za usposabljanje, modeli niso tako dobri z njegovo materno baskovščino, lokalnim jezikom, značilnim za severovzhodno Španijo. "Večina modelov iz velikih tehnoloških podjetij tega ne počne dobro," je dejal. "Najboljša pot je prilagoditev obstoječih modelov baskovščini."

Chen se prav tako veseli sveta, v katerem bo cvetelo več rožic umetne inteligence. »Mislim na situacijo, ko svet ne potrebuje enega velikega jezikovnega modela. Toliko jih imamo,« je rekla. »Če obstaja tovarna, ki izdeluje jezikovne modele, potrebujete takšno tehnologijo. Ima en osnovni model, ki se lahko hitro prilagodi novim domenam.«

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
vir: https://www.quantamagazine.org/how-selective-forgetting-can-help-ai-learn-better-20240228/

Časovni žig: Februar 28, 2024

Časovni žig: Jan 9, 2023

Kako lahko selektivno pozabljanje pomaga AI, da se bolje uči | Revija Quanta

Ponovno objavil Platon

Več od Quantamagazine

Prevarantski svetovi vržejo planetarne ideje iz orbite | Revija Quanta

Oceanske bakterije razkrivajo nepričakovano večcelično obliko

Ker razen virusov ni ničesar za jesti, nekateri mikrobi uspevajo

Matematični triki za krotenje srednje razdalje | Revija Quanta

Matematiki dokončali nalogo za izgradnjo "sferičnih kock"

Kako je "diamant rastlinskega sveta" pomagal pri razvoju kopenskih rastlin

Nov zemljevid vesolja, pobarvan s kozmičnimi nevtrini | Revija Quanta

Kako je poročnik Uhura iz Zvezdnih stez premagal astronomske težave

Študija dinozavrovih kosti razkriva, da niso vsi velikani rasli enako

'Lobi', kjer molekularna mafija genom govori, kaj naj naredijo | Revija Quanta

Kako se zdi, da transformatorji posnemajo dele možganov

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun

Predstavitev

Predstavitev

Predstavitev

Več od Quantamagazine

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun