Yhteenveto kirjoista ihmisten antamalla palautteella

Julkaissut Platon

seuraajia: 0

Yhteenveto kirjoista ihmisten antamalla palautteella

To turvallisesti Jos käytämme voimakasta, yleiskäyttöistä tekoälyä tulevaisuudessa, meidän on varmistettava, että koneoppimismallit toimivat ihmisten aikomusten mukaisesti. Tämä haaste on tullut tunnetuksi nimellä kohdistusongelma.

Kohdistusongelman skaalautuvan ratkaisun on toimittava tehtävissä, joissa mallin tulosten arvioiminen on vaikeaa tai aikaa vievää. Skaalautuvien kohdistustekniikoiden testaamiseksi koulutimme mallin, joka tekee yhteenvedon kokonaisista kirjoista, kuten seuraavissa esimerkeissä näkyy.^[1] Mallimme tekee ensin yhteenvedon kirjan pienistä osista, sitten yhteenvedosta korkeamman tason yhteenvedoksi ja niin edelleen.

Tutustu lisää näytteisiin

Paras mallimme on hienosäädetty GPT-3:sta ja tuottaa järkeviä yhteenvetoja kokonaisista kirjoista, joskus jopa vastaamaan ihmisten kirjoittamien tiivistelmien keskimääräistä laatua: se saa ihmisiltä arvosanan 6/7 (samanlainen kuin ihmisten kirjoittama keskimääräinen yhteenveto). jotka ovat lukeneet kirjan 5 % ajasta ja 5/7 luokituksen 15 % ajasta. Mallimme saavuttaa myös huippuluokan tuloksia BookSum-tietojoukko kirjan pituisen yhteenvedon saamiseksi. Nollalaukauksen kysymys-vastausmalli voi käyttää mallimme yhteenvetoja saadakseen kilpailukykyisiä tuloksia NarrativeQA-tietojoukko kirjan mittaisiin kysymyksiin vastaamiseen.^[2]

Lähestymistapamme: Yhdistämällä vahvistava oppiminen ihmispalautteesta ja rekursiivinen tehtävien hajottaminen

Harkitse tehtävää tehdä yhteenveto tekstistä. Suuri Valmiiksi koulutetut mallit eivät ole kovin hyviä yhteenvedossa. Aiemmin huomasimme, että koulutus mallin kanssa vahvistava oppiminen ihmispalautteesta auttoi yhdenmukaistamaan mallien yhteenvedot ihmisten mieltymysten kanssa lyhyissä viesteissä ja artikkeleissa. Mutta kokonaisten kirjojen yhteenvetojen arvioiminen vaatii paljon vaivaa tehdä suoraan, koska ihmisen pitäisi lukea koko kirja, mikä kestää useita tunteja.

Tämän ongelman ratkaisemiseksi käytämme lisäksi rekursiivinen tehtävähajotus: jaamme menettelyllisesti vaikean tehtävän helpompiin. Tässä tapauksessa jaamme pitkän tekstin yhteenvedon useiksi lyhyemmiksi osiksi. Verrattuna päästä päähän -koulutusmenettelyyn, rekursiivisella tehtävähajottelulla on seuraavat edut:

Hajotus antaa ihmisille mahdollisuuden arvioida mallien yhteenvedot nopeammin käyttämällä kirjan pienempien osien tiivistelmiä lähdetekstin lukemisen sijaan.
Yhteenvedon kirjoitusprosessia on helpompi jäljittää. Voit esimerkiksi jäljittää, missä alkuperäisessä tekstissä tietyt yhteenvedon tapahtumat tapahtuvat. Katso itse yhteenvetotutkijamme!
Menetelmäämme voidaan käyttää tiivistämään rajattoman pituisia kirjoja, joita käyttämiemme muuntajamallien kontekstipituus ei rajoita.

Miksi työskentelemme tämän parissa

Thänen työ on osa meidän toimintaamme jatkuva tutkimus edistyneiden tekoälyjärjestelmien kohdistamiseen, mikä on avainasemassa tehtävämme. Kun koulutamme mallejamme tekemään yhä monimutkaisempia tehtäviä, mallien tulosten tietoisten arvioiden tekeminen tulee ihmisille entistä vaikeammaksi. Tämä vaikeuttaa hienovaraisten ongelmien havaitsemista mallin ulostuloissa, jotka voivat johtaa negatiivisiin seurauksiin, kun näitä malleja otetaan käyttöön. Siksi haluamme, että kykymme arvioida mallejamme paranee niiden ominaisuuksien kasvaessa.

Nykyinen lähestymistapamme tähän ongelmaan on antaa ihmisille mahdollisuuden arvioida koneoppimismallien tuloksia muiden mallien avulla. Tässä tapauksessa kirjan tiivistelmien arvioimiseksi annamme ihmisille mahdollisuuden mallillamme kirjoitetuilla yksittäisillä lukujen yhteenvedoilla, mikä säästää aikaa arvioidessaan näitä tiivistelmiä suhteessa lähdetekstin lukemiseen. Edistyksemme kirjan yhteenvedossa on ensimmäinen laajamittainen empiirinen työ skaalauskohdistustekniikoista.

Jatkossa tutkimme parempia tapoja auttaa ihmisiä arvioimaan mallikäyttäytymistä. Tavoitteena on löytää tekniikoita, jotka skaalautuvat yleisen tekoälyn kohdistamiseen.

Etsimme jatkuvasti lisää lahjakkaita ihmisiä joukkoomme; joten jos tämä työ kiinnostaa sinua, ole hyvä hae mukaan tiimiimme!

Aikaleima: Syyskuu 23, 2021

Aikaleima: Jan 31, 2023

Yhteenveto kirjoista ihmisten antamalla palautteella

Julkaissut Platon

Lähestymistapamme: Yhdistämällä vahvistava oppiminen ihmispalautteesta ja rekursiivinen tehtävien hajottaminen

Miksi työskentelemme tämän parissa

Lisää aiheesta OpenAI

Kielimallien kohdistaminen ohjeiden mukaan

Uusia malleja ja kehitystuotteita julkistettiin DevDayssa

Demokraattiset panokset tekoäly-apurahaohjelmaan: opit ja toteutussuunnitelmat

Kielimallien mahdollisten väärinkäytösten ennustaminen disinformaatiokampanjoissa – ja riskin vähentäminen

DALL·E: Esittelyssä Outpainting

Opi pelaamaan Minecraftia Video Pretrainingin avulla

Sora: Ensivaikutelma

Demokraattiset panokset tekoälyyn

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili