Yhteenveto kirjoista ihmispalautteen avulla PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Yhteenveto kirjoista ihmisten antamalla palautteella

Lue paperiSelaa näytteitä

Yhteenveto kirjoista ihmisten antamalla palautteella

To turvallisesti Jos käytämme voimakasta, yleiskäyttöistä tekoälyä tulevaisuudessa, meidän on varmistettava, että koneoppimismallit toimivat ihmisten aikomusten mukaisesti. Tämä haaste on tullut tunnetuksi nimellä kohdistusongelma.

Kohdistusongelman skaalautuvan ratkaisun on toimittava tehtävissä, joissa mallin tulosten arvioiminen on vaikeaa tai aikaa vievää. Skaalautuvien kohdistustekniikoiden testaamiseksi koulutimme mallin, joka tekee yhteenvedon kokonaisista kirjoista, kuten seuraavissa esimerkeissä näkyy.[1] Mallimme tekee ensin yhteenvedon kirjan pienistä osista, sitten yhteenvedosta korkeamman tason yhteenvedoksi ja niin edelleen.

Tutustu lisää näytteisiin

Paras mallimme on hienosäädetty GPT-3:sta ja tuottaa järkeviä yhteenvetoja kokonaisista kirjoista, joskus jopa vastaamaan ihmisten kirjoittamien tiivistelmien keskimääräistä laatua: se saa ihmisiltä arvosanan 6/7 (samanlainen kuin ihmisten kirjoittama keskimääräinen yhteenveto). jotka ovat lukeneet kirjan 5 % ajasta ja 5/7 luokituksen 15 % ajasta. Mallimme saavuttaa myös huippuluokan tuloksia BookSum-tietojoukko kirjan pituisen yhteenvedon saamiseksi. Nollalaukauksen kysymys-vastausmalli voi käyttää mallimme yhteenvetoja saadakseen kilpailukykyisiä tuloksia NarrativeQA-tietojoukko kirjan mittaisiin kysymyksiin vastaamiseen.[2]

Lähestymistapamme: Yhdistämällä vahvistava oppiminen ihmispalautteesta ja rekursiivinen tehtävien hajottaminen

Harkitse tehtävää tehdä yhteenveto tekstistä. Suuri Valmiiksi koulutetut mallit eivät ole kovin hyviä yhteenvedossa. Aiemmin huomasimme, että koulutus mallin kanssa vahvistava oppiminen ihmispalautteesta auttoi yhdenmukaistamaan mallien yhteenvedot ihmisten mieltymysten kanssa lyhyissä viesteissä ja artikkeleissa. Mutta kokonaisten kirjojen yhteenvetojen arvioiminen vaatii paljon vaivaa tehdä suoraan, koska ihmisen pitäisi lukea koko kirja, mikä kestää useita tunteja.

Tämän ongelman ratkaisemiseksi käytämme lisäksi rekursiivinen tehtävähajotus: jaamme menettelyllisesti vaikean tehtävän helpompiin. Tässä tapauksessa jaamme pitkän tekstin yhteenvedon useiksi lyhyemmiksi osiksi. Verrattuna päästä päähän -koulutusmenettelyyn, rekursiivisella tehtävähajottelulla on seuraavat edut:

  1. Hajotus antaa ihmisille mahdollisuuden arvioida mallien yhteenvedot nopeammin käyttämällä kirjan pienempien osien tiivistelmiä lähdetekstin lukemisen sijaan.
  2. Yhteenvedon kirjoitusprosessia on helpompi jäljittää. Voit esimerkiksi jäljittää, missä alkuperäisessä tekstissä tietyt yhteenvedon tapahtumat tapahtuvat. Katso itse yhteenvetotutkijamme!
  3. Menetelmäämme voidaan käyttää tiivistämään rajattoman pituisia kirjoja, joita käyttämiemme muuntajamallien kontekstipituus ei rajoita.

Miksi työskentelemme tämän parissa

Thänen työ on osa meidän toimintaamme jatkuva tutkimus edistyneiden tekoälyjärjestelmien kohdistamiseen, mikä on avainasemassa tehtävämme. Kun koulutamme mallejamme tekemään yhä monimutkaisempia tehtäviä, mallien tulosten tietoisten arvioiden tekeminen tulee ihmisille entistä vaikeammaksi. Tämä vaikeuttaa hienovaraisten ongelmien havaitsemista mallin ulostuloissa, jotka voivat johtaa negatiivisiin seurauksiin, kun näitä malleja otetaan käyttöön. Siksi haluamme, että kykymme arvioida mallejamme paranee niiden ominaisuuksien kasvaessa.

Nykyinen lähestymistapamme tähän ongelmaan on antaa ihmisille mahdollisuuden arvioida koneoppimismallien tuloksia muiden mallien avulla. Tässä tapauksessa kirjan tiivistelmien arvioimiseksi annamme ihmisille mahdollisuuden mallillamme kirjoitetuilla yksittäisillä lukujen yhteenvedoilla, mikä säästää aikaa arvioidessaan näitä tiivistelmiä suhteessa lähdetekstin lukemiseen. Edistyksemme kirjan yhteenvedossa on ensimmäinen laajamittainen empiirinen työ skaalauskohdistustekniikoista.

Jatkossa tutkimme parempia tapoja auttaa ihmisiä arvioimaan mallikäyttäytymistä. Tavoitteena on löytää tekniikoita, jotka skaalautuvat yleisen tekoälyn kohdistamiseen.

Etsimme jatkuvasti lisää lahjakkaita ihmisiä joukkoomme; joten jos tämä työ kiinnostaa sinua, ole hyvä hae mukaan tiimiimme!


Kiitokset

Haluamme kiittää paperin kirjoittajia: Long Ouyangia, Daniel Ziegleriä, Nisan Stiennonia ja Paul Christianoa.

Kiitos palautteestasi tähän julkaisuun: Steve Dowling, Hannah Wong, Miles Brundage, Gretchen Krueger, Ilya Sutskever ja Sam Altman.


Malli
Justin Jay Wang


Kirjan kansikuva


alaviitteet

  1. Nämä näytteet on valittu teoksista julkisia, ja ovat osa GPT-3:n harjoitustietoja. Tämän vaikutuksen valvomiseksi, ja puhtaasti tutkimustarkoituksiin, meidän paperi arvioi yhteenvetoja kirjoista, joita malli ei ole koskaan ennen nähnyt. ↩︎

  2. Olemme muuttaneet alkuperäistä väitettämme NarrativeQA:n tuloksista saatuaan tietoomme aikaisemmasta työstämme parempia tuloksia kuin meidän. ↩︎

Aikaleima:

Lisää aiheesta OpenAI