OpenAI väidab, et GPT-4 võidab eksamil 90% teist

Taasavaldanud Platon

järgijaid: 0

OpenAI väidab, et GPT-4 võidab PlatoBlockchain Data Intelligence eksamil 90% teist. Vertikaalne otsing. Ai.

OpenAI teatas teisipäeval GPT-4 kvalifitseeritud saabumisest, selle uusimast verstapostist helistamis- ja vastusepõhiste süvaõppemudelite loomisel ning mis võib näiliselt ületada oma lihavaid loojaid olulistel eksamitel.

OpenAI sõnul näitab mudel "inimtasemel jõudlust erinevatel professionaalsetel ja akadeemilistel võrdlusalustel". GPT-4 suudab sooritada simuleeritud baarieksami 10 protsendi parimatest testis osalejatest, samas kui selle eelkäija GPT-3.5 (ChatGPT alus) saavutas umbes 10 protsendi alumise skoori.

GPT-4 toimis hästi ka mitmesugustel muudel eksamitel, nagu SAT-matemaatika (700 800-st). See ei ole siiski universaalselt võimeline, AP inglise keele ja kompositsiooni kohta ainult 2 (14.–44. protsentiil).

GPT-4 on suur multimodaalne mudel, erinevalt suurest keelemudelist. See on mõeldud päringute vastuvõtmiseks teksti- ja pildisisendite kaudu ning vastused tagastatakse tekstina. See tehakse algselt kättesaadavaks ootenimekirjas oleva GPT-4 API kaudu ja ChatGPT Plusi tellijatele ainult tekstina. Pildipõhist sisendit veel täpsustatakse.

Vaatamata visuaalse sisendmehhanismi lisamisele ei ole OpenAI avatud ega paku oma mudeli loomisele nähtavust. Algaja on otsustanud mitte avaldada üksikasju oma suuruse, koolituse ega selle kohta, millised andmed protsessi läksid.

"Arvestades nii suuremahuliste mudelite, nagu GPT-4, konkurentsiolukorda ja ohutust, ei sisalda see aruanne täiendavaid üksikasju arhitektuuri (sealhulgas mudeli suuruse), riistvara, koolitusarvutuse, andmestiku koostamise, koolitusmeetodi või muu sarnase kohta." ütles ettevõte oma teates tehniline paber [PDF].

Aastal otseülekanne YouTube'is, näitas OpenAI president ja kaasasutaja Greg Brockman erinevust GPT-4 ja GPT-3.5 vahel, paludes mudelitel teha OpenAI GPT-4 kokkuvõtte. blogi postitus ühes lauses, kus iga sõna algab tähega "G".

GPT-3.5 lihtsalt ei proovinud. GPT 4 tagastas "GPT-4 loob murrangulisi, suurejoonelisi kasu, mis suurendab suuresti üldiste tehisintellekti eesmärkide saavutamist." Ja kui Brockman ütles mudelile, et "AI" lisamine lausesse ei lähe arvesse, muutis GPT-4 oma vastust teises G-koormatud lauses, ilma "AI"ta.

Seejärel lasi GPT-4 genereerida Pythoni koodi Discordi roboti jaoks. Veelgi muljetavaldavam tegi ta pildi naljaveebisaidi käsitsi joonistatud maketist, saatis pildi Discordile ja seotud GPT-4 mudel vastas maketi saidi realiseerimiseks HTML-i ja JavaScripti koodiga.

Lõpuks seadistas Brockman GPT-4, et analüüsida 16 lehekülge USA maksukoodeksit, et tagastada tavapärane mahaarvamine paarile, Alice'ile ja Bobile, konkreetsete rahaliste tingimustega. OpenAI mudel vastas õige vastusega koos sellega seotud arvutuste selgitusega.

Lisaks parematele arutluskäikudele, mis ilmnevad selle paranenud testitulemustes, on GPT-4 mõeldud olema koostöövõimelisem (itereerides vastavalt eelmise väljundi parandamisele), suutma paremini käsitleda palju teksti (analüüsides või väljastades umbes 25,000 XNUMX-sõnalisi novelli pikkuseid tükke). ja pildipõhise sisendi aktsepteerimine (objekti tuvastamiseks, kuigi see võimalus pole veel avalikult saadaval).

Veelgi enam, GPT-4 peaks OpenAI andmetel olema vähem tõenäoline kui tema eelkäijad.

"Oleme veetnud kuus kuud iteratiivselt joondamine GPT-4 kasutab meie võistleva testimisprogrammi ja ChatGPT õppetunde, mille tulemuseks on meie kõigi aegade parimad tulemused (kuigi kaugel täiuslikkusest) faktilisuse, juhitavuse ja kaitsepiiretest väljapoole minemast keeldumise osas. ütleb.

Inimesed võivad selle "kaugelt täiuslikust" ohutustasemega juba tuttavad olla kivine debüüt Microsoft Bingi küsimustele vastamise võimalustest, mis selgub kasutab GPT-4 selle Prometheuse mudeli aluseks.

OpenAI tunnistab, et GPT-4 "hallutsineerib fakte ja teeb arutlusvigu" nagu tema esivanemad, kuid organisatsioon nõuab, et mudel teeb seda vähemal määral.

GPT-4 vähendab oluliselt hallutsinatsioone võrreldes eelmiste mudelitega

"Kuigi GPT-4 on endiselt tõeline probleem, vähendab see märkimisväärselt hallutsinatsioone võrreldes eelmiste mudelitega (mis on iga iteratsiooniga paranenud), " selgitab ettevõte. "GPT-4 hinded on 40 protsenti kõrgemad kui meie uusim GPT-3.5 meie sisemiste võistlevate faktihinnangute põhjal."

GPT-4 hind on 0.03 dollarit 1 0.06 viipade kohta ja 1 dollarit XNUMX XNUMX lõpetamismärgi kohta, kui luba on umbes neli tegelast. Samuti on vaikemäära limiit 40,000 200 märki minutis ja XNUMX taotlust minutis.

Samuti avatud lähtekoodiga OpenAI Evals, masinõppemudelite, sealhulgas enda mudelite hindamise ja võrdlusuuringu programm.

Vaatamata jätkuvale murele tehisintellektiriskide pärast, kiirustatakse tehisintellektimudelite turule toomist. Samal päeval saabus GPT-4, idufirma Anthropic, mille moodustasid endised OpenAI töötajad. sisse oma vestluspõhine abimees nimega Claude teksti kokkuvõtete ja genereerimise, otsimise, küsimuste ja vastuste, kodeerimise ja muuga tegelemiseks. See on saadaval ka piiratud eelvaate kaudu.

Ja Google, kes oli mures AP mudelite turundamises mahajäämise pärast, kiusas a lahti rullima API nimega PaLM erinevate suurte keelemudelite ja prototüüpimiskeskkonnaga MakerSuite suhtlemiseks.

Mõni nädal varem käivitas Facebook oma LLaMA suur keelemudel, mis on nüüdseks muudetud Alpaka mudel Stanfordi teadlaste poolt, mis Register käsitletakse üksikasjalikumalt hiljem.

"Tegemist on veel palju ja me ootame selle mudeli täiustamist kogukondlike ühiste jõupingutuste kaudu, mille käigus ehitatakse, uuritakse ja panustatakse mudelisse," lõpetas OpenAI. ®