OpenAI hævder, at GPT-4 vil slå 90 % af jer i en eksamen

OpenAI hævder, at GPT-4 vil slå 90 % af jer i en eksamen

OpenAI claims GPT-4 will beat 90% of you in an exam PlatoBlockchain Data Intelligence. Vertical Search. Ai.

OpenAI annoncerede tirsdag den kvalificerede ankomst af GPT-4, dets seneste milepæl i fremstillingen af ​​call-and-response deep learning-modeller og en, der tilsyneladende kan overgå sine kødfulde skabere i vigtige eksamener.

Ifølge OpenAI udviser modellen "præstationer på menneskeligt niveau på forskellige faglige og akademiske benchmarks." GPT-4 kan bestå en simuleret bar-eksamen blandt de øverste 10 procent af testdeltagerne, mens dens forgænger, GPT-3.5 (grundlaget for ChatGPT) scorede omkring de nederste 10 procent.

GPT-4 klarede sig også godt på forskellige andre eksamener, såsom SAT Math (700 ud af 800). Det er ikke universelt i stand, men scorer kun 2 på AP English Language and Composition (14. til 44. percentil).

GPT-4 er en stor multimodal model, i modsætning til en stor sprogmodel. Det er designet til at acceptere forespørgsler via tekst- og billedinput, med svar returneret i tekst. Det bliver i første omgang gjort tilgængeligt via det ventelistede GPT-4 API og for ChatGPT Plus-abonnenter i en tekst-kun-kapacitet. Billedbaseret input bliver stadig forfinet.

På trods af tilføjelsen af ​​en visuel inputmekanisme er OpenAI ikke åben omkring eller giver synlighed i fremstillingen af ​​sin model. Opkomlingen har valgt ikke at frigive detaljer om dens størrelse, hvordan den blev trænet, eller hvilke data der gik ind i processen.

"I betragtning af både det konkurrenceprægede landskab og de sikkerhedsmæssige konsekvenser af store modeller som GPT-4, indeholder denne rapport ingen yderligere detaljer om arkitekturen (herunder modelstørrelse), hardware, træningsberegning, datasætkonstruktion, træningsmetode eller lignende." sagde virksomheden i sin teknisk papir [PDF].

I en live stream på YouTube, Greg Brockman, præsident og medstifter af OpenAI, demonstrerede forskellen mellem GPT-4 og GPT-3.5 ved at bede modellerne om at opsummere OpenAI GPT-4 blogindlæg i en enkelt sætning, hvor hvert ord begynder med bogstavet "G."

GPT-3.5 prøvede simpelthen ikke. GPT 4 vendte tilbage "GPT-4 genererer banebrydende, grandiose gevinster, som i høj grad opmuntrer generaliserede AI-mål." Og da Brockman fortalte modellen, at inklusion af "AI" i sætningen ikke tæller, reviderede GPT-4 sit svar i en anden G-ladet sætning uden "AI" i den.

Han fortsatte derefter med at få GPT-4 til at generere Python-koden til en Discord-bot. Mere imponerende tog han et billede af en håndtegnet mockup af et vittighedswebsted, sendte billedet til Discord, og den tilhørende GPT-4-model svarede med HTML- og JavaScript-kode for at realisere mockup-siden.

Til sidst satte Brockman GPT-4 op til at analysere 16 sider af amerikansk skattekode for at returnere standardfradraget for et par, Alice og Bob, med specifikke økonomiske forhold. OpenAI's model svarede med det rigtige svar sammen med en forklaring af de involverede beregninger.

Ud over bedre ræsonnement, tydeligt i dets forbedrede testresultater, er GPT-4 beregnet til at være mere samarbejdende (iterering som anvist for at forbedre tidligere output), bedre i stand til at håndtere masser af tekst (analysere eller udskrive novelle-længde bidder på omkring 25,000 ord) , og at acceptere billedbaseret input (til objektgenkendelse, selvom den mulighed endnu ikke er offentligt tilgængelig).

Desuden skulle GPT-4 ifølge OpenAI være mindre tilbøjelige til at gå af sporet end sine forgængere.

"Vi har brugt seks måneder iterativt justering GPT-4 ved hjælp af lektioner fra vores kontradiktoriske testprogram såvel som ChatGPT, hvilket resulterer i vores bedste resultater nogensinde (selv om det er langt fra perfekte) på faktualitet, styrbarhed og nægter at gå uden for autoværn," org. siger.

Folk er måske allerede bekendt med dette "langt fra perfekte" sikkerhedsniveau fra stenet debut af Microsoft Bings muligheder for at besvare spørgsmål, hvilket det viser sig bruger GPT-4 som grundlag for sin Prometheus-model.

OpenAI anerkender, at GPT-4 "hallucinerer fakta og laver begrundelsesfejl" ligesom sine forfædre, men organisationen insisterer på, at modellen gør det i mindre grad.

GPT-4 reducerer hallucinationer markant i forhold til tidligere modeller

"Selvom det stadig er et reelt problem, reducerer GPT-4 hallucinationer betydeligt i forhold til tidligere modeller (som i sig selv er blevet forbedret med hver iteration)," forklarer virksomheden. "GPT-4 scorer 40 procent højere end vores seneste GPT-3.5 på vores interne kontradiktoriske faktavurderinger."

Prisen for GPT-4 er $0.03 pr. 1k prompt-tokens og $0.06 pr. omkring fire tegn. Der er også en standardhastighedsgrænse på 40,000 tokens i minuttet og 200 anmodninger i minuttet.

Også OpenAI open source Evals, et program til evaluering og benchmarking af maskinlæringsmodeller, herunder dets egne.

På trods af vedvarende bekymring over AI-risici er der et hastværk med at bringe AI-modeller på markedet. Samme dag GPT-4 ankom, Anthropic, en startup dannet af tidligere OpenAI-medarbejdere, introduceret sin egen chat-baserede hjælper kaldet Claude til håndtering af tekstresumé og generering, søgning, Q&A, kodning og mere. Det er også tilgængeligt via en begrænset forhåndsvisning.

Og Google, der var bekymret for at komme bagud i markedsføringen af ​​AP-modeller, drillede en udrulning af et API kaldet PaLM til interaktion med forskellige store sprogmodeller og et prototypemiljø kaldet MakerSuite.

Et par uger tidligere lancerede Facebook sin LLaMA stor sprogmodel, som nu er blevet omdannet til Alpaca model af Stanford-forskere, som Registret vil komme nærmere ind på senere.

"Der er stadig meget arbejde at gøre, og vi ser frem til at forbedre denne model gennem den kollektive indsats fra samfundsbygningen oven på, udforske og bidrage til modellen," konkluderede OpenAI. ®

Tidsstempel:

Mere fra Registret