OpenAI Claims GPT-4 Will Beat 90% Of You In An Exam

Ponovno objavil Platon

Spremljevalci: 0

OpenAI claims GPT-4 will beat 90% of you in an exam PlatoBlockchain Data Intelligence. Vertical Search. Ai.

OpenAI je v torek napovedal kvalificirani prihod GPT-4, njegovega zadnjega mejnika pri izdelavi modelov globokega učenja klicev in odgovorov, ki lahko navidezno prekaša svoje mesnate ustvarjalce pri pomembnih izpitih.

Glede na OpenAI model kaže "zmogljivost na človeški ravni na različnih strokovnih in akademskih merilih." GPT-4 lahko opravi simulirani pravosodni izpit pri najboljših 10 odstotkih testirancev, medtem ko je njegov predhodnik GPT-3.5 (osnova ChatGPT) dosegel približno spodnjih 10 odstotkov.

GPT-4 se je dobro odrezal tudi na različnih drugih izpitih, kot je SAT Math (700 od 800). Vendar pa ni univerzalno sposoben, dosegel je le 2 pri AP angleškem jeziku in kompoziciji (od 14. do 44. percentila).

GPT-4 je velik multimodalni model v nasprotju z velikim jezikovnim modelom. Zasnovan je za sprejemanje poizvedb prek besedilnih in slikovnih vnosov, z odgovori vrnjenimi v besedilu. Sprva je na voljo prek API-ja GPT-4 na čakalni listi in naročnikom ChatGPT Plus samo v obliki besedila. Vnos na podlagi slike se še izpopolnjuje.

Kljub dodanemu mehanizmu za vizualni vnos, OpenAI ni odkrit glede izdelave svojega modela ali zagotavlja vpogled vnj. Nadobudnež se je odločil, da ne bo izdal podrobnosti o svoji velikosti, o tem, kako je bil usposobljen, niti o tem, kateri podatki so šli v postopek.

"Glede na konkurenčno okolje in varnostne posledice obsežnih modelov, kot je GPT-4, to poročilo ne vsebuje nadaljnjih podrobnosti o arhitekturi (vključno z velikostjo modela), strojni opremi, izobraževanju za usposabljanje, konstrukciji nabora podatkov, metodi usposabljanja ali podobnem," je družba zapisala v svoji tehnični papir [PDF].

V prenos v živo na YouTubu, Greg Brockman, predsednik in soustanovitelj OpenAI, je pokazal razliko med GPT-4 in GPT-3.5 tako, da je prosil modele, naj povzamejo OpenAI GPT-4 blog post v enem stavku, kjer se vsaka beseda začne s črko "G."

GPT-3.5 preprosto ni poskusil. GPT 4 je vrnil "GPT-4 ustvarja prelomne, veličastne pridobitve, ki močno spodbujajo splošne cilje AI." In ko je Brockman povedal modelu, da vključitev "AI" v stavek ne šteje, je GPT-4 popravil svoj odgovor v drugem stavku, obremenjenem z G, brez "AI" v njem.

Nato je dal GPT-4 ustvariti kodo Python za bota Discord. Še bolj impresivno je, da je posnel sliko ročno narisane makete spletnega mesta s šalami, poslal sliko Discordu in povezani model GPT-4 se je odzval s kodo HTML in JavaScript, da je realiziral maketo spletnega mesta.

Končno je Brockman nastavil GPT-4 za analizo 16 strani ameriškega davčnega zakonika, da bi vrnil standardni odbitek za par, Alice in Boba, s posebnimi finančnimi okoliščinami. Model OpenAI se je odzval s pravilnim odgovorom, skupaj z razlago vključenih izračunov.

Poleg boljšega razmišljanja, ki je razvidno iz izboljšanih rezultatov testov, je GPT-4 namenjen sodelovanju (ponavlja po navodilih za izboljšanje prejšnjega izhoda), bolje obvladuje veliko besedila (analizira ali izpisuje novele, dolge kose približno 25,000 besed). in sprejemanja vnosa na podlagi slike (za prepoznavanje predmetov, čeprav ta zmožnost še ni javno dostopna).

Še več, glede na OpenAI naj bi bilo manj verjetno, da bo GPT-4 zašel s tira kot njegovi predhodniki.

»Šest mesecev smo porabili iterativno poravnava GPT-4 z uporabo lekcij iz našega kontradiktornega programa testiranja in ChatGPT, kar je privedlo do naših najboljših rezultatov doslej (čeprav daleč od popolnih) glede dejanskega stanja, vodljivosti in zavračanja izstopa iz zaščitnih ograj,« je organizacija pravi.

Ljudje morda že poznajo to "daleč od popolne" ravni varnosti iz rocky prvenec zmožnosti Microsoft Bing za odgovarjanje na vprašanja, kar se je izkazalo uporablja GPT-4 kot osnova za svoj model Prometheus.

OpenAI priznava, da GPT-4 "halucinira dejstva in povzroča napake pri razmišljanju" kot njegovi predniki, vendar organizacija vztraja, da model to počne v manjši meri.

GPT-4 znatno zmanjša halucinacije v primerjavi s prejšnjimi modeli

"Čeprav je še vedno resnična težava, GPT-4 bistveno zmanjša halucinacije v primerjavi s prejšnjimi modeli (ki so se sami izboljševali z vsako ponovitvijo)," pojasnjuje podjetje. "GPT-4 dosega 40 odstotkov višje rezultate kot naš zadnji GPT-3.5 na naših internih kontradiktornih ocenah dejanskega stanja."

Cena za GPT-4 je 0.03 USD za 1k pozivnih žetonov in 0.06 USD za 1k dokončanih žetonov, če je žeton približno štiri znake. Obstaja tudi privzeta omejitev hitrosti 40,000 žetonov na minuto in 200 zahtev na minuto.

Tudi odprtokodni OpenAI Evals, program za ocenjevanje in primerjalno analizo modelov strojnega učenja, vključno z lastnim.

Kljub stalni zaskrbljenosti glede tveganj umetne inteligence se mudi, da bi modele umetne inteligence dali na trg. Istega dne, ko je prispel GPT-4, je Anthropic, startup, ki so ga ustanovili nekdanji zaposleni v OpenAI, Uvedeno lastnega pomočnika, ki temelji na klepetu, imenovanega Claude, za ravnanje s povzemanjem in ustvarjanjem besedila, iskanjem, vprašanji in odgovori, kodiranjem itd. To je na voljo tudi prek omejenega predogleda.

In Google, zaskrbljen zaradi zaostajanja pri trženju modelov AP, je dražil a razvaljamo API-ja, imenovanega PaLM, za interakcijo z različnimi velikimi jezikovnimi modeli in okolja za izdelavo prototipov, imenovanega MakerSuite.

Nekaj tednov prej je Facebook lansiral svoj LLaMA velik jezikovni model, ki je zdaj spremenjen v Model alpake Stanfordski raziskovalci, ki Register bomo podrobneje obravnavali kasneje.

"Še vedno nas čaka veliko dela in veselimo se izboljšave tega modela s skupnimi prizadevanji skupnosti, ki nadgrajuje, raziskuje in prispeva k modelu," je zaključil OpenAI. ®