OpenAI beweert dat GPT-4 90% van jullie zal verslaan in een examen

OpenAI beweert dat GPT-4 90% van jullie zal verslaan in een examen

OpenAI beweert dat GPT-4 90% van jullie zal verslaan in een examen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

OpenAI kondigde dinsdag de gekwalificeerde komst aan van GPT-4, de nieuwste mijlpaal in het maken van call-and-response deep learning-modellen en een die schijnbaar beter kan presteren dan zijn vlezige makers in belangrijke examens.

Volgens OpenAI vertoont het model "prestaties op menselijk niveau op verschillende professionele en academische benchmarks". GPT-4 kan een gesimuleerd bar-examen halen bij de top 10 procent van de testpersonen, terwijl zijn voorganger, GPT-3.5 (de basis van ChatGPT) rond de onderste 10 procent scoorde.

GPT-4 presteerde ook goed op verschillende andere examens, zoals SAT Math (700 van de 800). Het is echter niet universeel geschikt en scoort slechts 2 op de AP Engelse taal en compositie (14e tot 44e percentiel).

GPT-4 is een groot multimodaal model, in tegenstelling tot een groot taalmodel. Het is ontworpen voor het accepteren van vragen via tekst- en beeldinvoer, met antwoorden die in tekst worden geretourneerd. Het wordt in eerste instantie beschikbaar gesteld via de op de wachtlijst geplaatste GPT-4 API en voor ChatGPT Plus-abonnees in een tekstuele capaciteit. Op afbeeldingen gebaseerde invoer wordt nog steeds verfijnd.

Ondanks de toevoeging van een visueel invoermechanisme, is OpenAI niet open over of geeft het geen inzicht in het maken van zijn model. De parvenu heeft ervoor gekozen om geen details vrij te geven over de grootte, hoe het is getraind en welke gegevens er in het proces zijn gegaan.

"Gezien zowel het concurrentielandschap als de veiligheidsimplicaties van grootschalige modellen zoals GPT-4, bevat dit rapport geen verdere details over de architectuur (inclusief modelgrootte), hardware, trainingscomputers, datasetconstructie, trainingsmethode of iets dergelijks." aldus het bedrijf in zijn technisch papier [Pdf].

In een livestream op YouTube, Greg Brockman, president en mede-oprichter van OpenAI, demonstreerde het verschil tussen GPT-4 en GPT-3.5 door de modellen te vragen de OpenAI GPT-4 samen te vatten blogpost in een enkele zin waarbij elk woord begint met de letter "G."

GPT-3.5 heeft het gewoon niet geprobeerd. GPT 4 antwoordde: "GPT-4 genereert baanbrekende, grandioze winsten, waardoor gegeneraliseerde AI-doelen enorm worden gestimuleerd." En toen Brockman het model vertelde dat het opnemen van "AI" in de zin niet telt, herzag GPT-4 zijn reactie in een andere G-beladen zin zonder "AI" erin.

Vervolgens liet hij GPT-4 de Python-code genereren voor een Discord-bot. Nog indrukwekkender was dat hij een foto maakte van een handgetekende mockup van een moppenwebsite, de afbeelding naar Discord stuurde en het bijbehorende GPT-4-model reageerde met HTML- en JavaScript-code om de mockup-site te realiseren.

Ten slotte zette Brockman GPT-4 op om 16 pagina's met Amerikaanse belastingcodes te analyseren om de standaardaftrek te berekenen voor een stel, Alice en Bob, met specifieke financiรซle omstandigheden. Het model van OpenAI antwoordde met het juiste antwoord, samen met een uitleg van de betrokken berekeningen.

Naast een betere redenering, wat duidelijk blijkt uit de verbeterde testscores, is GPT-4 bedoeld om meer samen te werken (itereren zoals aangegeven om eerdere uitvoer te verbeteren), beter in staat om veel tekst te verwerken (analyseren of uitvoeren van novelle-lengte brokken van ongeveer 25,000 woorden) en het accepteren van invoer op basis van afbeeldingen (voor objectherkenning, hoewel die mogelijkheid nog niet openbaar beschikbaar is).

Bovendien zou GPT-4 volgens OpenAI minder snel moeten ontsporen dan zijn voorgangers.

โ€œWe hebben iteratief zes maanden doorgebracht uitlijnen GPT-4 met behulp van lessen uit ons vijandige testprogramma en ChatGPT, resulterend in onze beste resultaten ooit (hoewel verre van perfect) op feitelijkheid, bestuurbaarheid en weigering om buiten de vangrails te gaan", aldus de organisatie zegt.

Mensen zijn misschien al bekend met dit "verre van perfecte" veiligheidsniveau van de rotsachtig debuut van de mogelijkheden voor het beantwoorden van vragen van Microsoft Bing, wat blijkt maakt gebruik van GPT-4 als basis voor zijn Prometheus-model.

OpenAI erkent dat GPT-4 "feiten hallucineert en redeneerfouten maakt" zoals zijn voorouders, maar de organisatie dringt erop aan dat het model dit in mindere mate doet.

GPT-4 vermindert hallucinaties aanzienlijk in vergelijking met eerdere modellen

"Hoewel het nog steeds een reรซel probleem is, vermindert GPT-4 hallucinaties aanzienlijk in vergelijking met eerdere modellen (die zelf met elke iteratie zijn verbeterd)", legt het bedrijf uit. "GPT-4 scoort 40 procent hoger dan onze nieuwste GPT-3.5 op onze interne contradictoire feitelijkheidsevaluaties."

De prijs voor GPT-4 is $ 0.03 per 1 prompttokens en $ 0.06 per 1 voltooiingstokens, waarbij een token is ongeveer vier karakters. Er is ook een standaard snelheidslimiet van 40,000 tokens per minuut en 200 verzoeken per minuut.

Ook OpenAI open-source evaluaties, een programma voor het evalueren en benchmarken van machine learning-modellen, waaronder zijn eigen programma.

Ondanks de voortdurende bezorgdheid over AI-risico's, is er haast om AI-modellen op de markt te brengen. Op dezelfde dag dat GPT-4 arriveerde, Anthropic, een startup gevormd door voormalige OpenAI-medewerkers, geรฏntroduceerd zijn eigen op chat gebaseerde helper genaamd Claude voor het afhandelen van tekstsamenvatting en -generatie, zoeken, Q&A, codering en meer. Dat is ook beschikbaar via een beperkte preview.

En Google, bezorgd om achterop te raken in de marketing van AP-modellen, plaagde een uitrollen van een API genaamd PaLM voor interactie met verschillende grote taalmodellen en een prototyping-omgeving genaamd MakerSuite.

Een paar weken eerder lanceerde Facebook zijn LLaMA groot taalmodel, die nu is veranderd in de Alpaca-model door Stanford-onderzoekers, die Het register zal later uitgebreider worden behandeld.

"Er is nog veel werk aan de winkel, en we kijken ernaar uit om dit model te verbeteren door de collectieve inspanningen van de gemeenschap om voort te bouwen op, het te verkennen en bij te dragen aan het model", besluit OpenAI. ยฎ

Tijdstempel:

Meer van Het register