OpenAI afferma che GPT-4 batterà il 90% di te in un esame

OpenAI afferma che GPT-4 batterà il 90% di te in un esame

OpenAI afferma che GPT-4 batterà il 90% di te in un esame PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Martedì OpenAI ha annunciato l'arrivo qualificato di GPT-4, la sua ultima pietra miliare nella realizzazione di modelli di deep learning call-and-response e uno che può apparentemente superare i suoi creatori carnosi in esami importanti.

Secondo OpenAI, il modello mostra "prestazioni a livello umano su vari benchmark professionali e accademici". GPT-4 può superare un esame di abilitazione simulato nel 10% più ricco dei partecipanti al test, mentre il suo predecessore, GPT-3.5 (la base di ChatGPT) ha ottenuto un punteggio intorno al 10% inferiore.

GPT-4 si è comportato bene anche in vari altri esami, come SAT Math (700 su 800). Non è universalmente capace, tuttavia, segnando solo 2 nella lingua e composizione inglese AP (dal 14° al 44° percentile).

GPT-4 è un grande modello multimodale, al contrario di un grande modello linguistico. È progettato per accettare query tramite input di testo e immagini, con risposte restituite in formato testo. Inizialmente viene reso disponibile tramite l'API GPT-4 in lista d'attesa e agli abbonati ChatGPT Plus in modalità solo testo. L'input basato su immagini è ancora in fase di perfezionamento.

Nonostante l'aggiunta di un meccanismo di input visivo, OpenAI non è aperto né fornisce visibilità sulla realizzazione del suo modello. Il nuovo arrivato ha scelto di non rilasciare dettagli sulle sue dimensioni, su come è stato addestrato, né su quali dati sono stati inseriti nel processo.

"Dato sia il panorama competitivo che le implicazioni sulla sicurezza di modelli su larga scala come GPT-4, questo rapporto non contiene ulteriori dettagli sull'architettura (incluse le dimensioni del modello), l'hardware, il calcolo dell'addestramento, la costruzione del set di dati, il metodo di addestramento o simili." l'azienda ha detto nella sua carta tecnica [PDF].

In un streaming live su YouTube, Greg Brockman, presidente e co-fondatore di OpenAI, ha dimostrato la differenza tra GPT-4 e GPT-3.5 chiedendo ai modelli di riassumere OpenAI GPT-4 post sul blog in una singola frase in cui ogni parola inizia con la lettera "G."

GPT-3.5 semplicemente non ci ha provato. GPT 4 ha restituito "GPT-4 genera guadagni rivoluzionari e grandiosi, galvanizzando notevolmente gli obiettivi IA generalizzati". E quando Brockman ha detto al modello che l'inclusione di "AI" nella frase non conta, GPT-4 ha rivisto la sua risposta in un'altra frase carica di G senza "AI".

Ha poi fatto in modo che GPT-4 generasse il codice Python per un bot Discord. In modo più impressionante, ha scattato una foto di un mockup disegnato a mano di un sito Web di barzellette, ha inviato l'immagine a Discord e il modello GPT-4 associato ha risposto con codice HTML e JavaScript per realizzare il sito mockup.

Infine, Brockman ha impostato GPT-4 per analizzare 16 pagine di codice fiscale statunitense per restituire la detrazione standard per una coppia, Alice e Bob, con circostanze finanziarie specifiche. Il modello di OpenAI ha risposto con la risposta corretta, insieme a una spiegazione dei calcoli coinvolti.

Al di là di un ragionamento migliore, evidente nei suoi punteggi dei test migliorati, GPT-4 è pensato per essere più collaborativo (iterando come indicato per migliorare l'output precedente), meglio in grado di gestire molto testo (analizzando o emettendo blocchi di lunghezza novella di circa 25,000 parole) e di accettare input basati su immagini (per il riconoscimento di oggetti, sebbene tale funzionalità non sia ancora disponibile pubblicamente).

Inoltre, GPT-4, secondo OpenAI, dovrebbe avere meno probabilità di uscire dai binari rispetto ai suoi predecessori.

“Abbiamo trascorso sei mesi in modo iterativo allineamento GPT-4 utilizzando le lezioni del nostro programma di test contraddittorio e ChatGPT, ottenendo i nostri migliori risultati in assoluto (anche se tutt'altro che perfetti) su fattualità, guidabilità e rifiuto di uscire dai guardrail ", l'org dice.

Le persone potrebbero già avere familiarità con questo livello di sicurezza "tutt'altro che perfetto" dal esordio roccioso delle capacità di risposta alle domande di Microsoft Bing, che risulta utilizza GPT-4 come base per il suo modello Prometeo.

OpenAI riconosce che GPT-4 "allucina fatti e commette errori di ragionamento" come i suoi antenati, ma l'organizzazione insiste sul fatto che il modello lo fa in misura minore.

GPT-4 riduce significativamente le allucinazioni rispetto ai modelli precedenti

"Sebbene sia ancora un vero problema, GPT-4 riduce significativamente le allucinazioni rispetto ai modelli precedenti (che a loro volta sono migliorati a ogni iterazione)", spiega la società. "GPT-4 ottiene un punteggio superiore del 40% rispetto al nostro ultimo GPT-3.5 nelle nostre valutazioni interne di fattualità contraddittoria".

Il prezzo per GPT-4 è di $ 0.03 per 1 token di richiesta e di $ 0.06 per 1 token di completamento, dove un token è circa quattro caratteri. C'è anche un limite di velocità predefinito di 40,000 token al minuto e 200 richieste al minuto.

Inoltre, OpenAI è open source Valutazioni, un programma per la valutazione e l'analisi comparativa dei modelli di apprendimento automatico, incluso il proprio.

Nonostante la continua preoccupazione per i rischi dell'IA, c'è fretta di portare sul mercato i modelli di intelligenza artificiale. Nello stesso giorno è arrivato GPT-4, Anthropic, una startup formata da ex dipendenti OpenAI, introdotto il suo helper basato sulla chat chiamato Claude per gestire il riepilogo e la generazione del testo, la ricerca, le domande e risposte, la codifica e altro ancora. È disponibile anche tramite un'anteprima limitata.

E Google, preoccupato di rimanere indietro nella commercializzazione dei modelli AP, ha preso in giro a srotolare di un'API chiamata PaLM per interagire con vari modelli di linguaggio di grandi dimensioni e un ambiente di prototipazione chiamato MakerSuite.

Qualche settimana prima, Facebook ha lanciato il suo Modello di linguaggio di grandi dimensioni LLaMA, che ora è stato trasformato in Modello Alpaca dai ricercatori di Stanford, che Il registro tratteremo più dettagliatamente in seguito.

"C'è ancora molto lavoro da fare e non vediamo l'ora di migliorare questo modello attraverso gli sforzi collettivi della comunità che costruisce, esplora e contribuisce al modello", ha concluso OpenAI. ®

Timestamp:

Di più da Il registro