OpenAI behauptet, dass GPT-4 90 % von Ihnen in einer Prüfung schlagen wird

OpenAI behauptet, dass GPT-4 90 % von Ihnen in einer Prüfung schlagen wird

OpenAI behauptet, dass GPT-4 90 % von Ihnen in einer Prüfung zu PlatoBlockchain Data Intelligence schlagen wird. Vertikale Suche. Ai.

OpenAI kündigte am Dienstag die qualifizierte Ankunft von GPT-4 an, seinem neuesten Meilenstein in der Entwicklung von Call-and-Response-Deep-Learning-Modellen, der seine fleischigen Schöpfer in wichtigen Prüfungen scheinbar übertreffen kann.

Laut OpenAI weist das Modell „Leistung auf menschlicher Ebene bei verschiedenen professionellen und akademischen Benchmarks“ auf. GPT-4 kann eine simulierte Anwaltsprüfung unter den besten 10 Prozent der Testteilnehmer bestehen, während sein Vorgänger GPT-3.5 (die Basis von ChatGPT) bei den unteren 10 Prozent abschnitt.

GPT-4 hat auch bei verschiedenen anderen Prüfungen gut abgeschnitten, wie SAT Math (700 von 800). Es ist jedoch nicht universell geeignet und erzielt beim AP English Language and Composition (2. bis 14. Perzentil) nur 44 Punkte.

GPT-4 ist ein großes multimodales Modell im Gegensatz zu einem großen Sprachmodell. Es ist für die Annahme von Anfragen über Text- und Bildeingaben konzipiert, wobei die Antworten in Textform zurückgegeben werden. Es wird zunächst über die GPT-4-API auf der Warteliste und für ChatGPT Plus-Abonnenten in einer Nur-Text-Funktion zur Verfügung gestellt. Die bildbasierte Eingabe wird noch verfeinert.

Trotz der Hinzufügung eines visuellen Eingabemechanismus ist OpenAI nicht offen über die Herstellung seines Modells oder bietet Einblick in die Herstellung. Der Emporkömmling hat sich entschieden, keine Details über seine Größe, seine Ausbildung oder die in den Prozess eingeflossenen Daten zu veröffentlichen.

„Angesichts der Wettbewerbslandschaft und der Sicherheitsauswirkungen von großen Modellen wie GPT-4 enthält dieser Bericht keine weiteren Details über die Architektur (einschließlich Modellgröße), Hardware, Trainingsberechnung, Datensatzkonstruktion, Trainingsmethode oder ähnliches.“ Das Unternehmen sagte in seinem technisches Papier [PDF].

In einer Livestream auf YouTube, Greg Brockman, Präsident und Mitbegründer von OpenAI, demonstrierte den Unterschied zwischen GPT-4 und GPT-3.5, indem er die Modelle aufforderte, OpenAI GPT-4 zusammenzufassen Blog-Post in einem einzigen Satz, in dem jedes Wort mit dem Buchstaben „G“ beginnt.

GPT-3.5 hat es einfach nicht versucht. GPT 4 gab zurück: „GPT-4 generiert bahnbrechende, grandiose Gewinne und bringt allgemeine KI-Ziele stark voran.“ Und als Brockman dem Modell sagte, dass die Aufnahme von „AI“ in den Satz nicht zählt, überarbeitete GPT-4 seine Antwort in einem anderen G-geladenen Satz ohne „AI“ darin.

Anschließend ließ er GPT-4 den Python-Code für einen Discord-Bot generieren. Noch beeindruckender ist, dass er ein Foto von einem handgezeichneten Mockup einer Witze-Website machte, das Bild an Discord schickte und das zugehörige GPT-4-Modell mit HTML- und JavaScript-Code antwortete, um die Mockup-Site zu realisieren.

Schließlich richtete Brockman GPT-4 ein, um 16 Seiten der US-Steuergesetzgebung zu analysieren, um den Standardabzug für ein Paar, Alice und Bob, mit bestimmten finanziellen Umständen zurückzugeben. Das Modell von OpenAI antwortete mit der richtigen Antwort, zusammen mit einer Erläuterung der beteiligten Berechnungen.

Abgesehen von einer besseren Argumentation, die sich in seinen verbesserten Testergebnissen zeigt, soll GPT-4 kollaborativer sein (Iteration wie angegeben, um die vorherige Ausgabe zu verbessern) und besser in der Lage sein, mit viel Text umzugehen (Analyse oder Ausgabe von Stücken in Novellenlänge von etwa 25,000 Wörtern). , und das Akzeptieren bildbasierter Eingaben (für die Objekterkennung, obwohl diese Funktion noch nicht öffentlich verfügbar ist).

Außerdem dürfte GPT-4 laut OpenAI seltener aus den Fugen geraten als seine Vorgänger.

„Wir haben sechs Monate lang iterativ gearbeitet ausrichten GPT-4 verwendet Lehren aus unserem Adversarial-Testprogramm sowie ChatGPT, was zu unseren besten Ergebnissen aller Zeiten (wenn auch alles andere als perfekt) in Bezug auf Faktizität, Steuerbarkeit und Weigerung führt, die Leitplanken zu verlassen“, so die org sagt.

Dieses „bei weitem nicht perfekte“ Maß an Sicherheit ist den Menschen vielleicht bereits aus der bekannt rockiges Debüt der Fragebeantwortungsfunktionen von Microsoft Bing, was sich herausstellt verwendet GPT-4 als Grundlage für sein Prometheus-Modell.

OpenAI erkennt an, dass GPT-4 „Fakten halluziniert und Denkfehler macht“, wie seine Vorfahren, aber die Organisation besteht darauf, dass das Modell dies in geringerem Maße tut.

GPT-4 reduziert Halluzinationen im Vergleich zu früheren Modellen erheblich

„Obwohl GPT-4 immer noch ein echtes Problem darstellt, reduziert es Halluzinationen im Vergleich zu früheren Modellen (die sich selbst mit jeder Iteration verbessert haben) erheblich“, erklärt das Unternehmen. „GPT-4 schneidet bei unseren internen kontradiktorischen Faktizitätsbewertungen um 40 Prozent besser ab als unser neuestes GPT-3.5.“

Der Preis für GPT-4 beträgt 0.03 USD pro 1 Aufforderungstoken und 0.06 USD pro 1 Abschlusstoken, wo ein Token ist etwa vier Zeichen. Es gibt auch eine Standardratenbegrenzung von 40,000 Token pro Minute und 200 Anfragen pro Minute.

Auch OpenAI Open Source Bewertungen, ein Programm zur Bewertung und zum Benchmarking von Modellen für maschinelles Lernen, einschließlich seiner eigenen.

Trotz anhaltender Besorgnis über KI-Risiken gibt es Eile, KI-Modelle auf den Markt zu bringen. Am selben Tag, an dem GPT-4 ankam, Anthropic, ein Startup, das von ehemaligen OpenAI-Mitarbeitern gegründet wurde, eingeführt ein eigener Chat-basierter Helfer namens Claude für die Handhabung von Textzusammenfassung und -generierung, Suche, Q&A, Codierung und mehr. Das ist auch über eine eingeschränkte Vorschau verfügbar.

Und Google, besorgt darüber, bei der Vermarktung von AP-Modellen ins Hintertreffen zu geraten, neckte a ausrollen einer API namens PaLM für die Interaktion mit verschiedenen großen Sprachmodellen und einer Prototyping-Umgebung namens MakerSuite.

Einige Wochen zuvor startete Facebook seine LLaMA großes Sprachmodell, die jetzt in die umgewandelt wurde Alpaka-Modell von Stanford-Forschern, die Das Register wird später ausführlicher behandelt.

„Es gibt noch viel zu tun, und wir freuen uns darauf, dieses Modell durch die gemeinsamen Anstrengungen der Community zu verbessern, die auf dem Modell aufbauen, es erforschen und dazu beitragen“, schloss OpenAI. ®

Zeitstempel:

Mehr von Das Register