OpenAI mengklaim GPT-4 akan mengalahkan 90% dari Anda dalam ujian

OpenAI mengklaim GPT-4 akan mengalahkan 90% dari Anda dalam ujian

OpenAI mengklaim GPT-4 akan mengalahkan 90% dari Anda dalam ujian Intelijen Data PlatoBlockchain. Pencarian Vertikal. Ai.

OpenAI pada hari Selasa mengumumkan kedatangan GPT-4 yang memenuhi syarat, tonggak sejarah terbarunya dalam pembuatan model pembelajaran mendalam panggilan-dan-respons dan model yang tampaknya dapat mengungguli pembuatnya yang berdaging dalam ujian penting.

Menurut OpenAI, model tersebut menunjukkan "kinerja tingkat manusia pada berbagai tolok ukur profesional dan akademik". GPT-4 dapat lulus ujian batang simulasi di 10 persen teratas peserta tes, sedangkan pendahulunya, GPT-3.5 (berdasarkan ChatGPT) mendapat skor sekitar 10 persen terbawah.

GPT-4 juga tampil baik di berbagai ujian lainnya, seperti SAT Math (700 dari 800). Namun, ini tidak mampu secara universal, hanya mencetak 2 pada Bahasa dan Komposisi Bahasa Inggris AP (persentil ke-14 hingga ke-44).

GPT-4 adalah model multimodal besar, berbeda dengan model bahasa besar. Ini dirancang untuk menerima kueri melalui input teks dan gambar, dengan jawaban dikembalikan dalam teks. Ini awalnya tersedia melalui API GPT-4 yang masuk daftar tunggu dan untuk pelanggan ChatGPT Plus dalam kapasitas teks saja. Input berbasis gambar masih disempurnakan.

Terlepas dari penambahan mekanisme input visual, OpenAI tidak terbuka tentang atau memberikan visibilitas dalam pembuatan modelnya. Pemula telah memilih untuk tidak merilis detail tentang ukurannya, bagaimana pelatihannya, atau data apa yang masuk ke dalam proses.

โ€œMengingat lanskap persaingan dan implikasi keselamatan dari model berskala besar seperti GPT-4, laporan ini tidak berisi detail lebih lanjut tentang arsitektur (termasuk ukuran model), perangkat keras, komputasi pelatihan, konstruksi set data, metode pelatihan, atau yang serupa,โ€ perusahaan mengatakan dalam nya makalah teknis [PDF].

Di sebuah streaming langsung di YouTube, Greg Brockman, presiden dan salah satu pendiri OpenAI, mendemonstrasikan perbedaan antara GPT-4 dan GPT-3.5 dengan meminta model untuk meringkas OpenAI GPT-4 posting blog dalam satu kalimat di mana setiap kata dimulai dengan huruf "G."

GPT-3.5 tidak mencoba. GPT 4 mengembalikan "GPT-4 menghasilkan terobosan, pencapaian luar biasa, sangat menggembleng sasaran AI umum." Dan ketika Brockman memberi tahu model bahwa penyertaan "AI" dalam kalimat tidak masuk hitungan, GPT-4 merevisi tanggapannya dalam kalimat sarat G lainnya tanpa "AI" di dalamnya.

Dia kemudian meminta GPT-4 menghasilkan kode Python untuk bot Discord. Lebih mengesankan lagi, dia mengambil gambar mockup yang digambar tangan dari situs web lelucon, mengirimkan gambar tersebut ke Discord, dan model GPT-4 terkait merespons dengan kode HTML dan JavaScript untuk membuat situs mockup.

Terakhir, Brockman menyiapkan GPT-4 untuk menganalisis 16 halaman kode pajak AS guna mengembalikan pengurangan standar untuk pasangan, Alice dan Bob, dengan keadaan keuangan tertentu. Model OpenAI merespons dengan jawaban yang benar, bersama dengan penjelasan perhitungan yang terlibat.

Di luar penalaran yang lebih baik, terbukti dalam skor tes yang ditingkatkan, GPT-4 dimaksudkan untuk menjadi lebih kolaboratif (mengulang seperti yang diarahkan untuk meningkatkan keluaran sebelumnya), lebih mampu menangani banyak teks (menganalisis atau mengeluarkan potongan panjang novella sekitar 25,000 kata) , dan menerima input berbasis gambar (untuk pengenalan objek, meskipun kemampuan itu belum tersedia untuk umum).

Terlebih lagi, GPT-4, menurut OpenAI, seharusnya lebih kecil kemungkinannya untuk keluar jalur dibandingkan pendahulunya.

โ€œKami telah menghabiskan enam bulan secara iteratif yang sejalan GPT-4 menggunakan pelajaran dari program pengujian permusuhan kami serta ChatGPT, menghasilkan hasil terbaik kami (walaupun jauh dari sempurna) pada faktualitas, kemampuan mengemudi, dan penolakan untuk keluar dari pagar pembatas, โ€organisasi itu mengatakan.

Orang mungkin sudah familiar dengan tingkat keamanan yang โ€œjauh dari sempurnaโ€ ini dari debutnya yang berbatu kemampuan menjawab pertanyaan Microsoft Bing, yang ternyata menggunakan GPT-4 sebagai dasar untuk model Prometheus-nya.

OpenAI mengakui bahwa GPT-4 "berhalusinasi fakta dan membuat kesalahan penalaran" seperti nenek moyangnya, tetapi org tersebut bersikeras bahwa model tersebut melakukannya pada tingkat yang lebih rendah.

GPT-4 secara signifikan mengurangi halusinasi relatif terhadap model sebelumnya

โ€œMeskipun masih menjadi masalah nyata, GPT-4 secara signifikan mengurangi halusinasi relatif terhadap model sebelumnya (yang telah meningkat dengan sendirinya di setiap iterasi),โ€ perusahaan menjelaskan. โ€œSkor GPT-4 40 persen lebih tinggi dari GPT-3.5 terbaru kami pada evaluasi faktual permusuhan internal kami.โ€

Harga untuk GPT-4 adalah $0.03 per 1k token prompt dan $0.06 per 1k token penyelesaian, jika token adalah sekitar empat karakter. Ada juga batas nilai default 40,000 token per menit dan 200 permintaan per menit.

Juga, OpenAI bersumber terbuka Evaluasi, sebuah program untuk mengevaluasi dan membuat tolok ukur model pembelajaran mesin termasuk miliknya sendiri.

Terlepas dari kekhawatiran yang terus berlanjut tentang risiko AI, ada desakan untuk menghadirkan model AI ke pasar. Pada hari yang sama GPT-4 tiba, Anthropic, sebuah startup yang dibentuk oleh mantan karyawan OpenAI, diperkenalkan pembantu berbasis obrolannya sendiri yang disebut Claude untuk menangani peringkasan dan pembuatan teks, pencarian, Q&A, pengkodean, dan banyak lagi. Itu juga tersedia melalui pratinjau terbatas.

Dan Google, khawatir tertinggal dalam pemasaran model AP, menggoda a bangun dari API yang disebut PaLM untuk berinteraksi dengan berbagai model bahasa besar dan lingkungan pembuatan prototipe yang disebut MakerSuite.

Beberapa minggu sebelumnya, Facebook meluncurkannya Model bahasa besar LLaMA, yang kini telah berubah menjadi Model alpaka oleh peneliti Stanford, yang Pendaftaran akan mencakup lebih detail nanti.

โ€œMasih banyak pekerjaan yang harus dilakukan, dan kami berharap dapat meningkatkan model ini melalui upaya kolektif membangun komunitas di atas, mengeksplorasi, dan berkontribusi pada model tersebut,โ€ tutup OpenAI. ยฎ

Stempel Waktu:

Lebih dari Pendaftaran