Pendekatan Kami Untuk Penyelarasan Penelitian

Diterbitkan Ulang Oleh Plato

Followers: 0

Pendekatan kami untuk menyelaraskan AGI bersifat empiris dan berulang. Kami meningkatkan kemampuan sistem AI kami untuk belajar dari umpan balik manusia dan untuk membantu manusia dalam mengevaluasi AI. Tujuan kami adalah membangun sistem AI yang cukup selaras yang dapat membantu kami menyelesaikan semua masalah penyelarasan lainnya.

Penelitian keselarasan kami bertujuan untuk membuat kecerdasan umum buatan (AGI) selaras dengan nilai-nilai kemanusiaan dan mengikuti niat manusia. Kami mengambil pendekatan empiris dan berulang: dengan mencoba menyelaraskan sistem AI yang berkemampuan tinggi, kami dapat mempelajari apa yang berhasil dan apa yang tidak, sehingga menyempurnakan kemampuan kami untuk membuat sistem AI lebih aman dan lebih selaras. Menggunakan eksperimen ilmiah, kami mempelajari bagaimana skala teknik penyelarasan dan di mana mereka akan rusak.

Kami menangani masalah penyelarasan baik dalam sistem AI kami yang paling mumpuni serta masalah penyelarasan yang kami harapkan akan dihadapi di jalan kami menuju AGI. Tujuan utama kami adalah untuk mendorong ide-ide penyelarasan saat ini sejauh mungkin, dan untuk memahami dan mendokumentasikan secara tepat bagaimana mereka dapat berhasil atau mengapa mereka akan gagal. Kami percaya bahwa bahkan tanpa ide penyelarasan baru yang mendasar, kami kemungkinan dapat membangun sistem AI yang cukup selaras untuk memajukan penelitian penyelarasan itu sendiri secara substansial.

AGI yang tidak selaras dapat menimbulkan risiko besar bagi kemanusiaan dan memecahkan masalah penyelarasan AGI bisa sangat sulit sehingga membutuhkan semua umat manusia untuk bekerja sama. Oleh karena itu kami berkomitmen untuk secara terbuka membagikan penelitian penyelarasan kami saat aman untuk melakukannya: Kami ingin transparan tentang seberapa baik teknik penyelarasan kami benar-benar bekerja dalam praktik dan kami ingin setiap pengembang AGI menggunakan teknik penyelarasan terbaik di dunia.

Pada tingkat tinggi, pendekatan kami terhadap penelitian penyelarasan berfokus pada rekayasa sinyal pelatihan yang dapat diskalakan untuk sistem AI yang sangat cerdas yang selaras dengan niat manusia. Ini memiliki tiga pilar utama:

Melatih sistem AI menggunakan umpan balik manusia
Melatih sistem AI untuk membantu evaluasi manusia
Melatih sistem AI untuk melakukan penelitian penyelarasan

Menyelaraskan sistem AI dengan nilai-nilai kemanusiaan juga menimbulkan berbagai tantangan sosioteknik signifikan lainnya, seperti memutuskan kepada siapa sistem ini harus diselaraskan. Memecahkan masalah ini penting untuk dicapai misi kita, tapi kami tidak membahasnya di postingan ini.

Melatih sistem AI menggunakan umpan balik manusia

RL dari umpan balik manusia adalah teknik utama kami untuk menyelaraskan model bahasa yang kami terapkan saat ini. Kami melatih kelas model yang disebut InstruksikanGPT diturunkan dari model bahasa pra-latihan seperti GPT-3. Model-model ini dilatih untuk mengikuti niat manusia: baik niat eksplisit yang diberikan oleh instruksi maupun niat implisit seperti kejujuran, keadilan, dan keamanan.

Hasil kami menunjukkan bahwa ada banyak hasil rendah pada penyelarasan yang berfokus pada fine-tuning sekarang: InstructGPT lebih disukai oleh manusia daripada model pra-pelatihan 100x lebih besar, sementara fine-tuning biaya <2% dari komputasi prapelatihan GPT-3 dan sekitar 20,000 jam umpan balik manusia. Kami berharap pekerjaan kami menginspirasi orang lain di industri ini untuk meningkatkan investasi mereka dalam penyelarasan model bahasa besar dan meningkatkan harapan pengguna tentang keamanan model yang digunakan.

API bahasa alami kami adalah lingkungan yang sangat berguna untuk penelitian penyelarasan kami: Ini memberi kami umpan balik yang kaya tentang seberapa baik teknik penyelarasan kami benar-benar bekerja di dunia nyata, didasarkan pada serangkaian tugas yang sangat beragam sehingga pelanggan kami bersedia membayar dengan uang. Rata-rata, pelanggan kami sudah lebih suka menggunakan InstructGPT daripada model pra-latihan kami.

Namun versi InstructGPT hari ini adalah cukup jauh dari sepenuhnya selaras: mereka terkadang gagal mengikuti instruksi sederhana, tidak selalu jujur, tidak dapat diandalkan untuk menolak tugas berbahaya, dan terkadang memberikan tanggapan yang bias atau beracun. Beberapa pelanggan menganggap respons InstructGPT secara signifikan kurang kreatif daripada model yang telah dilatih sebelumnya, sesuatu yang tidak kami sadari dari menjalankan InstructGPT pada tolok ukur yang tersedia untuk umum. Kami juga sedang mengembangkan pemahaman ilmiah yang lebih rinci tentang RL dari umpan balik manusia dan bagaimana meningkatkan kualitas umpan balik manusia.

Menyelaraskan API kami jauh lebih mudah daripada menyelaraskan AGI karena sebagian besar tugas di API kami tidak terlalu sulit untuk diawasi oleh manusia dan model bahasa yang kami terapkan tidak lebih pintar dari manusia. Kami tidak berharap RL dari umpan balik manusia cukup untuk menyelaraskan AGI, tetapi ini adalah blok bangunan inti untuk proposal penyelarasan skalabel yang paling kami sukai, dan karenanya sangat berharga untuk menyempurnakan metodologi ini.

Model pelatihan untuk membantu evaluasi manusia

RL dari umpan balik manusia memiliki batasan mendasar: ini mengasumsikan bahwa manusia dapat secara akurat mengevaluasi tugas yang dilakukan sistem AI kami. Saat ini manusia cukup pandai dalam hal ini, tetapi ketika model menjadi lebih mampu, mereka akan dapat melakukan tugas yang jauh lebih sulit untuk dievaluasi oleh manusia (misalnya menemukan semua kekurangan dalam basis kode besar atau makalah ilmiah). Model kami mungkin belajar untuk memberi tahu evaluator manusia kami apa yang ingin mereka dengar alih-alih mengatakan yang sebenarnya. Untuk menskalakan penyelarasan, kami ingin menggunakan teknik seperti pemodelan hadiah rekursif (RRM), perdebatan, dan amplifikasi berulang.

Saat ini arah utama kami didasarkan pada RRM: kami melatih model yang dapat membantu manusia mengevaluasi model kami pada tugas yang terlalu sulit untuk dievaluasi manusia secara langsung. Sebagai contoh:

Kami melatih model untuk meringkas buku. Mengevaluasi ringkasan buku membutuhkan waktu lama bagi manusia jika mereka tidak terbiasa dengan buku, tetapi model kami dapat membantu evaluasi manusia dengan menulis ringkasan bab.
Kami melatih model untuk membantu manusia dalam mengevaluasi akurasi faktual dengan menjelajahi web dan memberikan kutipan dan tautan. Pada pertanyaan sederhana, keluaran model ini sudah lebih disukai daripada tanggapan yang ditulis oleh manusia.
Kami melatih model untuk tulis komentar kritis pada outputnya sendiri: Pada tugas peringkasan berbasis kueri, bantuan dengan komentar kritis meningkatkan kekurangan yang ditemukan manusia dalam keluaran model rata-rata sebesar 50%. Ini berlaku bahkan jika kita meminta manusia untuk menulis ringkasan yang tampak masuk akal tetapi salah.
Kami membuat serangkaian tugas pengkodean yang dipilih menjadi sangat sulit untuk dievaluasi secara andal bagi manusia tanpa bantuan. Kami berharap untuk segera merilis kumpulan data ini.

Teknik penyelarasan kami perlu bekerja bahkan jika sistem AI kami mengusulkan solusi yang sangat kreatif (seperti Langkah AlphaGo 37), oleh karena itu kami sangat tertarik pada model pelatihan untuk membantu manusia membedakan solusi yang benar dari yang menyesatkan atau menipu. Kami percaya cara terbaik untuk belajar sebanyak mungkin tentang cara membuat evaluasi berbantuan AI bekerja dalam praktik adalah dengan membangun asisten AI.

Melatih sistem AI untuk melakukan penelitian penyelarasan

Saat ini tidak ada solusi skalabel tanpa batas yang diketahui untuk masalah penyelarasan. Seiring kemajuan AI, kami berharap untuk menghadapi sejumlah masalah penyelarasan baru yang belum kami amati dalam sistem saat ini. Beberapa dari masalah ini kami antisipasi sekarang dan beberapa di antaranya akan sama sekali baru.

Kami percaya bahwa menemukan solusi yang dapat diskalakan tanpa batas kemungkinan sangat sulit. Sebaliknya, kami bertujuan untuk pendekatan yang lebih pragmatis: membangun dan menyelaraskan sistem yang dapat membuat kemajuan penelitian penyelarasan lebih cepat dan lebih baik daripada yang bisa dilakukan manusia.

Saat kami membuat kemajuan dalam hal ini, sistem AI kami dapat mengambil alih lebih banyak dan lebih banyak pekerjaan penyelarasan kami dan pada akhirnya menyusun, menerapkan, mempelajari, dan mengembangkan teknik penyelarasan yang lebih baik daripada yang kami miliki sekarang. Mereka akan bekerja sama dengan manusia untuk memastikan bahwa penerus mereka sendiri lebih selaras dengan manusia.

Kami percaya bahwa mengevaluasi penelitian keselarasan secara substansial lebih mudah daripada memproduksinya, terutama bila diberikan bantuan evaluasi. Oleh karena itu, peneliti manusia akan semakin memfokuskan upaya mereka untuk meninjau penelitian penyelarasan yang dilakukan oleh sistem AI daripada menghasilkan penelitian ini sendiri. Tujuan kami adalah melatih model agar sangat selaras sehingga kami dapat melepaskan hampir semua pekerjaan kognitif yang diperlukan untuk penelitian penyelarasan.

Yang penting, kami hanya membutuhkan sistem AI yang "lebih sempit" yang memiliki kemampuan tingkat manusia dalam domain yang relevan untuk dilakukan serta manusia dalam penelitian penyelarasan. Kami berharap sistem AI ini lebih mudah diselaraskan daripada sistem tujuan umum atau sistem yang jauh lebih pintar daripada manusia.

Model bahasa sangat cocok untuk mengotomatisasi penelitian keselarasan karena mereka datang "dimuat" dengan banyak pengetahuan dan informasi tentang nilai-nilai kemanusiaan dari membaca internet. Di luar kotak, mereka bukan agen independen dan karenanya tidak mengejar tujuan mereka sendiri di dunia. Untuk melakukan penelitian keselarasan, mereka tidak memerlukan akses internet tanpa batas. Namun banyak tugas penelitian keselarasan dapat diungkapkan sebagai bahasa alami atau tugas pengkodean.

Versi masa depan WebGPT, InstruksikanGPT, dan Naskah kuno dapat memberikan landasan sebagai asisten peneliti keselarasan, tetapi mereka belum cukup mampu. Meskipun kami tidak tahu kapan model kami akan cukup mampu untuk berkontribusi secara berarti pada penelitian penyelarasan, kami pikir penting untuk memulai terlebih dahulu. Setelah kami melatih model yang dapat berguna, kami berencana untuk membuatnya dapat diakses oleh komunitas penelitian penyelarasan eksternal.

keterbatasan

Kami sangat senang dengan pendekatan ini untuk menyelaraskan AGI, tetapi kami berharap pendekatan ini perlu diadaptasi dan ditingkatkan saat kami mempelajari lebih lanjut tentang bagaimana teknologi AI berkembang. Pendekatan kami juga memiliki sejumlah keterbatasan penting:

Jalur yang diuraikan di sini kurang menekankan pentingnya penelitian ketahanan dan interpretasi, dua area yang saat ini kurang diinvestasikan oleh OpenAI. Jika ini sesuai dengan profil Anda, silakan melamar posisi ilmuwan penelitian kami!
Menggunakan bantuan AI untuk evaluasi berpotensi meningkatkan atau memperkuat inkonsistensi, bias, atau kerentanan halus yang ada di asisten AI.
Menyelaraskan AGI kemungkinan melibatkan pemecahan masalah yang sangat berbeda dari menyelaraskan sistem AI saat ini. Kami berharap transisi akan berlangsung terus-menerus, tetapi jika ada diskontinuitas besar atau perubahan paradigma, maka sebagian besar pelajaran yang didapat dari penyelarasan model seperti InstructGPT mungkin tidak berguna secara langsung.
Bagian tersulit dari masalah penyelarasan mungkin tidak terkait dengan rekayasa sinyal pelatihan yang skalabel dan selaras untuk sistem AI kami. Bahkan jika ini benar, sinyal pelatihan seperti itu akan diperlukan.
Pada dasarnya mungkin tidak lebih mudah untuk menyelaraskan model yang secara bermakna dapat mempercepat penelitian penyelarasan daripada menyelaraskan AGI. Dengan kata lain, model yang paling tidak mampu yang dapat membantu penelitian penyelarasan mungkin sudah terlalu berbahaya jika tidak diselaraskan dengan benar. Jika ini benar, kita tidak akan mendapatkan banyak bantuan dari sistem kita sendiri untuk memecahkan masalah keselarasan.

Kami mencari untuk mempekerjakan lebih banyak orang berbakat untuk penelitian ini! Jika ini menarik minat Anda, kami sedang merekrut Insinyur Riset dan Ilmuwan Penelitian!

Stempel Waktu: 24 Agustus 202224 Agustus 2022

Plugin ChatGPT

Kluster Sumber:

OpenAI

Node Sumber: 1817781

Stempel Waktu: Mar 23, 2023

Pendekatan kami untuk penelitian keselarasan

Diterbitkan Ulang Oleh Plato

Melatih sistem AI menggunakan umpan balik manusia

Model pelatihan untuk membantu evaluasi manusia

Melatih sistem AI untuk melakukan penelitian penyelarasan

keterbatasan

Lebih dari OpenAI

Kami menghadirkan jurnalisme kelas dunia Financial Times ke ChatGPT

Memperkenalkan OpenAI London

Menggunakan GPT-4 untuk moderasi konten

Memperkenalkan Bisikan

DALL·E Kini Tersedia Tanpa Daftar Tunggu

Memperkenalkan Tim ChatGPT

Pemanggilan fungsi dan pembaruan API lainnya

OpenAI mengumumkan transisi kepemimpinan

Model bahasa dapat menjelaskan neuron dalam model bahasa

Plugin ChatGPT

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun

Pengantar

Melatih sistem AI menggunakan umpan balik manusia

Model pelatihan untuk membantu evaluasi manusia

Melatih sistem AI untuk melakukan penelitian penyelarasan

keterbatasan

Lebih dari OpenAI

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun