Pelajaran yang Dipetik Tentang Keamanan Dan Penyalahgunaan Model Bahasa

Diterbitkan Ulang Oleh Plato

Followers: 0

Pelajaran yang Dipetik tentang Keamanan dan Penyalahgunaan Model Bahasa

Penerapan sistem AI yang kuat telah memperkaya pemahaman kita tentang keselamatan dan penyalahgunaan jauh lebih banyak daripada yang mungkin dilakukan melalui penelitian saja. Terutama:

Penyalahgunaan model bahasa berbasis API sering kali datang dalam bentuk yang berbeda dari yang paling kita takuti.
Kami telah mengidentifikasi keterbatasan dalam evaluasi model bahasa yang ada yang kami tangani dengan tolok ukur dan pengklasifikasi baru.
Riset keselamatan dasar menawarkan manfaat yang signifikan untuk utilitas komersial sistem AI.

Di sini, kami menjelaskan pemikiran terbaru kami dengan harapan dapat membantu pengembang AI lainnya mengatasi keamanan dan penyalahgunaan model yang digunakan.

Oselama dua tahun terakhir, kami telah belajar banyak tentang bagaimana model bahasa dapat digunakan dan disalahgunakan—wawasan yang tidak dapat kami peroleh tanpa pengalaman penerapan di dunia nyata. Pada bulan Juni 2020, kami mulai memberikan akses kepada pengembang dan peneliti ke API OpenAI, antarmuka untuk mengakses dan membangun aplikasi di atas model AI baru yang dikembangkan oleh OpenAI. Menerapkan GPT-3, Codex, dan model lainnya dengan cara yang mengurangi risiko bahaya telah menimbulkan berbagai tantangan teknis dan kebijakan.

Ikhtisar Pendekatan Penerapan Model Kami

Model bahasa besar sekarang mampu melakukan a rentang tugas yang sangat luas, sering keluar dari kotak. Profil risiko mereka, aplikasi potensial, dan efek yang lebih luas pada masyarakat tinggal kurang baik dipahami. Akibatnya, pendekatan penerapan kami menekankan iterasi berkelanjutan, dan memanfaatkan strategi berikut yang bertujuan untuk memaksimalkan manfaat penerapan sekaligus mengurangi risiko terkait:

Analisis risiko pra-penerapan, memanfaatkan serangkaian evaluasi keselamatan yang terus berkembang dan alat kerja tim merah (misalnya, kami memeriksa InstructGPT kami untuk setiap degradasi keselamatan menggunakan evaluasi didiskusikan di bawah)
Dimulai dengan basis pengguna yang kecil (misalnya, GPT-3 dan kami InstruksikanGPT seri dimulai sebagai beta pribadi)
Mempelajari hasil percontohan kasus penggunaan baru (misalnya, menjelajahi kondisi di mana kami dapat dengan aman mengaktifkan pembuatan konten bentuk panjang, bekerja dengan sejumlah kecil pelanggan)
Menerapkan proses yang membantu menjaga denyut nadi penggunaan (misalnya, peninjauan kasus penggunaan, kuota token, dan batas tarif)
Melakukan tinjauan retrospektif terperinci (misalnya, insiden keselamatan dan penerapan besar)

Pelajaran yang Dipetik tentang Keamanan dan Penyalahgunaan Model Bahasa

Perhatikan bahwa diagram ini dimaksudkan untuk menyampaikan secara visual perlunya loop umpan balik dalam proses pengembangan dan penerapan model yang berkelanjutan dan fakta bahwa keselamatan harus diintegrasikan pada setiap tahap. Ini tidak dimaksudkan untuk menyampaikan gambaran yang lengkap atau ideal tentang proses organisasi kita atau organisasi lain mana pun.

Tidak ada peluru perak untuk penerapan yang bertanggung jawab, jadi kami mencoba mempelajari dan mengatasi keterbatasan model kami, dan kemungkinan penyalahgunaan, di setiap tahap pengembangan dan penerapan. Pendekatan ini memungkinkan kami untuk belajar sebanyak mungkin tentang masalah keamanan dan kebijakan dalam skala kecil dan menggabungkan wawasan tersebut sebelum meluncurkan penerapan skala besar.

Tidak ada peluru perak untuk penyebaran yang bertanggung jawab.

Meskipun tidak lengkap, beberapa area di mana kami telah berinvestasi sejauh ini termasuk^[1]:

Pra-pelatihan data kurasi dan penyaringan
Mencari setelan model menjadi lebih baik ikuti instruksi
Analisis risiko penyebaran potensial
Menyediakan pengguna terperinci dokumentasi
Bangunan alat untuk menyaring keluaran model yang berbahaya
Meninjau kasus penggunaan terhadap kami Kebijakan
Pemantauan tanda-tanda penyalahgunaan
Mempelajari dampak dari model kami

Karena setiap tahap intervensi memiliki keterbatasan, pendekatan holistik diperlukan.

Ada area di mana kami bisa berbuat lebih banyak dan di mana kami masih memiliki ruang untuk perbaikan. Misalnya, ketika kami pertama kali mengerjakan GPT-3, kami melihatnya sebagai artefak penelitian internal daripada sistem produksi dan tidak seagresif menyaring data pelatihan beracun seperti yang mungkin kami lakukan. Kami telah berinvestasi lebih banyak dalam meneliti dan menghapus materi tersebut untuk model berikutnya. Kami membutuhkan waktu lebih lama untuk menangani beberapa contoh penyalahgunaan dalam kasus di mana kami tidak memiliki kebijakan yang jelas tentang subjek tersebut, dan menjadi lebih baik dalam mengulangi kebijakan tersebut. Dan kami terus beralih ke paket persyaratan keselamatan yang efektif secara maksimal dalam mengatasi risiko, sementara juga dikomunikasikan dengan jelas kepada pengembang dan meminimalkan gesekan yang berlebihan.

Namun, kami percaya bahwa pendekatan kami telah memungkinkan kami untuk mengukur dan mengurangi berbagai jenis bahaya dari penggunaan model bahasa dibandingkan dengan pendekatan yang lebih lepas, sementara pada saat yang sama memungkinkan berbagai aplikasi ilmiah, artistik, dan komersial dari kami model.^[2]

Banyak Bentuk dan Ukuran Penyalahgunaan Model Bahasa

OpenAI telah aktif dalam meneliti risiko penyalahgunaan AI sejak pekerjaan awal kami di penggunaan AI yang berbahaya di 2018 dan di GPT-2 pada tahun 2019, dan kami memberikan perhatian khusus pada sistem AI yang memberdayakan operasi pengaruh. Kita punya bekerja dengan ahli eksternal untuk dikembangkan bukti konsep dan dipromosikan hati-hati analisis risiko tersebut oleh pihak ketiga. Kami tetap berkomitmen untuk mengatasi risiko yang terkait dengan operasi pengaruh yang diaktifkan model bahasa dan baru-baru ini menyelenggarakan lokakarya tentang masalah tersebut.^[3]

Namun kami telah mendeteksi dan menghentikan ratusan aktor yang mencoba menyalahgunakan GPT-3 untuk tujuan yang jauh lebih luas daripada menghasilkan disinformasi untuk operasi pengaruh, termasuk dengan cara yang tidak kami antisipasi atau yang kami antisipasi tetapi tidak kami harapkan. begitu lazim.^[4] Kami pedoman kasus penggunaan, pedoman konten, dan infrastruktur deteksi dan respons internal pada awalnya berorientasi pada risiko yang kami antisipasi berdasarkan penelitian internal dan eksternal, seperti pembuatan konten politik yang menyesatkan dengan GPT-3 atau pembuatan malware dengan Codex. Upaya deteksi dan respons kami telah berkembang dari waktu ke waktu sebagai tanggapan atas kasus penyalahgunaan yang nyata yang ditemui "di alam liar" yang tidak menonjolkan operasi pengaruh dalam penilaian risiko awal kami. Contohnya termasuk promosi spam untuk produk medis yang meragukan dan permainan peran fantasi rasis.

Untuk mendukung studi penyalahgunaan model bahasa dan mitigasinya, kami secara aktif menjajaki peluang untuk berbagi statistik tentang insiden keselamatan tahun ini, untuk mengkonkretkan diskusi tentang penyalahgunaan model bahasa.

Kesulitan Pengukuran Risiko dan Dampak

Banyak aspek risiko dan dampak model bahasa tetap sulit diukur dan oleh karena itu sulit untuk dipantau, diminimalkan, dan diungkapkan dengan cara yang dapat dipertanggungjawabkan. Kami telah menggunakan secara aktif tolok ukur akademis yang ada untuk evaluasi model bahasa dan ingin terus mengembangkan pekerjaan eksternal, tetapi kami juga telah menemukan bahwa kumpulan data tolok ukur yang ada seringkali tidak mencerminkan risiko keamanan dan penyalahgunaan yang kami lihat dalam praktik.^[5]

Keterbatasan tersebut mencerminkan fakta bahwa kumpulan data akademik jarang dibuat untuk tujuan eksplisit menginformasikan penggunaan produksi model bahasa, dan tidak mendapat manfaat dari pengalaman yang diperoleh dari penerapan model tersebut dalam skala besar. Akibatnya, kami telah mengembangkan kumpulan data dan kerangka kerja evaluasi baru untuk mengukur keamanan model kami, yang akan segera kami rilis. Secara khusus, kami telah mengembangkan metrik evaluasi baru untuk mengukur toksisitas dalam keluaran model dan juga telah mengembangkan pengklasifikasi internal untuk mendeteksi konten yang melanggar kami. kebijakan konten, seperti konten erotis, ujaran kebencian, kekerasan, pelecehan, dan menyakiti diri sendiri. Kedua hal ini pada gilirannya juga telah dimanfaatkan untuk meningkatkan data pra-pelatihan kami^[6]—khususnya, dengan menggunakan pengklasifikasi untuk menyaring konten dan metrik evaluasi untuk mengukur efek intervensi kumpulan data.

Mengklasifikasikan keluaran model individu secara andal di sepanjang berbagai dimensi itu sulit, dan mengukur dampak sosialnya pada skala OpenAI API bahkan lebih sulit. Kami telah melakukan beberapa studi internal untuk membangun kekuatan institusional untuk pengukuran tersebut, tetapi ini sering menimbulkan lebih banyak pertanyaan daripada jawaban.

Kami sangat tertarik untuk lebih memahami dampak ekonomi dari model kami dan distribusi dampak tersebut. Kami memiliki alasan kuat untuk percaya bahwa dampak pasar tenaga kerja dari penerapan model saat ini mungkin sudah signifikan secara absolut, dan bahwa mereka akan tumbuh seiring dengan pertumbuhan kemampuan dan jangkauan model kami. Kami telah mempelajari berbagai efek lokal hingga saat ini, termasuk peningkatan produktivitas besar-besaran pada tugas yang ada yang dilakukan oleh individu seperti copywriting dan summarization (terkadang berkontribusi pada pemindahan dan penciptaan pekerjaan), serta kasus di mana API membuka kunci aplikasi baru yang sebelumnya tidak layak. , seperti sintesis umpan balik kualitatif skala besar. Tapi kami tidak memiliki pemahaman yang baik tentang efek bersihnya.

Kami percaya bahwa penting bagi mereka yang mengembangkan dan menerapkan teknologi AI yang kuat untuk mengatasi efek positif dan negatif dari pekerjaan mereka secara langsung. Kami membahas beberapa langkah ke arah itu di bagian penutup dari posting ini.

Hubungan Antara Keamanan dan Utilitas Sistem AI

Dalam kami Piagam, yang diterbitkan pada tahun 2018, kami mengatakan bahwa kami “khawatir tentang pengembangan AGI tahap akhir menjadi perlombaan yang kompetitif tanpa waktu untuk tindakan pencegahan keselamatan yang memadai.” Kami kemudian diterbitkan analisis terperinci tentang pengembangan AI yang kompetitif, dan kami telah mengikuti dengan cermat selanjutnya riset. Pada saat yang sama, menerapkan sistem AI melalui OpenAI API juga telah memperdalam pemahaman kita tentang sinergi antara keselamatan dan utilitas.

Misalnya, pengembang sangat menyukai model InstructGPT kami—yang disesuaikan untuk mengikuti niat pengguna^[7]—di atas model GPT-3 dasar. Khususnya, bagaimanapun, model InstructGPT awalnya tidak dimotivasi oleh pertimbangan komersial, melainkan ditujukan untuk membuat kemajuan dalam jangka panjang. masalah keselarasan. Dalam istilah praktis, ini berarti bahwa pelanggan, mungkin tidak mengherankan, lebih menyukai model yang tetap mengerjakan tugas dan memahami maksud pengguna, dan model yang cenderung tidak menghasilkan keluaran yang berbahaya atau salah.^[8] Penelitian fundamental lainnya, seperti pekerjaan kami pada memanfaatkan informasi diambil dari Internet untuk menjawab pertanyaan dengan lebih jujur, juga berpotensi meningkatkan utilitas komersial sistem AI.^[9]

Sinergi ini tidak akan selalu terjadi. Misalnya, sistem yang lebih kuat sering kali membutuhkan lebih banyak waktu untuk mengevaluasi dan menyelaraskan secara efektif, menutup peluang langsung untuk mendapatkan keuntungan. Dan utilitas pengguna dan masyarakat mungkin tidak selaras karena eksternalitas negatif—pertimbangkan copywriting yang sepenuhnya otomatis, yang dapat bermanfaat bagi pembuat konten tetapi buruk bagi ekosistem informasi secara keseluruhan.

Sangat menggembirakan untuk melihat kasus-kasus sinergi yang kuat antara keselamatan dan utilitas, tetapi kami berkomitmen untuk berinvestasi dalam penelitian keselamatan dan kebijakan bahkan ketika mereka bertukar dengan utilitas komersial.

Kami berkomitmen untuk berinvestasi dalam penelitian keselamatan dan kebijakan bahkan ketika mereka berhadapan dengan utilitas komersial.

Cara untuk Terlibat

Setiap pelajaran di atas menimbulkan pertanyaan baru tersendiri. Jenis insiden keselamatan apa yang mungkin masih gagal kita deteksi dan antisipasi? Bagaimana kita dapat mengukur risiko dan dampak dengan lebih baik? Bagaimana kami dapat terus meningkatkan keamanan dan utilitas model kami, dan menavigasi tradeoff di antara keduanya jika memang muncul?

Kami secara aktif mendiskusikan banyak masalah ini dengan perusahaan lain yang menerapkan model bahasa. Tetapi kami juga tahu bahwa tidak ada organisasi atau kumpulan organisasi yang memiliki semua jawaban, dan kami ingin menyoroti beberapa cara agar pembaca dapat lebih terlibat dalam memahami dan membentuk penerapan sistem AI canggih kami.

Pertama, mendapatkan pengalaman langsung berinteraksi dengan sistem AI yang canggih sangat berharga untuk memahami kemampuan dan implikasinya. Kami baru-baru ini mengakhiri daftar tunggu API setelah meningkatkan kepercayaan pada kemampuan kami untuk mendeteksi dan merespons penyalahgunaan secara efektif. individu dalam negara dan wilayah yang didukung dapat dengan cepat mendapatkan akses ke OpenAI API dengan mendaftar di sini.

Kedua, peneliti yang mengerjakan topik yang menarik bagi kami seperti bias dan penyalahgunaan, dan siapa yang akan mendapat manfaat dari dukungan keuangan, dapat mengajukan kredit API bersubsidi menggunakan formulir ini. Penelitian eksternal sangat penting untuk menginformasikan baik pemahaman kita tentang sistem multifaset ini, serta pemahaman publik yang lebih luas.

Akhirnya, hari ini kami menerbitkan agenda penelitian mengeksplorasi dampak pasar tenaga kerja yang terkait dengan keluarga model Codex kami, dan panggilan untuk kolaborator eksternal dalam melakukan penelitian ini. Kami senang bekerja dengan peneliti independen untuk mempelajari efek teknologi kami untuk menginformasikan intervensi kebijakan yang tepat, dan pada akhirnya memperluas pemikiran kami dari pembuatan kode ke modalitas lain.

Jika Anda tertarik untuk bekerja menyebarkan teknologi AI mutakhir secara bertanggung jawab, menerapkan untuk bekerja di OpenAI!

Stempel Waktu: 3 Maret, 2022

Stempel Waktu: Agustus 31, 2022

Diterbitkan Ulang Oleh Plato

Hibah Cepat Superalignment

Masukan demokratis terhadap program hibah AI: pembelajaran dan rencana implementasi

Cara baru untuk mengelola data Anda di ChatGPT

OpenAI mengumumkan anggota baru ke dewan direksi

Bagaimana seharusnya sistem AI berperilaku, dan siapa yang harus memutuskan?

Belajar Bermain Minecraft dengan Video PreTraining (VPT)

Model pengajaran untuk mengekspresikan ketidakpastian mereka dalam kata-kata

DALL·E: Memperkenalkan Lukisan Luar

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun