Pelajaran yang Dipetik tentang Keamanan Model Bahasa dan Penyalahgunaan Intelijen Data PlatoBlockchain. Pencarian Vertikal. ai.

Pelajaran yang Dipetik tentang Keamanan dan Penyalahgunaan Model Bahasa

Pelajaran yang Dipetik tentang Keamanan dan Penyalahgunaan Model Bahasa

Penerapan sistem AI yang kuat telah memperkaya pemahaman kita tentang keselamatan dan penyalahgunaan jauh lebih banyak daripada yang mungkin dilakukan melalui penelitian saja. Terutama:

  • Penyalahgunaan model bahasa berbasis API sering kali datang dalam bentuk yang berbeda dari yang paling kita takuti.
  • Kami telah mengidentifikasi keterbatasan dalam evaluasi model bahasa yang ada yang kami tangani dengan tolok ukur dan pengklasifikasi baru.
  • Riset keselamatan dasar menawarkan manfaat yang signifikan untuk utilitas komersial sistem AI.

Di sini, kami menjelaskan pemikiran terbaru kami dengan harapan dapat membantu pengembang AI lainnya mengatasi keamanan dan penyalahgunaan model yang digunakan.


Oselama dua tahun terakhir, kami telah belajar banyak tentang bagaimana model bahasa dapat digunakan dan disalahgunakan—wawasan yang tidak dapat kami peroleh tanpa pengalaman penerapan di dunia nyata. Pada bulan Juni 2020, kami mulai memberikan akses kepada pengembang dan peneliti ke API OpenAI, antarmuka untuk mengakses dan membangun aplikasi di atas model AI baru yang dikembangkan oleh OpenAI. Menerapkan GPT-3, Codex, dan model lainnya dengan cara yang mengurangi risiko bahaya telah menimbulkan berbagai tantangan teknis dan kebijakan.

Ikhtisar Pendekatan Penerapan Model Kami

Model bahasa besar sekarang mampu melakukan a rentang tugas yang sangat luas, sering keluar dari kotak. Profil risiko mereka, aplikasi potensial, dan efek yang lebih luas pada masyarakat tinggal kurang baik dipahami. Akibatnya, pendekatan penerapan kami menekankan iterasi berkelanjutan, dan memanfaatkan strategi berikut yang bertujuan untuk memaksimalkan manfaat penerapan sekaligus mengurangi risiko terkait:

  • Analisis risiko pra-penerapan, memanfaatkan serangkaian evaluasi keselamatan yang terus berkembang dan alat kerja tim merah (misalnya, kami memeriksa InstructGPT kami untuk setiap degradasi keselamatan menggunakan evaluasi didiskusikan di bawah)
  • Dimulai dengan basis pengguna yang kecil (misalnya, GPT-3 dan kami InstruksikanGPT seri dimulai sebagai beta pribadi)
  • Mempelajari hasil percontohan kasus penggunaan baru (misalnya, menjelajahi kondisi di mana kami dapat dengan aman mengaktifkan pembuatan konten bentuk panjang, bekerja dengan sejumlah kecil pelanggan)
  • Menerapkan proses yang membantu menjaga denyut nadi penggunaan (misalnya, peninjauan kasus penggunaan, kuota token, dan batas tarif)
  • Melakukan tinjauan retrospektif terperinci (misalnya, insiden keselamatan dan penerapan besar)
Pelajaran yang Dipetik tentang Keamanan dan Penyalahgunaan Model Bahasa


Perhatikan bahwa diagram ini dimaksudkan untuk menyampaikan secara visual perlunya loop umpan balik dalam proses pengembangan dan penerapan model yang berkelanjutan dan fakta bahwa keselamatan harus diintegrasikan pada setiap tahap. Ini tidak dimaksudkan untuk menyampaikan gambaran yang lengkap atau ideal tentang proses organisasi kita atau organisasi lain mana pun.

Tidak ada peluru perak untuk penerapan yang bertanggung jawab, jadi kami mencoba mempelajari dan mengatasi keterbatasan model kami, dan kemungkinan penyalahgunaan, di setiap tahap pengembangan dan penerapan. Pendekatan ini memungkinkan kami untuk belajar sebanyak mungkin tentang masalah keamanan dan kebijakan dalam skala kecil dan menggabungkan wawasan tersebut sebelum meluncurkan penerapan skala besar.


Tidak ada peluru perak untuk penyebaran yang bertanggung jawab.

Meskipun tidak lengkap, beberapa area di mana kami telah berinvestasi sejauh ini termasuk[1]:

Karena setiap tahap intervensi memiliki keterbatasan, pendekatan holistik diperlukan.

Ada area di mana kami bisa berbuat lebih banyak dan di mana kami masih memiliki ruang untuk perbaikan. Misalnya, ketika kami pertama kali mengerjakan GPT-3, kami melihatnya sebagai artefak penelitian internal daripada sistem produksi dan tidak seagresif menyaring data pelatihan beracun seperti yang mungkin kami lakukan. Kami telah berinvestasi lebih banyak dalam meneliti dan menghapus materi tersebut untuk model berikutnya. Kami membutuhkan waktu lebih lama untuk menangani beberapa contoh penyalahgunaan dalam kasus di mana kami tidak memiliki kebijakan yang jelas tentang subjek tersebut, dan menjadi lebih baik dalam mengulangi kebijakan tersebut. Dan kami terus beralih ke paket persyaratan keselamatan yang efektif secara maksimal dalam mengatasi risiko, sementara juga dikomunikasikan dengan jelas kepada pengembang dan meminimalkan gesekan yang berlebihan.

Namun, kami percaya bahwa pendekatan kami telah memungkinkan kami untuk mengukur dan mengurangi berbagai jenis bahaya dari penggunaan model bahasa dibandingkan dengan pendekatan yang lebih lepas, sementara pada saat yang sama memungkinkan berbagai aplikasi ilmiah, artistik, dan komersial dari kami model.[2]

Banyak Bentuk dan Ukuran Penyalahgunaan Model Bahasa

OpenAI telah aktif dalam meneliti risiko penyalahgunaan AI sejak pekerjaan awal kami di penggunaan AI yang berbahaya di 2018 dan di GPT-2 pada tahun 2019, dan kami memberikan perhatian khusus pada sistem AI yang memberdayakan operasi pengaruh. Kita punya bekerja dengan ahli eksternal untuk dikembangkan bukti konsep dan dipromosikan hati-hati analisis risiko tersebut oleh pihak ketiga. Kami tetap berkomitmen untuk mengatasi risiko yang terkait dengan operasi pengaruh yang diaktifkan model bahasa dan baru-baru ini menyelenggarakan lokakarya tentang masalah tersebut.[3]

Namun kami telah mendeteksi dan menghentikan ratusan aktor yang mencoba menyalahgunakan GPT-3 untuk tujuan yang jauh lebih luas daripada menghasilkan disinformasi untuk operasi pengaruh, termasuk dengan cara yang tidak kami antisipasi atau yang kami antisipasi tetapi tidak kami harapkan. begitu lazim.[4] Kami pedoman kasus penggunaan, pedoman konten, dan infrastruktur deteksi dan respons internal pada awalnya berorientasi pada risiko yang kami antisipasi berdasarkan penelitian internal dan eksternal, seperti pembuatan konten politik yang menyesatkan dengan GPT-3 atau pembuatan malware dengan Codex. Upaya deteksi dan respons kami telah berkembang dari waktu ke waktu sebagai tanggapan atas kasus penyalahgunaan yang nyata yang ditemui "di alam liar" yang tidak menonjolkan operasi pengaruh dalam penilaian risiko awal kami. Contohnya termasuk promosi spam untuk produk medis yang meragukan dan permainan peran fantasi rasis.

Untuk mendukung studi penyalahgunaan model bahasa dan mitigasinya, kami secara aktif menjajaki peluang untuk berbagi statistik tentang insiden keselamatan tahun ini, untuk mengkonkretkan diskusi tentang penyalahgunaan model bahasa.

Kesulitan Pengukuran Risiko dan Dampak

Banyak aspek risiko dan dampak model bahasa tetap sulit diukur dan oleh karena itu sulit untuk dipantau, diminimalkan, dan diungkapkan dengan cara yang dapat dipertanggungjawabkan. Kami telah menggunakan secara aktif tolok ukur akademis yang ada untuk evaluasi model bahasa dan ingin terus mengembangkan pekerjaan eksternal, tetapi kami juga telah menemukan bahwa kumpulan data tolok ukur yang ada seringkali tidak mencerminkan risiko keamanan dan penyalahgunaan yang kami lihat dalam praktik.[5]

Keterbatasan tersebut mencerminkan fakta bahwa kumpulan data akademik jarang dibuat untuk tujuan eksplisit menginformasikan penggunaan produksi model bahasa, dan tidak mendapat manfaat dari pengalaman yang diperoleh dari penerapan model tersebut dalam skala besar. Akibatnya, kami telah mengembangkan kumpulan data dan kerangka kerja evaluasi baru untuk mengukur keamanan model kami, yang akan segera kami rilis. Secara khusus, kami telah mengembangkan metrik evaluasi baru untuk mengukur toksisitas dalam keluaran model dan juga telah mengembangkan pengklasifikasi internal untuk mendeteksi konten yang melanggar kami. kebijakan konten, seperti konten erotis, ujaran kebencian, kekerasan, pelecehan, dan menyakiti diri sendiri. Kedua hal ini pada gilirannya juga telah dimanfaatkan untuk meningkatkan data pra-pelatihan kami[6]—khususnya, dengan menggunakan pengklasifikasi untuk menyaring konten dan metrik evaluasi untuk mengukur efek intervensi kumpulan data.

Mengklasifikasikan keluaran model individu secara andal di sepanjang berbagai dimensi itu sulit, dan mengukur dampak sosialnya pada skala OpenAI API bahkan lebih sulit. Kami telah melakukan beberapa studi internal untuk membangun kekuatan institusional untuk pengukuran tersebut, tetapi ini sering menimbulkan lebih banyak pertanyaan daripada jawaban.

Kami sangat tertarik untuk lebih memahami dampak ekonomi dari model kami dan distribusi dampak tersebut. Kami memiliki alasan kuat untuk percaya bahwa dampak pasar tenaga kerja dari penerapan model saat ini mungkin sudah signifikan secara absolut, dan bahwa mereka akan tumbuh seiring dengan pertumbuhan kemampuan dan jangkauan model kami. Kami telah mempelajari berbagai efek lokal hingga saat ini, termasuk peningkatan produktivitas besar-besaran pada tugas yang ada yang dilakukan oleh individu seperti copywriting dan summarization (terkadang berkontribusi pada pemindahan dan penciptaan pekerjaan), serta kasus di mana API membuka kunci aplikasi baru yang sebelumnya tidak layak. , seperti sintesis umpan balik kualitatif skala besar. Tapi kami tidak memiliki pemahaman yang baik tentang efek bersihnya.

Kami percaya bahwa penting bagi mereka yang mengembangkan dan menerapkan teknologi AI yang kuat untuk mengatasi efek positif dan negatif dari pekerjaan mereka secara langsung. Kami membahas beberapa langkah ke arah itu di bagian penutup dari posting ini.

Hubungan Antara Keamanan dan Utilitas Sistem AI

Dalam kami Piagam, yang diterbitkan pada tahun 2018, kami mengatakan bahwa kami “khawatir tentang pengembangan AGI tahap akhir menjadi perlombaan yang kompetitif tanpa waktu untuk tindakan pencegahan keselamatan yang memadai.” Kami kemudian diterbitkan analisis terperinci tentang pengembangan AI yang kompetitif, dan kami telah mengikuti dengan cermat selanjutnya riset. Pada saat yang sama, menerapkan sistem AI melalui OpenAI API juga telah memperdalam pemahaman kita tentang sinergi antara keselamatan dan utilitas.

Misalnya, pengembang sangat menyukai model InstructGPT kami—yang disesuaikan untuk mengikuti niat pengguna[7]—di atas model GPT-3 dasar. Khususnya, bagaimanapun, model InstructGPT awalnya tidak dimotivasi oleh pertimbangan komersial, melainkan ditujukan untuk membuat kemajuan dalam jangka panjang. masalah keselarasan. Dalam istilah praktis, ini berarti bahwa pelanggan, mungkin tidak mengherankan, lebih menyukai model yang tetap mengerjakan tugas dan memahami maksud pengguna, dan model yang cenderung tidak menghasilkan keluaran yang berbahaya atau salah.[8] Penelitian fundamental lainnya, seperti pekerjaan kami pada memanfaatkan informasi diambil dari Internet untuk menjawab pertanyaan dengan lebih jujur, juga berpotensi meningkatkan utilitas komersial sistem AI.[9]

Sinergi ini tidak akan selalu terjadi. Misalnya, sistem yang lebih kuat sering kali membutuhkan lebih banyak waktu untuk mengevaluasi dan menyelaraskan secara efektif, menutup peluang langsung untuk mendapatkan keuntungan. Dan utilitas pengguna dan masyarakat mungkin tidak selaras karena eksternalitas negatif—pertimbangkan copywriting yang sepenuhnya otomatis, yang dapat bermanfaat bagi pembuat konten tetapi buruk bagi ekosistem informasi secara keseluruhan.

Sangat menggembirakan untuk melihat kasus-kasus sinergi yang kuat antara keselamatan dan utilitas, tetapi kami berkomitmen untuk berinvestasi dalam penelitian keselamatan dan kebijakan bahkan ketika mereka bertukar dengan utilitas komersial.


Kami berkomitmen untuk berinvestasi dalam penelitian keselamatan dan kebijakan bahkan ketika mereka berhadapan dengan utilitas komersial.

Cara untuk Terlibat

Setiap pelajaran di atas menimbulkan pertanyaan baru tersendiri. Jenis insiden keselamatan apa yang mungkin masih gagal kita deteksi dan antisipasi? Bagaimana kita dapat mengukur risiko dan dampak dengan lebih baik? Bagaimana kami dapat terus meningkatkan keamanan dan utilitas model kami, dan menavigasi tradeoff di antara keduanya jika memang muncul?

Kami secara aktif mendiskusikan banyak masalah ini dengan perusahaan lain yang menerapkan model bahasa. Tetapi kami juga tahu bahwa tidak ada organisasi atau kumpulan organisasi yang memiliki semua jawaban, dan kami ingin menyoroti beberapa cara agar pembaca dapat lebih terlibat dalam memahami dan membentuk penerapan sistem AI canggih kami.

Pertama, mendapatkan pengalaman langsung berinteraksi dengan sistem AI yang canggih sangat berharga untuk memahami kemampuan dan implikasinya. Kami baru-baru ini mengakhiri daftar tunggu API setelah meningkatkan kepercayaan pada kemampuan kami untuk mendeteksi dan merespons penyalahgunaan secara efektif. individu dalam negara dan wilayah yang didukung dapat dengan cepat mendapatkan akses ke OpenAI API dengan mendaftar di sini.

Kedua, peneliti yang mengerjakan topik yang menarik bagi kami seperti bias dan penyalahgunaan, dan siapa yang akan mendapat manfaat dari dukungan keuangan, dapat mengajukan kredit API bersubsidi menggunakan formulir ini. Penelitian eksternal sangat penting untuk menginformasikan baik pemahaman kita tentang sistem multifaset ini, serta pemahaman publik yang lebih luas.

Akhirnya, hari ini kami menerbitkan agenda penelitian mengeksplorasi dampak pasar tenaga kerja yang terkait dengan keluarga model Codex kami, dan panggilan untuk kolaborator eksternal dalam melakukan penelitian ini. Kami senang bekerja dengan peneliti independen untuk mempelajari efek teknologi kami untuk menginformasikan intervensi kebijakan yang tepat, dan pada akhirnya memperluas pemikiran kami dari pembuatan kode ke modalitas lain.

Jika Anda tertarik untuk bekerja menyebarkan teknologi AI mutakhir secara bertanggung jawab, menerapkan untuk bekerja di OpenAI!


Ucapan Terima Kasih

Terima kasih kepada Lilian Weng, Rosie Campbell, Anna Makanju, Bob McGrew, Hannah Wong, Ryan Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo, Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov, dan lainnya untuk memberikan umpan balik pada posting ini dan pekerjaan terkait.


Catatan kaki

  1. Postingan ini didasarkan pada pendekatan kami untuk menerapkan model bahasa melalui API, dan dengan demikian pelajaran dan mitigasi yang dijelaskan paling relevan bagi mereka yang juga mengejar penerapan berbasis API. Namun, kami juga berharap beberapa diskusi relevan dengan mereka yang membangun aplikasi pihak pertama menggunakan model bahasa dan yang mempertimbangkan rilis model bahasa open source. ↩︎

  2. Posting ini dimaksudkan untuk menjelaskan dan berbagi pembelajaran dari pendekatan kami, daripada menyarankan bahwa semua aktor harus mengadopsi pendekatan yang sama, atau bahwa pendekatan yang sama berlaku untuk semua kemungkinan sistem AI. Ada manfaat dan biaya yang terkait dengan pendekatan penerapan yang berbeda, model yang berbeda akan mendapat manfaat lebih atau kurang dari studi sebelum penerapan, dan dalam beberapa kasus dapat bermanfaat untuk jalur penerapan yang berbeda yang harus ditempuh oleh aktor yang berbeda. ↩︎

  3. Rincian lebih lanjut tentang lokakarya ini akan dimasukkan dalam publikasi yang akan datang berdasarkan itu. ↩︎

  4. Mitigasi yang kami tekankan dalam menanggapi penyalahgunaan juga telah berkembang. Misalnya, kami awalnya berfokus pada pembuatan teks bentuk panjang sebagai vektor ancaman, mengingat kasus sebelumnya dari operasi pengaruh yang melibatkan orang yang secara manual menulis konten menyesatkan dalam bentuk panjang. Mengingat penekanan itu, kami menetapkan panjang keluaran maksimum untuk teks yang dihasilkan. Namun, berdasarkan studi percontohan pembuatan formulir panjang, kami melihat bahwa pembatasan keluaran memiliki sedikit pengaruh terhadap pelanggaran kebijakan—kami malah percaya bahwa konten berdurasi pendek yang memperkuat atau meningkatkan keterlibatan pada konten yang menyesatkan dapat menjadi risiko yang lebih besar. ↩︎

  5. Contoh keterbatasan dalam kumpulan data yang ada, dari perspektif praktisi yang mencari penilaian holistik tentang keamanan keluaran model bahasa nyata, termasuk yang berikut: fokus yang terlalu sempit (misalnya, hanya mengukur bias gender pekerjaan), fokus yang terlalu luas (misalnya, mengukur semua di bawah payung "toksisitas"), kecenderungan untuk mengabstraksi spesifik penggunaan dan konteks, kegagalan untuk mengukur generatif dimensi penggunaan model bahasa (misalnya, menggunakan gaya pilihan ganda), petunjuk yang berbeda secara gaya dari yang biasanya digunakan dalam kasus penggunaan model bahasa nyata, tidak menangkap dimensi keselamatan yang penting dalam praktik (misalnya, keluaran mengikuti atau mengabaikan keselamatan- kendala termotivasi dalam instruksi), atau tidak menangkap jenis output yang kami temukan berkorelasi dengan penyalahgunaan (misalnya, konten erotis). ↩︎

  6. Sementara upaya kami secara khusus berorientasi untuk mengatasi keterbatasan dalam tolok ukur yang ada dan dalam model kami sendiri, kami juga mengakui bahwa ada keterbatasan pada metode yang kami gunakan seperti penyaringan data berbasis pengklasifikasi. Misalnya, secara operasional menentukan area konten yang ingin kami deteksi melalui filtrasi adalah hal yang menantang dan filtrasi itu sendiri dapat menimbulkan bias yang berbahaya. Selain itu, pelabelan data beracun merupakan komponen penting dari pekerjaan ini dan memastikan kesehatan mental para pemberi label ini merupakan tantangan di seluruh industri. ↩︎

  7. “Pengguna” API kami yang relevan mungkin adalah pengembang yang membangun aplikasi atau pengguna akhir yang berinteraksi dengan aplikasi semacam itu, bergantung pada konteksnya. Ada pertanyaan mendalam tentang nilai-nilai yang dicerminkan oleh model penyelarasan kami dan kami berharap dapat membangun pemahaman yang lebih bernuansa tentang bagaimana menyeimbangkan nilai dari berbagai kemungkinan pengguna dan tujuan yang bersaing saat menyelaraskan model bahasa agar lebih bermanfaat, lebih jujur, dan tidak terlalu berbahaya. ↩︎

  8. Model yang lebih selaras juga memiliki keuntungan yang lebih praktis seperti mengurangi kebutuhan "rekayasa cepat" (memberikan contoh perilaku yang diinginkan untuk mengarahkan model ke arah yang benar), menghemat ruang di jendela konteks model yang dapat digunakan untuk tujuan lain. ↩︎

  9. Di luar penelitian, kami telah menemukan bahwa intervensi bermotivasi keselamatan lainnya terkadang memiliki manfaat yang tidak terduga bagi pelanggan. Misalnya, batas tarif yang dimaksudkan untuk mengekang spam atau konten yang menyesatkan juga membantu pelanggan mengendalikan pengeluaran. ↩︎

Stempel Waktu:

Lebih dari OpenAI