Anthropic membangun chatbot AI yang demokratis dengan memungkinkan pengguna memilih nilai-nilainya

Anthropic membangun chatbot AI yang demokratis dengan memungkinkan pengguna memilih nilai-nilainya

Dalam studi yang mungkin merupakan penelitian pertama kali ini, perusahaan kecerdasan buatan (AI) Anthropic telah mengembangkan model bahasa besar (LLM) yang telah disesuaikan untuk penilaian nilai oleh komunitas penggunanya.

Banyak LLM yang berhubungan dengan publik telah dikembangkan dengan pagar pembatas โ€” instruksi terkode yang menentukan perilaku tertentu โ€” sebagai upaya untuk membatasi keluaran yang tidak diinginkan. Claude dari Anthropic dan ChatGPT OpenAI, misalnya, biasanya memberi pengguna respons keamanan terekam terhadap permintaan keluaran yang terkait dengan topik kekerasan atau kontroversial.

Namun, seperti yang telah ditunjukkan oleh banyak pakar, pagar pembatas dan teknik intervensi lainnya dapat berfungsi untuk merampas hak pilihan pengguna. Apa yang dianggap dapat diterima belum tentu bermanfaat, dan apa yang dianggap bermanfaat belum tentu dapat diterima. Dan definisi moralitas atau penilaian berdasarkan nilai dapat bervariasi antar budaya, masyarakat, dan periode waktu.

Terkait: Inggris akan menargetkan potensi ancaman AI pada pertemuan puncak bulan November yang direncanakan

Salah satu solusi yang mungkin untuk mengatasi masalah ini adalah dengan memungkinkan pengguna menentukan penyelarasan nilai untuk model AI. Eksperimen โ€œCollective Constitutional AIโ€ yang dilakukan oleh Anthropic merupakan upaya untuk mengatasi โ€œtantangan yang berantakanโ€ ini.

Anthropic, bekerja sama dengan Polis dan Collective Intelligence Project, menjangkau 1,000 pengguna dari berbagai demografi dan meminta mereka menjawab serangkaian pertanyaan melalui polling.

Anthropic membangun chatbot AI yang demokratis dengan memungkinkan pengguna memilih nilai-nilainya. PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Sumber, Antropik

Tantangannya berpusat pada pemberian kesempatan kepada pengguna lembaga untuk menentukan apa yang sesuai tanpa memaparkan mereka pada keluaran yang tidak sesuai. Hal ini melibatkan pengumpulan nilai-nilai pengguna dan kemudian menerapkan ide-ide tersebut ke dalam model yang telah dilatih.

Anthropic menggunakan metode yang disebut โ€œAI Konstitusionalโ€ untuk langsung upayanya dalam menyesuaikan LLM untuk keamanan dan kegunaan. Pada dasarnya, hal ini melibatkan pemberian daftar peraturan yang harus dipatuhi oleh model tersebut dan kemudian melatih model tersebut untuk menerapkan peraturan tersebut di seluruh prosesnya, seperti halnya konstitusi yang berfungsi sebagai dokumen inti pemerintahan di banyak negara.

Dalam eksperimen AI Konstitusi Kolektif, Anthropic berupaya mengintegrasikan umpan balik berbasis kelompok ke dalam konstitusi model. Hasil, menurut ke postingan blog dari Anthropic, tampaknya merupakan keberhasilan ilmiah karena menjelaskan tantangan lebih lanjut dalam mencapai tujuan yang memungkinkan pengguna produk LLM menentukan nilai kolektif mereka.

Salah satu kesulitan yang harus diatasi oleh tim adalah menemukan metode baru untuk proses benchmarking. Karena eksperimen ini tampaknya merupakan yang pertama dari jenisnya, dan bergantung pada metodologi AI Konstitusional Anthropic, tidak ada pengujian yang dapat dilakukan untuk membandingkan model dasar dengan model yang disesuaikan dengan nilai-nilai yang bersumber dari banyak orang.

Pada akhirnya, tampaknya model yang menerapkan data yang dihasilkan dari umpan balik jajak pendapat pengguna โ€œsedikitโ€ mengungguli model dasar dalam hal keluaran yang bias.

Per posting blog:

โ€œLebih dari model yang dihasilkan, kami sangat antusias dengan prosesnya. Kami percaya bahwa ini mungkin salah satu contoh pertama di mana anggota masyarakat, sebagai sebuah kelompok, dengan sengaja mengarahkan perilaku model bahasa yang besar. Kami berharap komunitas di seluruh dunia akan memanfaatkan teknik seperti ini untuk melatih model yang spesifik secara budaya dan konteks untuk memenuhi kebutuhan mereka.โ€

Stempel Waktu:

Lebih dari Cointelegraph