Antropic, kullanıcıların değerlerine oy vermesine izin vererek demokratik bir AI chatbot inşa etti

Antropic, kullanıcıların değerlerine oy vermesine izin vererek demokratik bir AI chatbot inşa etti

Yapay zeka (AI) firması Anthropic, türünün ilk örneği olabilecek bir çalışmada, kullanıcı topluluğunun değer yargılarına göre ince ayar yapılmış büyük bir dil modeli (LLM) geliştirdi.

Halka açık birçok LLM, istenmeyen çıktıları sınırlamak amacıyla korkuluklarla (belirli davranışları belirleyen kodlanmış talimatlar) geliştirilmiştir. Örneğin Anthropic'in Claude'u ve OpenAI'nin ChatGPT'si, genellikle kullanıcılara şiddet içeren veya tartışmalı konularla ilgili çıktı taleplerine hazır bir güvenlik yanıtı verir.

Bununla birlikte, sayısız uzmanın işaret ettiği gibi, korkuluklar ve diğer müdahale teknikleri, kullanıcıların yetkilerini çalmaya hizmet edebilir. Kabul edilebilir olarak değerlendirilen şey her zaman yararlı olmayabilir ve yararlı olarak değerlendirilen şey de her zaman kabul edilebilir olmayabilir. Ahlak veya değere dayalı yargıların tanımları kültürler, toplumlar ve zaman dilimleri arasında farklılık gösterebilir.

İlgili: İngiltere, planlanan Kasım zirvesinde potansiyel yapay zeka tehditlerini hedef alacak

Bunun olası bir çözümü, kullanıcıların yapay zeka modelleri için değer uyumunu belirlemesine izin vermektir. Anthropic'in "Kolektif Anayasal Yapay Zeka" deneyi, bu "dağınık mücadeleye" yönelik bir bıçaktır.

Anthropic, Polis ve Kolektif Zeka Projesi ile işbirliği içinde, farklı demografik yapılardan 1,000 kullanıcıyı dinledi ve onlardan anket yoluyla bir dizi soruyu yanıtlamalarını istedi.

Anthropic, kullanıcıların PlatoBlockchain Veri Zekası değerlerine oy vermesine olanak tanıyarak demokratik bir yapay zeka sohbet robotu geliştirdi. Dikey Arama. Ai.
Kaynak, Antropik

Zorluk, ajansın kullanıcıların, onları uygunsuz çıktılara maruz bırakmadan neyin uygun olduğunu belirlemesine izin vermek etrafında yoğunlaşıyor. Bu, kullanıcı değerlerinin talep edilmesini ve daha sonra bu fikirlerin önceden eğitilmiş bir modele uygulanmasını içeriyordu.

Anthropic, "Anayasal Yapay Zeka" adı verilen bir yöntem kullanıyor. direkt Yüksek Lisans'ları güvenlik ve kullanışlılık açısından ayarlama çabaları. Temelde bu, modele uyması gereken kuralların bir listesini vermeyi ve daha sonra onu süreç boyunca bu kuralları uygulayacak şekilde eğitmeyi içerir; tıpkı bir anayasanın birçok ülkede yönetişimin temel belgesi olarak hizmet etmesi gibi.

Kolektif Anayasal Yapay Zeka deneyinde Anthropic, grup temelli geri bildirimi modelin yapısına entegre etmeye çalıştı. Sonuçlar, göre Anthropic'in bir blog gönderisine göre, bir LLM ürününün kullanıcılarının kolektif değerlerini belirlemelerine olanak sağlama hedefine ulaşma yolundaki diğer zorlukları aydınlatması açısından bilimsel bir başarı gibi görünüyor.

Ekibin üstesinden gelmek zorunda kaldığı zorluklardan biri, kıyaslama süreci için yeni bir yöntem bulmaktı. Bu deney türünün ilk örneği gibi göründüğünden ve Anthropic'in Anayasal Yapay Zeka metodolojisine dayandığından, temel modelleri kitle kaynaklı değerlerle ayarlanmış olanlarla karşılaştırmak için yerleşik bir test yoktur.

Sonuçta, kullanıcı oylama geri bildirimlerinden elde edilen verileri uygulayan modelin, önyargılı çıktılar alanında temel modelden "biraz" daha iyi performans gösterdiği görülüyor.

Blog yazısına göre:

“Sonuçtan ziyade, süreç konusunda heyecanlıyız. Bunun, halk üyelerinin bir grup olarak kasıtlı olarak geniş bir dil modelinin davranışını yönlendirdiği ilk örneklerden biri olabileceğine inanıyoruz. Dünyanın dört bir yanındaki toplulukların, kendi ihtiyaçlarına hizmet eden, kültürel ve bağlama özgü modelleri eğitmek için bunun gibi teknikleri geliştireceklerini umuyoruz."

Zaman Damgası:

Den fazla Cointelegraph