Anthropic đã xây dựng một chatbot AI dân chủ bằng cách cho phép người dùng bỏ phiếu cho các giá trị của nó

Anthropic đã xây dựng một chatbot AI dân chủ bằng cách cho phép người dùng bỏ phiếu cho các giá trị của nó

Trong nghiên cứu đầu tiên thuộc loại này, công ty trí tuệ nhân tạo (AI) Anthropic đã phát triển một mô hình ngôn ngữ lớn (LLM) được tinh chỉnh để cộng đồng người dùng có thể đánh giá giá trị.

Nhiều LLM công khai đã được phát triển với các rào chắn - các hướng dẫn được mã hóa chỉ ra hành vi cụ thể - nhằm cố gắng hạn chế các kết quả đầu ra không mong muốn. Ví dụ: Claude của Anthropic và ChatGPT của OpenAI thường cung cấp cho người dùng phản hồi an toàn soạn sẵn đối với các yêu cầu đầu ra liên quan đến chủ đề bạo lực hoặc gây tranh cãi.

Tuy nhiên, như vô số chuyên gia đã chỉ ra, các rào chắn và các kỹ thuật can thiệp khác có thể dùng để cướp quyền của người dùng. Những gì được coi là có thể chấp nhận được không phải lúc nào cũng hữu ích và những gì được coi là hữu ích không phải lúc nào cũng được chấp nhận. Và các định nghĩa về đạo đức hoặc đánh giá dựa trên giá trị có thể khác nhau giữa các nền văn hóa, dân số và thời kỳ.

Liên quan: Vương quốc Anh nhắm mục tiêu vào các mối đe dọa AI tiềm ẩn tại hội nghị thượng đỉnh dự kiến ​​​​vào tháng XNUMX

Một giải pháp khả thi cho vấn đề này là cho phép người dùng ra lệnh căn chỉnh giá trị cho các mô hình AI. Thử nghiệm “AI hiến pháp tập thể” của Anthropic là một cú đâm vào “thử thách lộn xộn” này.

Anthropic, phối hợp với Polis và Dự án Trí tuệ Tập thể, đã khai thác 1,000 người dùng thuộc nhiều nhóm nhân khẩu học khác nhau và yêu cầu họ trả lời một loạt câu hỏi thông qua bỏ phiếu.

Anthropic đã xây dựng một chatbot AI dân chủ bằng cách cho phép người dùng bỏ phiếu cho các giá trị PlatoBlockchain Data Intelligence của nó. Tìm kiếm dọc. Ái.
nguồn, nhân loại

Thách thức xoay quanh việc cho phép người dùng mà cơ quan xác định điều gì là phù hợp mà không khiến họ gặp phải những kết quả đầu ra không phù hợp. Điều này liên quan đến việc thu hút các giá trị của người dùng và sau đó triển khai những ý tưởng đó vào một mô hình đã được đào tạo.

Anthropic sử dụng một phương pháp gọi là “AI hiến pháp” để trực tiếp nỗ lực của nó trong việc điều chỉnh LLM để đảm bảo an toàn và hữu ích. Về cơ bản, điều này liên quan đến việc cung cấp cho mô hình một danh sách các quy tắc mà nó phải tuân theo và sau đó đào tạo nó để thực hiện các quy tắc đó trong suốt quá trình của nó, giống như hiến pháp đóng vai trò là tài liệu cốt lõi cho quản trị ở nhiều quốc gia.

Trong thử nghiệm AI về Hiến pháp tập thể, Anthropic đã cố gắng tích hợp phản hồi dựa trên nhóm vào hiến pháp của mô hình. Kết quả, theo đối với một bài đăng trên blog của Anthropic, dường như đã là một thành công về mặt khoa học ở chỗ nó làm sáng tỏ những thách thức tiếp theo nhằm đạt được mục tiêu cho phép người dùng sản phẩm LLM xác định các giá trị chung của họ.

Một trong những khó khăn mà nhóm phải vượt qua là tìm ra một phương pháp mới cho quy trình đo điểm chuẩn. Vì thử nghiệm này dường như là thử nghiệm đầu tiên thuộc loại này và nó dựa trên phương pháp AI Hiến pháp của Anthropic, nên không có thử nghiệm nào được thiết lập để so sánh các mô hình cơ sở với các mô hình được điều chỉnh bằng các giá trị có nguồn gốc từ cộng đồng.

Cuối cùng, có vẻ như mô hình triển khai dữ liệu thu được từ phản hồi thăm dò ý kiến ​​của người dùng đã vượt trội hơn mô hình cơ sở “một chút” trong lĩnh vực đầu ra sai lệch.

Theo bài đăng trên blog:

“Hơn cả mô hình thu được, chúng tôi rất hào hứng với quá trình này. Chúng tôi tin rằng đây có thể là một trong những trường hợp đầu tiên trong đó các thành viên của công chúng, với tư cách là một nhóm, cố tình chỉ đạo hành vi của một mô hình ngôn ngữ lớn. Chúng tôi hy vọng rằng các cộng đồng trên khắp thế giới sẽ dựa trên những kỹ thuật như thế này để đào tạo các mô hình phù hợp với bối cảnh và văn hóa cụ thể phục vụ nhu cầu của họ.”

Dấu thời gian:

Thêm từ Cointelegraph