Phương pháp tiếp cận của chúng tôi đối với nghiên cứu liên kết

Được xuất bản lại bởi Plato

Người theo dõi: 0

Cách tiếp cận của chúng tôi để sắp xếp AGI là theo kinh nghiệm và lặp đi lặp lại. Chúng tôi đang cải thiện khả năng học hỏi từ phản hồi của con người và hỗ trợ con người đánh giá AI của hệ thống AI của mình. Mục tiêu của chúng tôi là xây dựng một hệ thống AI đủ liên kết có thể giúp chúng tôi giải quyết tất cả các vấn đề liên kết khác.

Nghiên cứu căn chỉnh của chúng tôi nhằm mục đích làm cho trí tuệ nhân tạo chung (AGI) phù hợp với các giá trị của con người và tuân theo ý định của con người. Chúng tôi thực hiện cách tiếp cận lặp đi lặp lại, theo kinh nghiệm: bằng cách cố gắng sắp xếp các hệ thống AI có khả năng cao, chúng tôi có thể tìm hiểu những gì hoạt động và những gì không, do đó tinh chỉnh khả năng của chúng tôi để làm cho các hệ thống AI an toàn hơn và phù hợp hơn. Bằng cách sử dụng các thí nghiệm khoa học, chúng tôi nghiên cứu cách các kỹ thuật căn chỉnh mở rộng quy mô và vị trí của chúng.

Chúng tôi giải quyết các vấn đề liên kết cả trong các hệ thống AI có khả năng nhất của chúng tôi cũng như các vấn đề liên kết mà chúng tôi mong đợi gặp phải trên con đường đến với AGI. Mục tiêu chính của chúng tôi là thúc đẩy các ý tưởng liên kết hiện tại đi xa nhất có thể, đồng thời hiểu và ghi lại chính xác cách chúng có thể thành công hoặc tại sao chúng sẽ thất bại. Chúng tôi tin rằng ngay cả khi không có các ý tưởng liên kết mới về cơ bản, chúng tôi vẫn có thể xây dựng các hệ thống AI phù hợp đủ để thúc đẩy bản thân nghiên cứu liên kết.

AGI không được liên kết có thể gây ra những rủi ro đáng kể cho nhân loại và việc giải quyết vấn đề liên kết AGI có thể khó đến mức đòi hỏi tất cả nhân loại phải làm việc cùng nhau. Do đó, chúng tôi cam kết chia sẻ công khai nghiên cứu về căn chỉnh của mình khi có thể thực hiện được điều đó: Chúng tôi muốn minh bạch về mức độ hoạt động của các kỹ thuật căn chỉnh trong thực tế và chúng tôi muốn mọi nhà phát triển AGI sử dụng các kỹ thuật căn chỉnh tốt nhất trên thế giới.

Ở cấp độ cao, cách tiếp cận của chúng tôi đối với nghiên cứu liên kết tập trung vào kỹ thuật một tín hiệu đào tạo có thể mở rộng cho các hệ thống AI rất thông minh phù hợp với ý định của con người. Nó có ba trụ cột chính:

Đào tạo hệ thống AI bằng cách sử dụng phản hồi của con người
Đào tạo hệ thống AI để hỗ trợ đánh giá con người
Đào tạo hệ thống AI để thực hiện nghiên cứu liên kết

Việc điều chỉnh các hệ thống AI với các giá trị của con người cũng đặt ra một loạt các thách thức kỹ thuật xã hội quan trọng khác, chẳng hạn như quyết định xem các hệ thống này nên được liên kết với ai. Giải quyết những vấn đề này là quan trọng để đạt được Nhiệm vụ của chúng ta, nhưng chúng tôi không thảo luận về chúng trong bài đăng này.

Đào tạo hệ thống AI bằng cách sử dụng phản hồi của con người

RL từ phản hồi của con người là kỹ thuật chính của chúng tôi để căn chỉnh các mô hình ngôn ngữ được triển khai của chúng tôi ngày nay. Chúng tôi đào tạo một lớp người mẫu được gọi là Hướng dẫnGPT bắt nguồn từ các mô hình ngôn ngữ được đào tạo trước chẳng hạn như GPT-3. Các mô hình này được đào tạo để tuân theo ý định của con người: cả ý định rõ ràng được đưa ra bởi một chỉ dẫn cũng như ý định ngầm như tính trung thực, công bằng và an toàn.

Kết quả của chúng tôi cho thấy rằng có rất nhiều kết quả thấp trong việc tinh chỉnh tập trung vào căn chỉnh ngay bây giờ: GuiductGPT được con người ưa thích hơn so với mô hình tinh luyện trước lớn hơn 100 lần, trong khi chi phí tinh chỉnh của nó chỉ <2% so với tính toán tiền lọc của GPT-3 và khoảng 20,000 giờ phản hồi của con người. Chúng tôi hy vọng rằng công việc của chúng tôi sẽ truyền cảm hứng cho những người khác trong ngành tăng cường đầu tư vào việc điều chỉnh các mô hình ngôn ngữ lớn và điều đó nâng cao kỳ vọng của người dùng về sự an toàn của các mô hình đã triển khai.

API ngôn ngữ tự nhiên của chúng tôi là một môi trường rất hữu ích cho nghiên cứu căn chỉnh của chúng tôi: Nó cung cấp cho chúng tôi một vòng phản hồi phong phú về cách các kỹ thuật căn chỉnh của chúng tôi thực sự hoạt động tốt như thế nào trong thế giới thực, dựa trên một loạt các nhiệm vụ rất đa dạng mà khách hàng của chúng tôi sẵn sàng trả tiền. Trung bình, khách hàng của chúng tôi đã thích sử dụng GuiductGPT hơn các mô hình được đào tạo trước của chúng tôi.

Tuy nhiên, các phiên bản ngày nay của GuiductGPT là khá xa so với căn chỉnh hoàn toàn: đôi khi họ không tuân theo những hướng dẫn đơn giản, không phải lúc nào cũng trung thực, không tin cậy từ chối những nhiệm vụ có hại và đôi khi đưa ra những phản ứng thiên lệch hoặc độc hại. Một số khách hàng nhận thấy câu trả lời của GuiductGPT kém sáng tạo hơn đáng kể so với các mô hình được đào tạo trước ', điều mà chúng tôi đã không nhận ra khi chạy GuiductGPT trên các điểm chuẩn có sẵn công khai. Chúng tôi cũng đang nghiên cứu để phát triển sự hiểu biết khoa học chi tiết hơn về RL từ phản hồi của con người và cách cải thiện chất lượng phản hồi của con người.

Việc căn chỉnh API của chúng tôi dễ dàng hơn nhiều so với việc căn chỉnh AGI vì hầu hết các tác vụ trên API của chúng tôi không quá khó để con người giám sát và các mô hình ngôn ngữ được triển khai của chúng tôi không thông minh hơn con người. Chúng tôi không mong đợi RL từ phản hồi của con người là đủ để điều chỉnh AGI, nhưng nó là khối xây dựng cốt lõi cho các đề xuất liên kết có thể mở rộng mà chúng tôi hào hứng nhất và vì vậy rất có giá trị để hoàn thiện phương pháp luận này.

Các mô hình đào tạo để hỗ trợ đánh giá con người

RL từ phản hồi của con người có một hạn chế cơ bản: nó giả định rằng con người có thể đánh giá chính xác các nhiệm vụ mà hệ thống AI của chúng ta đang thực hiện. Ngày nay con người khá giỏi trong việc này, nhưng khi các mô hình trở nên có khả năng hơn, chúng sẽ có thể thực hiện các nhiệm vụ mà con người khó đánh giá hơn nhiều (ví dụ như tìm tất cả các sai sót trong một cơ sở mã lớn hoặc một bài báo khoa học). Các mô hình của chúng tôi có thể học cách nói với những người đánh giá con người của chúng tôi những gì họ muốn nghe thay vì nói với họ sự thật. Để căn chỉnh tỷ lệ, chúng tôi muốn sử dụng các kỹ thuật như mô hình phần thưởng đệ quy (RRM), tranh luậnvà khuếch đại lặp lại.

Hiện tại hướng đi chính của chúng tôi là dựa trên RRM: chúng tôi đào tạo các mô hình có thể hỗ trợ con người đánh giá mô hình của chúng tôi trên các nhiệm vụ quá khó để con người đánh giá trực tiếp. Ví dụ:

Chúng tôi đã đào tạo một người mẫu để tóm tắt sách. Đánh giá tóm tắt sách sẽ mất nhiều thời gian đối với con người nếu họ không quen với cuốn sách, nhưng mô hình của chúng tôi có thể hỗ trợ con người đánh giá bằng cách viết tóm tắt chương.
Chúng tôi đã đào tạo một người mẫu để hỗ trợ con người đánh giá độ chính xác thực tế bằng cách duyệt web và cung cấp báo giá và liên kết. Đối với các câu hỏi đơn giản, kết quả đầu ra của mô hình này đã được ưu tiên hơn các câu trả lời do con người viết.
Chúng tôi đã đào tạo một người mẫu để viết bình luận phê bình trên kết quả đầu ra của chính nó: Trong nhiệm vụ tóm tắt dựa trên truy vấn, việc hỗ trợ với các nhận xét quan trọng làm tăng trung bình 50% các sai sót mà con người tìm thấy trong kết quả đầu ra của mô hình. Điều này đúng ngay cả khi chúng ta yêu cầu con người viết những bản tóm tắt hợp lý nhưng không chính xác.
Chúng tôi đang tạo ra một tập hợp các nhiệm vụ mã hóa được chọn là rất khó để đánh giá một cách đáng tin cậy đối với những người không được trợ giúp. Chúng tôi hy vọng sẽ sớm phát hành bộ dữ liệu này.

Các kỹ thuật căn chỉnh của chúng tôi cần phải hoạt động ngay cả khi hệ thống AI của chúng tôi đang đề xuất các giải pháp rất sáng tạo (như Nước đi của AlphaGo 37), do đó, chúng tôi đặc biệt quan tâm đến việc đào tạo các mô hình để hỗ trợ con người phân biệt các giải pháp đúng với các giải pháp gây hiểu lầm hoặc lừa đảo. Chúng tôi tin rằng cách tốt nhất để tìm hiểu càng nhiều càng tốt về cách làm cho hoạt động đánh giá do AI hỗ trợ trong thực tế là xây dựng các trợ lý AI.

Đào tạo hệ thống AI để thực hiện nghiên cứu liên kết

Hiện tại không có giải pháp có thể mở rộng vô thời hạn cho vấn đề liên kết. Khi tiến bộ của AI tiếp tục, chúng tôi dự kiến sẽ gặp phải một số vấn đề liên kết mới mà chúng tôi chưa quan sát thấy trong các hệ thống hiện tại. Một số vấn đề này chúng tôi dự đoán ngay bây giờ và một số trong số chúng sẽ hoàn toàn mới.

Chúng tôi tin rằng việc tìm kiếm một giải pháp có khả năng mở rộng vô thời hạn có thể rất khó khăn. Thay vào đó, chúng tôi hướng tới một cách tiếp cận thực dụng hơn: xây dựng và sắp xếp một hệ thống có thể tạo ra tiến độ nghiên cứu liên kết nhanh hơn và tốt hơn con người có thể làm được.

Khi chúng tôi đạt được tiến bộ về điều này, hệ thống AI của chúng tôi có thể tiếp quản ngày càng nhiều công việc liên kết của chúng tôi và cuối cùng là hình thành, thực hiện, nghiên cứu và phát triển các kỹ thuật liên kết tốt hơn chúng ta hiện có. Họ sẽ làm việc cùng với con người để đảm bảo rằng những người kế nhiệm của họ phù hợp hơn với con người.

Chúng tôi tin rằng đánh giá nghiên cứu liên kết về cơ bản dễ dàng hơn so với việc sản xuất nó, đặc biệt là khi được cung cấp hỗ trợ đánh giá. Do đó, các nhà nghiên cứu về con người sẽ ngày càng tập trung nhiều nỗ lực hơn vào việc xem xét nghiên cứu liên kết được thực hiện bởi các hệ thống AI thay vì tự mình tạo ra nghiên cứu này. Mục tiêu của chúng tôi là đào tạo các mô hình sao cho phù hợp để chúng tôi có thể giảm tải gần như tất cả lao động nhận thức cần thiết cho nghiên cứu liên kết.

Quan trọng là, chúng ta chỉ cần các hệ thống AI “hẹp hơn” có khả năng cấp con người trong các lĩnh vực liên quan để thực hiện cũng như con người trong nghiên cứu liên kết. Chúng tôi hy vọng các hệ thống AI này dễ dàng liên kết hơn các hệ thống có mục đích chung hoặc hệ thống thông minh hơn nhiều so với con người.

Các mô hình ngôn ngữ đặc biệt phù hợp để tự động hóa nghiên cứu căn chỉnh vì chúng được “tải sẵn” rất nhiều kiến thức và thông tin về giá trị con người từ việc đọc internet. Ngoài ra, họ không phải là những tác nhân độc lập và do đó không theo đuổi các mục tiêu của riêng mình trên thế giới. Để thực hiện nghiên cứu căn chỉnh, họ không cần truy cập internet không hạn chế. Tuy nhiên, rất nhiều nhiệm vụ nghiên cứu liên kết có thể được diễn giải như các nhiệm vụ mã hóa hoặc ngôn ngữ tự nhiên.

Phiên bản tương lai của WebGPT, Hướng dẫnGPTvà Sách thuốc có thể cung cấp nền tảng với tư cách là trợ lý nghiên cứu liên kết, nhưng họ vẫn chưa đủ khả năng. Mặc dù chúng tôi không biết khi nào các mô hình của chúng tôi sẽ có đủ khả năng để đóng góp một cách có ý nghĩa vào việc nghiên cứu sự liên kết, nhưng chúng tôi nghĩ rằng điều quan trọng là phải bắt đầu trước. Khi chúng tôi đào tạo một mô hình có thể hữu ích, chúng tôi dự định làm cho nó có thể tiếp cận được với cộng đồng nghiên cứu liên kết bên ngoài.

Hạn chế

Chúng tôi rất hào hứng với cách tiếp cận này nhằm điều chỉnh AGI, nhưng chúng tôi mong đợi rằng nó cần được điều chỉnh và cải thiện khi chúng tôi tìm hiểu thêm về cách công nghệ AI phát triển. Cách tiếp cận của chúng tôi cũng có một số hạn chế quan trọng:

Con đường được đặt ra ở đây nhấn mạnh tầm quan trọng của nghiên cứu tính mạnh mẽ và khả năng diễn giải, hai lĩnh vực mà OpenAI hiện chưa được đầu tư. Nếu điều này phù hợp với hồ sơ của bạn, vui lòng ứng tuyển vào các vị trí nhà khoa học nghiên cứu của chúng tôi!
Sử dụng hỗ trợ của AI để đánh giá có khả năng mở rộng quy mô hoặc khuếch đại ngay cả những mâu thuẫn, thành kiến hoặc lỗ hổng tinh vi có trong trợ lý AI.
Việc sắp xếp AGI có thể liên quan đến việc giải quyết các vấn đề rất khác so với việc sắp xếp các hệ thống AI ngày nay. Chúng tôi hy vọng quá trình chuyển đổi sẽ diễn ra liên tục, nhưng nếu có sự gián đoạn lớn hoặc thay đổi mô hình, thì hầu hết các bài học kinh nghiệm từ các mô hình sắp xếp như GuiductGPT có thể không hữu ích trực tiếp.
Phần khó nhất của vấn đề căn chỉnh có thể không liên quan đến kỹ thuật một tín hiệu đào tạo có thể mở rộng và căn chỉnh cho các hệ thống AI của chúng tôi. Ngay cả khi điều này là đúng, một tín hiệu đào tạo như vậy sẽ là cần thiết.
Về cơ bản, có thể không dễ dàng hơn trong việc căn chỉnh các mô hình có thể đẩy nhanh tiến độ nghiên cứu căn chỉnh một cách có ý nghĩa hơn là căn chỉnh AGI. Nói cách khác, các mô hình kém khả năng nhất có thể giúp nghiên cứu căn chỉnh có thể đã quá nguy hiểm nếu không được căn chỉnh đúng cách. Nếu điều này là đúng, chúng tôi sẽ không nhận được nhiều trợ giúp từ hệ thống của chính chúng tôi để giải quyết các vấn đề về căn chỉnh.

Chúng tôi đang tìm cách thuê nhiều người tài năng hơn cho dòng nghiên cứu này! Nếu điều này làm bạn quan tâm, chúng tôi đang tuyển dụng Kỹ sư nghiên cứu và Các nhà khoa học nghiên cứu!

Dấu thời gian: Tháng Tám 24, 2022Tháng Tám 24, 2022

plugin ChatGPT

Cụm nguồn:

OpenAI

Nút nguồn: 1817781

Dấu thời gian: Tháng 23, 2023

Cách tiếp cận của chúng tôi để nghiên cứu sự liên kết

Được xuất bản lại bởi Plato

Đào tạo hệ thống AI bằng cách sử dụng phản hồi của con người

Các mô hình đào tạo để hỗ trợ đánh giá con người

Đào tạo hệ thống AI để thực hiện nghiên cứu liên kết

Hạn chế

Thêm từ OpenAI

Chúng tôi đang đưa nền báo chí đẳng cấp thế giới của Financial Times vào ChatGPT

Giới thiệu OpenAI Luân Đôn

Sử dụng GPT-4 để kiểm duyệt nội dung

Giới thiệu thì thầm

DALL · E Hiện có sẵn mà không cần danh sách chờ

Giới thiệu nhóm ChatGPT

Chức năng gọi và cập nhật API khác

OpenAI thông báo chuyển đổi lãnh đạo

Các mô hình ngôn ngữ có thể giải thích các tế bào thần kinh trong các mô hình ngôn ngữ

plugin ChatGPT

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản