Việc gắn kết AI với các giá trị con người có ý nghĩa gì? Thông tin dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Điều đó có nghĩa là gì khi sắp xếp AI với các giá trị của con người?

Giới thiệu

Nhiều năm trước, tôi đã học lập trình trên một máy Symbolics Lisp cũ. Hệ điều hành có một lệnh tích hợp đánh vần là “DWIM”, viết tắt của “Do What I Mean”. Nếu tôi gõ một lệnh và gặp lỗi, tôi có thể gõ “DWIM” và máy sẽ cố gắng tìm ra ý định của tôi. Một phần thời gian đáng ngạc nhiên, nó thực sự hoạt động.

Lệnh DWIM là một mô hình thu nhỏ của vấn đề hiện đại hơn về “căn chỉnh AI”: Con người chúng ta có xu hướng đưa ra cho máy những chỉ dẫn mơ hồ hoặc sai lầm và chúng ta muốn chúng làm theo ý mình chứ không nhất thiết phải làm theo những gì chúng ta nói.

Máy tính thường hiểu sai những gì chúng ta muốn chúng làm, với những kết quả bất ngờ và thường gây cười. Ví dụ, một nhà nghiên cứu máy học, trong khi điều tra kết quả tốt một cách đáng ngờ của chương trình phân loại hình ảnh, phát hiện rằng nó không dựa trên sự phân loại dựa trên hình ảnh mà dựa trên thời gian truy cập tệp hình ảnh - hình ảnh từ các lớp khác nhau được lưu trữ trong cơ sở dữ liệu với thời gian truy cập hơi khác nhau. Nữa lập trình viên táo bạo muốn máy hút bụi Roomba của mình ngừng va vào đồ nội thất, vì vậy anh ấy đã kết nối Roomba với một mạng nơ-ron thưởng cho tốc độ nhưng trừng phạt Roomba khi cản trước va chạm với thứ gì đó. Cỗ máy đáp ứng những mục tiêu này bằng cách luôn lái lùi.

Nhưng cộng đồng các nhà nghiên cứu căn chỉnh AI nhìn thấy mặt tối của những giai thoại này. Trên thực tế, họ tin rằng việc máy móc không thể phân biệt được chúng ta thực sự muốn chúng làm gì là một rủi ro hiện hữu. Họ tin rằng để giải quyết vấn đề này, chúng ta phải tìm cách sắp xếp các hệ thống AI phù hợp với sở thích, mục tiêu và giá trị của con người.

Quan điểm này trở nên nổi bật với cuốn sách bán chạy nhất năm 2014 Giám sát của nhà triết học Nick Bostrom, lập luận một phần rằng trí thông minh ngày càng tăng của máy tính có thể gây ra mối đe dọa trực tiếp cho tương lai của nhân loại. Bostrom chưa bao giờ định nghĩa chính xác trí thông minh, nhưng, giống như hầu hết những người khác trong cộng đồng liên kết AI, ông đã áp dụng một định nghĩa sau đó. khớp nối bởi nhà nghiên cứu AI Stuart russell như: “Nói một cách đại khái, một thực thể được coi là thông minh nếu nó chọn những hành động được cho là sẽ đạt được mục tiêu của nó, dựa trên những gì nó đã nhận thức được.”

Bostrom dựa trên quan điểm của mình về rủi ro của AI dựa trên hai luận điểm. Đầu tiên là luận điểm về tính trực giao, theo cách nói của Bostrom, “Trí thông minh và các mục tiêu cuối cùng là các trục trực giao dọc theo đó các tác nhân khả dĩ có thể tự do thay đổi. Nói cách khác, về nguyên tắc, ít nhiều bất kỳ mức độ thông minh nào cũng có thể được kết hợp với ít nhiều bất kỳ mục tiêu cuối cùng nào.” Thứ hai là luận điểm hội tụ công cụ, ngụ ý rằng một tác nhân thông minh sẽ hành động theo những cách thúc đẩy sự tồn tại, tự cải thiện và thu thập tài nguyên của chính nó, miễn là những điều này làm cho tác nhân có nhiều khả năng đạt được mục tiêu cuối cùng hơn. Sau đó, ông đưa ra một giả định cuối cùng: Các nhà nghiên cứu sẽ sớm tạo ra một siêu trí tuệ nhân tạo AI - một trí tuệ “vượt xa hiệu suất nhận thức của con người trong hầu hết các lĩnh vực quan tâm”.

Đối với Bostrom và những người khác trong cộng đồng liên kết AI, viễn cảnh này báo hiệu sự diệt vong cho nhân loại trừ khi chúng ta thành công trong việc sắp xếp các AI siêu thông minh phù hợp với mong muốn và giá trị của chúng ta. Bostrom minh họa mối nguy hiểm này bằng một thí nghiệm tưởng tượng nổi tiếng hiện nay: Hãy tưởng tượng đưa cho một trí tuệ nhân tạo siêu thông minh mục tiêu tối đa hóa việc sản xuất kẹp giấy. Theo các luận điểm của Bostrom, trong nhiệm vụ đạt được mục tiêu này, hệ thống AI sẽ sử dụng khả năng sáng tạo và tài năng siêu phàm của mình để tăng sức mạnh và khả năng kiểm soát của chính nó, cuối cùng sẽ thu được tất cả các nguồn lực của thế giới để sản xuất nhiều kẹp giấy hơn. Nhân loại sẽ chết, nhưng sản xuất kẹp giấy thực sự sẽ được tối đa hóa.

Nếu bạn tin rằng trí thông minh được xác định bởi khả năng đạt được mục tiêu, rằng bất kỳ mục tiêu nào cũng có thể được con người “chèn” vào một tác nhân AI siêu trí tuệ và rằng một tác nhân như vậy sẽ sử dụng trí tuệ siêu phàm của mình để làm bất cứ điều gì để đạt được mục tiêu đó, thì bạn sẽ đến cùng một phần kết luận mà Russell đã làm: “Tất cả những gì cần thiết để đảm bảo thảm họa là một cỗ máy có năng lực cao kết hợp với con người, những người có khả năng không hoàn hảo trong việc xác định hoàn toàn và chính xác sở thích của con người.”

Đó là một câu chuyện quen thuộc trong khoa học viễn tưởng — loài người đang bị đe dọa bởi những cỗ máy mất kiểm soát đã hiểu sai mong muốn của con người. Giờ đây, một bộ phận không đáng kể của cộng đồng nghiên cứu AI đang lo ngại sâu sắc về loại kịch bản này diễn ra trong đời thực. Hàng chục viện nghiên cứu đã chi hàng trăm triệu đô la cho vấn đề này và các nỗ lực nghiên cứu về sự liên kết đang được tiến hành tại các trường đại học trên khắp thế giới và tại các công ty AI lớn như Google, Meta và OpenAI.

Còn những rủi ro tức thời hơn do AI không siêu thông minh gây ra, chẳng hạn như mất việc làm, thiên vị, vi phạm quyền riêng tư và lan truyền thông tin sai lệch thì sao? Nó chỉ ra rằng có rất ít sự chồng chéo giữa các cộng đồng chủ yếu quan tâm đến những rủi ro ngắn hạn như vậy và những người lo lắng nhiều hơn về những rủi ro liên kết dài hạn hơn. Trên thực tế, có một cuộc chiến về văn hóa AI, với một bên lo lắng về những rủi ro hiện tại này hơn là những gì họ coi là chủ nghĩa tương lai công nghệ phi thực tế, và bên kia coi các vấn đề hiện tại ít cấp bách hơn những rủi ro thảm khốc tiềm ẩn do AI siêu thông minh gây ra.

Đối với nhiều người bên ngoài các cộng đồng cụ thể này, sự liên kết của AI giống như một tôn giáo - một tôn giáo với các nhà lãnh đạo được tôn kính, học thuyết không bị nghi ngờ và các đệ tử tận tụy chiến đấu với kẻ thù có khả năng toàn năng (AI siêu thông minh không được phân bổ). Thật vậy, nhà khoa học máy tính và blogger Scott Aaronson gần đây lưu ý rằng hiện có các nhánh “Chính thống” và “Cải cách” của niềm tin liên kết AI. Anh ấy viết, điều trước đây gần như hoàn toàn lo lắng về “AI bị điều chỉnh sai lệch đánh lừa con người trong khi nó hoạt động để tiêu diệt họ”. Ngược lại, anh ấy viết, “chúng tôi Cải cách những người mạo hiểm với AI giải trí cho khả năng đó, nhưng ít nhất chúng tôi cũng lo lắng về những AI mạnh mẽ được vũ khí hóa bởi những người xấu, thứ mà chúng tôi cho rằng sẽ gây ra rủi ro tồn tại sớm hơn nhiều.”

Nhiều nhà nghiên cứu đang tích cực tham gia vào các dự án dựa trên sự liên kết, từ cố gắng truyền đạt các nguyên tắc của triết học đạo đức cho máy móc, để đào tạo mô hình ngôn ngữ lớn dựa trên các đánh giá đạo đức dựa trên nguồn lực cộng đồng. Không có nỗ lực nào trong số này đặc biệt hữu ích trong việc khiến máy móc suy luận về các tình huống trong thế giới thực. Nhiều tác giả đã ghi nhận nhiều trở ngại ngăn cản máy móc học hỏi các sở thích và giá trị của con người: Con người thường phi lý trí và hành xử theo những cách mâu thuẫn với giá trị của họ, và các giá trị có thể thay đổi qua các đời và các thế hệ của từng cá nhân. Rốt cuộc, không rõ chúng ta nên để máy móc cố gắng học hỏi những giá trị nào.

Nhiều người trong cộng đồng liên kết nghĩ rằng con đường hứa hẹn nhất phía trước là một kỹ thuật học máy được gọi là học tăng cường nghịch đảo (IRL). Với IRL, máy không được đặt mục tiêu tối đa hóa; những người ủng hộ căn chỉnh tin rằng những mục tiêu “được chèn” như vậy có thể vô tình dẫn đến các tình huống tối đa hóa kẹp giấy. Thay vào đó, nhiệm vụ của máy là quan sát hành vi của con người và suy ra sở thích, mục tiêu và giá trị của họ. Trong những năm gần đây, các nhà nghiên cứu đã sử dụng IRL để đào tạo máy để chơi trò chơi điện tử bằng cách quan sát con người và dạy robot cách lộn ngược bằng cách cung cấp cho họ phản hồi gia tăng từ con người (mọi người đã xem các đoạn phim ngắn về các nỗ lực khác nhau của rô-bốt và chọn một nỗ lực trông đẹp nhất).

Không rõ liệu các phương pháp tương tự có thể dạy cho máy móc những ý tưởng tinh tế và trừu tượng hơn về các giá trị của con người hay không. Nhà văn Brian Christian, tác giả của một cuốn sách khoa học phổ biến về sự liên kết AI, lạc quan: “Thật không quá khi tưởng tượng việc thay thế khái niệm mơ hồ về 'lật ngược' bằng một khái niệm thậm chí còn mơ hồ và khó tả hơn, chẳng hạn như 'sự hữu ích'. Hay 'lòng tốt'. Hoặc hành vi 'tốt'.

Tuy nhiên, tôi nghĩ rằng điều này đánh giá thấp thách thức. Các khái niệm đạo đức như lòng tốt và hành vi tốt phức tạp và phụ thuộc vào ngữ cảnh hơn nhiều so với bất kỳ điều gì mà IRL đã nắm vững cho đến nay. Hãy xem xét khái niệm “tính trung thực” — một giá trị mà chúng ta chắc chắn muốn có trong các hệ thống AI của mình. Thật vậy, một vấn đề lớn với các mô hình ngôn ngữ lớn ngày nay là chúng không có khả năng phân biệt sự thật với sự giả dối. Đồng thời, đôi khi chúng ta có thể muốn các trợ lý AI của mình, giống như con người, tiết chế tính trung thực của họ: để bảo vệ quyền riêng tư, tránh xúc phạm người khác hoặc để giữ an toàn cho ai đó, trong vô số tình huống khó diễn đạt khác.

Các khái niệm đạo đức khác cũng phức tạp không kém. Rõ ràng rằng bước đầu tiên cần thiết để dạy máy móc các khái niệm đạo đức là cho phép máy móc nắm bắt các khái niệm giống con người ngay từ đầu, điều mà tôi đã lập luận vẫn là của AI. vấn đề mở quan trọng nhất.

Hơn nữa, tôi thấy một vấn đề thậm chí còn cơ bản hơn với các khái niệm khoa học cơ bản về sự liên kết của AI. Hầu hết các cuộc thảo luận đều tưởng tượng AI siêu thông minh như một cỗ máy, mặc dù vượt qua con người trong mọi nhiệm vụ nhận thức, nhưng vẫn thiếu ý thức chung giống con người và về bản chất vẫn là máy móc một cách kỳ lạ. Và quan trọng là, để phù hợp với luận điểm về tính trực giao của Bostrom, cỗ máy đã đạt được trí tuệ siêu việt mà không có bất kỳ mục tiêu hay giá trị nào của riêng nó, thay vào đó chờ đợi các mục tiêu do con người đưa vào.

Tuy nhiên, trí thông minh có thể làm việc theo cách này? Không có gì trong khoa học tâm lý học hoặc khoa học thần kinh hiện tại ủng hộ khả năng này. Ít nhất ở con người, trí thông minh có mối liên hệ sâu sắc với các mục tiêu và giá trị của chúng ta, cũng như ý thức về bản thân và môi trường văn hóa, xã hội cụ thể của chúng ta. Trực giác rằng một loại trí thông minh thuần túy có thể tách rời khỏi các yếu tố khác này đã dẫn đến nhiều dự đoán thất bại trong lịch sử của AI. Từ những gì chúng ta biết, có vẻ như nhiều khả năng các mục tiêu của hệ thống AI thông minh nói chung không thể dễ dàng đưa vào, mà sẽ phải phát triển, giống như mục tiêu của chúng ta, do sự giáo dục về văn hóa và xã hội của chính nó.

Trong cuốn sách của mình Tương thích con người, Russell lập luận về tính cấp thiết của việc nghiên cứu vấn đề liên kết: “Thời điểm thích hợp để lo lắng về một vấn đề nghiêm trọng có thể xảy ra đối với nhân loại không chỉ phụ thuộc vào thời điểm xảy ra vấn đề mà còn phụ thuộc vào thời gian chuẩn bị và thực hiện giải pháp. ” Nhưng nếu không hiểu rõ hơn về trí thông minh là gì và nó có thể tách biệt như thế nào với các khía cạnh khác trong cuộc sống của chúng ta, thì chúng ta thậm chí không thể xác định được vấn đề, càng không thể tìm ra giải pháp. Xác định đúng và giải quyết vấn đề liên kết sẽ không dễ dàng; nó sẽ yêu cầu chúng ta phát triển một lý thuyết rộng rãi, dựa trên cơ sở khoa học về trí thông minh.

Dấu thời gian:

Thêm từ tạp chí lượng tử