Nhà nghiên cứu sẽ dạy máy móc trở nên công bằng

Nhà nghiên cứu sẽ dạy máy móc trở nên công bằng

Nhà nghiên cứu sẽ dạy máy móc trở thành trí thông minh dữ liệu chuỗi khối Plato công bằng. Tìm kiếm dọc. Ái.

Giới thiệu

Thỉnh thoảng, một người có thể lấy một khái niệm trừu tượng dường như quá mơ hồ để nghiên cứu chính thức và đưa ra một định nghĩa chính thức tao nhã. Claude Shannon đã làm điều đó với thông tin, và Andrey Kolmogorov đã làm điều đó với ngẫu nhiên. Trong vài năm qua, các nhà nghiên cứu đã cố gắng làm điều tương tự đối với khái niệm công bằng trong học máy. Thật không may, điều này đã được phức tạp hơn. Khái niệm này không chỉ khó xác định hơn mà còn không thể có một định nghĩa duy nhất đáp ứng tất cả các chỉ số công bằng mong muốn. Arvind Narayaan, một nhà khoa học máy tính tại Đại học Princeton, đã có công trong việc bối cảnh hóa các quan điểm khác nhau và giúp lĩnh vực mới này tự thiết lập.

Sự nghiệp của anh ấy trải dài ở mọi cấp độ trừu tượng, từ lý thuyết đến chính sách, nhưng hành trình cuối cùng dẫn đến công việc hiện tại của anh ấy bắt đầu vào năm 2006. Năm đó, Netflix đã tài trợ cho một cuộc thi sẽ trao giải thưởng 1 triệu đô la cho bất kỳ ai cải thiện độ chính xác của hệ thống đề xuất của họ bằng cách 10%. Netflix đã cung cấp một bộ dữ liệu được cho là ẩn danh về người dùng và xếp hạng của họ, với thông tin nhận dạng cá nhân đã bị xóa. Nhưng Narayanan đã chỉ ra rằng với một kỹ thuật thống kê tinh vi, bạn chỉ cần một vài điểm dữ liệu để tiết lộ danh tính của người dùng “ẩn danh” trong tập dữ liệu.

Kể từ đó, Narayanan đã tập trung vào các lĩnh vực khác nơi lý thuyết đáp ứng thực tiễn. Thông qua Dự án Trách nhiệm Giải trình và Minh bạch Web của Princeton, nhóm của anh ấy đã phát hiện ra những cách lén lút mà các trang web theo dõi người dùng và trích xuất dữ liệu nhạy cảm. Nhóm của anh ấy phát hiện ra rằng một nhóm như Cơ quan An ninh Quốc gia có thể sử dụng dữ liệu duyệt web (cụ thể là cookie do bên thứ ba đặt) không chỉ để khám phá danh tính trong thế giới thực của người dùng mà còn để tái tạo lại 62% đến 73% lịch sử duyệt web của họ . Họ đã cho thấy rằng - để nói về nổi tiếng New Yorker hoạt hình - trên internet, các trang web hiện biết bạn là một con chó.

Trong những năm gần đây, Narayanan đã đặc biệt chuyển sang học máy — một ứng dụng của trí tuệ nhân tạo giúp máy móc có khả năng học hỏi từ dữ liệu. Trong khi hoan nghênh những tiến bộ trong AI, ông chỉ ra cách những hệ thống như vậy có thể thất bại ngay cả khi có ý định tốt và cách những công nghệ hữu ích này có thể trở thành công cụ để biện minh cho sự phân biệt đối xử. Dưới ánh sáng này, các dấu chấm dường như không liên kết với nhau đã xác định quỹ đạo nghiên cứu của Narayanan tạo thành một loại chòm sao.

Quanta đã nói chuyện với Narayanan về công việc của anh ấy về việc khử ẩn danh, tầm quan trọng của trực giác thống kê và nhiều cạm bẫy của hệ thống AI. Cuộc phỏng vấn đã được cô đọng và chỉnh sửa cho rõ ràng.

Giới thiệu

Bạn luôn muốn làm toán và nghiên cứu khoa học?

Tôi lớn lên rất quan tâm đến cả hai, nhưng chủ yếu là toán học. Tôi giỏi giải các câu đố và thậm chí đã đạt được một số thành công tại Olympic Toán học Quốc tế. Nhưng tôi đã có một quan niệm sai lầm rất lớn về sự khác biệt giữa giải câu đố và toán nghiên cứu.

Và ngay từ đầu, tôi đã tập trung nghiên cứu về mật mã, đặc biệt là mật mã lý thuyết, bởi vì tôi vẫn đang làm việc với ảo tưởng rằng mình rất giỏi toán. Và rồi phần còn lại trong sự nghiệp của tôi là một hành trình nhận ra rằng đó thực sự không phải là thế mạnh của tôi.

Điều đó hẳn đã đóng vai trò là nền tảng tốt cho công việc xóa ẩn danh của bạn.

Bạn đúng. Điều cho phép nghiên cứu loại bỏ ẩn danh là kỹ năng mà tôi gọi là trực giác thống kê. Nó không thực sự là kiến ​​​​thức toán học chính thức. Bạn có thể có một trực giác trong đầu như: “Nếu tôi lấy tập dữ liệu phức tạp này và áp dụng phép biến đổi này cho nó, thì kết quả hợp lý là gì?”

Trực giác thường có thể sai, và điều đó không sao cả. Nhưng điều quan trọng là phải có trực giác vì nó có thể hướng dẫn bạn đến những con đường có thể mang lại kết quả.

Giới thiệu

Trực giác thống kê đã giúp gì cho công việc của bạn trên dữ liệu Netflix?

Tôi đã cố gắng nghĩ ra một sơ đồ ẩn danh cho dữ liệu nhiều chiều. Nó hoàn toàn thất bại, nhưng trong quá trình thất bại, tôi đã phát triển trực giác rằng dữ liệu nhiều chiều không thể được ẩn danh một cách hiệu quả. Tất nhiên Netflix, với sự cạnh tranh của họ, tuyên bố đã làm chính xác điều đó.

Bản chất của tôi là hoài nghi các tuyên bố tiếp thị của các công ty, vì vậy tôi có động lực để chứng minh họ sai. Cố vấn của tôi, Vitaly Shmatikov, và tôi đã làm việc với nó trong vài tuần căng thẳng. Khi chúng tôi nhận ra rằng công việc thực sự có tác động, tôi bắt đầu làm nhiều hơn nữa.

Tác động tổng thể là gì? Bạn có nhận được phản hồi từ Netflix và các công ty khác có dữ liệu không hoàn toàn ẩn danh không?

Chà, một tác động tích cực là nó thúc đẩy khoa học về sự riêng tư khác biệt. Nhưng về cách các công ty phản ứng, đã có một vài phản ứng khác nhau. Trong nhiều trường hợp, các công ty lẽ ra đã phát hành bộ dữ liệu ra công chúng giờ không còn làm như vậy nữa — họ đang vũ khí hóa quyền riêng tư như một cách để chống lại các nỗ lực minh bạch.

Facebook được biết đến để làm điều này. Khi các nhà nghiên cứu truy cập Facebook và nói: “Chúng tôi cần quyền truy cập vào một số dữ liệu này để nghiên cứu cách thông tin lan truyền trên nền tảng này”, giờ đây Facebook có thể nói: “Không, chúng tôi không thể cung cấp cho bạn điều đó. Điều đó sẽ ảnh hưởng đến quyền riêng tư của người dùng của chúng tôi.”

Bạn đã từng viết một giấy lập luận rằng thuật ngữ “thông tin nhận dạng cá nhân” có thể gây hiểu nhầm. Làm thế nào vậy?

Tôi nghĩ rằng có sự nhầm lẫn giữa các nhà hoạch định chính sách phát sinh từ hai cách khác nhau trong đó thuật ngữ được sử dụng. Một là thông tin rất nhạy cảm về bạn, chẳng hạn như số an sinh xã hội của bạn. Một ý nghĩa khác là thông tin có thể được lập chỉ mục trong một số bộ dữ liệu và do đó được sử dụng để tìm thêm thông tin về bạn.

Hai cái này có ý nghĩa khác nhau. Tôi không có thịt bò với khái niệm về PII theo nghĩa đầu tiên. Một số thông tin về con người rất nhạy cảm và chúng ta nên xử lý chúng cẩn thận hơn. Tuy nhiên, mặc dù địa chỉ email của bạn không nhất thiết phải rất nhạy cảm đối với hầu hết mọi người, nhưng đó vẫn là mã định danh duy nhất có thể được sử dụng để tìm thấy bạn trong các bộ dữ liệu khác. Miễn là sự kết hợp các thuộc tính về một người có sẵn cho bất kỳ ai khác trên thế giới, đó là tất cả những gì bạn cần để hủy ẩn danh.

Giới thiệu

Làm thế nào mà cuối cùng bạn đến để nghiên cứu sự công bằng?

Tôi đã dạy một khóa học về công bằng và học máy vào năm 2017. Điều đó đã cho tôi ý tưởng tốt về các vấn đề mở trong lĩnh vực này. Và cùng với đó, tôi đã có một bài nói chuyện gọi là “21 Định nghĩa Công bằng và Chính trị của Chúng.” Tôi giải thích rằng sự phổ biến của các định nghĩa kỹ thuật không phải vì lý do kỹ thuật, mà bởi vì có những câu hỏi đạo đức thực sự ở trung tâm của tất cả những điều này. Không có cách nào bạn có thể có một tiêu chí thống kê duy nhất nắm bắt tất cả các mong muốn quy chuẩn - tất cả những điều bạn muốn. Buổi nói chuyện đã được đón nhận nồng nhiệt, vì vậy hai người đó đã cùng nhau thuyết phục tôi rằng tôi nên bắt đầu tham gia vào chủ đề này.

Bạn cũng đã nói chuyện về việc phát hiện dầu rắn AI, cũng được đón nhận nồng nhiệt. Làm thế nào điều đó liên quan đến sự công bằng trong học máy?

Vì vậy, động lực cho điều này là rõ ràng có rất nhiều đổi mới kỹ thuật thực sự xảy ra trong AI, như chương trình chuyển văn bản thành hình ảnh DALL · E 2 hoặc chương trình cờ vua alphazero. Thật đáng kinh ngạc khi tiến độ này diễn ra quá nhanh. Rất nhiều sự đổi mới đó xứng đáng được tôn vinh.

Vấn đề xảy ra khi chúng ta sử dụng thuật ngữ “AI” rất lỏng lẻo và rộng rãi này cho những thứ tương tự cũng như các ứng dụng phức tạp hơn, chẳng hạn như các phương pháp thống kê để dự đoán rủi ro tội phạm. Trong bối cảnh đó, loại công nghệ liên quan là rất khác nhau. Đây là hai loại ứng dụng rất khác nhau và những lợi ích cũng như tác hại tiềm ẩn cũng rất khác nhau. Hầu như không có mối liên hệ nào giữa chúng, vì vậy việc sử dụng cùng một thuật ngữ cho cả hai là hoàn toàn khó hiểu.

Mọi người lầm tưởng rằng tất cả những tiến bộ này mà họ đang thấy với việc tạo hình ảnh sẽ thực sự chuyển thành tiến bộ đối với các nhiệm vụ xã hội như dự đoán rủi ro tội phạm hoặc dự đoán những đứa trẻ nào sẽ bỏ học. Nhưng đó hoàn toàn không phải là trường hợp. Trước hết, chúng ta chỉ có thể làm tốt hơn một chút so với cơ hội ngẫu nhiên trong việc dự đoán ai có thể bị bắt vì phạm tội. Và độ chính xác đó đạt được với các bộ phân loại thực sự đơn giản. Nó không trở nên tốt hơn theo thời gian và cũng không trở nên tốt hơn khi chúng tôi thu thập thêm các tập dữ liệu. Vì vậy, tất cả những quan sát này đều trái ngược với việc sử dụng học sâu để tạo hình ảnh chẳng hạn.

Bạn sẽ phân biệt các loại vấn đề học máy khác nhau như thế nào?

Đây không phải là một danh sách đầy đủ, nhưng có ba loại phổ biến. Loại đầu tiên là nhận thức, bao gồm các nhiệm vụ như mô tả nội dung của hình ảnh. Loại thứ hai mà tôi gọi là “đánh giá tự động”, chẳng hạn như khi Facebook muốn sử dụng thuật toán để xác định bài phát biểu nào quá độc hại để duy trì trên nền tảng. Và thứ ba là dự đoán kết quả xã hội trong tương lai giữa mọi người - liệu ai đó sẽ bị bắt vì phạm tội hay liệu một đứa trẻ sẽ bỏ học.

Trong cả ba trường hợp, độ chính xác có thể đạt được là rất khác nhau, những nguy cơ tiềm ẩn của AI không chính xác là rất khác nhau và những tác động đạo đức kéo theo cũng rất khác nhau.

Ví dụ, nhận dạng khuôn mặt, theo cách phân loại của tôi, là một vấn đề về nhận thức. Rất nhiều người nói về việc nhận dạng khuôn mặt không chính xác và đôi khi họ đúng. Nhưng tôi không nghĩ đó là do có những giới hạn cơ bản đối với độ chính xác của nhận dạng khuôn mặt. Công nghệ đó đã được cải thiện và nó sẽ trở nên tốt hơn. Đó chính xác là lý do tại sao chúng ta nên quan tâm đến nó từ góc độ đạo đức - khi bạn đưa nó vào tay cảnh sát, những người có thể không chịu trách nhiệm hoặc các quốc gia không minh bạch về việc sử dụng nó.

Giới thiệu

Điều gì làm cho các vấn đề dự đoán xã hội khó hơn nhiều so với các vấn đề về nhận thức?

Các vấn đề về nhận thức có một số đặc điểm. Thứ nhất, không có sự mơ hồ nào về việc liệu có một con mèo trong một bức ảnh hay không. Vì vậy, bạn có sự thật cơ bản. Thứ hai, về cơ bản, bạn có dữ liệu đào tạo không giới hạn vì bạn có thể sử dụng tất cả các hình ảnh trên web. Và nếu bạn là Google hoặc Facebook, bạn có thể sử dụng tất cả hình ảnh mà mọi người đã tải lên ứng dụng của bạn. Vì vậy, hai yếu tố đó - không có sự mơ hồ và tính sẵn có của dữ liệu - cho phép các bộ phân loại hoạt động thực sự tốt.

Điều đó khác với các bài toán dự đoán, vốn không có hai đặc điểm đó. Có một sự khác biệt thứ ba mà tôi nên đề cập, mà theo một nghĩa nào đó thì đó là điều quan trọng nhất: Hậu quả đạo đức của việc đưa các mô hình dự đoán này vào hoạt động rất khác so với việc sử dụng công cụ dịch ngôn ngữ trên điện thoại hoặc công cụ dán nhãn hình ảnh của bạn.

Nhưng đó không phải là mức độ nghiêm trọng giống như công cụ được sử dụng để xác định liệu một người nào đó có nên bị giam giữ trước khi xét xử hay không. Những người có hậu quả cho tự do của người dân. Vì vậy, điều trớ trêu là lĩnh vực mà AI hoạt động kém nhất, không thực sự cải thiện theo thời gian và không có khả năng cải thiện trong tương lai lại là lĩnh vực chịu tất cả những hậu quả vô cùng quan trọng này.

Phần lớn công việc của bạn đòi hỏi phải nói chuyện với các chuyên gia bên ngoài lĩnh vực của bạn. Cảm giác cộng tác với những người khác như thế này là gì?

Hợp tác liên ngành là một số trong những hợp tác thú vị nhất. Tôi nghĩ bất kỳ sự hợp tác nào như vậy cũng sẽ có những lúc khó chịu vì mọi người không nói cùng một ngôn ngữ.

Đơn thuốc của tôi cho điều đó là: văn hóa, sau đó là ngôn ngữ, sau đó là nội dung. Nếu bạn không hiểu văn hóa của họ - chẳng hạn như loại học bổng nào họ coi trọng - thì điều đó sẽ thực sự khó khăn. Những gì có giá trị đối với một người có thể dường như không liên quan đến người khác. Vì vậy, các khía cạnh văn hóa phải được điều hướng đầu tiên. Sau đó, bạn có thể bắt đầu thiết lập một ngôn ngữ và từ vựng chung và cuối cùng đi đến bản chất của sự hợp tác.

Bạn lạc quan đến mức nào về việc liệu chúng ta có thể áp dụng công nghệ mới một cách an toàn và khôn ngoan hay không?

Một phần của vấn đề là lỗ hổng kiến ​​thức. Những người ra quyết định, cơ quan chính phủ, công ty và những người khác đang mua các công cụ AI này có thể không nhận ra các giới hạn nghiêm trọng đối với độ chính xác của dự đoán.

Nhưng cuối cùng tôi nghĩ đó là một vấn đề chính trị. Một số người muốn cắt giảm chi phí, vì vậy họ muốn có một công cụ tự động, loại bỏ công việc. Vì vậy, có một áp lực rất lớn để tin vào bất cứ điều gì các nhà cung cấp này nói về các công cụ dự đoán của họ.

Đó là hai vấn đề khác nhau. Những người như tôi có lẽ có thể giúp giải quyết lỗ hổng thông tin. Nhưng giải quyết vấn đề chính trị đòi hỏi phải có hoạt động tích cực. Nó đòi hỏi chúng ta phải tận dụng tiến trình dân chủ. Thật tốt khi thấy rằng có rất nhiều người làm điều đó. Và về lâu dài, tôi nghĩ chúng ta có thể đẩy lùi các ứng dụng có hại và lạm dụng của AI. Tôi không nghĩ rằng nó sẽ thay đổi ngay lập tức mà phải trải qua một quá trình tích cực lâu dài, kéo dài và kéo dài đã diễn ra trong một thập kỷ hoặc hơn. Tôi chắc chắn rằng nó sẽ tiếp tục trong một thời gian dài.

Dấu thời gian:

Thêm từ tạp chí lượng tử