Meta đang xây dựng AI để kiểm tra tính xác thực của Wikipedia—tất cả 6.5 triệu bài viết Thông tin dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Meta đang xây dựng một AI để kiểm tra sự thật trên Wikipedia — tất cả 6.5 triệu bài báo

hình ảnh

Hầu hết những người trên 30 tuổi có thể nhớ đã thực hiện nghiên cứu với những cuốn bách khoa toàn thư lỗi thời. Bạn sẽ lôi một cuốn sách nặng trịch ra khỏi giá, kiểm tra chỉ mục cho chủ đề bạn quan tâm, sau đó lật sang trang thích hợp và bắt đầu đọc. Nó không dễ dàng như gõ một vài từ vào thanh tìm kiếm của Google, nhưng về mặt tích cực, bạn biết rằng thông tin bạn tìm thấy trong các trang của Anh hoặc là Sách thế giới là chính xác và đúng sự thật.

Không phải như vậy với nghiên cứu internet ngày nay. Vô số nguồn áp đảo đã đủ khó hiểu, nhưng thêm vào đó là sự gia tăng của thông tin sai lệch và thật ngạc nhiên khi bất kỳ ai trong chúng ta tin vào một từ mà chúng ta đọc được trên mạng.

Wikipedia là một trường hợp điển hình. Tính đến đầu năm 2020, phiên bản tiếng Anh của trang web đạt trung bình khoảng 255 triệu lượt xem trang mỗi ngày, khiến nó trở thành trang web được truy cập nhiều thứ tám trên internet. Tính đến tháng trước, nó đã tăng lên vị trí số bảy, và bản tiếng Anh hiện đã có hơn 6.5 triệu bài viết.

Nhưng nguồn thông tin truy cập này có thể có lưu lượng truy cập cao như thế nào, độ chính xác của nó khiến người ta mong muốn điều gì đó; các trang về độ tin cậy của chính trang web, "Bách khoa toàn thư trực tuyến không coi mình là nguồn đáng tin cậy và không khuyến khích người đọc sử dụng nó trong môi trường học thuật hoặc nghiên cứu."

Meta—của Facebook cũ—muốn thay đổi điều này. trong một blog đăng bài được xuất bản vào tháng trước, các nhân viên của công ty đã mô tả cách AI có thể giúp Wikipedia trở nên chính xác hơn.

Mặc dù hàng chục nghìn người tham gia chỉnh sửa trang web, nhưng thông tin họ thêm vào không nhất thiết phải chính xác; ngay cả khi có trích dẫn, chúng không phải lúc nào cũng chính xác và thậm chí không liên quan.

Meta đang phát triển một mô hình học máy quét các trích dẫn này và tham chiếu chéo nội dung của chúng với các bài viết trên Wikipedia để xác minh rằng không chỉ các chủ đề được xếp thẳng hàng mà cả các số liệu cụ thể được trích dẫn là chính xác.

Đây không chỉ là vấn đề chọn ra các con số và đảm bảo chúng khớp nhau; AI của Meta sẽ cần phải “hiểu” nội dung của các nguồn được trích dẫn (mặc dù “hiểu” là một cách gọi sai, như nhà nghiên cứu lý thuyết phức tạp Melanie Mitchell sẽ nói với bạn, bởi vì AI vẫn đang trong giai đoạn “hẹp”, nghĩa là nó là một công cụ để nhận dạng mẫu rất tinh vi, trong khi “hiểu” là một từ được sử dụng cho nhận thức của con người, đây vẫn là một điều rất khác).

Mô hình của Meta sẽ “hiểu” nội dung không phải bằng cách so sánh các chuỗi văn bản và đảm bảo chúng chứa các từ giống nhau, mà bằng cách so sánh các biểu diễn toán học của các khối văn bản mà nó đạt được bằng cách sử dụng các kỹ thuật hiểu ngôn ngữ tự nhiên (NLU).

“Những gì chúng tôi đã làm là xây dựng một chỉ mục cho tất cả các trang web này bằng cách chia nhỏ chúng thành các đoạn văn và cung cấp phần trình bày chính xác cho từng đoạn văn,” Fabio Petroni, Giám đốc công nghệ Nghiên cứu AI cơ bản của Meta, cho biết. nói với Xu hướng kỹ thuật số. “Đó không phải là đại diện cho từng chữ của đoạn văn, mà là ý nghĩa của đoạn văn. Điều đó có nghĩa là hai đoạn văn bản có ý nghĩa tương tự nhau sẽ được biểu diễn ở một vị trí rất gần trong không gian n chiều thu được, nơi tất cả các đoạn này được lưu trữ.”

Trí tuệ nhân tạo đang được đào tạo dựa trên một tập hợp gồm bốn triệu trích dẫn Wikipedia và bên cạnh việc chọn ra những trích dẫn bị lỗi trên trang web, những người tạo ra nó muốn cuối cùng nó có thể đề xuất các nguồn chính xác để thay thế chúng, lấy từ một chỉ mục dữ liệu khổng lồ đó là liên tục cập nhật.

Một vấn đề lớn cần giải quyết là làm việc trong một hệ thống phân loại độ tin cậy của nguồn tin. Ví dụ, một bài báo từ một tạp chí khoa học sẽ nhận được điểm cao hơn một bài đăng trên blog. Lượng nội dung trực tuyến quá lớn và đa dạng đến mức bạn có thể tìm thấy “nguồn” để hỗ trợ cho bất kỳ khiếu nại nào, nhưng phân tích thông tin sai lệch từ thông tin sai lệch (nguồn trước có nghĩa là không chính xác, trong khi nguồn sau có nghĩa là lừa dối có chủ ý) và đánh giá ngang hàng từ việc không được đánh giá ngang hàng, được kiểm tra thực tế từ việc vội vàng kết hợp với nhau, không phải là nhiệm vụ nhỏ - nhưng là một nhiệm vụ rất quan trọng khi nói đến sự tin tưởng.

Meta đã mã nguồn mở mô hình của nó và những ai tò mò có thể xem một bản demo của công cụ xác minh. Bài đăng trên blog của Meta lưu ý rằng công ty không hợp tác với Wikimedia trong dự án này và nó vẫn đang trong giai đoạn nghiên cứu và hiện không được sử dụng để cập nhật nội dung trên Wikipedia.

Nếu bạn tưởng tượng về một tương lai không xa nơi mà mọi thứ bạn đọc trên Wikipedia đều chính xác và đáng tin cậy, thì chẳng phải điều đó sẽ khiến việc thực hiện bất kỳ loại nghiên cứu nào trở nên quá dễ dàng sao? Có một cái gì đó có giá trị về việc tự mình kiểm tra và so sánh các nguồn khác nhau, phải không? Đó là một bước nhảy vọt khi chuyển từ việc lật trang qua những cuốn sách nặng nề sang việc gõ một vài từ vào công cụ tìm kiếm và nhấn “Enter”; chúng ta có thực sự muốn Wikipedia chuyển từ điểm xuất phát nghiên cứu sang nguồn lấy từ cuối cùng không?

Trong mọi trường hợp, nhóm nghiên cứu AI của Meta sẽ tiếp tục làm việc hướng tới một công cụ để cải thiện bách khoa toàn thư trực tuyến. “Tôi nghĩ rằng chúng tôi đã bị thúc đẩy bởi sự tò mò vào cuối ngày,” Petroni nói. “Chúng tôi muốn xem giới hạn của công nghệ này là gì. Chúng tôi hoàn toàn không chắc liệu [AI này] có thể làm bất cứ điều gì có ý nghĩa trong bối cảnh này hay không. Chưa từng có ai cố gắng làm điều gì đó tương tự.”

Ảnh: Gerd Altmann từ Pixabay

Dấu thời gian:

Thêm từ Trung tâm cá biệt