Meta создает искусственный интеллект для проверки фактов в Википедии — все 6.5 миллионов статей. PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Meta создает ИИ для проверки фактов из Википедии — всех 6.5 миллионов статей

изображение

Большинство людей старше 30 лет, вероятно, помнят, как проводили исследования в старых добрых энциклопедиях. Вы бы взяли с полки увесистый том, проверили указатель на интересующую вас тему, затем перелистнули на соответствующую страницу и начали читать. Это было не так просто, как ввести несколько слов в строку поиска Google, но с другой стороны, вы знали, что информация, которую вы нашли на страницах Британская или Всемирная книга был точен и верен.

Не так обстоят дела с интернет-исследованиями сегодня. Подавляющее множество источников достаточно сбивало с толку, но добавьте распространение дезинформации, и удивительно, что кто-то из нас верит слову, прочитанному в Интернете.

Википедия тому пример. По состоянию на начало 2020 года англоязычная версия сайта в среднем составляла около 255 млн просмотров страниц в день, что делает его восьмым по посещаемости веб-сайтом в Интернете. По состоянию на прошлый месяц он поднялся на номер семь, а в английской версии в настоящее время более 6.5 млн статей.

Но каким бы интенсивным ни был этот источник информации, его точность оставляет желать лучшего; в страница о собственной надежности сайта говорится: «Онлайн-энциклопедия не считает себя надежным источником и не рекомендует читателям использовать ее в академических или исследовательских целях».

Мета из бывшего Facebook хочет это изменить. В блоге опубликованном в прошлом месяце, сотрудники компании описывают, как искусственный интеллект может помочь сделать Википедию более точной.

Хотя в редактировании сайта участвуют десятки тысяч людей, добавляемые ими факты не обязательно верны; даже когда цитаты присутствуют, они не всегда точны и даже уместны.

Meta разрабатывает модель машинного обучения, которая сканирует эти цитаты и делает перекрестные ссылки на их содержание со статьями Википедии, чтобы убедиться, что не только темы совпадают, но и конкретные приведенные цифры являются точными.

Это не просто вопрос выбора чисел и проверки их совпадения; ИИ Meta должен будет «понимать» содержание цитируемых источников (хотя «понимать» — неправильное название, как утверждает исследователь теории сложности Мелани Митчелл). сказал бы вам, потому что ИИ все еще находится в «узкой» фазе, что означает, что это инструмент для очень сложного распознавания образов, в то время как «понимание» — это слово, используемое для человеческого познания, что все еще совсем другое).

Модель Meta будет «понимать» контент не путем сравнения текстовых строк и проверки того, что они содержат одни и те же слова, а путем сравнения математических представлений блоков текста, к которым она приходит с использованием методов понимания естественного языка (NLU).

«Что мы сделали, так это создали индекс всех этих веб-страниц, разбив их на отрывки и предоставив точное представление для каждого отрывка», — Фабио Петрони, ведущий технический менеджер Meta по фундаментальным исследованиям ИИ, заявил Цифровые тенденции. «Это не дословное представление отрывка, а смысл отрывка. Это означает, что два куска текста со схожим значением будут представлены в очень близком положении в результирующем n-мерном пространстве, где хранятся все эти отрывки».

ИИ обучается на наборе из четырех миллионов цитат из Википедии, и, помимо выявления ошибочных цитат на сайте, его создатели хотели бы, чтобы он в конечном итоге мог предлагать точные источники на их место, извлекая из огромного индекса данных, который постоянно обновляется.

Одна большая проблема, которую осталось решить, — это работа над системой оценки надежности источников. Например, статья из научного журнала получит более высокую оценку, чем запись в блоге. Количество онлайн-контента настолько велико и разнообразно, что вы можете найти «источники», подтверждающие практически любое утверждение, но отделяя дезинформацию от дезинформации (первое означает неверную, а второе означает преднамеренно вводящую в заблуждение) и рецензируемую информацию. из непроверенного, проверенного факта из наспех собранного — непростая задача, но очень важная, когда дело доходит до доверия.

Meta выложила свою модель в открытый доступ, и те, кому интересно, могут увидеть демонстрация средства проверки. В сообщении в блоге Meta отмечается, что компания не сотрудничает с Викимедиа в этом проекте, что он все еще находится на стадии исследования и в настоящее время не используется для обновления контента в Википедии.

Если представить себе недалекое будущее, в котором все, что вы читаете в Википедии, является точным и достоверным, не упростит ли это какое-либо исследование? Есть что-то ценное в самостоятельной проверке и сравнении различных источников, не так ли? Это был большой скачок, чтобы перейти от листания страниц тяжелых книг к вводу нескольких слов в поисковую систему и нажатию «Enter»; действительно ли мы хотим, чтобы Википедия превратилась из отправной точки исследования в источник, который получает последнее слово?

В любом случае группа исследователей искусственного интеллекта Meta продолжит работу над инструментом для улучшения онлайн-энциклопедии. «Думаю, в конце концов нами руководило любопытство», — сказал Петрони. — сказал. «Мы хотели увидеть, каков предел этой технологии. Мы были абсолютно не уверены, сможет ли [этот ИИ] сделать что-нибудь значимое в этом контексте. Никто никогда не пытался сделать что-то подобное».

Изображение Фото: Герд Альтманн от Pixabay

Отметка времени:

Больше от Singularity Hub