Meta construit une IA pour vérifier les faits sur Wikipédia – les 6.5 millions d'articles PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Meta construit une IA pour vérifier les faits sur Wikipédia - tous les 6.5 millions d'articles

image

La plupart des personnes de plus de 30 ans se souviennent probablement d'avoir fait des recherches avec de bonnes encyclopédies à l'ancienne. Vous tireriez un gros volume de l'étagère, vérifieriez l'index de votre sujet d'intérêt, puis retourneriez à la page appropriée et commenceriez à lire. Ce n'était pas aussi simple que de taper quelques mots dans la barre de recherche Google, mais du côté positif, vous saviez que les informations que vous trouviez dans les pages du Britannique au sein de l’ Livre du monde était exact et vrai.

Ce n'est pas le cas avec la recherche sur Internet aujourd'hui. La multitude écrasante de sources était suffisamment déroutante, mais ajoutez la prolifération de la désinformation et il est étonnant que l'un d'entre nous croie un mot que nous lisons en ligne.

Wikipédia en est un bon exemple. Au début de 2020, la version anglaise du site comptait en moyenne environ 255 millions pages vues par jour, ce qui en fait le huitième site Web le plus visité sur Internet. Depuis le mois dernier, il était passé à la place Numéro sept, et la version anglaise compte actuellement plus de 6.5 millions articles.

Mais aussi achalandé que puisse être cette source d'information incontournable, sa précision laisse à désirer; la page à propos de la propre fiabilité du site déclare: "L'encyclopédie en ligne ne se considère pas comme une source fiable et décourage les lecteurs de l'utiliser dans des contextes universitaires ou de recherche."

Meta - de l'ancien Facebook - veut changer cela. Dans un blog récents publié le mois dernier, les employés de l'entreprise décrivent comment l'IA pourrait aider à rendre Wikipedia plus précis.

Bien que des dizaines de milliers de personnes participent à l'édition du site, les faits qu'ils ajoutent ne sont pas nécessairement corrects ; même lorsque des citations sont présentes, elles ne sont pas toujours exactes ni même pertinentes.

Meta développe un modèle d'apprentissage automatique qui analyse ces citations et renvoie leur contenu aux articles de Wikipédia pour vérifier que non seulement les sujets s'alignent, mais que les chiffres spécifiques cités sont exacts.

Il ne s'agit pas seulement de choisir des chiffres et de s'assurer qu'ils correspondent ; L'IA de Meta devra « comprendre » le contenu des sources citées (bien que « comprendre » soit un terme impropre, comme l'a indiqué Melanie Mitchell, chercheuse en théorie de la complexité. te dirais, parce que l'IA est encore dans la phase "étroite", c'est-à-dire qu'elle est un outil de reconnaissance de formes très sophistiqué, alors que "compréhension" est un mot utilisé pour la cognition humaine, ce qui est encore une chose très différente).

Le modèle de Meta "comprendra" le contenu non pas en comparant des chaînes de texte et en s'assurant qu'elles contiennent les mêmes mots, mais en comparant des représentations mathématiques de blocs de texte, auxquelles il parvient en utilisant des techniques de compréhension du langage naturel (NLU).

"Ce que nous avons fait, c'est de créer un index de toutes ces pages Web en les divisant en passages et en fournissant une représentation précise pour chaque passage", Fabio Petroni, responsable principal de la technologie Fundamental AI Research chez Meta, dit Tendances numériques. « Il ne s'agit pas de représenter mot à mot le passage, mais le sens du passage. Cela signifie que deux morceaux de texte avec des significations similaires seront représentés dans une position très proche dans l'espace à n dimensions résultant où tous ces passages sont stockés.

L'IA est en cours de formation sur un ensemble de quatre millions de citations de Wikipédia, et en plus de sélectionner les citations erronées sur le site, ses créateurs aimeraient qu'elle puisse éventuellement suggérer des sources précises pour prendre leur place, en s'appuyant sur un index massif de données qui est mise à jour en continu.

Un gros problème à résoudre est de travailler dans un système de notation pour la fiabilité des sources. Un article d'une revue scientifique, par exemple, recevrait une note plus élevée qu'un article de blog. La quantité de contenu en ligne est si vaste et variée que vous pouvez trouver des « sources » pour étayer à peu près n'importe quelle affirmation, mais en analysant la désinformation de la désinformation (la première signifie incorrecte, tandis que la seconde signifie délibérément trompeuse) et le peer-reviewed du non évalué par les pairs, du fait vérifié du giflé à la hâte, n'est pas une mince tâche, mais une tâche très importante en matière de confiance.

Meta a ouvert son modèle, et ceux qui sont curieux peuvent voir un demo de l'outil de vérification. Le billet de blog de Meta a noté que la société n'est pas en partenariat avec Wikimedia sur ce projet, et qu'il est encore en phase de recherche et n'est pas actuellement utilisé pour mettre à jour le contenu sur Wikipedia.

Si vous imaginez un avenir pas trop lointain où tout ce que vous lisez sur Wikipédia est exact et fiable, cela ne rendrait-il pas trop facile toute recherche ? Il y a quelque chose de précieux à vérifier et à comparer nous-mêmes diverses sources, n'est-ce pas ? C'était un grand pas en avant pour passer de la pagination dans des livres lourds à la saisie de quelques mots dans un moteur de recherche et en appuyant sur "Entrée" ; voulons-nous vraiment que Wikipédia passe d'un point de départ pour la recherche à une source qui donne le dernier mot ?

Dans tous les cas, l'équipe de recherche sur l'IA de Meta continuera à travailler sur un outil pour améliorer l'encyclopédie en ligne. "Je pense que nous étions motivés par la curiosité à la fin de la journée", Petroni a affirmé Valérie Plante.. « Nous voulions voir quelle était la limite de cette technologie. Nous n'étions absolument pas sûrs que [cette IA] puisse faire quoi que ce soit de significatif dans ce contexte. Personne n'avait jamais essayé de faire quelque chose de semblable.

Crédit image: Gerd Altmann De Pixabay

Horodatage:

Plus de Singularity Hub