Meta bouwt een AI om Wikipedia te factchecken - alle 6.5 miljoen artikelen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Meta bouwt een AI om Wikipedia te controleren - alle 6.5 miljoen artikelen

beeld

De meeste mensen ouder dan 30 herinneren zich waarschijnlijk dat ze onderzoek deden met goede ouderwetse encyclopedieën. Je zou een dik boek van de plank trekken, de index controleren op het onderwerp dat je interesseert, dan naar de juiste pagina bladeren en beginnen met lezen. Het was niet zo eenvoudig als het typen van een paar woorden in de Google-zoekbalk, maar aan de positieve kant wist u dat de informatie die u op de pagina's van de Brits of de Wereld boek nauwkeurig en waar was.

Niet zo met internetonderzoek vandaag. De overweldigende veelheid aan bronnen was al verwarrend genoeg, maar voeg de wildgroei aan verkeerde informatie toe en het is een wonder dat iemand van ons een woord gelooft dat we online lezen.

Wikipedia is daar een voorbeeld van. Vanaf begin 2020 was de Engelse versie van de site gemiddeld ongeveer 255 miljoen paginaweergaven per dag, waarmee het de achtste meest bezochte website op internet is. Sinds vorige maand was het naar plek verplaatst nummer zeven, en de Engelse versie heeft momenteel meer dan 6.5 miljoen artikelen.

Maar hoe druk deze go-to-informatiebron ook is, de nauwkeurigheid laat te wensen over; de pagina over de betrouwbaarheid van de site zelf zegt: "De online encyclopedie beschouwt zichzelf niet als betrouwbaar als bron en ontmoedigt lezers om het te gebruiken in academische of onderzoeksomgevingen."

Meta - van het voormalige Facebook - wil hier verandering in brengen. In een blogpost vorige maand gepubliceerd, beschrijven de medewerkers van het bedrijf hoe AI kan helpen Wikipedia nauwkeuriger te maken.

Hoewel tienduizenden mensen deelnemen aan het bewerken van de site, zijn de feiten die ze toevoegen niet noodzakelijk correct; zelfs als er citaten aanwezig zijn, zijn ze niet altijd juist en zelfs niet relevant.

Meta ontwikkelt een machine learning-model dat deze citaten scant en hun inhoud kruisverwijst naar Wikipedia-artikelen om te verifiëren dat niet alleen de onderwerpen op een rij staan, maar ook dat specifieke geciteerde cijfers juist zijn.

Dit is niet alleen een kwestie van nummers uitkiezen en ervoor zorgen dat ze overeenkomen; Meta's AI zal de inhoud van geciteerde bronnen moeten "begrijpen" (hoewel "begrijpen" een verkeerde benaming is, zoals complexiteitstheorie-onderzoeker Melanie Mitchell zou je vertellen, omdat AI zich nog in de "smalle" fase bevindt, wat betekent dat het een hulpmiddel is voor zeer geavanceerde patroonherkenning, terwijl "begrijpen" een woord is dat wordt gebruikt voor menselijke cognitie, wat nog steeds iets heel anders is).

Meta's model zal inhoud niet "begrijpen" door tekstreeksen te vergelijken en ervoor te zorgen dat ze dezelfde woorden bevatten, maar door wiskundige representaties van tekstblokken te vergelijken, waartoe het komt met behulp van natuurlijke taalbegrip (NLU) technieken.

"Wat we hebben gedaan, is een index van al deze webpagina's maken door ze in passages op te delen en voor elke passage een nauwkeurige weergave te geven", Fabio Petroni, tech lead manager Fundamental AI Research van Meta, vertelde Digital Trends. “Dat vertegenwoordigt niet woord voor woord de passage, maar de betekenis van de passage. Dat betekent dat twee stukken tekst met vergelijkbare betekenissen zeer dicht bij elkaar worden weergegeven in de resulterende n-dimensionale ruimte waar al deze passages zijn opgeslagen.

De AI wordt getraind op een reeks van vier miljoen Wikipedia-citaten, en naast het uitkiezen van foutieve citaten op de site, zouden de makers ervan willen dat het uiteindelijk in staat zou zijn nauwkeurige bronnen voor te stellen om hun plaats in te nemen, gebruikmakend van een enorme index van gegevens die continu updaten.

Een groot probleem dat nog moet worden opgelost, is het werken in een beoordelingssysteem voor de betrouwbaarheid van bronnen. Een paper uit een wetenschappelijk tijdschrift zou bijvoorbeeld een hoger cijfer krijgen dan een blogpost. De hoeveelheid online inhoud is zo groot en gevarieerd dat je 'bronnen' kunt vinden om zowat elke bewering te ondersteunen, maar door de verkeerde informatie te ontleden van de desinformatie (de eerste betekent onjuist, terwijl de laatste opzettelijke misleiding betekent), en de peer-reviewed van de niet-peer-reviewed, de op feiten gecontroleerde van de haastig in elkaar geslagen, is geen kleine taak, maar een zeer belangrijke als het gaat om vertrouwen.

Meta heeft zijn model open source gemaakt en degenen die nieuwsgierig zijn, kunnen een demonstratie van de verificatietool. Meta's blogpost merkte op dat het bedrijf niet samenwerkt met Wikimedia aan dit project, en dat het zich nog in de onderzoeksfase bevindt en momenteel niet wordt gebruikt om inhoud op Wikipedia bij te werken.

Als je je een niet al te verre toekomst voorstelt waarin alles wat je op Wikipedia leest accuraat en betrouwbaar is, zou dat het doen van onderzoek dan niet een beetje te gemakkelijk maken? Er is iets waardevols aan het zelf controleren en vergelijken van verschillende bronnen, nietwaar? Het was een grote sprong om van het bladeren door zware boeken naar het typen van een paar woorden in een zoekmachine en op "Enter" drukken; willen we echt dat Wikipedia verandert van een startpunt voor onderzoek naar een bron die het laatste woord krijgt?

In ieder geval zal Meta's AI-onderzoeksteam blijven werken aan een tool om de online encyclopedie te verbeteren. "Ik denk dat we uiteindelijk werden gedreven door nieuwsgierigheid," Petroni zei. “We wilden zien wat de limiet was van deze technologie. We waren er absoluut niet zeker van of [deze AI] iets zinvols zou kunnen doen in deze context. Niemand had ooit geprobeerd iets soortgelijks te doen.”

Krediet van het beeld: Gerd Altmann oppompen van Pixabay

Tijdstempel:

Meer van Hub voor singulariteit