Meta bygger en AI for å faktasjekke Wikipedia – alle 6.5 millioner artikler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Meta bygger en kunstig intelligens for å faktasjekke Wikipedia – alle 6.5 millioner artikler

bilde

De fleste eldre enn 30 husker nok at de forsket med gode gammeldagse oppslagsverk. Du vil trekke et tungt volum fra hyllen, sjekke indeksen for emnet du er interessert i, deretter bla til den aktuelle siden og begynne å lese. Det var ikke så lett som å skrive noen ord inn i Googles søkefelt, men på plussiden visste du at informasjonen du fant på sidene til British eller Verdensbok var nøyaktig og sann.

Ikke slik med internettforskning i dag. Det overveldende mangfoldet av kilder var forvirrende nok, men legg til spredningen av feilinformasjon og det er et rart at noen av oss tror på et ord vi leser på nettet.

Wikipedia er et eksempel. Fra begynnelsen av 2020 var nettstedets engelske versjon i gjennomsnitt ca 255 millioner sidevisninger per dag, noe som gjør det til det åttende mest besøkte nettstedet på internett. Fra forrige måned hadde den rykket opp til stedet nummer syv, og den engelske versjonen er for øyeblikket over 6.5 millioner artikler.

Men hvor mye trafikk denne informasjonskilden enn er, lar nøyaktigheten dens noe å være ønsket; de side om nettstedets egen pålitelighet heter det: "Nettleksikonet anser seg ikke for å være pålitelig som kilde og fraråder lesere fra å bruke det i akademiske eller forskningsmiljøer."

Meta – fra tidligere Facebook – ønsker å endre dette. I en blogginnlegg publisert i forrige måned, beskriver selskapets ansatte hvordan AI kan bidra til å gjøre Wikipedia mer nøyaktig.

Selv om titusenvis av mennesker deltar i redigeringen av nettstedet, er ikke faktaene de legger til nødvendigvis riktige; selv når sitater er til stede, er de ikke alltid nøyaktige og heller ikke relevante.

Meta utvikler en maskinlæringsmodell som skanner disse sitatene og kryssreferanser deres innhold til Wikipedia-artikler for å bekrefte at ikke bare emnene står på linje, men at spesifikke tall som er sitert er nøyaktige.

Dette er ikke bare et spørsmål om å plukke ut tall og sørge for at de stemmer overens; Metas AI vil trenge å "forstå" innholdet i siterte kilder (selv om "forstå" er en feilbetegnelse, som kompleksitetsteoriforsker Melanie Mitchell ville fortelle deg, fordi AI fortsatt er i den "smale" fasen, noe som betyr at det er et verktøy for svært sofistikert mønstergjenkjenning, mens "forståelse" er et ord som brukes for menneskelig erkjennelse, som fortsatt er en helt annen ting).

Metas modell vil "forstå" innhold ikke ved å sammenligne tekststrenger og sørge for at de inneholder de samme ordene, men ved å sammenligne matematiske representasjoner av tekstblokker, som den kommer frem til ved å bruke teknikker for naturlig språkforståelse (NLU).

"Det vi har gjort er å bygge en indeks over alle disse nettsidene ved å dele dem inn i passasjer og gi en nøyaktig representasjon for hver passasje," Fabio Petroni, Metas teknisk leder for Fundamental AI Research, fortalte Digitale trender. "Det er ikke å representere passasjen ord for ord, men meningen med passasjen. Det betyr at to biter av tekst med lignende betydninger vil bli representert i en veldig nær posisjon i det resulterende n-dimensjonale rommet der alle disse passasjene er lagret.»

AI blir trent på et sett med fire millioner Wikipedia-siteringer, og i tillegg til å plukke ut feil siteringer på nettstedet, vil skaperne gjerne at det til slutt skal kunne foreslå nøyaktige kilder for å ta deres plass, ved å trekke fra en massiv indeks av data som er kontinuerlig oppdatering.

En stor sak som gjenstår å løse er å jobbe i et karaktersystem for kilders pålitelighet. En artikkel fra et vitenskapelig tidsskrift vil for eksempel få høyere karakter enn et blogginnlegg. Mengden av innhold på nettet er så stor og variert at du kan finne "kilder" for å støtte omtrent alle påstander, men ved å analysere feilinformasjonen fra desinformasjonen (førstnevnte betyr feil, mens sistnevnte betyr bevisst bedrag), og fagfellevurdert fra den ikke-fagfellevurderte, den faktasjekkede fra de hastigt-slappede-sammen, er ingen liten oppgave – men en veldig viktig en når det kommer til tillit.

Meta har åpnet sin modell, og de som er nysgjerrige kan se en demo av verifiseringsverktøyet. Metas blogginnlegg bemerket at selskapet ikke samarbeider med Wikimedia om dette prosjektet, og at det fortsatt er i forskningsfasen og for øyeblikket ikke brukes til å oppdatere innhold på Wikipedia.

Hvis du forestiller deg en ikke altfor fjern fremtid hvor alt du leser på Wikipedia er nøyaktig og pålitelig, ville ikke det gjøre noen form for forskning litt for enkelt? Det er noe verdifullt med å sjekke og sammenligne ulike kilder selv, ikke sant? Det var et stort sprang å gå fra å bla gjennom tunge bøker til å skrive noen få ord inn i en søkemotor og trykke "Enter"; vil vi virkelig at Wikipedia skal bevege seg fra et forskningshopp til en kilde som får det siste ordet?

Uansett vil Metas AI-forskningsteam fortsette å jobbe mot et verktøy for å forbedre nettleksikonet. "Jeg tror vi ble drevet av nysgjerrighet på slutten av dagen," Petroni sa. "Vi ønsket å se hva som var grensen for denne teknologien. Vi var absolutt ikke sikre på om [denne AI] kunne gjøre noe meningsfullt i denne sammenhengen. Ingen hadde noen gang prøvd å gjøre noe lignende."

Bilde Credit: Gerd Altmann fra Pixabay

Tidstempel:

Mer fra Singularity Hub