Meta rakentaa tekoälyä Wikipedian faktojen tarkistamiseksi – kaikki 6.5 miljoonaa artikkelia PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Meta rakentaa tekoälyä Wikipedian faktojen tarkistamiseksi – kaikki 6.5 miljoonaa artikkelia

kuva

Useimmat yli 30-vuotiaat ihmiset muistavat todennäköisesti tutkineensa vanhoja hyviä tietosanakirjoja. Ottaisit hyllyltä raskaan niteen, tarkistat kiinnostavan aiheesi hakemistosta, käännät sitten oikealle sivulle ja aloitat lukemisen. Se ei ollut niin helppoa kuin muutaman sanan kirjoittaminen Google-hakupalkkiin, mutta plussaa oli, että tiesit, että sivuilta löytämäsi tiedot Britannica tai Maailman kirja oli tarkka ja totta.

Ei niin Internet-tutkimuksen kanssa nykyään. Valtava joukko lähteitä oli riittävän hämmentävää, mutta lisäämällä siihen väärän tiedon leviämistä, on ihme, että kukaan meistä uskoo netistä lukemansa sanan.

Wikipedia on esimerkki. Vuoden 2020 alussa sivuston englanninkielinen versio oli keskimäärin noin 255 euroa näyttökertoja päivässä, joten se on kahdeksanneksi vierailluin verkkosivusto Internetissä. Viime kuussa se oli noussut paikalleen numero seitsemän, ja englanninkielinen versio on tällä hetkellä ohi 6.5 euroa artikkeleita.

Mutta niin vilkas kuin tämä tietolähde onkin, sen tarkkuus jättää toivomisen varaa; the sivulla Sivuston omasta luotettavuudesta todetaan: "Verkkotietosanakirja ei pidä itseään luotettavana lähteenä ja estää lukijoita käyttämästä sitä akateemisissa tai tutkimusympäristöissä."

Entisen Facebookin Meta haluaa muuttaa tämän. Jonkin sisällä blogi Viime kuussa julkaistussa yrityksen työntekijät kuvailevat, kuinka tekoäly voisi auttaa tekemään Wikipediasta tarkemman.

Vaikka kymmenet tuhannet ihmiset osallistuvat sivuston muokkaamiseen, heidän lisäämänsä tosiasiat eivät välttämättä pidä paikkaansa; vaikka lainaukset olisivat mukana, ne eivät aina ole tarkkoja eivätkä edes oleellisia.

Meta kehittää koneoppimismallia, joka skannaa nämä viittaukset ja ristiviittaukset niiden sisällöstä Wikipedian artikkeleihin varmistaakseen, että aiheiden lisäksi tietyt lainatut luvut ovat oikeita.

Tämä ei ole vain numeroiden poimiminen ja niiden yhteensopivuuden varmistaminen. Metan tekoälyn tulee "ymmärtää" lainattujen lähteiden sisältö (vaikka "ymmärrä" on väärinkäyttö, kuten monimutkaisuusteorian tutkija Melanie Mitchell kertoisin sinulle, koska tekoäly on vielä "kapeassa" vaiheessa, mikä tarkoittaa, että se on työkalu erittäin kehittyneeseen hahmontunnistukseen, kun taas "ymmärtäminen" on sana, jota käytetään ihmisen kognitioon, mikä on silti aivan eri asia).

Metan malli ei "ymmärrä" sisältöä vertaamalla tekstijonoja ja varmistamalla, että ne sisältävät samat sanat, vaan vertaamalla tekstilohkojen matemaattisia esityksiä, joihin se päätyy luonnollisen kielen ymmärtämisen (NLU) tekniikoilla.

"Olemme tehneet indeksin kaikista näistä verkkosivuista jakamalla ne kohtiin ja tarjoamalla tarkan esityksen jokaisesta kohdasta", Fabio Petroni, Metan Fundamental AI Researchin tekninen johtaja, kertoi Digital Trends. "Se ei edusta sana sanalta kohtaa, vaan kohdan merkitystä. Tämä tarkoittaa, että kaksi tekstinpalaa, joilla on samanlainen merkitys, esitetään hyvin läheisessä paikassa tuloksena olevassa n-ulotteisessa avaruudessa, johon kaikki nämä kohdat on tallennettu.

Tekoälyä koulutetaan neljän miljoonan Wikipedia-sitaatin joukosta, ja sen lisäksi, että se poimii virheellisiä sitaatteja sivustolta, sen tekijät haluaisivat, että se voisi lopulta ehdottaa tarkkoja lähteitä tilalle hyödyntäen valtavaa datahakemistoa, joka on päivittyy jatkuvasti.

Yksi suuri ongelma, joka on vielä ratkaistava, on lähteiden luotettavuuden arviointijärjestelmä. Esimerkiksi tieteellisen lehden artikkeli saisi korkeamman arvosanan kuin blogikirjoitus. Verkossa olevan sisällön määrä on niin valtava ja monipuolinen, että voit löytää "lähteitä" melkein minkä tahansa väitteen tueksi, mutta vertailemalla väärää tietoa disinformaatiosta (ensimmäinen tarkoittaa väärää, kun taas jälkimmäinen tarkoittaa tahallista pettämistä) ja vertaisarvioituja. ei-vertaisarvioinnista, faktatarkistettu ja hätäisesti lyöty yhteen, ei ole pieni tehtävä – mutta erittäin tärkeä tehtävä luottamuksen kannalta.

Meta on käyttänyt mallinsa avoimen lähdekoodin avulla, ja uteliaat voivat nähdä a esittely vahvistustyökalusta. Metan blogikirjoituksessa todettiin, että yritys ei tee yhteistyötä Wikimedian kanssa tässä projektissa ja että se on vielä tutkimusvaiheessa eikä sitä käytetä tällä hetkellä Wikipedian sisällön päivittämiseen.

Jos kuvittelet ei liian kaukaisen tulevaisuuden, jossa kaikki Wikipediasta lukemasi on tarkkaa ja luotettavaa, eikö se tekisi kaikenlaisen tutkimuksen tekemisestä liian helppoa? Eri lähteiden tarkistamisessa ja vertailussa on jotain arvokasta, eikö niin? Oli iso harppaus siirtyä painavien kirjojen selailemisesta muutaman sanan kirjoittamiseen hakukoneeseen ja Enter-painikkeen painamiseen. Haluammeko todella, että Wikipedia siirtyy tutkimuksen aloituspisteestä "viimeisen sanan" lähteeseen?

Joka tapauksessa Metan tekoälytutkimusryhmä jatkaa työskentelyä verkkotietosanakirjan parantamiseksi. "Luulen, että uteliaisuus ohjasi meitä päivän päätteeksi", Petroni sanoi. ”Halusimme nähdä, mikä on tämän tekniikan raja. Emme olleet täysin varmoja, voisiko [tämä tekoäly] tehdä mitään merkityksellistä tässä yhteydessä. Kukaan ei ollut koskaan yrittänyt tehdä jotain vastaavaa."

Kuva pistetilanne: Gerd Altmann alkaen Pixabay

Aikaleima:

Lisää aiheesta Singulaarisuus Hub