A Meta mesterséges intelligenciát épít a Wikipédia tényellenőrzésére – mind a 6.5 ​​millió cikk PlatoBlockchain adatintelligencia. Függőleges keresés. Ai.

A Meta mesterséges intelligenciát épít a Wikipédia tényellenőrzésére – mind a 6.5 ​​millió cikk

kép

A legtöbb 30 évnél idősebb ember valószínűleg emlékszik arra, hogy jó, régimódi enciklopédiákkal kutatott. Elővesz egy nagy kötetet a polcról, megnézi a tárgymutatót, majd lapozzon a megfelelő oldalra, és kezdje el olvasni. Nem volt olyan egyszerű, mint beírni néhány szót a Google keresősávjába, de az a pozitív oldal, hogy tudta, hogy az információ, amit a Britannica vagy a Világkönyv pontos és igaz volt.

Nem így van a mai internetes kutatással. A források elsöprő sokasága elég zavaró volt, de ha hozzávesszük a téves információk elterjedését, akkor csoda, ha bármelyikünk elhiszi az interneten olvasott szót.

A Wikipédia jó példa erre. 2020 elején az oldal angol verziója átlagosan kb 255 millió napi oldalletöltések száma, így ez a nyolcadik leglátogatottabb webhely az interneten. Múlt hónapig a helyére került hét, és az angol verziónak jelenleg vége 6.5 millió cikkeket.

De bármilyen nagy forgalmú is ez az információforrás, pontossága hagy némi kívánnivalót maga után; az oldal a webhely saját megbízhatóságáról kijelenti: „Az online enciklopédia nem tartja magát megbízhatónak forrásként, és elriasztja az olvasókat attól, hogy tudományos vagy kutatási környezetben használják.”

A Meta – az egykori Facebooké – változtatni szeretne ezen. Az a blogbejegyzés A múlt hónapban megjelent, a cég alkalmazottai leírják, hogyan segítheti az AI a Wikipédia pontosabbá tételét.

Bár több tízezer ember vesz részt a webhely szerkesztésében, az általuk hozzáadott tények nem feltétlenül helytállóak; még ha vannak is idézetek, azok nem mindig pontosak és nem is relevánsak.

A Meta gépi tanulási modellt fejleszt, amely átvizsgálja ezeket az idézeteket, és a tartalmukat a Wikipédia-cikkekre kereszthivatkozással ellenőrzi, hogy nem csak a témák, hanem az idézett konkrét adatok is pontosak-e.

Ez nem csak a számok kiválasztásáról és a számok egyezéséről szól; A Meta mesterséges intelligenciájának „meg kell értenie” az idézett források tartalmát (bár a „megértés” téves elnevezés, ahogyan a komplexitáselmélet kutatója, Melanie Mitchell elmondaná neked, mert a mesterséges intelligencia még mindig a „szűk” fázisban van, ami azt jelenti, hogy egy nagyon kifinomult mintafelismerés eszköze, míg a „megértés” az emberi megismerésre használt szó, ami még mindig egészen más dolog).

A Meta modellje nem úgy fogja „megérteni” a tartalmat, hogy összehasonlítja a szöveges karakterláncokat, és megbizonyosodik arról, hogy ugyanazokat a szavakat tartalmazzák, hanem a szövegblokkok matematikai reprezentációinak összehasonlításával, amelyhez természetes nyelvi megértés (NLU) technikák segítségével jut el.

„Amit tettünk, az az, hogy indexet hoztunk létre ezekről a weboldalakról úgy, hogy részekre bontjuk őket, és minden egyes részhez pontos ábrázolást biztosítunk” – mondta Fabio Petroni, a Meta Fundamental AI Research technológiai vezetője. mondta Digital Trends. „Ez nem azt jelenti, hogy szóról szóra ábrázoljuk a részt, hanem a szövegrész jelentését. Ez azt jelenti, hogy két hasonló jelentésű szövegrész nagyon közeli pozícióban jelenik meg az így létrejövő n-dimenziós térben, ahol ezek a részek tárolódnak.

Az AI-t négymillió Wikipédia-idézetből álló halmazra oktatják, és amellett, hogy kiválogatja a hibás idézeteket az oldalon, készítői azt szeretnék, ha végül pontos forrásokat tudna javasolni a helyükre, egy hatalmas adatindexből merítve. folyamatosan frissítve.

Az egyik nagy megoldandó probléma a források megbízhatóságának osztályozási rendszere. Egy tudományos folyóirat írása például magasabb osztályzatot kapna, mint egy blogbejegyzés. Az online tartalom mennyisége olyan hatalmas és változatos, hogy szinte bármilyen állítás alátámasztására „forrásokat” találhat, de a dezinformációból kielemezve a téves információkat (az előbbi helytelen, míg az utóbbi a szándékos megtévesztést) és a szakértői értékelést. a nem lektorálttól, a tényellenőrzés a sebtében összecsapotttól nem kis feladat – de nagyon fontos, ha a bizalomról van szó.

A Meta nyílt forráskódú modellt készített, és a kíváncsiak láthatják a demó az ellenőrző eszközről. A Meta blogbejegyzése megjegyezte, hogy a cég nem áll partnerkapcsolatban a Wikimédiával ebben a projektben, és hogy még a kutatási fázisban van, és jelenleg nem használják a Wikipédián található tartalom frissítésére.

Ha elképzelsz egy nem túl távoli jövőt, ahol minden, amit a Wikipédián olvasol, pontos és megbízható, nem tenné ez túl könnyűvé a kutatást? Van valami értékes abban, ha magunk ellenőrizzük és összehasonlítjuk a különböző forrásokat, nem igaz? Nagy ugrás volt a nehéz könyvek lapozásától néhány szó beírása a keresőbe, és az „Enter” leütése; valóban azt akarjuk, hogy a Wikipédia a kutatás kiugró pontjáról az utolsó szó forrása felé mozduljon el?

A Meta mesterséges intelligencia kutatócsoportja mindenesetre tovább dolgozik egy olyan eszköz kidolgozásán, amely javítja az online enciklopédiát. „Azt hiszem, a nap végén a kíváncsiság vezérelt minket” – Petroni mondott. „Látni akartuk, mi a határa ennek a technológiának. Egyáltalán nem voltunk biztosak abban, hogy [ez a mesterséges intelligencia] tud-e bármi értelmeset tenni ebben az összefüggésben. Soha senki nem próbálkozott hasonlóval.”

Kép: Gerd Altmann ból ből pixabay

Időbélyeg:

Még több Singularity Hub