A Meta mesterséges intelligencia-alapú Wikipédia-utódja „lehet a következő nagy áttörés az NLP-ben”, a PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

A Meta mesterséges intelligencia-alapú Wikipédia-utódja „lehet a következő nagy áttörés az NLP-ben”

A Meta nyílt forráskódú gépi tanulási forrást hozott létre, amely egy napon kiszoríthatja a Wikipédiát, mint a világ legnagyobb nyilvánosan elérhető tudásellenőrző adatbázisát.

Szinkronizált Gömb, tudásintenzív természetes nyelvi feldolgozásra, vagy KI-NLP-re lehet használni – tudjuk meg. Gyakorlatilag ez azt jelenti, hogy használható bonyolult kérdések megválaszolására természetes nyelven, és forrásokat találni az állításokhoz.

Használatának adott példája a Sphere megkérdezése: „Ki az a Joëlle Sambi Nzeba?” A Wikipédián nincs szó hozzá, de Sphere azt mondta, hogy „Belgiumban született, és részben Kinshasában (Kongó) nőtt fel. Jelenleg Brüsszelben él. Író és slammer, mellette egy feminista mozgalomban is tevékenykedik”, és egy weboldalra hivatkozik, ahol a munkáiról szerezték be ezeket az információkat.

A Wikipédia nagyjából a rekordok korpuszaként szolgált, írta Meta tojásfejei egy papírban A Sphere tervezésének megvitatása során azt állítják, hogy az önkéntesek által fenntartott uber-wiki „pontos, jól strukturált és elég kicsi ahhoz, hogy tesztelési környezetben is könnyen használható legyen”. 

A Wikipédiánál nagyobb és jobb létrehozására törekvő Meta azonban az internet minden pontjáról – a wikipedia.org nélkül – összegyűjtötte a tartalmat, hogy „univerzális, felügyelet nélküli és strukturálatlan tudásforrást képezzen több KI-NLP feladathoz egyszerre”. Az eredmény a Sphere, amely többé-kevésbé feldolgozott adatok hegye, amely egy csomó gépi tanulási eszköz segítségével lekérdezhető.

A csapat hozzáteszi, hogy a Sphere „meg tudja felelni és felülmúlja a Wikipédián alapuló alapvonalakat” bizonyos feladatokban a SKÓT SZOKNYA AI benchmark. Vagyis a Sphere jobban teljesít, mint a Wikipédia tartalmára épülő mesterséges intelligencia rendszerek.

A Sphere elsődleges célja az volt, hogy megvizsgálja, milyen hatással volt a Wikipédia, mint forrás leváltása a tudásintenzív rendszerek teljesítményére, és bár a csapat arról számolt be, hogy a Sphere-nek vannak problémái, teljesítménye azt jelzi, hogy legalább értéket adhat a KI-NLP feladatokhoz azon túl, amit a Wikipédia korpusz tud nyújtani. 

A Sphere mögött álló kutatók azt állítják, hogy munkájuk „első alkalom, amikor egy általános célú keresési index javítja a nyelvi modelleket a józan ész feladataiban”. 

A Sphere nem az egyetlen mesterséges intelligencia platform, amelyet a Meta adott ki a GitHubon: a múlt héten megjelent NLLB-200, az első olyan fordítási mesterséges intelligencia, amely átlépte a 200 nyelvi küszöböt, legalábbis a Facebook szülő állítása szerint. A Sphere-hez hasonlóan az NLLB-200 is a Wikipédián került felhasználásra; az előbbi rendszer a szerkesztett cikkekben található hivatkozások automatikus ellenőrzésére, az utóbbi pedig az oldalak kevésbé beszélt nyelvekre történő fordításának javítására szolgál.

Amikor áttérünk egy webes korpuszra, már nem vagyunk biztosak abban, hogy bármely dokumentum jó, igaz vagy egyedi

A Sphere léptékét tekintve túlmutat a hasonló webes korpuszokon, 906 millió szövegrészből és 134 millió dokumentumból áll. A szövegrészek/dokumentumok tekintetében a következő legnagyobb a Internet kiterjesztett párbeszédablak generátor, amely 250 millió szövegrészletből és 109 millió dokumentumból gyűjt adatokat. 

Az internet azonban nem tartalmaz minőségi vagy pontossági szabályozást, ami a kutatók szerint kulcsfontosságú probléma ennek a dolognak az alkalmazásában. „A Wikipédia tudásforrásként való használata lehetővé teszi a kutatóknak, hogy feltételezzék a korpuszdokumentumok magas minőségét. Amikor webes korpuszra térünk át, már nem vagyunk biztosak abban, hogy bármely dokumentum jó, igaz vagy egyedi” – írták a kutatók. 

A Sphere készítői úgy gondolják, hogy az iteratív erőfeszítéseknek az általa lekért adatok minőségének értékelésére, a hamis állítások és ellentmondások feltárására, a megbízható források rangsorolásának meghatározására kell összpontosítaniuk, és mikor döntsenek úgy, hogy információhiány miatt nem válaszolnak egy kérdésre. Tudod, ez valóban hasznos.

Ha a Sphere-t sikeresen fehérdobozos mesterséges intelligenciává tudja alakítani megbízható és megbízható információkkal, Meta szerint a Sphere „lehet a következő nagy áttörés az NLP-ben”. ®

Időbélyeg:

Még több A regisztráció