Il successore di Wikipedia basato sull'intelligenza artificiale di Meta "potrebbe essere la prossima grande svolta nella PNL" PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Il successore di Wikipedia basato sull'intelligenza artificiale di Meta "potrebbe essere la prossima grande svolta nella PNL"

Meta ha reso open source una risorsa di apprendimento automatico che un giorno potrebbe soppiantare Wikipedia come il più grande database di verifica della conoscenza pubblicamente disponibile al mondo.

Soprannominato Sfera, può essere utilizzato per eseguire l'elaborazione del linguaggio naturale ad alta intensità di conoscenza, o KI-NLP, ci viene detto. In termini pratici, ciò significa che può essere utilizzato per rispondere a domande complesse utilizzando il linguaggio naturale e trovare fonti per le affermazioni.

Un esempio del suo utilizzo è chiedere a Sphere: "Chi è Joëlle Sambi Nzeba?" Wikipedia non ha una voce per lei, ma Sphere ha detto che è “nata in Belgio e cresciuta in parte a Kinshasa (Congo). Attualmente vive a Bruxelles. È una scrittrice e una slammer, oltre al suo attivismo in un movimento femminista", e si collega a un sito web da cui ha ottenuto tali informazioni sul suo lavoro.

Wikipedia è praticamente servita come corpus di documentazione, hanno scritto le teste d’uovo di Meta in un foglio discutendo del design di Sphere, sostenendo che l'uber-wiki gestito da volontari è "preciso, ben strutturato e abbastanza piccolo da poter essere utilizzato facilmente in ambienti di test". 

Cercando di costruire qualcosa di più grande e migliore di Wikipedia, però, Meta ha messo insieme contenuti da tutto il web – senza wikipedia.org – per formare una “fonte di conoscenza universale, non curata e non strutturata per più attività KI-NLP contemporaneamente”. Il risultato è Sphere, che è più o meno una montagna di dati elaborati che possono essere interrogati utilizzando una serie di strumenti di apprendimento automatico.

Il team aggiunge che Sphere "può eguagliare e superare le prestazioni di base basate su Wikipedia" su alcune attività utilizzando il GONNELLINO Punto di riferimento dell'intelligenza artificiale. Vale a dire, Sphere funziona meglio dei sistemi di intelligenza artificiale basati sui contenuti di Wikipedia.

Lo scopo principale di Sphere era vedere quale impatto avesse avuto la sostituzione di Wikipedia, come fonte, sulle prestazioni dei sistemi ad alta intensità di conoscenza e, sebbene il team abbia segnalato che Sphere aveva alcuni problemi, le sue prestazioni indicano che, per lo meno, può aggiungere valore alle attività KI-NLP oltre ciò che i corpora di Wikipedia possono offrire. 

I ricercatori di Sphere affermano che il loro lavoro segna “la prima volta che un indice di ricerca di scopo generale migliora i modelli linguistici su compiti di buon senso”. 

Sphere non è l'unica piattaforma AI che Meta ha rilasciato su GitHub: è stata rilasciata la settimana scorsa NLLB-200, la prima intelligenza artificiale di traduzione a superare la soglia delle 200 lingue, o almeno così ha affermato il genitore di Facebook. Come Sphere, NLLB-200 è stato utilizzato su Wikipedia; il primo sistema per controllare automaticamente le citazioni negli articoli modificati, e il secondo per migliorare la traduzione delle pagine nelle lingue meno comunemente parlate.

Quando si passa a un corpus web, non abbiamo più la certezza che qualsiasi documento sia buono, veritiero o unico

Sphere va oltre simili corpora web in termini di scala, costituiti da 906 milioni di passaggi e 134 milioni di documenti. Il secondo più grande in termini di passaggi/documenti è il Dialogo potenziato da Internet generatore, che estrae dati da 250 milioni di passaggi e 109 milioni di documenti. 

Ma Internet non contiene controlli sulla qualità o sull’accuratezza, il che, secondo i ricercatori, è un problema chiave per l’effettiva implementazione di questa cosa. “L'utilizzo di Wikipedia come fonte di conoscenza consente ai ricercatori di presumere l'elevata qualità dei documenti del corpus. Quando si passa a un corpus web, non abbiamo più la certezza che qualsiasi documento sia buono, veritiero o unico”, hanno scritto i ricercatori. 

I creatori di Sphere ritengono che gli sforzi iterativi dovrebbero concentrarsi sulla valutazione della qualità dei dati recuperati, sul rilevamento di false affermazioni e contraddizioni, sulla determinazione di come dare priorità alle fonti affidabili e quando decidere di non rispondere a una domanda a causa della mancanza di informazioni. Sai, rendendolo davvero utile.

Se riuscirà a trasformare Sphere in un’intelligenza artificiale white-box con informazioni attendibili e degne di fiducia, ha affermato Meta, Sphere “potrebbe essere la prossima grande svolta nella PNL”. ®

Timestamp:

Di più da Il registro