4chan e altre fogne web sono entrate a far parte della mega-libreria di Google per l'addestramento al machine learning

4chan e altre fogne web sono entrate a far parte della mega-libreria di Google per l'addestramento al machine learning

4chan e altri fogni del web sono entrati nella mega-biblioteca di Google per addestrare ML PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Apparentemente i contenuti web problematici, razzisti e pornografici vengono utilizzati per addestrare i grandi modelli linguistici di Google, nonostante gli sforzi per filtrare quegli strati di testo tossico e dannoso.

An indagine del Washington Post e dell'Allen Institute for AI hanno analizzato l'immenso pubblico di Google Set di dati C4, rilasciato per la ricerca accademica, per comprendere meglio quali tipi di siti Web vengono generalmente sottoposti a scraping per addestrare modelli linguistici di grandi dimensioni.

Il set di dati C4 è stato utilizzato per addestrare il trasformatore di trasferimento testo-testo T5 di Google nonché il Large Language Model Meta AI (LLaMA) di Facebook, una variante del quale ha lanciato campanelli d'allarme.

Sembra che C4 abbia ingerito materiale riguardante, che viene utilizzato per costruire sistemi di apprendimento automatico di prossima generazione. Ciò potrebbe potenzialmente far sì che tali sistemi si comportino in modo inappropriato e inaffidabile.

Regolare Registrati i lettori sapranno che abbiamo sottolineato ripetutamente i problemi con l'addestramento dei set di dati, come l'orribile ventre di un set altamente citato a cura del MIT.

Ultima sonda

Gli analisti del Post e dell'Allen Institute hanno classificato i primi 10 milioni di siti web inclusi in C4 confrontando il testo apparso come contenuto Internet. Sebbene C4 sia una versione più piccola e più pulita del set di dati Common Crawl, che comprende testi provenienti da miliardi di siti Web, conteneva comunque materiale indesiderato proveniente dagli angoli oscuri di Internet.

Testi razzisti, anti-trans e tossici sono stati prelevati da siti web come il paradiso dell'odio razziale Stormfront, il forum di doxxing Kiwi Farms e la bacheca tossica 4chan. Non sorprende quindi che i modelli linguistici basati su quel corpus possano generare contenuti inappropriati, parlare di teorie del complotto o far emergere ideologie dubbie.

C4 è composto anche da siti Web che ospitano livelli di informazioni personali, come i database di registrazione degli elettori. In questo contesto, diverse agenzie di regolamentazione in Italia, Canada, Spagna e Francia hanno avviato indagini sul ChatGPT di OpenAI per problemi di privacy dei dati, poiché il modello può importare e generare informazioni sensibili.

I grandi modelli linguistici che alimentano i chatbot IA non sono intelligenti né coscienti, non importa quanto sembrino magici: scrivono prevedendo il flusso di parole e frasi in risposta a suggerimenti, domande e istruzioni da parte degli utenti o anche di altri bot. Ciò implica attingere alle montagne di dati su cui sono stati addestrati e imparare da essi per emulare ciò che una persona scriverebbe.

Queste previsioni riflettono quindi modelli nei tipi di testo prodotti dall’umanità, come post su Internet, articoli di notizie, poesie e romanzi, che vengono tutti raccolti in vasti set di dati di addestramento.

Questi sistemi non sono in grado di distinguere i fatti dalla finzione, vengono alimentati con grandi quantità di dati recuperati da Internet e possono generare risultati imprecisi e rigurgitare informazioni. 

Le aziende che costruiscono modelli linguistici di grandi dimensioni cercano di filtrare i contenuti indesiderati, nelle fasi di formazione e inferenza, sebbene i loro processi di revisione siano imperfetti. Ciò che è anche frustrante è che i costruttori di modelli di intelligenza artificiale commerciali – come ChatGPT di OpenAI, il nuovo Bing di Microsoft o la chat Bard di Google – non sempre rivelano come hanno reperito, cancellato ed elaborato i loro dati di addestramento. 

Fortunatamente, il set di dati C4 non è così male come gli altri: contiene principalmente materiale prelevato da siti Web più benigni che spaziano dal giornalismo, allo sviluppo di software, alla medicina e alla creazione di contenuti. La maggior parte del suo testo proviene da brevetti di Google, Wikipedia e Scribd. Il New York Times e le riviste scientifiche dell’editore accademico PLOS si sono classificati rispettivamente al quarto e quinto posto in termini di volume nel set di dati. C4 presenta anche contenuti provenienti da blog individuali, siti Web religiosi e altro ancora. 

Anche il materiale protetto da copyright è presente nel set di dati, con il simbolo © che appare più di 200 milioni di volte. Non è chiaro se le aziende che realizzano prodotti di intelligenza artificiale basati su dati di addestramento contenenti opere protette siano responsabili di violazione della proprietà intellettuale.

Stability AI, una startup che crea strumenti di conversione testo in immagine, è stata citata in giudizio per aver rimosso immagini protette da copyright da piattaforme di foto stock. OpenAI deve inoltre affrontare una causa legale che contesta la sua raccolta di codice pubblico ospitato su GitHub utilizzato per creare lo strumento Copilot di programmazione per coppie di intelligenza artificiale di Microsoft.

Reddit semplicemente ha annunciato un aggiornamento dei suoi termini e condizioni per i suoi servizi API, che richiede alle aziende di pagare le licenze per raschiare i suoi dati. "Stiamo introducendo un nuovo punto di accesso premium per terze parti che richiedono funzionalità aggiuntive, limiti di utilizzo più elevati e diritti di utilizzo più ampi", ha affermato martedì.

C4 contiene contenuti provenienti da Internet fino al 2019, ma poiché altri modelli più recenti sono stati costruiti con pratiche di raccolta dati simili, questa ricerca fa luce su come i chatbot AI possono produrre risultati problematici.

Il registro ha chiesto all'Allen Institute of AI ulteriori commenti. ®

Timestamp:

Di più da Il registro