Dramma LLaMA mentre il mega modello linguistico di Meta perde

Dramma LLaMA mentre il mega modello linguistico di Meta perde

Il dramma LLaMA mentre il mega modello linguistico di Meta fa trapelare PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

LLaMA, l'ultimo modello di linguaggio di grandi dimensioni di Meta, è trapelato online ed è disponibile per il download, nonostante gli apparenti tentativi di limitare l'accesso solo a scopo di ricerca.

Il proprietario di Facebook ha annunciato a febbraio stava rilasciando il modello in modo limitato per selezionare accademici, tipi di governo e aziende con cui giocare tra le paure Lama potrebbe essere utilizzato in modo improprio. Ma l'informazione vuole essere libera, o almeno certe persone vogliono che lo sia, e la creazione di Meta ha trovato comunque la sua strada online, a partire da una fuga di torrent.

I modelli di linguaggio di grandi dimensioni per la previsione delle frasi, che generano passaggi di testo dai prompt di input, si sono costantemente evoluti, dall'auto-completamento della propria scrittura ai chatbot in grado di eseguire attività quando viene richiesto di farlo utilizzando il linguaggio naturale.

Gli esperti hanno avvertito che questa tecnologia potrebbe essere utilizzata per automatizzare la produzione di grandi quantità di notizie false, spam, e-mail di phishing, disinformazione, istigazione e altro ancora per gli anni a venire. Le organizzazioni che creano questi modelli spesso mantengono il software nascosto, dietro API o rilasciano versioni limitate o demo. 

"C'è ancora più ricerca che deve essere fatta per affrontare i rischi di pregiudizi, commenti tossici e allucinazioni nei grandi modelli linguistici", Meta disse la settimana scorsa.

“Come altri modelli, LLaMA condivide queste sfide. Come modello di base, LLaMA è progettato per essere versatile e può essere applicato a molti casi d'uso diversi, rispetto a un modello ottimizzato progettato per un'attività specifica.

“Per mantenere l'integrità e prevenire l'uso improprio, stiamo rilasciando il nostro modello con una licenza non commerciale incentrata sui casi d'uso di ricerca. L'accesso al modello sarà concesso caso per caso ai ricercatori accademici; quelli affiliati a organizzazioni governative, della società civile e del mondo accademico; e laboratori di ricerca industriale in tutto il mondo.”

Guida pratica

Ma gli sforzi di Meta per controllare l'accesso a LLaMA sembrano essere stati vani, o almeno così sembra. Poco dopo aver condiviso il modello con cervelloni selezionati e quelli dell'industria e della società civile, qualcuno su 4Chan ha pubblicato i dettagli su come ottenere l'intero modello tramite la condivisione di file peer-to-peer, e alla fine istruzioni su come scaricarlo tutto sono stati pubblicati su GitHub.

Come sempre, fai attenzione quando recuperi cose come questa dai torrent nel caso qualcuno abbia nascosto qualcosa di nefasto lì dentro. Il modello da 65 miliardi di parametri occupa circa 220 GB di spazio su disco, ci viene detto.

Le copie di LLaMA disponibili tramite GitHub sembrano essere legittime, notiamo. Shawn Presser, an Ingegnere AI che ha scritto le istruzioni per il download sul sito di code-sharing di Microsoft, ci ha mostrato schermate di lui che generava con successo il testo dal modello. Crede che un ricercatore a cui è stato concesso l'accesso al modello da Meta lo abbia fatto trapelare, portando a una sua distribuzione forse più ampia del previsto.

Avvia i tuoi motori di teoria della cospirazione.

Presser ritiene che rilasciare il modello liberamente senza avvertimenti sia meglio che limitarlo agli accademici approvati. “Penso che il bene supererà il male, almeno di dieci volte. Probabilmente più vicino a 100x", ha detto Il registro

La formazione e l'esecuzione di modelli linguistici di grandi dimensioni all'avanguardia è costosa, in generale; solo le organizzazioni che hanno accesso a pile di GPU e altre infrastrutture sono in grado di crearle, modificarle e testarle. Ricercatori di intelligenza artificiale a Meta costruito LLaMA per essere più piccolo, rendendolo più compatto rispetto ai modelli commerciali odierni e quindi più accessibile a accademici e sviluppatori senza budget IT non trascurabili. 

I guru dell'apprendimento automatico di Meta hanno affermato che il loro sistema ha superato il GPT-3 di OpenAI ed è buono come altri modelli di linguaggio di grandi dimensioni, come il PaLM da 540 miliardi di parametri di Google o il Chinchilla da 70 miliardi di parametri di DeepMind. Le dimensioni ridotte significano che dovrebbe essere più facile da usare per gli scienziati che hanno meno risorse computazionali. E sì, ci sono una pletora di modelli linguistici là fuori di tutte le forme e dimensioni; è molto più che OpenAI e Facebook.

LLaMA richiede ancora centinaia di gigabyte di spazio di archiviazione e una discreta quantità di elaborazione per gestirlo. Anche far funzionare il modello non è semplice, a meno che tu non sia abituato a gestire sistemi di questo tipo, e riutilizzarlo per attività più nefaste richiederà anche ulteriore competenza tecnica. Nonostante il modello sia trapelato, Meta ha affermato che continuerà a condividere LLaMA solo con ricercatori selezionati. 

Riteniamo che l'attuale strategia di rilascio ci permetta di bilanciare responsabilità e apertura

"L'obiettivo di Meta è condividere modelli di intelligenza artificiale all'avanguardia con i membri della comunità di ricerca per aiutarci a valutare e migliorare tali modelli", ha detto un portavoce Il registro.

“LLaMA è stato condiviso per scopi di ricerca, in linea con il modo in cui abbiamo condiviso i precedenti modelli di linguaggio di grandi dimensioni. Sebbene il modello non sia accessibile a tutti e alcuni abbiano tentato di eludere il processo di approvazione, riteniamo che l'attuale strategia di rilascio ci consenta di bilanciare responsabilità e apertura".

In altre parole, il gruppo Facebook sostiene il suo approccio alla distribuzione della sua tecnologia.

I recenti tentativi di Meta di rilasciare modelli di linguaggi di grandi dimensioni non sono andati bene. L'anno scorso è stato il suo loquace BlenderBot criticato per diffondere disinformazione e opinioni antisemite. Galactica, progettato per riassumere le conoscenze scientifiche, lo era rimosso tre giorni dopo il suo lancio per aver generato contenuti falsi e razzisti. ®

Timestamp:

Di più da Il registro