Drama de LLaMA mientras se filtra el mega modelo de lenguaje de Meta

Drama de LLaMA mientras se filtra el mega modelo de lenguaje de Meta

El drama de LLaMA como modelo de mega lenguaje de Meta filtra PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

LLaMA, el último modelo de lenguaje grande de Meta, se filtró en línea y está disponible para descargar, a pesar de los aparentes intentos de limitar el acceso solo con fines de investigación.

el dueño de facebook anunció en febrero, estaba lanzando el modelo de manera limitada para seleccionar académicos, miembros del gobierno y empresas para jugar en medio de los temores Llama podría ser mal utilizado. Pero la información quiere ser libre, o al menos ciertas personas quieren que lo sea, y la creación de Meta ha encontrado su camino en línea de todos modos, comenzando con una fuga de torrent.

Los grandes modelos de lenguaje que predicen oraciones, que generan pasajes de texto a partir de indicaciones de entrada, han evolucionado constantemente, desde autocompletar la escritura de uno hasta chatbots capaces de realizar tareas cuando se les pide que lo hagan usando lenguaje natural.

Los expertos han advertido que esta tecnología podría usarse para automatizar la fabricación de grandes cantidades de noticias falsas, spam, correos electrónicos de phishing, desinformación, incitación, lo que sea, en los próximos años. Las organizaciones que construyen estos modelos a menudo mantienen el software en secreto, detrás de las API, o lanzan versiones limitadas o demostraciones. 

“Todavía hay más investigación por hacer para abordar los riesgos de sesgo, comentarios tóxicos y alucinaciones en modelos de lenguaje grande”, Meta dijo la semana pasada.

“Al igual que otros modelos, LLaMA comparte estos desafíos. Como modelo básico, LLaMA está diseñado para ser versátil y se puede aplicar a muchos casos de uso diferentes, en comparación con un modelo ajustado que está diseñado para una tarea específica.

“Para mantener la integridad y evitar el mal uso, estamos lanzando nuestro modelo bajo una licencia no comercial enfocada en casos de uso de investigación. El acceso al modelo se otorgará caso por caso a investigadores académicos; aquellos afiliados a organizaciones en el gobierno, la sociedad civil y la academia; y laboratorios de investigación de la industria en todo el mundo”.

Como guiar

Pero los esfuerzos de Meta para controlar el acceso a LLaMA parecen haber sido en vano, o al menos eso parece. Poco después de compartir el modelo con científicos seleccionados, y aquellos en la industria y la sociedad civil, alguien en 4Chan publicó detalles sobre cómo obtener el modelo completo a través del intercambio de archivos entre pares y, finalmente, instrucciones sobre cómo descargarlo todo fueron publicados en GitHub.

Como siempre, tenga cuidado al obtener cosas como esta de torrents en caso de que alguien haya escondido algo infame allí. Se nos dice que el modelo de 65 mil millones de parámetros ocupa alrededor de 220 GB de espacio en disco.

Las copias de LLaMA disponibles a través de GitHub parecen ser legítimas, observamos. Shawn Presser, un Ingeniero de inteligencia artificial quien escribió las instrucciones de descarga en el sitio de código compartido de Microsoft, nos mostró capturas de pantalla de él generando con éxito texto del modelo. Él cree que un investigador al que se le dio acceso al modelo de Meta lo filtró, lo que llevó a su distribución quizás más amplia de lo esperado.

Inicie sus motores de teoría de la conspiración.

Presser cree que publicar el modelo libremente y sin salvedades es mejor que limitarlo a académicos aprobados. “Creo que lo bueno superará lo malo, al menos diez veces. Probablemente más cerca de 100x”, dijo. El registro

En términos generales, entrenar y ejecutar modelos de lenguaje grande de última generación es costoso; solo las organizaciones que tienen acceso a montones de GPU y otra infraestructura están en condiciones de construirlos, modificarlos y probarlos. Investigadores de IA en Meta construyó LLaMA para ser más pequeño, lo que lo hace más compacto que los modelos comerciales actuales y, por lo tanto, más accesible para académicos y desarrolladores sin presupuestos de TI no triviales. 

Los gurús del aprendizaje automático de Meta afirmaron que su sistema superó al GPT-3 de OpenAI y es tan bueno como otros grandes modelos de lenguaje, como PaLM de 540 mil millones de parámetros de Google o Chinchilla de 70 mil millones de parámetros de DeepMind. El tamaño más pequeño significa que debería ser más fácil de usar para los científicos que tienen menos recursos computacionales. Y sí, hay una plétora de modelos de lenguaje de todas las formas y tamaños; es más que solo OpenAI y Facebook.

LLaMA aún requiere cientos de gigabytes de almacenamiento y una cantidad decente de cómputo para manejarlo. Poner el modelo en funcionamiento tampoco es sencillo, a menos que esté acostumbrado a manejar sistemas de este tipo, y reutilizarlo para actividades más nefastas también requerirá más experiencia técnica. A pesar de que se filtró el modelo, Meta dijo que continuará compartiendo LLaMA solo con investigadores seleccionados. 

Creemos que la estrategia de lanzamiento actual nos permite equilibrar la responsabilidad y la apertura.

“El objetivo de Meta es compartir modelos de inteligencia artificial de última generación con miembros de la comunidad de investigación para ayudarnos a evaluar y mejorar esos modelos”, dijo un portavoz. El registro.

“LLaMA se compartió con fines de investigación, en consonancia con la forma en que hemos compartido modelos de lenguaje grande anteriores. Si bien el modelo no es accesible para todos, y algunos han tratado de eludir el proceso de aprobación, creemos que la estrategia de lanzamiento actual nos permite equilibrar la responsabilidad y la apertura”.

En otras palabras, el grupo de Facebook mantiene su enfoque para distribuir su tecnología.

Los intentos recientes de Meta de lanzar modelos de lenguaje grandes no han ido bien. El año pasado, su hablador BlenderBot fue Criticado por difundir información errónea y puntos de vista antisemitas. Galactica, diseñado para resumir el conocimiento científico, fue remoto tres días después de su lanzamiento por generar contenido falso y racista. ®

Sello de tiempo:

Mas de El registro