Technology Innovation Institute entrena el modelo de base Falcon LLM 40B de última generación en Amazon SageMaker | Servicios web de Amazon

Technology Innovation Institute entrena el modelo de base Falcon LLM 40B de última generación en Amazon SageMaker | Servicios web de Amazon

Esta publicación de blog está coescrita con el Dr. Ebtesam Almazrouei, Director Ejecutivo, Investigador Jefe interino de IA de la Unidad AI-Cross Center y Líder de Proyecto para Proyectos LLM en TII.

Emiratos Árabes Unidos (EAU) Instituto de Innovación Tecnológica (TII), el pilar de investigación aplicada de Abu Dhabi Consejo de Investigación de Tecnología Avanzada, ha lanzado Falcon LLM, un modelo básico de lenguaje extenso (LLM) con 40 1 millones de parámetros. TII es un centro de investigación global líder dedicado a ampliar las fronteras del conocimiento. El equipo de científicos, investigadores e ingenieros de TII trabaja para ofrecer ciencia de descubrimiento y tecnologías transformadoras. El trabajo de TII se centra en los avances que prepararán a nuestra sociedad para el futuro. Entrenado en XNUMX billón de tokens, TII Halcón LLM cuenta con un rendimiento de primer nivel sin dejar de ser increíblemente rentable. Falcon-40B iguala el rendimiento de otros LLM de alto rendimiento y es el modelo de código abierto mejor clasificado entre el público Tabla de clasificación de Hugging Face Open LLM. Está disponible como código abierto en dos tamaños diferentes: Falcon-40B y Falcon-7B, y se creó desde cero utilizando trabajos de preprocesamiento de datos y entrenamiento de modelos basados ​​en Amazon SageMaker. El Falcon 40B de código abierto permite a los usuarios construir y personalizar herramientas de inteligencia artificial que se adaptan a las necesidades únicas de los usuarios, lo que facilita una integración perfecta y garantiza la conservación a largo plazo de los activos de datos. Los pesos del modelo están disponibles para descargar, inspeccionar y desplegar en cualquier lugar.

A partir del 7 de junio, ambos LLM de Falcon también estarán disponibles en Amazon SageMaker JumpStart, el centro de aprendizaje automático (ML) de SageMaker que ofrece modelos preentrenados, algoritmos integrados y plantillas de soluciones preconstruidas para ayudarlo a comenzar rápidamente con ML. Puede implementar y utilizar los LLM de Falcon con unos pocos clics en Estudio SageMaker o programáticamente a través del SDK de SageMaker Python. Para implementar y ejecutar la inferencia contra Falcon LLM, consulte el Introducción a SageMaker JumpStart: generación de texto con LLM de Falcon ejemplo de cuaderno.

Technology Innovation Institute entrena el modelo de base Falcon LLM 40B de última generación en Amazon SageMaker | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

El Dr. Ebtesam Almazrouei, director ejecutivo, investigador jefe interino de IA de la Unidad AI-Cross Center y líder de proyecto para proyectos LLM en TII, comparte:

“Estamos orgullosos de anunciar el lanzamiento oficial de código abierto de Falcon-40B, el modelo de lenguaje de código abierto de mayor rango en el mundo. Falcon-40B es un modelo excepcional de código abierto con parámetros 40B, diseñado específicamente como un modelo de decodificador causal únicamente. Fue entrenado en un vasto conjunto de datos de 1,000 mil millones de tokens, incluido RefinedWeb mejorado con corpus seleccionados. El modelo está disponible bajo la licencia Apache 2.0, asegurando su accesibilidad y usabilidad. Falcon-40B ha superado a modelos de renombre como LLaMA-65B, StableLM y MPT en la clasificación pública mantenida por Hugging Face. La arquitectura del Falcon-40B está optimizada para la inferencia, incorporando FlashAttention y técnicas multiconsulta”.

“Este paso refleja nuestra dedicación a ampliar los límites de la innovación en IA y el nivel de preparación tecnológica para la participación comunitaria, la educación, las aplicaciones del mundo real y la colaboración. Continúa el Dr. Ebtesam. “Al lanzar Falcon-40B como modelo de código abierto, brindamos a investigadores, empresarios y organizaciones la oportunidad de aprovechar sus capacidades excepcionales e impulsar avances en soluciones impulsadas por IA desde la atención médica hasta el espacio, las finanzas, la fabricación y la biotecnología; Las posibilidades de las soluciones impulsadas por la IA son ilimitadas. Para acceder a Falcon-40B y explorar su notable potencial, visite FalconLLM.tii.ae. Únase a nosotros para aprovechar el poder del Falcon-40B para dar forma al futuro de la IA y revolucionar las industrias”.

En esta publicación, profundizamos con el Dr. Almazrouei sobre la capacitación de Falcon LLM en SageMaker, la conservación de datos, la optimización, el rendimiento y los próximos pasos.

Una nueva generación de LLM

Los LLM son algoritmos de software entrenados para completar secuencias de texto natural. Debido a su tamaño y al volumen de datos de capacitación con los que interactúan, los LLM tienen impresionantes habilidades de procesamiento de texto, que incluyen resúmenes, respuesta a preguntas, aprendizaje en contexto y más.

A principios de 2020, las organizaciones de investigación de todo el mundo hicieron hincapié en el tamaño del modelo y observaron que la precisión se correlacionaba con la cantidad de parámetros. Por ejemplo, GPT-3 (2020) y BLOOM (2022) cuentan con alrededor de 175 mil millones de parámetros, Gopher (2021) tiene 230 mil millones de parámetros y MT-NLG (2021) 530 mil millones de parámetros. En 2022, Hoffmann et al. observó que el equilibrio actual de cómputo entre los parámetros del modelo y el tamaño del conjunto de datos era subóptimo, y publicó leyes empíricas de escalamiento que sugerían que equilibrar el presupuesto de cómputo hacia modelos más pequeños entrenados con más datos podría conducir a modelos con mejor desempeño. Implementaron su guía en el modelo Chinchilla (70) de parámetro 2022B, que superó a modelos mucho más grandes.

Capacitación LLM en SageMaker

SageMaker es una colección de API administradas para desarrollar, entrenar, ajustar y alojar modelos de aprendizaje automático (ML), incluidos los LLM. Numerosos clientes confían en SageMaker para sus cargas de trabajo de LLM, como Estabilidad IA, Laboratorios AI21, Abrazando la caray LG AI. Entrenamiento SageMaker aprovisiona clústeres de cómputo con código y configuración de hardware definidos por el usuario. Los trabajos de cómputo se facturan por ejecución, prorrateados al segundo, lo que significa que a los usuarios no se les cobra por la capacidad de la GPU cuando no usan el servicio. TII usó clústeres transitorios proporcionados por SageMaker Training API para entrenar Falcon LLM, hasta 48 instancias ml.p4d.24xlarge, acumuladas en 384 GPU NVIDIA A100. Ahora, TII está capacitando al próximo Falcon LLM y amplió su capacitación a 3,136 GPU A100 (392 instancias ml.p4d).

Se incorporó una cantidad sin precedentes de innovaciones personalizadas a todas las capas del proyecto para elevar el nivel de la calidad científica y la velocidad de capacitación. En las siguientes secciones, describimos las optimizaciones TII realizadas en todas las capas del sistema de capacitación de aprendizaje profundo (DL).

Curación de datos escalables

Los LLM de última generación obtienen su fuerza del tamaño y la calidad de los datos de entrenamiento. El equipo puso especial cuidado en la creación de un conjunto de datos de billones de tokens de alta calidad. Varios trabajos de CPU de SageMaker Training transformaron petabytes de datos web escalables y económicos en un conjunto de datos de entrenamiento protegido y seguro. Los sistemas automatizados filtraron y deduplicaron los datos; por ejemplo, los clasificadores de ML se usaron para filtrar las blasfemias. Los trabajos de CPU que se ejecutan en ml.c5.18xlarge (72 vCPU, 144 GB de RAM) se instanciaron en algunas llamadas API a través de SageMaker Training para ejecutar tareas de transformación de datos. El equipo utilizó trabajos de CPU de instancia única y de instancias múltiples para casos de uso diferentes. Algunos de estos trabajos utilizaron cientos de trabajos de arquitectura Share-Nothing (SNA) paralelos, cada uno en una sola máquina, y para tareas que requerían sincronización entre trabajadores, el equipo lanzó trabajos de varias instancias, acumulando en docenas de instancias y miles de vCPU. Como anécdota, en una tarea de preparación de conjuntos de datos posteriores, el equipo subió a 257 ml.c5.18xlarge en un solo trabajo de capacitación de SageMaker, acumulando 18,504 37 vCPU y XNUMX TB de memoria.

Maximizar el rendimiento del entrenamiento

Para minimizar tanto los costos de capacitación como el tiempo de comercialización, el equipo siguió varias direcciones de optimización para acelerar la velocidad de capacitación proporcional a los tokens de capacitación procesados ​​por segundo y medidos en TFLOP/GPU. El equipo usó un marco de capacitación de LLM paralelo en 3D completamente personalizado, con capas optimizadas personalizadas escritas en código de GPU compilado. ¡El equipo fue tan lejos como para escribir su propia implementación personalizada de multiplicación de matrices para ganar más velocidad! El equipo también desarrolló una lógica que adapta la comunicación paralela a la topología de red subyacente. Durante sus experimentos de escalamiento iniciales, TII pudo alcanzar 166 TFLOPs/GPU en un modelo 147B en 256 GPU, y 173 TFLOPs/GPU en un modelo 13B en 16 GPUs, según nuestro conocimiento, el modelo TFLOPs más rápido conocido logrado en la nube en el momento de la prueba a finales de 2022.

Almacenamiento sin servidor

La capacitación de LLM es intensiva en almacenamiento; varios terabytes de datos de entrenamiento deben canalizarse al clúster de entrenamiento, y varios terabytes de puntos de control del modelo viajan regularmente desde el clúster hasta el almacenamiento permanente. Los puntos de control también deben llegar al grupo de entrenamiento lo más rápido posible en caso de que se reinicie el trabajo. En la informática tradicional de alto rendimiento (HPC), los nodos informáticos están conectados a sistemas de archivos distribuidos, que proporcionan E/S de alto rendimiento y rendimiento a través de una interfaz similar a POSIX. En AWS, los clientes utilizan regularmente el Amazon FSx para Lustre sistema de archivos para este propósito (para más detalles, consulte Acelere la capacitación en Amazon SageMaker con Amazon FSx para los sistemas de archivos Luster y Amazon EFS), y también documentamos el uso autogestionado de BeeGFS en un estudio de caso de visión artificial distribuida. Debido a su enfoque en los costos y la simplicidad operativa, el equipo decidió no implementar ni operar servidores de sistemas de archivos, sino que asumió el desafío de construir exclusivamente sobre el almacenamiento de objetos sin servidor. Servicio de almacenamiento simple de Amazon (Amazon S3). Se creó una clase de conjunto de datos de S3 personalizada con el SDK de AWS para Python (Boto3) y proporcionó un rendimiento satisfactorio al tiempo que permitió a los científicos iterar de forma autónoma en ingeniería de E/S y ciencia de modelos dentro de la misma base de código.

Innovación del lado del cliente

Un proyecto LLM rara vez consiste en un solo trabajo de capacitación; Se necesitan numerosos trabajos para realizar pruebas y experiencias iniciales. En el transcurso de la capacitación de producción principal, se pueden encadenar varios trabajos, por ejemplo, para actualizar la configuración o las versiones de software, implementar parches o recuperarse de fallas. Los científicos de TII realizaron una ingeniería significativa para crear clientes personalizados adaptados a la formación de LLM. Se creó un cliente de inicio sobre el SDK de capacitación de SageMaker para agrupar múltiples funcionalidades en un solo comando, por ejemplo, creación de versiones de código, creación de imágenes de Docker y lanzamiento de trabajos. Además, un AWS Lambda La función de cómputo sin servidor fue diseñada para observar, monitorear e intervenir en los trabajos según sea necesario.

Uso de bots de Slack para auditorías de calidad de inferencia

Hacia el final de la capacitación, el equipo implementó el modelo en un sistema interno Extremo de GPU de alojamiento de SageMaker para la interacción en tiempo real. El equipo fue tan lejos como para crear un bot de Slack con el que dialogar, obtener comentarios realistas y realizar auditorías cualitativas de calidad del modelo.

Formación y seguimiento del rendimiento

La capacitación de un LLM requiere grandes cantidades de recursos computacionales, incluidos recursos de CPU, GPU y memoria. Por lo tanto, TII necesitaba monitorear el rendimiento y el tiempo de inactividad del trabajo de capacitación para garantizar la utilización óptima de los recursos computacionales y su rentabilidad.

Para construir una solución de monitoreo automatizado, TII usó Reloj en la nube de Amazon alarmas para monitorear la utilización de GPU, CPU y memoria para los trabajos de entrenamiento. CloudWatch recopila datos sin procesar y los procesa en métricas legibles casi en tiempo real de las instancias de contenedores subyacentes que se utilizan en el trabajo de capacitación de SageMaker. Después de eso, establecemos umbrales para cada una de estas métricas y, si alguna métrica cae por debajo del umbral, se activa una alarma. Esta alarma notifica al equipo de TII sobre la baja utilización de recursos, lo que les permite tomar medidas correctivas para rectificar las restricciones de utilización de recursos.

Además de monitorear la utilización de recursos, TII también podría monitorear el tiempo de inactividad de los recursos del trabajo de capacitación. Si los recursos del trabajo de capacitación estuvieron inactivos durante un período prolongado, podría indicar un cuello de botella en cualquier etapa del ciclo de capacitación y requerir una investigación manual. En algunos casos, la utilización de los recursos seguía siendo relativamente óptima, pero el proceso de capacitación en sí no avanzaba. Para estos casos, TII integró alarmas de CloudWatch con funciones Lambda para consultar y leer los registros de capacitación generados y luego tomar acciones automáticas en función del error generado o la inactividad del proceso de generación de registros (el clúster se detiene). La alarma activa una acción para detener el trabajo de capacitación, lo que garantiza que TII no incurra en costos innecesarios cuando no se utilizan los recursos.

Conclusión

Al usar SageMaker junto con una innovación patentada y personalizada, TII pudo entrenar un modelo de vanguardia en múltiples dimensiones: avances tecnológicos, calidad científica, velocidad de entrenamiento y también simplicidad operativa.

“El lanzamiento del Falcon 40B de los Emiratos Árabes Unidos, el modelo de IA de código abierto mejor clasificado del mundo, ilustra el liderazgo tecnológico y allana el camino para la innovación impulsada por la IA en el mundo.ion” indica el Dr. Ebtesam Almazrouei; agregando eso "Demostramos nuestro compromiso con los objetivos descritos en la Estrategia Nacional de IA 2031. Nuestra participación activa en los avances tecnológicos globales, representados por Falcon-40B, juega un papel crucial en nuestra búsqueda de una economía basada en el conocimiento. A través de inversiones y desarrollo en soluciones de IA, nuestro objetivo es crear nuevas oportunidades para el crecimiento económico, el progreso social y los avances educativos.

“La naturaleza de código abierto de Falcon-40B refleja nuestra dedicación a la colaboración, la transparencia, la innovación y la investigación en el campo de la IA. Creemos en democratizar las capacidades avanzadas de la tecnología de IA, haciendo que Falcon-40B sea accesible para investigadores y organizaciones de todo el mundo”.

“De cara al futuro, seguiremos contribuyendo a los avances tecnológicos y de inteligencia artificial, con los próximos modelos en proceso. Además, promoveremos activamente la adopción de tecnología avanzada de IA dentro de las organizaciones y empresas de nuestro país, fomentando el crecimiento y la prosperidad alineados con nuestros objetivos estratégicos”.

– Dra. Almazrouei

Para obtener más información sobre Falcon LLM, visite el sitio web FalconLLM.tii.ae y la tarjeta modelo en Hugging Face!


Acerca de los autores

Technology Innovation Institute entrena el modelo de base Falcon LLM 40B de última generación en Amazon SageMaker | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Dr. Ebtesam Almazrouei es el director ejecutivo, investigador jefe interino de IA y fundador de la Unidad del Centro Al-Cross en el Instituto de Innovación Tecnológica (TII). Como fundador de la Unidad del Centro Al-Cross en el Instituto de Innovación Tecnológica (TII), el Dr. Almazrouei ha desempeñado un papel fundamental en la configuración de las capacidades de inteligencia artificial del TII. Su visión estratégica y experiencia en IA y aprendizaje automático la han permitido liderar iniciativas de investigación innovadoras y fomentar colaboraciones multifuncionales, lo que resulta en la entrega de soluciones innovadoras de IA en múltiples industrias.

Uno de los logros notables de la Dra. Almazrouei es su papel fundamental en el desarrollo de Falcon 40B, un LLM de vanguardia que ha obtenido reconocimiento mundial. El desempeño excepcional de Falcon 40B lo colocó como el LLM número uno a nivel mundial en la tabla de clasificación de Hugging Face en mayo de 2023. Además, lideró el desarrollo de Noor, el modelo de lenguaje grande (LLM) árabe más grande del mundo lanzado en abril de 2022.

La Dra. Almazrouei es reconocida mundialmente por sus contribuciones a la IA y apareció en la lista de Mujeres líderes en IA en el mundo en 2023, junto con otras mujeres distinguidas en el campo. También es una defensora de las iniciativas de sostenibilidad y AI for Good, así como presidenta general de Abu Dhabi AI Connect y presidenta del TPC de muchas conferencias internacionales del IEEE.

Sus contribuciones se extienden más allá de su trabajo en TII, donde dirige el subcomité de expertos en big data del Consejo de IA y Blockchain de los EAU y es miembro de la junta directiva mundial del Wireless World Research Forum (WWRF). Es autora científica, inventora de patentes, empresaria y oradora de renombre, conocida por sus discursos de apertura en cumbres prestigiosas como la Cumbre de IA en Londres, el Festival Mundial de IA de Cannes y las cumbres tecnológicas.

Technology Innovation Institute entrena el modelo de base Falcon LLM 40B de última generación en Amazon SageMaker | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Will Badr es Gerente Sr. de Arquitectos de Soluciones de IA/ML con sede en Dubái (EAU) que trabaja como parte del equipo global de Amazon Machine Learning. A Will le apasiona usar la tecnología de formas innovadoras para impactar positivamente en la comunidad. En su tiempo libre le gusta bucear, jugar fútbol y explorar las Islas del Pacífico.

Technology Innovation Institute entrena el modelo de base Falcon LLM 40B de última generación en Amazon SageMaker | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.olivier cruchant es un arquitecto de soluciones especialista en aprendizaje automático en AWS, con sede en Francia. Olivier ayuda a los clientes de AWS, desde pequeñas empresas emergentes hasta grandes empresas, a desarrollar e implementar aplicaciones de aprendizaje automático de nivel de producción. En su tiempo libre, disfruta leer trabajos de investigación y explorar la naturaleza con amigos y familiares.

Sello de tiempo:

Mas de Aprendizaje automático de AWS