Los modelos básicos de Llama 2 de Meta ya están disponibles en Amazon SageMaker JumpStart | Servicios web de Amazon

Los modelos básicos de Llama 2 de Meta ya están disponibles en Amazon SageMaker JumpStart | Servicios web de Amazon

Hoy, nos complace anunciar que los modelos básicos de Llama 2 desarrollados por Meta están disponibles para los clientes a través de JumpStart de Amazon SageMaker. La familia Llama 2 de modelos de lenguaje extenso (LLM) es una colección de modelos de texto generativo pre-entrenados y ajustados que varían en escala de 7 mil millones a 70 mil millones de parámetros. Los LLM ajustados, llamados Llama-2-chat, están optimizados para casos de uso de diálogo. Puede probar fácilmente estos modelos y usarlos con SageMaker JumpStart, que es un centro de aprendizaje automático (ML) que brinda acceso a algoritmos, modelos y soluciones de ML para que pueda comenzar rápidamente con ML.

En esta publicación, explicamos cómo usar los modelos Llama 2 a través de SageMaker JumpStart.

¿Qué es Llama 2?

Llama 2 es un modelo de lenguaje autorregresivo que utiliza una arquitectura de transformador optimizada. Llama 2 está diseñado para uso comercial y de investigación en inglés. Viene en una variedad de tamaños de parámetros: 7 mil millones, 13 mil millones y 70 mil millones, así como variaciones preentrenadas y ajustadas. Según Meta, las versiones ajustadas utilizan ajuste fino supervisado (SFT) y aprendizaje reforzado con retroalimentación humana (RLHF) para alinearse con las preferencias humanas en cuanto a utilidad y seguridad. Llama 2 fue entrenado previamente en 2 billones de tokens de datos de fuentes disponibles públicamente. Los modelos ajustados están destinados a un chat similar al de un asistente, mientras que los modelos previamente entrenados se pueden adaptar para una variedad de tareas de generación de lenguaje natural. Independientemente de la versión del modelo que utilice un desarrollador, el guía de uso responsable de Meta puede ayudar a guiar los ajustes adicionales que pueden ser necesarios para personalizar y optimizar los modelos con las mitigaciones de seguridad adecuadas.

¿Qué es SageMaker JumpStart?

Con SageMaker JumpStart, los profesionales de ML pueden elegir entre una amplia selección de modelos básicos de código abierto. Los profesionales de ML pueden implementar modelos de base para dedicados Amazon SageMaker instancias de un entorno de red aislado y personalice los modelos con SageMaker para el entrenamiento y la implementación de modelos.

Ahora puedes descubrir e implementar Llama 2 con unos pocos clics en Estudio Amazon SageMaker o programáticamente a través de SageMaker Python SDK, lo que le permite derivar el rendimiento del modelo y los controles de MLOps con funciones de SageMaker como Canalizaciones de Amazon SageMaker, Depurador de Amazon SageMakero registros de contenedores. El modelo se implementa en un entorno seguro de AWS y bajo los controles de su VPC, lo que ayuda a garantizar la seguridad de los datos. Los modelos Llama 2 están disponibles hoy en Amazon SageMaker Studio, inicialmente en us-east 1 y us-west 2 regiones.

Descubre modelos

Puede acceder a los modelos básicos a través de SageMaker JumpStart en la interfaz de usuario de SageMaker Studio y SageMaker Python SDK. En esta sección, repasaremos cómo descubrir los modelos en SageMaker Studio.

SageMaker Studio es un entorno de desarrollo integrado (IDE) que proporciona una única interfaz visual basada en web donde puede acceder a herramientas especialmente diseñadas para realizar todos los pasos de desarrollo de ML, desde la preparación de datos hasta la creación, capacitación e implementación de sus modelos de ML. Para obtener más detalles sobre cómo comenzar y configurar SageMaker Studio, consulte Estudio Amazon SageMaker.

Una vez que esté en SageMaker Studio, puede acceder a SageMaker JumpStart, que contiene modelos preentrenados, cuadernos y soluciones prediseñadas, en Soluciones preconstruidas y automatizadas.

Los modelos de base Llama 2 de Meta ya están disponibles en Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Desde la página de inicio de SageMaker JumpStart, puede buscar soluciones, modelos, cuadernos y otros recursos. Puedes encontrar dos modelos emblemáticos de Llama 2 en el Modelos de cimentación: Generación de texto carrusel. Si no ve los modelos Llama 2, actualice su versión de SageMaker Studio apagando y reiniciando. Para obtener más información acerca de las actualizaciones de versión, consulte Cierre y actualice las aplicaciones de Studio.

Los modelos de base Llama 2 de Meta ya están disponibles en Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

También puede encontrar otras cuatro variantes de modelo eligiendo Explore todos los modelos de generación de texto o buscando llama en el cuadro de búsqueda.

Los modelos de base Llama 2 de Meta ya están disponibles en Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Puede elegir la tarjeta de modelo para ver detalles sobre el modelo, como la licencia, los datos utilizados para entrenar y cómo usarlo. También puedes encontrar dos botones, Despliegue y cuaderno abierto, que le ayudan a utilizar el modelo.

Los modelos de base Llama 2 de Meta ya están disponibles en Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Cuando elige cualquiera de los botones, una ventana emergente mostrará el acuerdo de licencia de usuario final y la política de uso aceptable para que usted lo reconozca.

Los modelos de base Llama 2 de Meta ya están disponibles en Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Al reconocer, continuará con el siguiente paso para usar el modelo.

Implementar un modelo

Cuando tu elijas Despliegue y reconoce los términos, comenzará la implementación del modelo. Alternativamente, puede implementar a través del cuaderno de ejemplo que aparece eligiendo cuaderno abierto. El cuaderno de ejemplo proporciona una guía integral sobre cómo implementar el modelo para la inferencia y la limpieza de recursos.

Para implementar usando una computadora portátil, comenzamos seleccionando un modelo apropiado, especificado por el model_id. Puede implementar cualquiera de los modelos seleccionados en SageMaker con el siguiente código:

from sagemaker.jumpstart.model import JumpStartModel
my_model = JumpStartModel(model_id = "meta-textgeneration-llama-2-70b-f")
predictor = my_model.deploy()

Esto implementa el modelo en SageMaker con configuraciones predeterminadas, incluido el tipo de instancia predeterminado y las configuraciones de VPC predeterminadas. Puede cambiar estas configuraciones especificando valores no predeterminados en JumpStartModelo. Una vez implementado, puede ejecutar la inferencia en el extremo implementado a través del predictor de SageMaker:

payload = { “inputs”: [ [ {"role": "system", "content": "Always answer with Haiku"}, {"role": "user", "content": "I am going to Paris, what should I see?"}, ] ], "parameters":{"max_new_tokens":256, "top_p":0.9, "temperature":0.6}
}

Los modelos de chat ajustados (Llama-2-7b-chat, Llama-2-13b-chat, Llama-2-70b-chat) aceptan un historial de chat entre el usuario y el asistente de chat, y generan el chat posterior. Los modelos preentrenados (Llama-2-7b, Llama-2-13b, Llama-2-70b) requieren un indicador de cadena y completan el texto en el indicador proporcionado. Ver el siguiente código:

predictor.predict(payload, custom_attributes="accept_eula=true")

Tenga en cuenta que, de forma predeterminada, accept_eula se establece en falso. Necesitas configurar accept_eula=true para invocar el punto final con éxito. Al hacerlo, acepta el acuerdo de licencia de usuario y la política de uso aceptable como se mencionó anteriormente. Tú también puedes descargar el acuerdo de licencia.

Custom_attributes utilizados para aprobar EULA son pares clave/valor. La clave y el valor están separados por = y los pares están separados por ;. Si el usuario pasa la misma clave más de una vez, el último valor se conserva y se pasa al controlador del script (es decir, en este caso, se usa para la lógica condicional). Por ejemplo, si accept_eula=false; accept_eula=true se pasa al servidor, entonces  accept_eula=true se guarda y se pasa al controlador de secuencias de comandos.

Los parámetros de inferencia controlan el proceso de generación de texto en el punto final. El control máximo de tokens nuevos se refiere al tamaño de la salida generada por el modelo. Tenga en cuenta que esto no es lo mismo que el número de palabras porque el vocabulario del modelo no es el mismo que el vocabulario del idioma inglés, y cada token puede no ser una palabra del idioma inglés. La temperatura controla la aleatoriedad en la salida. Una temperatura más alta da como resultado resultados más creativos y alucinados. Todos los parámetros de inferencia son opcionales.

La siguiente tabla enumera todos los modelos de Llama disponibles en SageMaker JumpStart junto con el model_ids, tipos de instancia predeterminados y la cantidad máxima de tokens totales (suma de la cantidad de tokens de entrada y la cantidad de tokens generados) admitidos para cada uno de estos modelos.

Nombre de Modelo Modelo ID Fichas totales máximas Tipo de instancia predeterminado
Llama-2-7b meta-generación de texto-llama-2-7b 4096 ml.g5.2xgrande
llama-2-7b-chat meta-generación-de-texto-llama-2-7b-f 4096 ml.g5.2xgrande
Llama-2-13b meta-generación de texto-llama-2-13b 4096 ml.g5.12xgrande
llama-2-13b-chat meta-generación-de-texto-llama-2-13b-f 4096 ml.g5.12xgrande
Llama-2-70b meta-generación de texto-llama-2-70b 4096 ml.g5.48xgrande
llama-2-70b-chat meta-generación-de-texto-llama-2-70b-f 4096 ml.g5.48xgrande

Tenga en cuenta que los extremos de SageMaker tienen un límite de tiempo de espera de 60 s. Por lo tanto, aunque el modelo pueda generar tokens 4096, si la generación de texto demora más de 60 segundos, la solicitud fallará. Para los modelos 7B, 13B y 70B, recomendamos configurar max_new_tokens no más de 1500, 1000 y 500 respectivamente, manteniendo el número total de tokens por debajo de 4K.

Indicaciones de inferencia y ejemplo para Llama-2-70b

Puede usar modelos Llama para completar texto para cualquier parte del texto. A través de la generación de texto, puede realizar una variedad de tareas, como responder preguntas, traducir idiomas, analizar opiniones y muchas más. La carga útil de entrada al punto final se parece al siguiente código:

payload = { “inputs”: str, (optional)"parameters":{"max_new_tokens":int, "top_p":float, "temperature":float}
}

Los siguientes son algunos ejemplos de indicaciones y el texto generado por el modelo. Todas las salidas se generan con parámetros de inferencia {"max_new_tokens":256, "top_p":0.9, "temperature":0.6}.

Input: Simply put, the theory of relativity states that Output: 1) the laws of physics are the same for all observers in uniform motion relative to one another, and 2) the speed of light is the same for all observers, regardless of their relative motion or of the motion of the source of the light.
In the late 1800s, scientists believed that light travelled through a medium they called the luminiferous ether. But in 1887, Albert Michelson and Edward Morley designed an experiment to measure the speed of light in the ether, and found that the speed of light was the same no matter how they oriented their equipment. This result seemed to contradict the idea of the ether, and Michelson and Morley’s experiment became one of the most famous failed experiments in history.
In 1905, Albert Einstein published a paper that used the results of the Michelson-Morley experiment to develop the theory of special relativity. In 1915, Einstein published a paper on general relativity, which is a theory of gravitation.
In physics, the speed of light is considered to be a constant, and its value is 299,792,458 metres Input: I believe the meaning of life is Output: to be happy, to find joy in life, to love and be loved. To have the courage to be yourself and to be kind to others. To be able to express yourself, to create and to be inspired. To be able to give and receive. To be able to learn and grow. To be able to find beauty in the world and to be able to appreciate it. To be able to find peace and contentment. To be able to find meaning and purpose. To be able to make a difference in the world. To be able to find joy in the simple things. To be able to find joy in the difficult things. To be able to find joy in the journey. To be able to find joy in the destination. To be able to find joy in the present moment. To be able to find joy in the future. To be able to find joy in the past. To be able to find joy in the present. To be able to find joy in the future. To be able to find joy in the past. To be able to find joy in the present. To be able to find joy in the future. To be able to find joy in the past. To be able to find joy in the present. To be able to find joy Input: A brief message congratulating the team on the launch: Hi everyone, I just Output: wanted to send a quick note to congratulate everyone on the launch of our new website. I know it’s been a long time coming and I’m sure we’re all relieved that it’s finally out there. Thanks to everyone for their hard work and dedication over the last few months. I know it wasn’t always easy, but I think we can all be proud of the final product. I’m looking forward to seeing how our users respond to the new site and I’m confident that it will be a success. Thanks again, and enjoy the rest of your day! Best, [Your Name] [Your Title] [Your Company] [Your Email] [Your Phone Number] [Your Website] [Your Social Media Handles] [Your Address] [Your City, State, Zip Code] [Your Country] [Your Postal Code] [Your Website] [

En el siguiente ejemplo, mostramos cómo usar modelos Llama con aprendizaje en contexto de pocas tomas, donde proporcionamos muestras de capacitación disponibles para el modelo. Tenga en cuenta que solo hacemos inferencias en el modelo implementado y durante este proceso, los pesos del modelo no cambian.

Input: Translate English to French: sea otter => loutre de mer peppermint => menthe poivrée plush girafe => girafe peluche cheese => Output: fromage chocolate => chocolat car => voiture hamster => hamster beer => bière bicycle => bicyclette banana => banane strawberry => fraise pizza => pizza cheeseburger => cheeseburger pineapple => ananas carrot => carotte watermelon => pastèque whale => baleine eggplant => aubergine cat => chat penguin => manchot lion => lion elephant => éléphant panda => panda tiger => tigre salmon => saumon squirrel => écureuil kangaroo => kangourou turtle => tortue octopus => poulpe frog => grenouille pig => cochon goldfish => poisson rouge tiger shark => requin tigre gorilla => gorille dol

Indicaciones de inferencia y ejemplo para Llama-2-70b-chat

Con los modelos Llama-2-Chat, que están optimizados para casos de uso de diálogo, la entrada a los puntos finales del modelo de chat es el historial anterior entre el asistente de chat y el usuario. Puede hacer preguntas contextuales a la conversación que ha tenido lugar hasta el momento. También puede proporcionar la configuración del sistema, como personas que definen el comportamiento del asistente de chat. La carga útil de entrada al punto final se parece al siguiente código:

payload = { “inputs”: [ [ (optional){"role": "system", "content": str}, (repeated k times) {"role": "user", "content": str}, {"role": "assistant", "content": str}, {"role": "user", "content": str}, ] ], (optional)"parameters":{"max_new_tokens":int, "top_p":float, "temperature":float}
}

Los siguientes son algunos ejemplos de indicaciones y el texto generado por el modelo. Todas las salidas se generan con los parámetros de inferencia {"max_new_tokens": 512, "top_p": 0.9, "temperature": 0.6}.

Input:
User: what is the recipe of mayonnaise? Output:
Assistant: Sure, I can help you with that! Mayonnaise is a thick, creamy condiment made from a mixture of egg yolks, oil, vinegar or lemon juice, and seasonings. Here's a basic recipe for homemade mayonnaise: Ingredients: * 2 egg yolks
* 1/2 cup (120 ml) neutral-tasting oil, such as canola or grapeseed
* 1 tablespoon (15 ml) vinegar or lemon juice
* 1/2 teaspoon salt
* 1/4 teaspoon black pepper Instructions: 1. In a medium-sized bowl, whisk together the egg yolks, salt, and black pepper until well combined.
2. Slowly pour the oil into the bowl while continuously whisking the mixture. It's important to add the oil very slowly, otherwise the mixture can break and you'll end up with a separated, curdled mess.
3. Continue whisking until the mixture thickens and emulsifies, which should take about 5-7 minutes. You'll know it's ready when the mixture has doubled in volume and has a thick, creamy consistency.
4. Add the vinegar or lemon juice and continue whisking for another minute or two, until the flavors are fully incorporated.
5. Taste the mayonnaise and adjust the seasoning as needed. You can add more salt, pepper, or acid if desired.
6. Cover the bowl with plastic wrap and refrigerate the mayonnaise for at least 30 minutes before serving. This will allow the flavors to meld together and the mayonnaise to thicken further. That's it! This recipe makes about 1 1/2 cups (360 ml) of mayonnaise, which should be enough for a small to medium-sized batch of sandwiches or salads. You can also customize the recipe by adding different flavorings, such as garlic, mustard, or herbs, to create a unique taste. Enjoy!

En el siguiente ejemplo, el usuario ha tenido una conversación con el asistente sobre sitios turísticos en París. A continuación, el usuario pregunta sobre la primera opción recomendada por el asistente de chat.

Input:
User: I am going to Paris, what should I see?
Assistant: Paris, the capital of France, is known for its stunning architecture, art museums, historical landmarks, and romantic atmosphere. Here are some of the top attractions to see in Paris: 1. The Eiffel Tower: The iconic Eiffel Tower is one of the most recognizable landmarks in the world and offers breathtaking views of the city.
2. The Louvre Museum: The Louvre is one of the world's largest and most famous museums, housing an impressive collection of art and artifacts, including the Mona Lisa.
3. Notre-Dame Cathedral: This beautiful cathedral is one of the most famous landmarks in Paris and is known for its Gothic architecture and stunning stained glass windows. These are just a few of the many attractions that Paris has to offer. With so much to see and do, it's no wonder that Paris is one of the most popular tourist destinations in the world.
User: What is so great about #1? Output:
Assistant: The Eiffel Tower is a world-renowned iconic landmark that symbolizes Paris and France. It was built for the World's Fair in 1889 and was initially intended to be a temporary structure, but it has become a permanent part of the Parisian skyline. Here are some reasons why the Eiffel Tower is so great: 1. Engineering marvel: The Eiffel Tower was a groundbreaking feat of engineering at the time of its construction. It stands at 324 meters (1,063 feet) tall and was the tallest structure in the world for over 40 years.
2. Iconic design: The Eiffel Tower's distinctive shape and design make it instantly recognizable. It has been the subject of countless works of art, photographs, and films, and has become a symbol of Paris and France.
3. Panoramic views: The Eiffel Tower offers breathtaking views of the city from its observation decks. Visitors can enjoy a 360-degree view of Paris, including famous landmarks such as the Seine River, the Arc de Triomphe, and the Montmartre neighborhood.
4. Historical significance: The Eiffel Tower has played a significant role in Paris's history, having been the site of numerous important events, including the famous "Battle of the Eiffel Tower" during World War II.
5. Cultural impact: The Eiffel Tower has had a significant impact on popular culture, inspiring countless works of art, literature, and music. It has also been the subject of numerous documentaries and films, including the classic movie "An American in Paris."
6. Romantic setting: The Eiffel Tower is known for its romantic atmosphere, making it a popular destination for couples and newlyweds. It has been the site of countless marriage proposals and has been featured in numerous romantic films and literature.
7. Accessibility: The Eiffel Tower is easily accessible by public transportation, making it a convenient destination for visitors. It is also wheelchair-friendly, with elevators and ramps providing access to all levels. Overall, the Eiffel Tower is a must-see destination for anyone visiting Paris, offering a unique and unforgettable experience that combines history, culture, engineering, and rom

En los siguientes ejemplos, establecemos la configuración del sistema:

Input:
System: Always answer with Haiku
User: I am going to Paris, what should I see? Output:
Assistant: Eiffel Tower high
Art in the Louvre Museum
River Seine flows Input:
System: Always answer with emojis
User: How to go from Beijing to NY? Output:
Assistant: Here are the emojis that represent the steps to go from Beijing to New York: 🇨🇳🛫🛬🇺🇸🗽🏙️🚕💨🛩️🛬🛫😴💤🛩️🛬🛫😍

Limpiar

Una vez que haya terminado de ejecutar el cuaderno, asegúrese de eliminar todos los recursos para que todos los recursos que creó en el proceso se eliminen y se detenga su facturación:

predictor.delete_model()
predictor.delete_endpoint()

Conclusión

En esta publicación, le mostramos cómo comenzar con los modelos Llama 2 en SageMaker Studio. Con esto, tienes acceso a seis modelos básicos de Llama 2 que contienen miles de millones de parámetros. Debido a que los modelos básicos están preentrenados, también pueden ayudar a reducir los costos de capacitación e infraestructura y permitir la personalización para su caso de uso. Para comenzar con SageMaker JumpStart, visite los siguientes recursos:


Sobre los autores

Los modelos de base Llama 2 de Meta ya están disponibles en Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.junio ganó es gerente de producto en SageMaker JumpStart. Se enfoca en hacer que los modelos básicos sean fácilmente detectables y utilizables para ayudar a los clientes a crear aplicaciones de IA generativa. Su experiencia en Amazon también incluye la aplicación de compras móviles y la entrega de última milla.

vivek madan Dr. Vivek Madan es un científico aplicado del equipo JumpStart de Amazon SageMaker. Obtuvo su doctorado en la Universidad de Illinois en Urbana-Champaign y fue investigador posdoctoral en Georgia Tech. Es un investigador activo en aprendizaje automático y diseño de algoritmos y ha publicado artículos en conferencias EMNLP, ICLR, COLT, FOCS y SODA. Los modelos de base Llama 2 de Meta ya están disponibles en Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai. Dr.Kyle Ulrich es un científico aplicado del equipo JumpStart de Amazon SageMaker. Sus intereses de investigación incluyen algoritmos escalables de aprendizaje automático, visión artificial, series temporales, no paramétricos bayesianos y procesos gaussianos. Su doctorado es de la Universidad de Duke y ha publicado artículos en NeurIPS, Cell y Neuron. Los modelos de base Llama 2 de Meta ya están disponibles en Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai. Dr. Ashish Khetan es un científico aplicado sénior de Amazon SageMaker JumpStart y ayuda a desarrollar algoritmos de aprendizaje automático. Obtuvo su doctorado en la Universidad de Illinois Urbana-Champaign. Es un investigador activo en aprendizaje automático e inferencia estadística, y ha publicado muchos artículos en conferencias NeurIPS, ICML, ICLR, JMLR, ACL y EMNLP. Los modelos de base Llama 2 de Meta ya están disponibles en Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai. Sundar Ranganatán es el director global de especialistas de GenAI/Frameworks GTM en AWS. Se enfoca en desarrollar la estrategia GTM para modelos de lenguajes grandes, GenAI y cargas de trabajo de ML a gran escala en servicios de AWS como Amazon EC2, EKS, EFA, AWS Batch y Amazon SageMaker. Su experiencia incluye roles de liderazgo en gestión y desarrollo de productos en NetApp, Micron Technology, Qualcomm y Mentor Graphics.

Sello de tiempo:

Mas de Aprendizaje automático de AWS