I modelli di base Llama 2 di Meta sono ora disponibili in Amazon SageMaker JumpStart | Servizi Web Amazon

I modelli di base Llama 2 di Meta sono ora disponibili in Amazon SageMaker JumpStart | Servizi Web Amazon

Oggi siamo lieti di annunciare che i modelli di fondotinta Llama 2 sviluppati da Meta sono disponibili per i clienti tramite JumpStart di Amazon SageMaker. La famiglia Llama 2 di modelli linguistici di grandi dimensioni (LLM) è una raccolta di modelli di testo generativi preaddestrati e ottimizzati che vanno da 7 miliardi a 70 miliardi di parametri. Gli LLM ottimizzati, chiamati Llama-2-chat, sono ottimizzati per i casi d'uso del dialogo. Puoi provare facilmente questi modelli e utilizzarli con SageMaker JumpStart, un hub di machine learning (ML) che fornisce accesso ad algoritmi, modelli e soluzioni ML in modo da poter iniziare rapidamente con il ML.

In questo post, spieghiamo come utilizzare i modelli Llama 2 tramite SageMaker JumpStart.

Cos'è Lama 2

Llama 2 è un modello linguistico autoregressivo che utilizza un'architettura di trasformatore ottimizzata. Llama 2 è destinato all'uso commerciale e di ricerca in inglese. È disponibile in una gamma di dimensioni dei parametri: 7 miliardi, 13 miliardi e 70 miliardi, nonché in varianti pre-addestrate e ottimizzate. Secondo Meta, le versioni ottimizzate utilizzano la messa a punto supervisionata (SFT) e l’apprendimento di rinforzo con feedback umano (RLHF) per allinearsi alle preferenze umane in termini di disponibilità e sicurezza. Llama 2 è stato pre-addestrato su 2 trilioni di token di dati provenienti da fonti disponibili al pubblico. I modelli ottimizzati sono destinati a chat simili a quelle di un assistente, mentre i modelli preaddestrati possono essere adattati per una varietà di attività di generazione del linguaggio naturale. Indipendentemente dalla versione del modello utilizzata dallo sviluppatore, il file guida all'uso responsabile di Meta può aiutare a guidare ulteriori messe a punto che potrebbero essere necessarie per personalizzare e ottimizzare i modelli con adeguate attenuazioni della sicurezza.

Cos'è SageMaker JumpStart

Con SageMaker JumpStart, i professionisti del machine learning possono scegliere tra un'ampia selezione di modelli di base open source. I professionisti del machine learning possono distribuire modelli di base a progetti dedicati Amazon Sage Maker istanze da un ambiente isolato dalla rete e personalizza i modelli utilizzando SageMaker per l'addestramento e la distribuzione dei modelli.

Ora puoi scoprire e distribuire Llama 2 con pochi clic Amazon Sage Maker Studio o a livello di programmazione tramite SageMaker Python SDK, consentendoti di derivare le prestazioni del modello e i controlli MLOps con funzionalità SageMaker come Pipeline di Amazon SageMaker, Debugger di Amazon SageMakero log del contenitore. Il modello viene distribuito in un ambiente sicuro AWS e sotto i controlli VPC, contribuendo a garantire la sicurezza dei dati. I modelli Llama 2 sono disponibili oggi in Amazon SageMaker Studio, inizialmente in us-east 1 ed us-west 2 regioni.

Scopri i modelli

Puoi accedere ai modelli di base tramite SageMaker JumpStart nell'interfaccia utente di SageMaker Studio e SageMaker Python SDK. In questa sezione, esamineremo come scoprire i modelli in SageMaker Studio.

SageMaker Studio è un ambiente di sviluppo integrato (IDE) che fornisce un'unica interfaccia visiva basata sul Web in cui è possibile accedere a strumenti specifici per eseguire tutte le fasi di sviluppo ML, dalla preparazione dei dati alla creazione, formazione e distribuzione dei modelli ML. Per ulteriori dettagli su come iniziare e configurare SageMaker Studio, fare riferimento a Amazon Sage Maker Studio.

Una volta entrato in SageMaker Studio, puoi accedere a SageMaker JumpStart, che contiene modelli pre-addestrati, notebook e soluzioni predefinite, in Soluzioni predefinite e automatizzate.

I modelli di fondazione Llama 2 di Meta sono ora disponibili in Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Dalla pagina di destinazione JumpStart di SageMaker è possibile cercare soluzioni, modelli, notebook e altre risorse. Puoi trovare due modelli di punta Llama 2 in Modelli di fondazione: Generazione di testo giostra. Se non vedi i modelli Llama 2, aggiorna la versione di SageMaker Studio spegnendo e riavviando. Per ulteriori informazioni sugli aggiornamenti della versione, fare riferimento a Chiudi e aggiorna le app di Studio.

I modelli di fondazione Llama 2 di Meta sono ora disponibili in Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Puoi trovare anche altre quattro varianti di modello scegliendo Esplora tutti i modelli di generazione di testo o cercando llama nella casella di ricerca.

I modelli di fondazione Llama 2 di Meta sono ora disponibili in Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Puoi scegliere la scheda del modello per visualizzare i dettagli sul modello come licenza, dati utilizzati per l'addestramento e modalità di utilizzo. Puoi anche trovare due pulsanti, Schierare ed Apri taccuino, che ti aiutano a utilizzare il modello.

I modelli di fondazione Llama 2 di Meta sono ora disponibili in Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Quando scegli uno dei pulsanti, un popup mostrerà il contratto di licenza con l'utente finale e la politica di utilizzo accettabile che dovrai riconoscere.

I modelli di fondazione Llama 2 di Meta sono ora disponibili in Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Dopo aver confermato, si procederà al passaggio successivo per utilizzare il modello.

Distribuisci un modello

Quando si sceglie Schierare e si accettano i termini, verrà avviata la distribuzione del modello. In alternativa, è possibile eseguire la distribuzione tramite il notebook di esempio visualizzato scegliendo Apri taccuino. Il notebook di esempio fornisce indicazioni end-to-end su come distribuire il modello per l'inferenza e pulire le risorse.

Per eseguire la distribuzione utilizzando un notebook, iniziamo selezionando un modello appropriato, specificato dal model_id. Puoi distribuire uno qualsiasi dei modelli selezionati su SageMaker con il seguente codice:

from sagemaker.jumpstart.model import JumpStartModel
my_model = JumpStartModel(model_id = "meta-textgeneration-llama-2-70b-f")
predictor = my_model.deploy()

Questo distribuisce il modello su SageMaker con configurazioni predefinite, inclusi il tipo di istanza predefinito e le configurazioni VPC predefinite. È possibile modificare queste configurazioni specificando valori non predefiniti in Modello JumpStart. Dopo la distribuzione, puoi eseguire l'inferenza sull'endpoint distribuito tramite il predittore SageMaker:

payload = { “inputs”: [ [ {"role": "system", "content": "Always answer with Haiku"}, {"role": "user", "content": "I am going to Paris, what should I see?"}, ] ], "parameters":{"max_new_tokens":256, "top_p":0.9, "temperature":0.6}
}

I modelli di chat ottimizzati (Llama-2-7b-chat, Llama-2-13b-chat, Llama-2-70b-chat) accettano una cronologia della chat tra l'utente e l'assistente di chat e generano la chat successiva. I modelli pre-addestrati (Llama-2-7b, Llama-2-13b, Llama-2-70b) richiedono un prompt di stringa ed eseguono il completamento del testo sul prompt fornito. Vedere il seguente codice:

predictor.predict(payload, custom_attributes="accept_eula=true")

Si noti che per impostazione predefinita, accept_eula è impostato su falso. È necessario impostare accept_eula=true per richiamare l'endpoint con successo. In tal modo, accetti il ​​contratto di licenza utente e la politica di utilizzo accettabile come menzionato in precedenza. Puoi anche scaricare il contratto di licenza.

Custom_attributes utilizzati per passare l'EULA sono coppie chiave/valore. La chiave e il valore sono separati da = e le coppie sono separate da ;. Se l'utente passa la stessa chiave più di una volta, l'ultimo valore viene mantenuto e passato al gestore dello script (cioè, in questo caso, utilizzato per la logica condizionale). Ad esempio, se accept_eula=false; accept_eula=true viene passato al server, quindi  accept_eula=true viene mantenuto e passato al gestore dello script.

I parametri di inferenza controllano il processo di generazione del testo all'endpoint. Il controllo massimo di nuovi token si riferisce alla dimensione dell'output generato dal modello. Tieni presente che questo non è lo stesso numero di parole perché il vocabolario del modello non è lo stesso del vocabolario della lingua inglese e ogni token potrebbe non essere una parola della lingua inglese. La temperatura controlla la casualità nell'output. Una temperatura più elevata si traduce in risultati più creativi e allucinati. Tutti i parametri di inferenza sono facoltativi.

La tabella seguente elenca tutti i modelli Llama disponibili in SageMaker JumpStart insieme a model_ids, i tipi di istanza predefiniti e il numero massimo di token totali (somma del numero di token di input e numero di token generati) supportati per ciascuno di questi modelli.

Nome del modello ID modello Gettoni totali massimi Tipo di istanza predefinito
Lama-2-7b meta-testogenerazione-llama-2-7b 4096 ml.g5.2xgrande
Lama-2-7b-chat meta-testogenerazione-llama-2-7b-f 4096 ml.g5.2xgrande
Lama-2-13b meta-testogenerazione-llama-2-13b 4096 ml.g5.12xgrande
Lama-2-13b-chat meta-testogenerazione-llama-2-13b-f 4096 ml.g5.12xgrande
Lama-2-70b meta-testogenerazione-llama-2-70b 4096 ml.g5.48xgrande
Lama-2-70b-chat meta-testogenerazione-llama-2-70b-f 4096 ml.g5.48xgrande

Tieni presente che gli endpoint SageMaker hanno un limite di timeout di 60 secondi. Pertanto, anche se il modello potrebbe essere in grado di generare 4096 token, se la generazione del testo richiede più di 60 secondi, la richiesta fallirà. Per i modelli 7B, 13B e 70B si consiglia di impostare max_new_tokens non superiori rispettivamente a 1500, 1000 e 500, mantenendo il numero totale di token inferiore a 4K.

Inferenza e suggerimenti di esempio per Llama-2-70b

Puoi utilizzare i modelli Llama per il completamento del testo per qualsiasi parte di testo. Attraverso la generazione del testo, puoi eseguire una serie di attività, come rispondere a domande, tradurre la lingua, analizzare il sentiment e molto altro. Il carico utile di input per l'endpoint è simile al seguente codice:

payload = { “inputs”: str, (optional)"parameters":{"max_new_tokens":int, "top_p":float, "temperature":float}
}

Di seguito sono riportati alcuni esempi di prompt e il testo generato dal modello. Tutti gli output sono generati con parametri di inferenza {"max_new_tokens":256, "top_p":0.9, "temperature":0.6}.

Input: Simply put, the theory of relativity states that Output: 1) the laws of physics are the same for all observers in uniform motion relative to one another, and 2) the speed of light is the same for all observers, regardless of their relative motion or of the motion of the source of the light.
In the late 1800s, scientists believed that light travelled through a medium they called the luminiferous ether. But in 1887, Albert Michelson and Edward Morley designed an experiment to measure the speed of light in the ether, and found that the speed of light was the same no matter how they oriented their equipment. This result seemed to contradict the idea of the ether, and Michelson and Morley’s experiment became one of the most famous failed experiments in history.
In 1905, Albert Einstein published a paper that used the results of the Michelson-Morley experiment to develop the theory of special relativity. In 1915, Einstein published a paper on general relativity, which is a theory of gravitation.
In physics, the speed of light is considered to be a constant, and its value is 299,792,458 metres Input: I believe the meaning of life is Output: to be happy, to find joy in life, to love and be loved. To have the courage to be yourself and to be kind to others. To be able to express yourself, to create and to be inspired. To be able to give and receive. To be able to learn and grow. To be able to find beauty in the world and to be able to appreciate it. To be able to find peace and contentment. To be able to find meaning and purpose. To be able to make a difference in the world. To be able to find joy in the simple things. To be able to find joy in the difficult things. To be able to find joy in the journey. To be able to find joy in the destination. To be able to find joy in the present moment. To be able to find joy in the future. To be able to find joy in the past. To be able to find joy in the present. To be able to find joy in the future. To be able to find joy in the past. To be able to find joy in the present. To be able to find joy in the future. To be able to find joy in the past. To be able to find joy in the present. To be able to find joy Input: A brief message congratulating the team on the launch: Hi everyone, I just Output: wanted to send a quick note to congratulate everyone on the launch of our new website. I know it’s been a long time coming and I’m sure we’re all relieved that it’s finally out there. Thanks to everyone for their hard work and dedication over the last few months. I know it wasn’t always easy, but I think we can all be proud of the final product. I’m looking forward to seeing how our users respond to the new site and I’m confident that it will be a success. Thanks again, and enjoy the rest of your day! Best, [Your Name] [Your Title] [Your Company] [Your Email] [Your Phone Number] [Your Website] [Your Social Media Handles] [Your Address] [Your City, State, Zip Code] [Your Country] [Your Postal Code] [Your Website] [

Nell'esempio successivo, mostriamo come utilizzare i modelli Llama con l'apprendimento in contesto con poche riprese, in cui forniamo campioni di formazione disponibili per il modello. Tieni presente che facciamo solo inferenze sul modello distribuito e durante questo processo i pesi del modello non cambiano.

Input: Translate English to French: sea otter => loutre de mer peppermint => menthe poivrée plush girafe => girafe peluche cheese => Output: fromage chocolate => chocolat car => voiture hamster => hamster beer => bière bicycle => bicyclette banana => banane strawberry => fraise pizza => pizza cheeseburger => cheeseburger pineapple => ananas carrot => carotte watermelon => pastèque whale => baleine eggplant => aubergine cat => chat penguin => manchot lion => lion elephant => éléphant panda => panda tiger => tigre salmon => saumon squirrel => écureuil kangaroo => kangourou turtle => tortue octopus => poulpe frog => grenouille pig => cochon goldfish => poisson rouge tiger shark => requin tigre gorilla => gorille dol

Inferenza e suggerimenti di esempio per Llama-2-70b-chat

Con i modelli Llama-2-Chat, ottimizzati per i casi d'uso del dialogo, l'input agli endpoint del modello di chat è la cronologia precedente tra l'assistente chat e l'utente. Puoi porre domande contestuali alla conversazione avvenuta finora. Puoi anche fornire la configurazione del sistema, ad esempio i personaggi che definiscono il comportamento dell'assistente chat. Il payload di input per l'endpoint è simile al seguente codice:

payload = { “inputs”: [ [ (optional){"role": "system", "content": str}, (repeated k times) {"role": "user", "content": str}, {"role": "assistant", "content": str}, {"role": "user", "content": str}, ] ], (optional)"parameters":{"max_new_tokens":int, "top_p":float, "temperature":float}
}

Di seguito sono riportati alcuni esempi di prompt e il testo generato dal modello. Tutti gli output sono generati con i parametri di inferenza {"max_new_tokens": 512, "top_p": 0.9, "temperature": 0.6}.

Input:
User: what is the recipe of mayonnaise? Output:
Assistant: Sure, I can help you with that! Mayonnaise is a thick, creamy condiment made from a mixture of egg yolks, oil, vinegar or lemon juice, and seasonings. Here's a basic recipe for homemade mayonnaise: Ingredients: * 2 egg yolks
* 1/2 cup (120 ml) neutral-tasting oil, such as canola or grapeseed
* 1 tablespoon (15 ml) vinegar or lemon juice
* 1/2 teaspoon salt
* 1/4 teaspoon black pepper Instructions: 1. In a medium-sized bowl, whisk together the egg yolks, salt, and black pepper until well combined.
2. Slowly pour the oil into the bowl while continuously whisking the mixture. It's important to add the oil very slowly, otherwise the mixture can break and you'll end up with a separated, curdled mess.
3. Continue whisking until the mixture thickens and emulsifies, which should take about 5-7 minutes. You'll know it's ready when the mixture has doubled in volume and has a thick, creamy consistency.
4. Add the vinegar or lemon juice and continue whisking for another minute or two, until the flavors are fully incorporated.
5. Taste the mayonnaise and adjust the seasoning as needed. You can add more salt, pepper, or acid if desired.
6. Cover the bowl with plastic wrap and refrigerate the mayonnaise for at least 30 minutes before serving. This will allow the flavors to meld together and the mayonnaise to thicken further. That's it! This recipe makes about 1 1/2 cups (360 ml) of mayonnaise, which should be enough for a small to medium-sized batch of sandwiches or salads. You can also customize the recipe by adding different flavorings, such as garlic, mustard, or herbs, to create a unique taste. Enjoy!

Nell'esempio seguente, l'utente ha avuto una conversazione con l'assistente sui siti turistici di Parigi. Successivamente, l'utente chiede quale sia la prima opzione consigliata dall'assistente chat.

Input:
User: I am going to Paris, what should I see?
Assistant: Paris, the capital of France, is known for its stunning architecture, art museums, historical landmarks, and romantic atmosphere. Here are some of the top attractions to see in Paris: 1. The Eiffel Tower: The iconic Eiffel Tower is one of the most recognizable landmarks in the world and offers breathtaking views of the city.
2. The Louvre Museum: The Louvre is one of the world's largest and most famous museums, housing an impressive collection of art and artifacts, including the Mona Lisa.
3. Notre-Dame Cathedral: This beautiful cathedral is one of the most famous landmarks in Paris and is known for its Gothic architecture and stunning stained glass windows. These are just a few of the many attractions that Paris has to offer. With so much to see and do, it's no wonder that Paris is one of the most popular tourist destinations in the world.
User: What is so great about #1? Output:
Assistant: The Eiffel Tower is a world-renowned iconic landmark that symbolizes Paris and France. It was built for the World's Fair in 1889 and was initially intended to be a temporary structure, but it has become a permanent part of the Parisian skyline. Here are some reasons why the Eiffel Tower is so great: 1. Engineering marvel: The Eiffel Tower was a groundbreaking feat of engineering at the time of its construction. It stands at 324 meters (1,063 feet) tall and was the tallest structure in the world for over 40 years.
2. Iconic design: The Eiffel Tower's distinctive shape and design make it instantly recognizable. It has been the subject of countless works of art, photographs, and films, and has become a symbol of Paris and France.
3. Panoramic views: The Eiffel Tower offers breathtaking views of the city from its observation decks. Visitors can enjoy a 360-degree view of Paris, including famous landmarks such as the Seine River, the Arc de Triomphe, and the Montmartre neighborhood.
4. Historical significance: The Eiffel Tower has played a significant role in Paris's history, having been the site of numerous important events, including the famous "Battle of the Eiffel Tower" during World War II.
5. Cultural impact: The Eiffel Tower has had a significant impact on popular culture, inspiring countless works of art, literature, and music. It has also been the subject of numerous documentaries and films, including the classic movie "An American in Paris."
6. Romantic setting: The Eiffel Tower is known for its romantic atmosphere, making it a popular destination for couples and newlyweds. It has been the site of countless marriage proposals and has been featured in numerous romantic films and literature.
7. Accessibility: The Eiffel Tower is easily accessible by public transportation, making it a convenient destination for visitors. It is also wheelchair-friendly, with elevators and ramps providing access to all levels. Overall, the Eiffel Tower is a must-see destination for anyone visiting Paris, offering a unique and unforgettable experience that combines history, culture, engineering, and rom

Negli esempi seguenti impostiamo la configurazione del sistema:

Input:
System: Always answer with Haiku
User: I am going to Paris, what should I see? Output:
Assistant: Eiffel Tower high
Art in the Louvre Museum
River Seine flows Input:
System: Always answer with emojis
User: How to go from Beijing to NY? Output:
Assistant: Here are the emojis that represent the steps to go from Beijing to New York: 🇨🇳🛫🛬🇺🇸🗽🏙️🚕💨🛩️🛬🛫😴💤🛩️🛬🛫😍

ripulire

Dopo aver terminato l'esecuzione del notebook, assicurati di eliminare tutte le risorse in modo che tutte le risorse create nel processo vengano eliminate e la fatturazione venga interrotta:

predictor.delete_model()
predictor.delete_endpoint()

Conclusione

In questo post ti abbiamo mostrato come iniziare con i modelli Llama 2 in SageMaker Studio. Con questo, hai accesso a sei modelli di base Llama 2 che contengono miliardi di parametri. Poiché i modelli di base sono pre-addestrati, possono anche contribuire a ridurre i costi di formazione e infrastruttura e consentire la personalizzazione per il tuo caso d'uso. Per iniziare con SageMaker JumpStart, visita le seguenti risorse:


Circa gli autori

I modelli di fondazione Llama 2 di Meta sono ora disponibili in Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Giugno vinto è un product manager con SageMaker JumpStart. Il suo obiettivo è rendere i modelli di base facilmente individuabili e utilizzabili per aiutare i clienti a creare applicazioni di intelligenza artificiale generativa. La sua esperienza in Amazon include anche applicazioni per lo shopping mobile e consegna dell'ultimo miglio.

Vivek Madan Dott. Vivek Madan è uno scienziato applicato con il team Amazon SageMaker JumpStart. Ha conseguito il dottorato di ricerca presso l'Università dell'Illinois a Urbana-Champaign ed è stato ricercatore post-dottorato presso la Georgia Tech. È un ricercatore attivo nell'apprendimento automatico e nella progettazione di algoritmi e ha pubblicato articoli in conferenze EMNLP, ICLR, COLT, FOCS e SODA. I modelli di fondazione Llama 2 di Meta sono ora disponibili in Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Dottor Kyle Ulrich è uno scienziato applicato del team JumpStart di Amazon SageMaker. I suoi interessi di ricerca includono algoritmi scalabili di apprendimento automatico, visione artificiale, serie temporali, parametri bayesiani non parametrici e processi gaussiani. Ha conseguito il dottorato di ricerca presso la Duke University e ha pubblicato articoli su NeurIPS, Cell e Neuron. I modelli di fondazione Llama 2 di Meta sono ora disponibili in Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Dottor Ashish Khetan è uno scienziato applicato senior presso Amazon SageMaker JumpStart e aiuta a sviluppare algoritmi di apprendimento automatico. Ha conseguito il dottorato di ricerca presso l'Università dell'Illinois Urbana-Champaign. È un ricercatore attivo nel campo dell'apprendimento automatico e dell'inferenza statistica e ha pubblicato numerosi articoli nelle conferenze NeurIPS, ICML, ICLR, JMLR, ACL e EMNLP. I modelli di fondazione Llama 2 di Meta sono ora disponibili in Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Sundar Ranganathan è il responsabile globale degli specialisti GenAI/Frameworks GTM presso AWS. Si concentra sullo sviluppo di una strategia GTM per modelli linguistici di grandi dimensioni, GenAI e carichi di lavoro ML su larga scala attraverso servizi AWS come Amazon EC2, EKS, EFA, AWS Batch e Amazon SageMaker. La sua esperienza include ruoli di leadership nella gestione e nello sviluppo del prodotto presso NetApp, Micron Technology, Qualcomm e Mentor Graphics.

Timestamp:

Di più da Apprendimento automatico di AWS