Llama 2 foundation-modeller fra Meta er nå tilgjengelig i Amazon SageMaker JumpStart | Amazon Web Services

Llama 2 foundation-modeller fra Meta er nå tilgjengelig i Amazon SageMaker JumpStart | Amazon Web Services

I dag er vi glade for å kunngjøre at Llama 2-fundamentmodeller utviklet av Meta er tilgjengelige for kunder gjennom Amazon SageMaker JumpStart. Llama 2-familien av store språkmodeller (LLM) er en samling av forhåndstrente og finjusterte generative tekstmodeller som varierer i skala fra 7 milliarder til 70 milliarder parametere. Finjusterte LLM-er, kalt Llama-2-chat, er optimalisert for brukstilfeller for dialog. Du kan enkelt prøve ut disse modellene og bruke dem med SageMaker JumpStart, som er en maskinlæringshub (ML) som gir tilgang til algoritmer, modeller og ML-løsninger slik at du raskt kan komme i gang med ML.

I dette innlegget går vi gjennom hvordan du bruker Llama 2-modeller via SageMaker JumpStart.

Hva er Llama 2

Llama 2 er en autoregressiv språkmodell som bruker en optimalisert transformatorarkitektur. Llama 2 er beregnet for kommersiell bruk og forskningsbruk på engelsk. Den kommer i en rekke parameterstørrelser – 7 milliarder, 13 milliarder og 70 milliarder – så vel som forhåndstrente og finjusterte variasjoner. I følge Meta bruker de innstilte versjonene overvåket finjustering (SFT) og forsterkningslæring med menneskelig tilbakemelding (RLHF) for å tilpasse seg menneskelige preferanser for hjelpsomhet og sikkerhet. Llama 2 ble forhåndstrent på 2 billioner tokens med data fra offentlig tilgjengelige kilder. De innstilte modellene er ment for assistent-lignende chat, mens forhåndstrente modeller kan tilpasses for en rekke naturlige språkgenereringsoppgaver. Uavhengig av hvilken versjon av modellen en utvikler bruker, vil ansvarlig bruksveiledning fra Meta kan hjelpe til med å veilede ytterligere finjusteringer som kan være nødvendig for å tilpasse og optimalisere modellene med passende sikkerhetsreduksjoner.

Hva er SageMaker JumpStart

Med SageMaker JumpStart kan ML-utøvere velge fra et bredt utvalg av grunnmodeller med åpen kildekode. ML-utøvere kan distribuere grunnmodeller til dedikerte Amazon SageMaker forekomster fra et nettverksisolert miljø og tilpasse modeller ved hjelp av SageMaker for modellopplæring og distribusjon.

Du kan nå oppdage og distribuere Llama 2 med noen få klikk inn Amazon SageMaker Studio eller programmatisk gjennom SageMaker Python SDK, slik at du kan utlede modellytelse og MLOps-kontroller med SageMaker-funksjoner som f.eks. Amazon SageMaker-rørledninger, Amazon SageMaker Debugger, eller containerlogger. Modellen er distribuert i et AWS-sikkert miljø og under dine VPC-kontroller, noe som bidrar til å sikre datasikkerhet. Llama 2-modeller er tilgjengelig i dag i Amazon SageMaker Studio, først i us-east 1 og us-west 2 regioner.

Oppdag modeller

Du kan få tilgang til grunnmodellene gjennom SageMaker JumpStart i SageMaker Studio UI og SageMaker Python SDK. I denne delen går vi gjennom hvordan du oppdager modellene i SageMaker Studio.

SageMaker Studio er et integrert utviklingsmiljø (IDE) som gir et enkelt nettbasert visuelt grensesnitt der du kan få tilgang til spesialbygde verktøy for å utføre alle ML-utviklingstrinn, fra å forberede data til å bygge, trene og distribuere ML-modellene dine. For mer informasjon om hvordan du kommer i gang og konfigurerer SageMaker Studio, se Amazon SageMaker Studio.

Når du er på SageMaker Studio, kan du få tilgang til SageMaker JumpStart, som inneholder forhåndsopplærte modeller, bærbare datamaskiner og forhåndsbygde løsninger, under Forhåndsbygde og automatiserte løsninger.

Llama 2 foundation-modeller fra Meta er nå tilgjengelig i Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Fra SageMaker JumpStart-landingssiden kan du søke etter løsninger, modeller, notatbøker og andre ressurser. Du kan finne to flaggskip Llama 2-modeller i Fundamentmodeller: Tekstgenerering karusell. Hvis du ikke ser Llama 2-modeller, oppdater SageMaker Studio-versjonen din ved å slå av og starte på nytt. For mer informasjon om versjonsoppdateringer, se Slå av og oppdater Studio-apper.

Llama 2 foundation-modeller fra Meta er nå tilgjengelig i Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Du kan også finne andre fire modellvarianter ved å velge Utforsk alle tekstgenerasjonsmodeller eller søker etter llama i søkeboksen.

Llama 2 foundation-modeller fra Meta er nå tilgjengelig i Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Du kan velge modellkortet for å se detaljer om modellen, for eksempel lisens, data som brukes til å trene, og hvordan du bruker den. Du kan også finne to knapper, Distribuer og Åpne Notebook, som hjelper deg med å bruke modellen.

Llama 2 foundation-modeller fra Meta er nå tilgjengelig i Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Når du velger en av knappene, vil et popup-vindu vise lisensavtalen for sluttbruker og retningslinjer for akseptabel bruk som du kan bekrefte.

Llama 2 foundation-modeller fra Meta er nå tilgjengelig i Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Etter å ha bekreftet, vil du gå videre til neste trinn for å bruke modellen.

Distribuer en modell

Når du velger Distribuer og godkjenne vilkårene, vil modellimplementeringen starte. Alternativt kan du distribuere gjennom eksempelnotisboken som dukker opp ved å velge Åpne Notebook. Eksempelnotisboken gir ende-til-ende veiledning om hvordan du kan distribuere modellen for slutninger og rydde opp i ressurser.

For å distribuere ved hjelp av en bærbar PC, starter vi med å velge en passende modell, spesifisert av model_id. Du kan distribuere hvilken som helst av de valgte modellene på SageMaker med følgende kode:

from sagemaker.jumpstart.model import JumpStartModel
my_model = JumpStartModel(model_id = "meta-textgeneration-llama-2-70b-f")
predictor = my_model.deploy()

Dette distribuerer modellen på SageMaker med standardkonfigurasjoner, inkludert standard forekomsttype og standard VPC-konfigurasjoner. Du kan endre disse konfigurasjonene ved å spesifisere ikke-standardverdier i JumpStartModel. Etter at det er distribuert, kan du kjøre slutninger mot det distribuerte endepunktet gjennom SageMaker-prediktoren:

payload = { “inputs”: [ [ {"role": "system", "content": "Always answer with Haiku"}, {"role": "user", "content": "I am going to Paris, what should I see?"}, ] ], "parameters":{"max_new_tokens":256, "top_p":0.9, "temperature":0.6}
}

Finjusterte chattemodeller (Llama-2-7b-chat, Llama-2-13b-chat, Llama-2-70b-chat) godtar en chathistorikk mellom brukeren og chat-assistenten, og genererer den påfølgende chatten. De forhåndstrente modellene (Llama-2-7b, Llama-2-13b, Llama-2-70b) krever en strengmelding og utfører tekstfullføring på den oppgitte ledeteksten. Se følgende kode:

predictor.predict(payload, custom_attributes="accept_eula=true")

Merk at som standard, accept_eula er satt til usann. Du må stille inn accept_eula=true for å starte endepunktet. Ved å gjøre det godtar du brukerlisensavtalen og akseptabel brukspolicy som nevnt tidligere. Du kan også nedlasting lisensavtalen.

Custom_attributes som brukes til å sende EULA er nøkkel/verdi-par. Nøkkelen og verdien er atskilt med = og par er atskilt med ;. Hvis brukeren sender den samme nøkkelen mer enn én gang, beholdes den siste verdien og sendes til skriptbehandleren (dvs. i dette tilfellet brukt til betinget logikk). For eksempel hvis accept_eula=false; accept_eula=true sendes til serveren, da  accept_eula=true beholdes og sendes til skriptbehandleren.

Inferensparametere styrer tekstgenereringsprosessen ved endepunktet. Den maksimale kontrollen for nye tokens refererer til størrelsen på utdataene som genereres av modellen. Merk at dette ikke er det samme som antall ord fordi vokabularet til modellen ikke er det samme som det engelskspråklige vokabularet, og hver token er kanskje ikke et engelskspråklig ord. Temperaturen kontrollerer tilfeldigheten i utgangen. Høyere temperatur resulterer i mer kreative og hallusinerte utganger. Alle slutningsparametrene er valgfrie.

Tabellen nedenfor viser alle Llama-modellene som er tilgjengelige i SageMaker JumpStart sammen med model_ids, standard forekomsttyper og det maksimale antallet totale tokens (summen av antall input-tokens og antall genererte tokens) som støttes for hver av disse modellene.

Modellnavn Modell-ID Maks totalt antall tokens Standard forekomsttype
Lama-2-7b meta-tekstgenerasjon-llama-2-7b 4096 ml.g5.2xlarge
Lama-2-7b-chat meta-tekstgenerasjon-llama-2-7b-f 4096 ml.g5.2xlarge
Lama-2-13b meta-tekstgenerasjon-llama-2-13b 4096 ml.g5.12xlarge
Lama-2-13b-chat meta-tekstgenerasjon-llama-2-13b-f 4096 ml.g5.12xlarge
Lama-2-70b meta-tekstgenerasjon-llama-2-70b 4096 ml.g5.48xlarge
Lama-2-70b-chat meta-tekstgenerasjon-llama-2-70b-f 4096 ml.g5.48xlarge

Merk at SageMaker-endepunkter har en tidsavbruddsgrense på 60s. Selv om modellen kan være i stand til å generere 4096 tokens, vil forespørselen mislykkes hvis tekstgenerering tar mer enn 60 sekunder. For 7B-, 13B- og 70B-modeller anbefaler vi å stille inn max_new_tokens ikke større enn henholdsvis 1500, 1000 og 500, mens det totale antallet tokens holdes mindre enn 4K.

Inferens- og eksempelmeldinger for Llama-2-70b

Du kan bruke Lama-modeller for tekstfullføring for et hvilket som helst stykke tekst. Gjennom tekstgenerering kan du utføre en rekke oppgaver, for eksempel svare på spørsmål, språkoversettelse, sentimentanalyse og mange flere. Inndata nyttelast til endepunktet ser ut som følgende kode:

payload = { “inputs”: str, (optional)"parameters":{"max_new_tokens":int, "top_p":float, "temperature":float}
}

Følgende er noen eksempler på ledetekster og teksten generert av modellen. Alle utganger genereres med inferensparametere {"max_new_tokens":256, "top_p":0.9, "temperature":0.6}.

Input: Simply put, the theory of relativity states that Output: 1) the laws of physics are the same for all observers in uniform motion relative to one another, and 2) the speed of light is the same for all observers, regardless of their relative motion or of the motion of the source of the light.
In the late 1800s, scientists believed that light travelled through a medium they called the luminiferous ether. But in 1887, Albert Michelson and Edward Morley designed an experiment to measure the speed of light in the ether, and found that the speed of light was the same no matter how they oriented their equipment. This result seemed to contradict the idea of the ether, and Michelson and Morley’s experiment became one of the most famous failed experiments in history.
In 1905, Albert Einstein published a paper that used the results of the Michelson-Morley experiment to develop the theory of special relativity. In 1915, Einstein published a paper on general relativity, which is a theory of gravitation.
In physics, the speed of light is considered to be a constant, and its value is 299,792,458 metres Input: I believe the meaning of life is Output: to be happy, to find joy in life, to love and be loved. To have the courage to be yourself and to be kind to others. To be able to express yourself, to create and to be inspired. To be able to give and receive. To be able to learn and grow. To be able to find beauty in the world and to be able to appreciate it. To be able to find peace and contentment. To be able to find meaning and purpose. To be able to make a difference in the world. To be able to find joy in the simple things. To be able to find joy in the difficult things. To be able to find joy in the journey. To be able to find joy in the destination. To be able to find joy in the present moment. To be able to find joy in the future. To be able to find joy in the past. To be able to find joy in the present. To be able to find joy in the future. To be able to find joy in the past. To be able to find joy in the present. To be able to find joy in the future. To be able to find joy in the past. To be able to find joy in the present. To be able to find joy Input: A brief message congratulating the team on the launch: Hi everyone, I just Output: wanted to send a quick note to congratulate everyone on the launch of our new website. I know it’s been a long time coming and I’m sure we’re all relieved that it’s finally out there. Thanks to everyone for their hard work and dedication over the last few months. I know it wasn’t always easy, but I think we can all be proud of the final product. I’m looking forward to seeing how our users respond to the new site and I’m confident that it will be a success. Thanks again, and enjoy the rest of your day! Best, [Your Name] [Your Title] [Your Company] [Your Email] [Your Phone Number] [Your Website] [Your Social Media Handles] [Your Address] [Your City, State, Zip Code] [Your Country] [Your Postal Code] [Your Website] [

I det neste eksempelet viser vi hvordan du bruker Llama-modeller med få skudd i kontekstlæring, der vi gir treningseksempler tilgjengelig for modellen. Legg merke til at vi kun trekker slutninger om den distribuerte modellen, og under denne prosessen endres ikke modellvektene.

Input: Translate English to French: sea otter => loutre de mer peppermint => menthe poivrée plush girafe => girafe peluche cheese => Output: fromage chocolate => chocolat car => voiture hamster => hamster beer => bière bicycle => bicyclette banana => banane strawberry => fraise pizza => pizza cheeseburger => cheeseburger pineapple => ananas carrot => carotte watermelon => pastèque whale => baleine eggplant => aubergine cat => chat penguin => manchot lion => lion elephant => éléphant panda => panda tiger => tigre salmon => saumon squirrel => écureuil kangaroo => kangourou turtle => tortue octopus => poulpe frog => grenouille pig => cochon goldfish => poisson rouge tiger shark => requin tigre gorilla => gorille dol

Inferens- og eksempelmeldinger for Llama-2-70b-chat

Med Llama-2-Chat-modeller, som er optimert for brukstilfeller for dialog, er inngangen til chat-modellens endepunkter den tidligere historikken mellom chat-assistenten og brukeren. Du kan stille spørsmål kontekstuelle til samtalen som har skjedd så langt. Du kan også oppgi systemkonfigurasjonen, for eksempel personas som definerer chat-assistentens oppførsel. Inndatanyttelasten til endepunktet ser ut som følgende kode:

payload = { “inputs”: [ [ (optional){"role": "system", "content": str}, (repeated k times) {"role": "user", "content": str}, {"role": "assistant", "content": str}, {"role": "user", "content": str}, ] ], (optional)"parameters":{"max_new_tokens":int, "top_p":float, "temperature":float}
}

Følgende er noen eksempler på ledetekster og teksten generert av modellen. Alle utganger genereres med inferensparametrene {"max_new_tokens": 512, "top_p": 0.9, "temperature": 0.6}.

Input:
User: what is the recipe of mayonnaise? Output:
Assistant: Sure, I can help you with that! Mayonnaise is a thick, creamy condiment made from a mixture of egg yolks, oil, vinegar or lemon juice, and seasonings. Here's a basic recipe for homemade mayonnaise: Ingredients: * 2 egg yolks
* 1/2 cup (120 ml) neutral-tasting oil, such as canola or grapeseed
* 1 tablespoon (15 ml) vinegar or lemon juice
* 1/2 teaspoon salt
* 1/4 teaspoon black pepper Instructions: 1. In a medium-sized bowl, whisk together the egg yolks, salt, and black pepper until well combined.
2. Slowly pour the oil into the bowl while continuously whisking the mixture. It's important to add the oil very slowly, otherwise the mixture can break and you'll end up with a separated, curdled mess.
3. Continue whisking until the mixture thickens and emulsifies, which should take about 5-7 minutes. You'll know it's ready when the mixture has doubled in volume and has a thick, creamy consistency.
4. Add the vinegar or lemon juice and continue whisking for another minute or two, until the flavors are fully incorporated.
5. Taste the mayonnaise and adjust the seasoning as needed. You can add more salt, pepper, or acid if desired.
6. Cover the bowl with plastic wrap and refrigerate the mayonnaise for at least 30 minutes before serving. This will allow the flavors to meld together and the mayonnaise to thicken further. That's it! This recipe makes about 1 1/2 cups (360 ml) of mayonnaise, which should be enough for a small to medium-sized batch of sandwiches or salads. You can also customize the recipe by adding different flavorings, such as garlic, mustard, or herbs, to create a unique taste. Enjoy!

I følgende eksempel har brukeren hatt en samtale med assistenten om turiststeder i Paris. Deretter spør brukeren om det første alternativet anbefalt av chat-assistenten.

Input:
User: I am going to Paris, what should I see?
Assistant: Paris, the capital of France, is known for its stunning architecture, art museums, historical landmarks, and romantic atmosphere. Here are some of the top attractions to see in Paris: 1. The Eiffel Tower: The iconic Eiffel Tower is one of the most recognizable landmarks in the world and offers breathtaking views of the city.
2. The Louvre Museum: The Louvre is one of the world's largest and most famous museums, housing an impressive collection of art and artifacts, including the Mona Lisa.
3. Notre-Dame Cathedral: This beautiful cathedral is one of the most famous landmarks in Paris and is known for its Gothic architecture and stunning stained glass windows. These are just a few of the many attractions that Paris has to offer. With so much to see and do, it's no wonder that Paris is one of the most popular tourist destinations in the world.
User: What is so great about #1? Output:
Assistant: The Eiffel Tower is a world-renowned iconic landmark that symbolizes Paris and France. It was built for the World's Fair in 1889 and was initially intended to be a temporary structure, but it has become a permanent part of the Parisian skyline. Here are some reasons why the Eiffel Tower is so great: 1. Engineering marvel: The Eiffel Tower was a groundbreaking feat of engineering at the time of its construction. It stands at 324 meters (1,063 feet) tall and was the tallest structure in the world for over 40 years.
2. Iconic design: The Eiffel Tower's distinctive shape and design make it instantly recognizable. It has been the subject of countless works of art, photographs, and films, and has become a symbol of Paris and France.
3. Panoramic views: The Eiffel Tower offers breathtaking views of the city from its observation decks. Visitors can enjoy a 360-degree view of Paris, including famous landmarks such as the Seine River, the Arc de Triomphe, and the Montmartre neighborhood.
4. Historical significance: The Eiffel Tower has played a significant role in Paris's history, having been the site of numerous important events, including the famous "Battle of the Eiffel Tower" during World War II.
5. Cultural impact: The Eiffel Tower has had a significant impact on popular culture, inspiring countless works of art, literature, and music. It has also been the subject of numerous documentaries and films, including the classic movie "An American in Paris."
6. Romantic setting: The Eiffel Tower is known for its romantic atmosphere, making it a popular destination for couples and newlyweds. It has been the site of countless marriage proposals and has been featured in numerous romantic films and literature.
7. Accessibility: The Eiffel Tower is easily accessible by public transportation, making it a convenient destination for visitors. It is also wheelchair-friendly, with elevators and ramps providing access to all levels. Overall, the Eiffel Tower is a must-see destination for anyone visiting Paris, offering a unique and unforgettable experience that combines history, culture, engineering, and rom

I de følgende eksemplene angir vi systemets konfigurasjon:

Input:
System: Always answer with Haiku
User: I am going to Paris, what should I see? Output:
Assistant: Eiffel Tower high
Art in the Louvre Museum
River Seine flows Input:
System: Always answer with emojis
User: How to go from Beijing to NY? Output:
Assistant: Here are the emojis that represent the steps to go from Beijing to New York: 🇨🇳🛫🛬🇺🇸🗽🏙️🚕💨🛩️🛬🛫😴💤🛩️🛬🛫😍

Rydd opp

Når du er ferdig med å kjøre notatblokken, sørg for å slette alle ressursene slik at alle ressursene du opprettet i prosessen blir slettet og faktureringen stoppes:

predictor.delete_model()
predictor.delete_endpoint()

konklusjonen

I dette innlegget viste vi deg hvordan du kommer i gang med Llama 2-modeller i SageMaker Studio. Med dette har du tilgang til seks Llama 2-fundamentmodeller som inneholder milliarder av parametere. Fordi grunnmodeller er forhåndsopplærte, kan de også bidra til å redusere opplærings- og infrastrukturkostnadene og muliggjøre tilpasning for ditt bruksområde. For å komme i gang med SageMaker JumpStart, besøk følgende ressurser:


Om forfatterne

Llama 2 foundation-modeller fra Meta er nå tilgjengelig i Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.juni vant er produktsjef hos SageMaker JumpStart. Han fokuserer på å gjøre grunnmodeller lett synlige og brukbare for å hjelpe kunder med å bygge generative AI-applikasjoner. Hans erfaring hos Amazon inkluderer også mobil shoppingapplikasjon og siste mil levering.

Vivek Madan Dr. Vivek Madan er en Applied Scientist med Amazon SageMaker JumpStart-teamet. Han fikk sin doktorgrad fra University of Illinois i Urbana-Champaign og var postdoktor ved Georgia Tech. Han er en aktiv forsker innen maskinlæring og algoritmedesign og har publisert artikler på EMNLP-, ICLR-, COLT-, FOCS- og SODA-konferanser. Llama 2 foundation-modeller fra Meta er nå tilgjengelig i Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Dr. Kyle Ulrich er en Applied Scientist med Amazon SageMaker JumpStart-teamet. Hans forskningsinteresser inkluderer skalerbare maskinlæringsalgoritmer, datasyn, tidsserier, Bayesianske ikke-parametriske og Gaussiske prosesser. Hans doktorgrad er fra Duke University og han har publisert artikler i NeurIPS, Cell og Neuron. Llama 2 foundation-modeller fra Meta er nå tilgjengelig i Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Dr. Ashish Khetan er en Senior Applied Scientist med Amazon SageMaker JumpStart og hjelper til med å utvikle maskinlæringsalgoritmer. Han fikk sin doktorgrad fra University of Illinois Urbana-Champaign. Han er en aktiv forsker innen maskinlæring og statistisk inferens, og har publisert mange artikler på NeurIPS, ICML, ICLR, JMLR, ACL og EMNLP-konferanser. Llama 2 foundation-modeller fra Meta er nå tilgjengelig i Amazon SageMaker JumpStart | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Sundar Ranganathan er Global Head of GenAI/Frameworks GTM Specialists hos AWS. Han fokuserer på å utvikle GTM-strategi for store språkmodeller, GenAI og storskala ML-arbeidsbelastninger på tvers av AWS-tjenester som Amazon EC2, EKS, EFA, AWS Batch og Amazon SageMaker. Hans erfaring inkluderer lederroller innen produktledelse og produktutvikling hos NetApp, Micron Technology, Qualcomm og Mentor Graphics.

Tidstempel:

Mer fra AWS maskinlæring