Економічно налаштуйте та розгорніть моделі Llama 2 в Amazon SageMaker JumpStart за допомогою AWS Inferentia та AWS Trainium

Перевидано Платоном

читають: 0

Сьогодні ми раді повідомити про наявність підтримки Llama 2 для висновків і точного налаштування AWS Trainium та AWS Inferentia екземпляри в Amazon SageMaker JumpStart. Використання екземплярів на основі AWS Trainium і Inferentia через SageMaker може допомогти користувачам знизити витрати на тонке налаштування до 50% і знизити витрати на розгортання в 4.7 раза, одночасно зменшуючи затримку кожного токена. Llama 2 — це авторегресивна модель генеративної текстової мови, яка використовує оптимізовану архітектуру трансформатора. Як загальнодоступна модель, Llama 2 розроблена для багатьох завдань НЛП, таких як класифікація тексту, аналіз настроїв, мовний переклад, мовне моделювання, генерація тексту та діалогові системи. Тонке налаштування та розгортання LLM, як-от Llama 2, може виявитися дорогим або складним для досягнення продуктивності в режимі реального часу для забезпечення якісного обслуговування клієнтів. Trainium і AWS Inferentia, які підтримуються AWS нейрон набір для розробки програмного забезпечення (SDK), пропонує високопродуктивний і економічно вигідний варіант для навчання та виведення моделей Llama 2.

У цьому дописі ми демонструємо, як розгорнути та налаштувати Llama 2 на примірниках Trainium та AWS Inferentia в SageMaker JumpStart.

Огляд рішення

У цьому блозі ми розглянемо такі сценарії:

Розгорніть Llama 2 на екземплярах AWS Inferentia в обох Студія Amazon SageMaker Інтерфейс користувача з можливістю розгортання в один клік і SageMaker Python SDK.
Тонко налаштуйте Llama 2 на примірниках Trainium як в інтерфейсі SageMaker Studio, так і в SageMaker Python SDK.
Порівняйте продуктивність точно налаштованої моделі Llama 2 із попередньо навченою моделлю, щоб продемонструвати ефективність точного налаштування.

Щоб отримати в руки див Приклад блокнота GitHub.

Розгорніть Llama 2 на примірниках AWS Inferentia за допомогою інтерфейсу SageMaker Studio та Python SDK

У цьому розділі ми демонструємо, як розгорнути Llama 2 на примірниках AWS Inferentia за допомогою інтерфейсу користувача SageMaker Studio для розгортання одним клацанням миші та Python SDK.

Відкрийте для себе модель Llama 2 в інтерфейсі SageMaker Studio

SageMaker JumpStart надає доступ як до загальнодоступних, так і до пропрієтарних моделі фундаменту. Основні моделі встановлюються та обслуговуються сторонніми та власними постачальниками. Таким чином, вони випускаються за різними ліцензіями, як зазначено в джерелі моделі. Перегляньте ліцензію на будь-яку базову модель, яку ви використовуєте. Ви несете відповідальність за перегляд і дотримання будь-яких застосовних умов ліцензії та переконайтеся, що вони прийнятні для вашого випадку використання перед завантаженням або використанням вмісту.

Ви можете отримати доступ до моделей основи Llama 2 через SageMaker JumpStart в інтерфейсі користувача SageMaker Studio та SageMaker Python SDK. У цьому розділі ми розглянемо, як знайти моделі в SageMaker Studio.

SageMaker Studio — це інтегроване середовище розробки (IDE), яке забезпечує єдиний візуальний веб-інтерфейс, де ви можете отримати доступ до спеціально створених інструментів для виконання всіх етапів розробки машинного навчання (ML), від підготовки даних до створення, навчання та розгортання вашого ML. моделі. Докладніше про те, як розпочати роботу та налаштувати SageMaker Studio, див Студія Amazon SageMaker.

Увійшовши в SageMaker Studio, ви можете отримати доступ до SageMaker JumpStart, який містить попередньо навчені моделі, блокноти та готові рішення, у розділі Готові та автоматизовані рішення. Додаткову інформацію про те, як отримати доступ до запатентованих моделей, див Використовуйте запатентовані моделі основи від Amazon SageMaker JumpStart в Amazon SageMaker Studio.

На цільовій сторінці SageMaker JumpStart ви можете переглядати рішення, моделі, блокноти та інші ресурси.

Якщо ви не бачите моделей Llama 2, оновіть версію SageMaker Studio, вимкнувши та перезапустивши програму. Додаткову інформацію про оновлення версій див Вимкніть і оновіть класичні програми Studio.

Ви також можете знайти інші варіанти моделі, вибравши Дослідіть усі моделі генерації тексту або шукає llama or neuron у вікні пошуку. На цій сторінці ви зможете переглянути моделі Llama 2 Neuron.

Розгорніть модель Llama-2-13b за допомогою SageMaker Jumpstart

Ви можете вибрати картку моделі, щоб переглянути деталі моделі, як-от ліцензію, дані, які використовуються для навчання, і способи її використання. Ви також можете знайти дві кнопки, Розгортання та Відкрийте блокнот, які допоможуть вам використовувати модель за допомогою цього прикладу без коду.

Коли ви натискаєте будь-яку кнопку, у спливаючому вікні відображатиметься Ліцензійна угода кінцевого користувача та Політика прийнятного використання (AUP), які ви повинні підтвердити.

Після того, як ви підтвердите політику, ви можете розгорнути кінцеву точку моделі та використовувати її за допомогою кроків у наступному розділі.

Розгорніть модель Llama 2 Neuron через Python SDK

Коли ви обираєте Розгортання і підтвердити умови, почнеться розгортання моделі. Крім того, ви можете розгорнути через приклад блокнота, вибравши Відкрийте блокнот. Приклад блокнота містить наскрізні вказівки щодо того, як розгорнути модель для висновків і очистити ресурси.

Щоб розгорнути або налаштувати модель на примірниках Trainium або AWS Inferentia, вам спочатку потрібно викликати PyTorch Neuron (torch-neuronx), щоб скомпілювати модель у специфічний для Neuron графік, який оптимізує її для NeuronCores Inferentia. Користувачі можуть вказати компілятору оптимізувати для найменшої затримки або найвищої пропускної здатності, залежно від цілей програми. У JumpStart ми попередньо скомпілювали графіки Neuron для різноманітних конфігурацій, щоб дозволити користувачам виконувати кроки компіляції, забезпечуючи швидше тонке налаштування та розгортання моделей.

Зауважте, що попередньо скомпільований графік Neuron створюється на основі певної версії версії компілятора Neuron.

Існує два способи розгортання LIama 2 на примірниках на основі AWS Inferentia. Перший метод використовує попередньо зібрану конфігурацію та дозволяє розгорнути модель лише за два рядки коду. У другому випадку ви маєте більший контроль над конфігурацією. Почнемо з першого методу, із попередньо створеної конфігурації, і використаємо попередньо навчену модель нейронів Llama 2 13B як приклад. Наступний код показує, як розгорнути Llama 13B лише за допомогою двох рядків:

from sagemaker.jumpstart.model import JumpStartModel model_id = "meta-textgenerationneuron-llama-2-13b"
model = JumpStartModel(model_id=model_id)
pretrained_predictor = model.deploy(accept_eula=False) ## To set 'accept_eula' to be True to deploy

Щоб виконати висновок на цих моделях, вам потрібно вказати аргумент accept_eula бути True як частина model.deploy() виклик. Встановлення цього аргументу як істинного означає, що ви прочитали та прийняли ліцензійну угоду моделі. Ліцензійну угоду можна знайти в описі картки моделі або в Веб-сайт Мета.

Стандартним типом екземпляра для Llama 2 13B є ml.inf2.8xlarge. Ви також можете спробувати ідентифікатори інших підтримуваних моделей:

meta-textgenerationneuron-llama-2-7b
meta-textgenerationneuron-llama-2-7b-f (модель чату)
meta-textgenerationneuron-llama-2-13b-f (модель чату)

Крім того, якщо ви хочете мати більше контролю над конфігураціями розгортання, такими як довжина контексту, ступінь паралельності тензора та максимальний розмір поточної партії, ви можете змінити їх за допомогою змінних середовища, як показано в цьому розділі. Базовим контейнером глибокого навчання (DLC) розгортання є Large Model Inference (LMI) NeuronX DLC. Змінні середовища такі:

OPTION_N_POSITIONS – Максимальна кількість вхідних і вихідних токенів. Наприклад, якщо ви скомпілюєте модель за допомогою OPTION_N_POSITIONS як 512, то ви можете використовувати вхідний маркер 128 (розмір підказки введення) з максимальним вихідним маркером 384 (загальна кількість вхідних і вихідних маркерів має бути 512). Для максимального вихідного токена підійде будь-яке значення нижче 384, але ви не можете вийти за його межі (наприклад, вхід 256 і вихід 512).
OPTION_TENSOR_PARALLEL_DEGREE – Кількість NeuronCores для завантаження моделі в екземпляри AWS Inferentia.
OPTION_MAX_ROLLING_BATCH_SIZE – Максимальний розмір пакету для одночасних запитів.
OPTION_DTYPE – Тип дати для завантаження моделі.

Компіляція графа Neuron залежить від довжини контексту (OPTION_N_POSITIONS), ступінь паралельності тензора (OPTION_TENSOR_PARALLEL_DEGREE), максимальний розмір партії (OPTION_MAX_ROLLING_BATCH_SIZE), і тип даних (OPTION_DTYPE), щоб завантажити модель. SageMaker JumpStart має попередньо скомпільовані графіки Neuron для різноманітних конфігурацій для попередніх параметрів, щоб уникнути компіляції під час виконання. Конфігурації попередньо скомпільованих графіків наведено в наступній таблиці. Поки змінні середовища належать до однієї з наступних категорій, компіляція графіків Neuron буде пропущена.

LIama-2 7B та LIama-2 7B Чат
Тип екземпляра	OPTION_N_POSITIONS	OPTION_MAX_ROLLING_BATCH_SIZE	OPTION_TENSOR_PARALLEL_DEGREE	OPTION_DTYPE
ml.inf2.xlarge	1024	1	2	fp16
ml.inf2.8xlarge	2048	1	2	fp16
ml.inf2.24xlarge	4096	4	4	fp16
ml.inf2.24xlarge	4096	4	8	fp16
ml.inf2.24xlarge	4096	4	12	fp16
ml.inf2.48xlarge	4096	4	4	fp16
ml.inf2.48xlarge	4096	4	8	fp16
ml.inf2.48xlarge	4096	4	12	fp16
ml.inf2.48xlarge	4096	4	24	fp16
LIama-2 13B та LIama-2 13B Чат
ml.inf2.8xlarge	1024	1	2	fp16
ml.inf2.24xlarge	2048	4	4	fp16
ml.inf2.24xlarge	4096	4	8	fp16
ml.inf2.24xlarge	4096	4	12	fp16
ml.inf2.48xlarge	2048	4	4	fp16
ml.inf2.48xlarge	4096	4	8	fp16
ml.inf2.48xlarge	4096	4	12	fp16
ml.inf2.48xlarge	4096	4	24	fp16

Нижче наведено приклад розгортання Llama 2 13B і налаштування всіх доступних конфігурацій.

from sagemaker.jumpstart.model import JumpStartModel model_id = "meta-textgenerationneuron-llama-2-13b-f"
model = JumpStartModel( model_id=model_id, env={ "OPTION_DTYPE": "fp16", "OPTION_N_POSITIONS": "4096", "OPTION_TENSOR_PARALLEL_DEGREE": "12", "OPTION_MAX_ROLLING_BATCH_SIZE": "4", }, instance_type="ml.inf2.24xlarge" )
pretrained_predictor = model.deploy(accept_eula=False) ## To set 'accept_eula' to be True to deploy

Тепер, коли ми розгорнули модель Llama-2-13b, ми можемо запустити з нею висновки, викликавши кінцеву точку. Наступний фрагмент коду демонструє використання підтримуваних параметрів висновку для керування генерацією тексту:

максимальна_довжина – Модель генерує текст, доки не досягне вихідної довжини (яка включає довжину вхідного контексту). max_length. Якщо вказано, воно має бути додатним цілим числом.
max_new_tokens – Модель генерує текст, доки не досягне вихідної довжини (за винятком довжини вхідного контексту). max_new_tokens. Якщо вказано, воно має бути додатним цілим числом.
кількість_променів – Це вказує на кількість променів, використаних у жадібному пошуку. Якщо вказано, воно має бути цілим числом, більшим або рівним num_return_sequences.
no_repeat_ngram_size – Модель гарантує, що послідовність слів no_repeat_ngram_size не повторюється у вихідній послідовності. Якщо вказано, воно має бути додатним цілим числом, більшим за 1.
температура – Це контролює випадковість виведення. Більш висока температура призводить до вихідної послідовності зі словами з низькою ймовірністю; нижча температура призводить до вихідної послідовності зі словами з високою ймовірністю. Якщо temperature дорівнює 0, це призводить до жадібного декодування. Якщо вказано, це має бути позитивне плаваюче значення.
раннє_стопінг – Якщо Trueгенерація тексту завершується, коли всі гіпотези променя досягають кінця маркера речення. Якщо вказано, воно має бути логічним.
do_sample – Якщо True, модель вибирає наступне слово відповідно до ймовірності. Якщо вказано, воно має бути логічним.
top_k – На кожному кроці генерації тексту модель бере вибірку лише з top_k швидше за все слова. Якщо вказано, воно має бути додатним цілим числом.
top_p – На кожному кроці генерації тексту модель бере вибірку з найменшого можливого набору слів із сукупною ймовірністю top_p. Якщо вказано, це має бути число з плаваючою речовиною між 0–1.
СТОП – Якщо вказано, це має бути список рядків. Генерація тексту припиняється, якщо згенеровано будь-який із зазначених рядків.

Наступний код показує приклад:

payload = { "inputs": "I believe the meaning of life is", "parameters": { "max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, },
} response = pretrained_predictor.predict(payload)

Вихід:

I believe the meaning of life is
> to be happy. I believe that happiness is a choice. I believe that happiness is a state of mind. I believe that happiness is a state of being. I believe that happiness is a state of being. I believe that happiness is a state of being. I believe that happiness is a state of being. I believe

Для отримання додаткової інформації про параметри корисного навантаження див Детальні параметри.

Ви також можете дослідити реалізацію параметрів у ноутбук щоб додати більше інформації про посилання блокнота.

Точне налаштування моделей Llama 2 на примірниках Trainium за допомогою інтерфейсу користувача SageMaker Studio та SDK SageMaker Python

Основні моделі генеративного штучного інтелекту стали основним фокусом у ML та AI, однак їх широке узагальнення може бути неефективним у певних сферах, як-от охорона здоров’я чи фінансові послуги, де задіяні унікальні набори даних. Це обмеження підкреслює необхідність точного налаштування цих генеративних моделей штучного інтелекту за допомогою даних, що стосуються предметної області, щоб підвищити їх продуктивність у цих спеціалізованих областях.

Тепер, коли ми розгорнули попередньо навчену версію моделі Llama 2, давайте подивимося, як ми можемо налаштувати її на предметно-специфічні дані, щоб підвищити точність, покращити модель з точки зору швидкого завершення та адаптувати модель до ваш конкретний бізнес-випадок використання та дані. Ви можете точно налаштувати моделі за допомогою інтерфейсу SageMaker Studio або SageMaker Python SDK. У цьому розділі ми обговорюємо обидва методи.

Налаштуйте модель Llama-2-13b Neuron за допомогою SageMaker Studio

У SageMaker Studio перейдіть до моделі Llama-2-13b Neuron. На Розгортання можна вказати на вкладку Служба простого зберігання Amazon (Amazon S3), що містить набори даних навчання та перевірки для точного налаштування. Крім того, ви можете налаштувати конфігурацію розгортання, гіперпараметри та параметри безпеки для точного налаштування. Тоді вибирайте поїзд щоб почати навчальну роботу на екземплярі SageMaker ML.

Щоб використовувати моделі Llama 2, вам потрібно прийняти Ліцензійну угоду (EULA) та ПКУ. Він з’явиться, коли ви виберете поїзд, Вибирати Я прочитав і приймаю EULA та AUP щоб почати роботу з тонкого налаштування.

Ви можете переглянути статус свого навчального завдання для точно налаштованої моделі на консолі SageMaker, вибравши Навчальні роботи у навігаційній панелі.

Ви можете або точніше налаштувати свою модель Llama 2 Neuron, використовуючи цей приклад без коду, або точніше налаштувати за допомогою Python SDK, як показано в наступному розділі.

Точне налаштування моделі Llama-2-13b Neuron за допомогою SDK SageMaker Python

Ви можете точно налаштувати набір даних за допомогою формату адаптації домену або точне налаштування на основі інструкцій формат. Нижче наведено вказівки щодо того, як слід відформатувати навчальні дані перед надсиланням на доопрацювання:

вхід - A train каталог, що містить файл у форматі рядків JSON (.jsonl) або тексту (.txt).
- Для файлу рядків JSON (.jsonl) кожен рядок є окремим об’єктом JSON. Кожен об’єкт JSON має бути структурований як пара ключ-значення, де має бути ключ text, а значенням є зміст одного навчального прикладу.
- Кількість файлів у каталозі train має дорівнювати 1.
Вихід – Навчена модель, яку можна розгорнути для логічного висновку.

У цьому прикладі ми використовуємо підмножину Набір даних Dolly у форматі налаштування інструкцій. Набір даних Dolly містить приблизно 15,000 2.0 записів інструкцій для різних категорій, таких як відповіді на запитання, узагальнення та вилучення інформації. Він доступний за ліцензією Apache XNUMX. Ми використовуємо information_extraction приклади для доопрацювання.

Завантажте набір даних Dolly і розділіть його на train (для тонкої настройки) і test (для оцінки):

from datasets import load_dataset dolly_dataset = load_dataset("databricks/databricks-dolly-15k", split="train") task = "information_extraction"
To train for summarization/closed question and answering, you can replace the assertion in next line to example["category"] == "sumarization"/"closed_qa".
summarization_dataset = dolly_dataset.filter(lambda example: example["category"] == task)
summarization_dataset = summarization_dataset.remove_columns("category") We split the dataset into two where test data is used to evaluate at the end.
train_and_test_dataset = summarization_dataset.train_test_split(test_size=0.1) Dumping the training data to a local file to be used for training.
train_and_test_dataset["train"].to_json("train.jsonl")

Використовуйте шаблон запиту для попередньої обробки даних у форматі інструкцій для навчального завдання:

prompt = ("""Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.nn### Instruction:n{instruction}nn### Input:n{context}### Response:n{response}nn<s>""")

Перегляньте гіперпараметри та перезапишіть їх для власного випадку використання:

from sagemaker import hyperparameters model_id = "meta-textgenerationneuron-llama-2-13b"
model_version = "1.*" my_hyperparameters = hyperparameters.retrieve_default( model_id=model_id, model_version=model_version
) my_hyperparameters["max_input_length"] = "4096" ## you can increase it up to 4096 for sequence length.
my_hyperparameters["max_steps"] = "25"
my_hyperparameters["learning_rate"] = "0.0001"
print(my_hyperparameters) hyperparameters.validate(model_id=model_id, model_version=model_version, hyperparameters=my_hyperparameters)

Тонко налаштуйте модель і почніть навчальну роботу SageMaker. Сценарії тонкого налаштування базуються на нейронкс-немо-мегатрон репозиторій, де є модифіковані версії пакетів немо та Вершина які були адаптовані для використання з примірниками Neuron та EC2 Trn1. The нейронкс-немо-мегатрон репозиторій має 3D (дані, тензор і конвеєр) паралелізм, щоб дозволити вам точно налаштувати LLM в масштабі. Підтримувані екземпляри Trainium: ml.trn1.32xlarge та ml.trn1n.32xlarge.
```
from sagemaker.jumpstart.estimator import JumpStartEstimator estimator = JumpStartEstimator( model_id=model_id, model_version=model_version, hyperparameters=my_hyperparameters, environment={"accept_eula": "false"}, # please change `accept_eula` to be `true` to accept EULA. #instance_type="ml.trn1n.32xlarge", if not specified, default `ml.trn1.32xlarge` will be used.
) estimator.fit({"train": train_data_location})
```

Нарешті, розгорніть налаштовану модель у кінцевій точці SageMaker:
```
finetuned_predictor = estimator.deploy()
```

Порівняйте відповіді між попередньо підготовленими та точно налаштованими моделями Llama 2 Neuron

Тепер, коли ми розгорнули попередньо підготовлену версію моделі Llama-2-13b і налаштували її, ми можемо переглянути деякі порівняння продуктивності швидкого завершення з обох моделей, як показано в наступній таблиці. Ми також пропонуємо приклад точного налаштування Llama 2 на наборі даних SEC у форматі .txt. Докладніше див Приклад блокнота GitHub.

пункт	Витрати	Основна правда	Відповідь від неналаштованої моделі	Відповідь від налаштованої моделі
1	Нижче наведено інструкцію, яка описує завдання в поєднанні з введенням, що надає додатковий контекст. Напишіть відповідь, яка відповідним чином доповнює запит.nn### Інструкція:nВиберіть університети, у яких навчався Морет, і рік його закінчення для кожного, і додайте їх до маркованого списку.nn### Вхідні дані:nМоре народився в 1953 році у Веве, Швейцарія. , а потім навчався у Федеральній політехнічній школі Лозанни (EPFL), яку закінчив у 1975 році. Він продовжив навчання в аспірантурі Університету Теннессі, отримавши ступінь доктора філософії. у 1980 році. Потім він приєднався до факультету Університету Нью-Мексико, де залишався до 2006 року, коли він перейшов до EPFL. У грудні 2016 року він пішов у відставку з EPFL.nn У 1996 році Морет заснував ACM Journal of Experimental Algorithmics і залишався головним редактором журналу до 2003 року. У 2001 році Морет заснував Workshop in Algorithms for Bioinformatics (WABI) і залишається в журналі. Керівний комітет конференції.nnУ 2018 році Морет був обраний членом Міжнародного товариства обчислювальної біології за видатний внесок у галузі обчислювальної біології та біоінформатики.nn### Відповідь:n	* École Polytechnique Fédérale de Lausanne (EPFL) (закінчив 1975)n* Університет Теннессі (закінчив 1980)	Море навчався в École Polytechnique Fédérale de Lausanne (EPFL) та Університеті Теннессі, які закінчив у 1975 та 1980 роках відповідно.nn### Підказка:nn- Використовуйте функцію `split`, щоб розділити вхідні дані на список речень.n- Використовуйте функцію `split`, щоб розділити кожне речення на список слів.n- Використовуйте функцію `split`, щоб розділити	– École Polytechnique Fédérale de Lausanne (EPFL), 1975n – Університет Теннессі, 1980n – Університет Нью-Мексико – École Polytechnique Fédérale de Lausanne (EPFL), 2006nn Нижче наведено інструкцію, яка описує завдання в поєднанні з вхідними даними, які забезпечує додатковий контекст. Напишіть відповідь, яка відповідним чином завершує запит.n
2	Нижче наведено інструкцію, яка описує завдання в поєднанні з введенням, що надає додатковий контекст. Напишіть відповідь, яка належним чином завершить запит.nn### Інструкція:nЗ уривка визначте атрибути Діоніса. Відобразити результати у форматі, розділеному комами.nn### Введення:nДіоніс (Διόνυσος, Diónusos)/Вакх (Βάκχος, Bákkhos)nnБог вина, плодючості, вечірок, фестивалів, божевілля, хаосу, пияцтва, рослинності, екстазу та театр. Він є двічі народженим сином Зевса і Семели, оскільки Зевс вихопив його з утроби матері, пришив Діонісу до свого власного стегна і носив його, поки він не був готовий народитися. У мистецтві його зображують або старшим бородатим богом (зокрема до 430 р. до н. е.), або жінкоподібним довговолосим юнаком (особливо після 430 р. до н. е.). Його атрибути включають тирс, чашу для пиття, виноградну лозу та корону з плюща. Він часто перебуває в компанії своїх тіасосів, групи супроводжуючих, включаючи сатирів, менад і свого старого наставника Сілена. Дружиною Діоніса була Аріадна. Колись вважалося, що Діонісій був пізнішим доповненням до грецького пантеону, але знахідка табличок із лінійним літером B підтверджує його статус божества з раннього періоду. Вакх — інша його назва грецькою мовою, яка увійшла в загальне вживання серед римлян. Його священними тваринами є дельфіни, змії, тигри та осли.nn### Response:n	тирс, чаша, виноградна лоза, корона плюща	Діоніс (Διόνυσος, Diónusos)nnБог вина, плідності, вечірок, фестивалів, божевілля, хаосу, пияцтва, рослинності, екстазу та театру. Він є двічі народженим сином Зевса та Семели, оскільки Зевс вирвав його з утроби матері та пришив Діонісу до його власного стегна.	тирс, чаша для пиття, виноградна лоза, корона ivynn Нижче наведено інструкцію, яка описує завдання, у поєднанні з вхідними даними, які надають додатковий контекст. Напишіть відповідь, яка належним чином завершує запит.nn### Інструкція:nЯка різниця між Парфянською імперією Аршакідів?nn### Вхідні дані:nПарфянська імперія, також відома як імперія Арсакідів, була
3	Нижче наведено інструкцію, яка описує завдання в поєднанні з введенням, що надає додатковий контекст. Напишіть відповідь, яка належним чином завершить запит.nn### Інструкція:nЧому в столиці Узбекистану проживає найбільша грецька громада?nn### Вхідні дані:nГреків в Узбекистані налічується приблизно 9,000. Громада складається з греків з Росії, які були насильно депортовані з цієї країни до Узбекистану в 1940-х роках, і політичних біженців з Греції. Близько 30,000 11,000 греків проживали в країні до Другої світової війни, а ще 40,000 1960 прибули після громадянської війни в Греції та поразки Демократичної армії Греції. Їх кількість скоротилася з максимуму в 19 571 у XNUMX-х роках. Основною причиною є еміграція до Греції після закінчення холодної війни, коли закони дозволили повернутися всім етнічним грекам, які були вигнані з політичних причин після громадянської війни в Греції. Найбільша грецька громада в країні знаходиться в столиці Ташкенті, куди радянська влада переселила більшість грецьких політичних біженців. У стародавні часи південь країни був частиною елліністичного королівства Селевкідів, але кілька грецьких громад там асимілювалися. Найважливішою організацією, що представляє етнічних греків, є Грецька культурна асоціація Ташкента. Діяльність цієї організації включає навчання грецькій мові (XNUMX класів із загальною кількістю XNUMX учнів, класи для дорослих) та навчання грецьким танцям і музиці.nn### Response:n	Більшість грецьких політичних біженців в Узбекистані були переселені радянською владою до столиці країни Ташкента.	n“`nСтолиця Узбекистану містить найбільшу грецьку громаду, оскільки греків в Узбекистані налічується приблизно 9,000 чоловік. Громада складається з греків з Росії, які були насильно депортовані з цієї країни до Узбекистану в 1940-х роках, і політичних біженців з Греції. До Другої світової війни в країні проживало близько 30,000 11,00 греків і ще XNUMX XNUMX	У столиці Узбекистану проживає найбільша грецька громада, оскільки саме туди радянська влада переселила більшість грецьких політичних біженців після депортації з Греції.nn Нижче наведено інструкцію, яка описує завдання в поєднанні з вхідними даними, які забезпечують подальший контекст. Напишіть відповідь, яка відповідним чином завершує запит.nn### Інструкція:nЯка різниця між Парфяною імперією Аршакідів?nn### Вхідні дані:n

Ми бачимо, що відповіді від точно налаштованої моделі демонструють значне покращення точності, релевантності та ясності порівняно з відповідями від попередньо навченої моделі. У деяких випадках використання попередньо навченої моделі для вашого випадку використання може бути недостатнім, тому її тонке налаштування за допомогою цієї техніки зробить рішення більш персоналізованим для вашого набору даних.

Прибирати

Після того, як ви завершили навчання й більше не бажаєте використовувати наявні ресурси, видаліть ресурси за допомогою такого коду:

# Delete resources
# Delete the fine-tuned model
finetuned_predictor.delete_model() # Delete the fine-tuned model endpoint
finetuned_predictor.delete_endpoint()

Висновок

Розгортання та точне налаштування моделей Llama 2 Neuron на SageMaker демонструє значний прогрес в управлінні й оптимізації великомасштабних генеративних моделей ШІ. Ці моделі, включно з такими варіантами, як Llama-2-7b і Llama-2-13b, використовують Neuron для ефективного навчання та висновків на основі екземплярів на основі AWS Inferentia та Trainium, покращуючи їх продуктивність і масштабованість.

Можливість розгортати ці моделі через UI SageMaker JumpStart і Python SDK забезпечує гнучкість і простоту використання. Neuron SDK із підтримкою популярних фреймворків ML і високопродуктивними можливостями забезпечує ефективну роботу з цими великими моделями.

Точне налаштування цих моделей на предметно-спеціальних даних має вирішальне значення для підвищення їх актуальності та точності в спеціалізованих областях. Процес, який можна виконати за допомогою інтерфейсу SageMaker Studio або Python SDK, дозволяє налаштовувати під конкретні потреби, що призводить до покращення продуктивності моделі з точки зору швидкого завершення та якості відповіді.

Для порівняння, попередньо підготовлені версії цих моделей, хоча й потужні, можуть надавати більш загальні або повторювані відповіді. Тонке налаштування адаптує модель до конкретних контекстів, що призводить до більш точних, релевантних і різноманітних відповідей. Ця настройка особливо очевидна під час порівняння відповідей від попередньо навчених і точно налаштованих моделей, де остання демонструє помітне покращення якості та специфічності результату. Підсумовуючи, розгортання та точне налаштування моделей Neuron Llama 2 на SageMaker представляють надійну структуру для керування розширеними моделями штучного інтелекту, пропонуючи суттєві покращення в продуктивності та застосуванні, особливо якщо адаптовано до конкретних доменів або завдань.

Почніть вже сьогодні, посилаючись на приклад SageMaker ноутбук.

Щоб отримати додаткові відомості про розгортання та тонке налаштування попередньо навчених моделей Llama 2 на примірниках на основі GPU, зверніться до Налаштуйте Llama 2 для створення тексту на Amazon SageMaker JumpStart та Моделі основи Llama 2 від Meta тепер доступні в Amazon SageMaker JumpStart.

Автори висловлюють вдячність за технічний внесок Евану Кравіцу, Крістоферу Віттену, Адаму Коздровічу, Манан Шаху, Джонатану Гінегану та Майку Джеймсу.

Про авторів

Економічно налаштуйте та розгорніть моделі Llama 2 в Amazon SageMaker JumpStart за допомогою AWS Inferentia та AWS Trainium | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Сінь Хуан є старшим прикладним науковим співробітником Amazon SageMaker JumpStart і вбудованих алгоритмів Amazon SageMaker. Він зосереджується на розробці масштабованих алгоритмів машинного навчання. Його дослідницькі інтереси стосуються обробки природної мови, пояснюваного глибокого навчання на табличних даних і надійного аналізу непараметричної просторово-часової кластеризації. Він опублікував багато статей на конференціях ACL, ICDM, KDD і Королівського статистичного товариства: серія A.

Економічно налаштуйте та розгорніть моделі Llama 2 в Amazon SageMaker JumpStart за допомогою AWS Inferentia та AWS Trainium | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Нітін Євсевій є старшим архітектором корпоративних рішень в AWS, має досвід розробки програмного забезпечення, корпоративної архітектури та штучного інтелекту/ML. Він глибоко захоплений дослідженням можливостей генеративного ШІ. Він співпрацює з клієнтами, щоб допомогти їм створювати добре архітектурні додатки на платформі AWS, і присвячує себе вирішенню технологічних проблем і допомозі в їхній хмарній подорожі.

Економічно налаштуйте та розгорніть моделі Llama 2 в Amazon SageMaker JumpStart за допомогою AWS Inferentia та AWS Trainium | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Мадхур Прашант працює в генеративному просторі ШІ в AWS. Він захоплений перетином людського мислення та генеративного ШІ. Його інтереси полягають у генеративному штучному інтелекті, зокрема створенні рішень, які є корисними та нешкідливими, і, насамперед, оптимальними для клієнтів. Поза роботою він любить займатися йогою, піти в походи, проводити час зі своїм близнюком і грати на гітарі.

Економічно налаштуйте та розгорніть моделі Llama 2 в Amazon SageMaker JumpStart за допомогою AWS Inferentia та AWS Trainium | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Деван Чоудхурі є інженером із розробки програмного забезпечення Amazon Web Services. Він працює над алгоритмами Amazon SageMaker і пропозиціями JumpStart. Окрім створення інфраструктур ШІ/ML, він також захоплений створенням масштабованих розподілених систем.

Економічно налаштуйте та розгорніть моделі Llama 2 в Amazon SageMaker JumpStart за допомогою AWS Inferentia та AWS Trainium | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Хао Чжоу є науковим співробітником Amazon SageMaker. До цього він працював над розробкою методів машинного навчання для виявлення шахрайства для Amazon Fraud Detector. Він захоплений застосуванням машинного навчання, оптимізації та генеративних методів штучного інтелекту до різних проблем реального світу. Він має ступінь доктора філософії з електротехніки в Північно-західному університеті.

Економічно налаштуйте та розгорніть моделі Llama 2 в Amazon SageMaker JumpStart за допомогою AWS Inferentia та AWS Trainium | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Цин Лан є інженером з розробки програмного забезпечення в AWS. Він працював над декількома складними продуктами в Amazon, включаючи високоефективні рішення ML inference та високоефективну систему журналювання. Команда Ціна успішно запустила першу модель із мільярдами параметрів у Amazon Advertising із дуже малою затримкою. Qing має глибокі знання щодо оптимізації інфраструктури та прискорення глибокого навчання.

Економічно налаштуйте та розгорніть моделі Llama 2 в Amazon SageMaker JumpStart за допомогою AWS Inferentia та AWS Trainium | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Доктор Ашиш Хетан є старшим прикладним науковим співробітником із вбудованими алгоритмами Amazon SageMaker і допомагає розробляти алгоритми машинного навчання. Він отримав ступінь доктора філософії в Іллінойському університеті Урбана-Шампейн. Він активно досліджує машинне навчання та статистичні висновки та опублікував багато статей на конференціях NeurIPS, ICML, ICLR, JMLR, ACL та EMNLP.

Економічно налаштуйте та розгорніть моделі Llama 2 в Amazon SageMaker JumpStart за допомогою AWS Inferentia та AWS Trainium | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Доктор Лі Чжан є головним технічним менеджером із продуктів для Amazon SageMaker JumpStart і вбудованих алгоритмів Amazon SageMaker, сервісу, який допомагає дослідникам даних і практикам машинного навчання розпочати навчання та розгортання своїх моделей, а також використовує навчання з підкріпленням за допомогою Amazon SageMaker. Його минула робота в якості головного наукового співробітника та головного винахідника в IBM Research отримала нагороду IEEE INFOCOM за перевірку часу.

Економічно налаштуйте та розгорніть моделі Llama 2 в Amazon SageMaker JumpStart за допомогою AWS Inferentia та AWS Trainium | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Кямран Хан, старший менеджер з технічного розвитку бізнесу AWS Inferentina/Trianium в AWS. Він має понад десятирічний досвід, допомагаючи клієнтам розгортати й оптимізувати навчання глибокого навчання та робочі навантаження з висновків за допомогою AWS Inferentia та AWS Trainium.

Економічно налаштуйте та розгорніть моделі Llama 2 в Amazon SageMaker JumpStart за допомогою AWS Inferentia та AWS Trainium | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Джо Сенерчія є старшим менеджером із продуктів в AWS. Він визначає та створює екземпляри Amazon EC2 для глибокого навчання, штучного інтелекту та високопродуктивних обчислювальних навантажень.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/fine-tune-and-deploy-llama-2-models-cost-effectively-in-amazon-sagemaker-jumpstart-with-aws-inferentia-and-aws-trainium/

Часова мітка: Січень 17, 2024

Часова мітка: Листопад 29, 2023

Економічно налаштуйте та розгорніть моделі Llama 2 в Amazon SageMaker JumpStart за допомогою AWS Inferentia та AWS Trainium | Веб-сервіси Amazon

Перевидано Платоном

Огляд рішення

Розгорніть Llama 2 на примірниках AWS Inferentia за допомогою інтерфейсу SageMaker Studio та Python SDK

Відкрийте для себе модель Llama 2 в інтерфейсі SageMaker Studio

Розгорніть модель Llama-2-13b за допомогою SageMaker Jumpstart

Розгорніть модель Llama 2 Neuron через Python SDK

Точне налаштування моделей Llama 2 на примірниках Trainium за допомогою інтерфейсу користувача SageMaker Studio та SDK SageMaker Python

Налаштуйте модель Llama-2-13b Neuron за допомогою SageMaker Studio

Точне налаштування моделі Llama-2-13b Neuron за допомогою SDK SageMaker Python

Порівняйте відповіді між попередньо підготовленими та точно налаштованими моделями Llama 2 Neuron

Прибирати

Висновок

Про авторів

Більше від AWS Машинне навчання

Показники для оцінки модерації вмісту в Amazon Rekognition та інших службах модерації вмісту

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки