Мы рады сообщить, что Amazon SageMaker JumpStart теперь может передавать в потоковом режиме ответы на вывод модели большого языка (LLM). Потоковая передача токенов позволяет вам видеть выходные данные ответа модели по мере их создания, вместо того, чтобы ждать, пока LLM завершит генерацию ответа, прежде чем он станет доступен для использования или отображения. Возможность потоковой передачи в SageMaker JumpStart может помочь вам создавать приложения с более удобным пользовательским интерфейсом, создавая у конечного пользователя ощущение низкой задержки.
В этом посте мы рассмотрим, как развернуть и передать ответ от Модель Falcon 7B Instruct конечная точка.
На момент написания этой статьи следующие LLM, доступные в SageMaker JumpStart, поддерживают потоковую передачу:
- Мистраль АИ 7Б, Мистраль АИ 7Б Инструктировать
- Сокол 180Б, Сокол 180Б Чат
- Сокол 40Б, Сокол 40Б Инструктировать
- Сокол 7Б, Сокол 7Б Инструктировать
- Rinna Японский GPT NeoX 4B Инструкция PPO
- Rinna Японский GPT NeoX 3.6B Инструкция PPO
Чтобы проверить наличие обновлений в списке моделей, поддерживающих потоковую передачу, в SageMaker JumpStart найдите «huggingface-llm» по адресу Встроенные алгоритмы с предварительно обученной таблицей моделей.
Обратите внимание, что вы можете использовать функция потоковой передачи of Создатель мудреца Амазонки готовый хостинг для любой модели, развернутой с помощью контейнера глубокого обучения (DLC) SageMaker TGI, как описано в разделе Объявляем о запуске новых контейнеров вывода Hugging Face LLM на Amazon SageMaker.
Базовые модели в SageMaker
SageMaker JumpStart предоставляет доступ к ряду моделей из популярных центров моделей, включая Hugging Face, PyTorch Hub и TensorFlow Hub, которые вы можете использовать в рабочем процессе разработки машинного обучения в SageMaker. Недавние достижения в области машинного обучения привели к появлению нового класса моделей, известных как модели фундамента, которые обычно обучаются на миллиардах параметров и могут быть адаптированы к широкой категории случаев использования, таких как обобщение текста, создание цифровых изображений и языковой перевод. Поскольку обучение этих моделей обходится дорого, клиенты хотят использовать существующие предварительно обученные базовые модели и настраивать их по мере необходимости, а не обучать эти модели самостоятельно. SageMaker предоставляет тщательно подобранный список моделей, из которых вы можете выбирать на консоли SageMaker.
Теперь вы можете найти модели фундамента от разных поставщиков моделей в SageMaker JumpStart, что позволит вам быстро приступить к работе с моделями фундамента. SageMaker JumpStart предлагает базовые модели, основанные на различных задачах или поставщиках моделей, и вы можете легко просмотреть характеристики модели и условия использования. Вы также можете опробовать эти модели, используя тестовый виджет пользовательского интерфейса. Если вы хотите использовать базовую модель в большом масштабе, вы можете сделать это, не выходя из SageMaker, используя готовые блокноты от поставщиков моделей. Поскольку модели размещаются и развертываются на AWS, вы уверены, что ваши данные, независимо от того, используются ли они для оценки или масштабного использования модели, не будут переданы третьим лицам.
Потоковая передача токенов
Потоковая передача токенов позволяет возвращать ответ на вывод по мере его создания моделью. Таким образом, вы можете видеть, как ответ генерируется постепенно, вместо того, чтобы ждать завершения модели, прежде чем предоставить полный ответ. Потоковая передача может помочь улучшить взаимодействие с пользователем, поскольку она уменьшает восприятие задержки для конечного пользователя. Вы можете начать просматривать выходные данные по мере их создания и, следовательно, можете прекратить генерацию раньше, если выходные данные не кажутся полезными для ваших целей. Потоковая передача может иметь большое значение, особенно для длительных запросов, поскольку вы можете начать видеть выходные данные по мере их создания, что может создать ощущение меньшей задержки, даже если сквозная задержка остается прежней.
На момент написания этой статьи вы можете использовать потоковую передачу в SageMaker JumpStart для моделей, использующих Hugging Face LLM. Вывод генерации текста DLC.
Ответ без пропаривания | Ответ с помощью потоковой передачи |
Обзор решения
В этом посте мы используем модель Falcon 7B Instruct, чтобы продемонстрировать возможности потоковой передачи SageMaker JumpStart.
Вы можете использовать следующий код, чтобы найти в SageMaker JumpStart другие модели, поддерживающие потоковую передачу:
Мы получаем следующие идентификаторы моделей, поддерживающих потоковую передачу:
Предпосылки
Перед запуском ноутбука необходимо выполнить несколько начальных шагов по настройке. Выполните следующие команды:
Развернуть модель
В качестве первого шага используйте SageMaker JumpStart для развертывания модели Falcon 7B Instruct. Полные инструкции см. Модель фундамента Falcon 180B от TII теперь доступна через Amazon SageMaker JumpStart. Используйте следующий код:
Запрос конечной точки и потоковый ответ
Затем создайте полезную нагрузку для вызова развернутой конечной точки. Важно отметить, что полезная нагрузка должна содержать пару ключ/значение. "stream": True
. Это указывает серверу вывода генерации текста сгенерировать потоковый ответ.
Прежде чем вы запросите конечную точку, вам необходимо создать итератор, который сможет анализировать ответ потока байтов от конечной точки. Данные для каждого токена предоставляются в виде отдельной строки ответа, поэтому этот итератор возвращает токен каждый раз, когда в потоковом буфере обнаруживается новая строка. Этот итератор спроектирован минимально, и вы, возможно, захотите настроить его поведение для своего варианта использования; например, хотя этот итератор возвращает строки токенов, данные строки содержат другую информацию, такую как вероятности журнала токенов, которая может представлять интерес.
Теперь вы можете использовать Boto3 invoke_endpoint_with_response_stream
API на конечной точке, которую вы создали, и включите потоковую передачу, выполнив итерацию по TokenIterator
пример:
Указание пустого end
параметр к print
Функция включит визуальный поток без вставки символов новой строки. Это дает следующий результат:
Вы можете использовать этот код в блокноте или других приложениях, таких как Streamlit или Gradio, чтобы увидеть потоковую передачу в действии и опыт, который она предоставляет вашим клиентам.
Убирать
Наконец, не забудьте очистить развернутую модель и конечную точку, чтобы избежать дополнительных затрат:
Заключение
В этом посте мы показали вам, как использовать новую функцию потоковой передачи в SageMaker JumpStart. Мы надеемся, что вы будете использовать возможность потоковой передачи токенов для создания интерактивных приложений, требующих низкой задержки для лучшего взаимодействия с пользователем.
Об авторах
Рахна Чадха — главный архитектор решений AI/ML в отделе стратегических счетов в AWS. Рахна — оптимистка, которая верит, что этичное и ответственное использование ИИ может улучшить общество в будущем и принести экономическое и социальное процветание. В свободное время Рахна любит проводить время с семьей, ходить в походы и слушать музыку.
Доктор Кайл Ульрих является ученым-прикладником с Встроенные алгоритмы Amazon SageMaker команда. Его исследовательские интересы включают масштабируемые алгоритмы машинного обучения, компьютерное зрение, временные ряды, байесовские непараметрические и гауссовские процессы. Его докторская степень получена в Университете Дьюка, и он опубликовал статьи в NeurIPS, Cell и Neuron.
Доктор Ашиш Хетан — старший научный сотрудник, работающий со встроенными алгоритмами Amazon SageMaker и помогающий разрабатывать алгоритмы машинного обучения. Он получил докторскую степень в Университете Иллинойса в Урбана-Шампейн. Он является активным исследователем в области машинного обучения и статистических выводов и опубликовал множество статей на конференциях NeurIPS, ICML, ICLR, JMLR, ACL и EMNLP.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/stream-large-language-model-responses-in-amazon-sagemaker-jumpstart/
- :имеет
- :является
- $UP
- 1
- 10
- 100
- 12
- 13
- 14
- 19
- 7
- 8
- a
- О нас
- доступ
- Учетные записи
- Действие
- активный
- Добавить
- дополнительный
- авансы
- совет
- AI
- AI / ML
- алгоритмы
- позволяет
- причислены
- Amazon
- Создатель мудреца Амазонки
- Amazon SageMaker JumpStart
- Amazon Web Services
- an
- и
- анонсировать
- любой
- API
- Приложения
- прикладной
- МЫ
- Искусство
- AS
- At
- доступен
- избежать
- AWS
- основанный
- байесовский
- BE
- , так как:
- до
- поведение
- не являетесь
- считает,
- Лучшая
- большой
- миллиарды
- тело
- Коробка
- приносить
- буфер
- строить
- встроенный
- но
- by
- CAN
- возможности
- случаев
- случаев
- Категории
- характеристика
- символы
- проверка
- Выберите
- класс
- чистым
- клиент
- код
- полный
- комплекс
- компьютер
- Компьютерное зрение
- конференции
- Консоли
- строить
- содержать
- Container
- Контейнеры
- содержит
- содержание
- Расходы
- может
- Создайте
- создали
- Создающий
- CSS
- Куратор
- Клиенты
- данным
- уменьшается
- глубоко
- глубокое обучение
- развертывание
- развернуть
- описано
- Проект
- предназначенный
- дизайнер
- Определять
- развивать
- Застройщик
- Развитие
- разница
- различный
- Интернет
- цифровое искусство
- Дисплей
- do
- домен
- Имя домена
- Герцог
- Университет Дюка
- каждый
- Рано
- легко
- Экономические
- включить
- позволяет
- впритык
- Конечная точка
- Двигатели
- обеспечивать
- особенно
- этический
- оценки
- Даже
- пример
- возбужденный
- существующий
- дорогим
- опыт
- Face
- семья
- Особенность
- фильтры
- Найдите
- окончание
- Во-первых,
- после
- Что касается
- Год основания
- Рамки
- от
- полный
- функция
- будущее
- в общем
- порождать
- генерируется
- порождающий
- поколение
- получить
- данный
- Цели
- есть
- инструкция
- Есть
- he
- помощь
- полезный
- помогает
- ее
- его
- надежды
- состоялся
- хостинг
- Как
- How To
- HTML
- HTTPS
- хаб
- концентраторы
- ОбниматьЛицо
- i
- идентифицированный
- идентификаторы
- if
- Иллинойс
- Импортировать
- важно
- улучшать
- in
- включают
- В том числе
- указывает
- информация
- начальный
- затраты
- устанавливать
- пример
- вместо
- инструкции
- интерактивный
- интерес
- интересы
- IT
- ЕГО
- Японский
- JavaScript
- JSON
- Сохранить
- известный
- залив
- язык
- большой
- Задержка
- запуск
- запустили
- изучение
- уход
- такое как
- нравится
- линия
- Список
- Listening
- LLM
- журнал
- искать
- Низкий
- ниже
- машина
- обучение с помощью машины
- сделанный
- поддерживать
- сделать
- многих
- Май..
- может быть
- ML
- модель
- Модели
- Музыка
- имя
- Необходимость
- необходимый
- Новые
- вновь
- нет
- ноутбук
- сейчас
- of
- Предложения
- on
- онлайн
- Оптимизировать
- or
- Другое
- внешний
- выходной
- выходы
- за
- пара
- бумага
- параметр
- параметры
- Стороны
- восприятие
- кандидат наук
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Популярное
- После
- Predictor
- Основной
- процесс
- Процессы
- производит
- должным образом
- процветание
- при условии
- Недвижимости
- поставщики
- приводит
- обеспечение
- опубликованный
- цель
- целей
- pytorch
- Запросы
- быстро
- ассортимент
- скорее
- последний
- относиться
- регулярно
- помнить
- обязательный
- исследованиям
- исследователь
- Полезные ресурсы
- ответ
- ответы
- ответственный
- возвращают
- Возвращает
- обзоре
- Рост
- Run
- Бег
- sagemaker
- то же
- масштабируемые
- Шкала
- Ученый
- Поиск
- Поисковые системы
- посмотреть
- видя
- Искать
- SELF
- старший
- отдельный
- Серии
- сервер
- Услуги
- установка
- общие
- должен
- демонстрации
- показал
- плавно
- So
- Соцсети
- Общество
- Решение
- некоторые
- Расходы
- Начало
- и политические лидеры
- статистический
- Шаг
- Шаги
- Stop
- Стратегический
- поток
- потоковый
- такие
- поддержка
- поддержки
- Сложность задачи
- задачи
- команда
- шаблоны
- tensorflow
- terms
- тестXNUMX
- текст
- чем
- который
- Ассоциация
- Линия
- Их
- сами
- Там.
- следовательно
- Эти
- В третьих
- третье лицо
- этой
- хоть?
- Через
- время
- Временные ряды
- в
- знак
- Train
- специалистов
- Переводы
- правда
- Доверие
- стараться
- учебные пособия
- типично
- ui
- Университет
- Обновление ПО
- Updates
- Применение
- использование
- прецедент
- используемый
- Информация о пользователе
- Пользовательский опыт
- через
- использовать
- с помощью
- видение
- ждать
- Ожидание
- от
- хотеть
- Путь..
- we
- Web
- веб-сервисы
- Вебсайт
- когда
- будь то
- , которые
- в то время как
- КТО
- широкий
- будете
- в
- без
- рабочий
- работает
- письмо
- Ты
- ВАШЕ
- зефирнет