В связи с быстрым внедрением генеративных приложений искусственного интеллекта возникает необходимость в том, чтобы эти приложения реагировали вовремя, чтобы уменьшить воспринимаемую задержку за счет более высокой пропускной способности. Базовые модели (FM) часто предварительно обучаются на обширных массивах данных с параметрами в масштабе от миллионов до миллиардов и выше. Большие языковые модели (LLM) — это тип FM, который генерирует текст в ответ на действия пользователя. Вывод этих моделей с различными конфигурациями параметров вывода может привести к несогласованным задержкам. Несогласованность может быть связана с разным количеством токенов ответа, которые вы ожидаете от модели, или типом ускорителя, на котором развернута модель.
В любом случае, вместо того, чтобы ждать полного ответа, вы можете использовать подход потоковой передачи ответов для ваших выводов, который отправляет обратно фрагменты информации, как только они сгенерированы. Это создает интерактивный интерфейс, позволяя вам видеть частичные ответы в потоковом режиме в реальном времени вместо отложенного полного ответа.
С официальным заявлением о том, что Вывод в реальном времени Amazon SageMaker теперь поддерживает потоковую передачу ответов, теперь вы можете непрерывно передавать ответы на логические выводы обратно клиенту при использовании Создатель мудреца Амазонки вывод в реальном времени с потоковой передачей ответов. Это решение поможет вам создавать интерактивные возможности для различных генеративных приложений искусственного интеллекта, таких как чат-боты, виртуальные помощники и генераторы музыки. В этом посте показано, как добиться более быстрого времени отклика в форме времени до первого байта (TTFB) и уменьшить общую воспринимаемую задержку при выводе моделей Llama 2.
Для реализации решения мы используем SageMaker, полностью управляемый сервис для подготовки данных, а также построения, обучения и развертывания моделей машинного обучения (ML) для любого варианта использования с полностью управляемой инфраструктурой, инструментами и рабочими процессами. Дополнительную информацию о различных вариантах развертывания, предоставляемых SageMaker, см. Часто задаваемые вопросы о хостинге моделей Amazon SageMaker. Давайте разберемся, как мы можем решить проблемы с задержкой, используя вывод в реальном времени с потоковой передачей ответов.
Обзор решения
Поскольку мы хотим устранить вышеупомянутые задержки, связанные с выводом в реальном времени с помощью LLM, давайте сначала поймем, как мы можем использовать поддержку потоковой передачи ответов для вывода в реальном времени для Llama 2. Однако любой LLM может воспользоваться преимуществами поддержки потоковой передачи ответов с реальными -временной вывод.
Llama 2 — это набор предварительно обученных и точно настроенных генеративных текстовых моделей размером от 7 до 70 миллиардов параметров. Модели Llama 2 — это авторегрессионные модели с архитектурой только декодера. При наличии параметров подсказки и вывода модели Llama 2 способны генерировать текстовые ответы. Эти модели можно использовать для перевода, обобщения, ответов на вопросы и общения в чате.
В этом посте мы развертываем модель чата Llama 2. meta-llama/Llama-2-13b-chat-hf
на SageMaker для вывода в реальном времени с потоковой передачей ответов.
Когда дело доходит до развертывания моделей на конечных точках SageMaker, вы можете контейнеризировать модели с помощью специализированных Контейнер глубокого обучения AWS (DLC) доступны для популярных библиотек с открытым исходным кодом. Модели Llama 2 — это модели генерации текста; вы можете использовать либо Контейнеры вывода Hugging Face LLM в SageMaker на базе Hugging Face Вывод генерации текста (TGI) или AWS DLC для Вывод большой модели (ЛМИ).
В этом посте мы развертываем модель чата Llama 2 13B с использованием DLC на хостинге SageMaker для получения выводов в реальном времени на базе экземпляров G5. Инстансы G5 — это высокопроизводительные экземпляры на базе графического процессора для приложений с интенсивным использованием графики и вывода ML. Вы также можете использовать поддерживаемые типы экземпляров p4d, p3, g5 и g4dn с соответствующими изменениями в соответствии с конфигурацией экземпляра.
Предпосылки
Для реализации этого решения у вас должно быть следующее:
- Аккаунт AWS с Управление идентификацией и доступом AWS (IAM) роль с разрешениями на управление ресурсами, созданными в рамках решения.
- Если вы впервые работаете с Студия Amazon SageMaker, сначала нужно создать Домен SageMaker.
- Аккаунт «Обнимающее лицо». Подписаться с вашим адресом электронной почты, если у вас еще нет учетной записи.
- Для беспрепятственного доступа к моделям, доступным на Hugging Face, особенно закрытым моделям, таким как Llama, для целей точной настройки и вывода, вам необходимо иметь учетную запись Hugging Face для получения токена доступа для чтения. После того как вы зарегистрируете свою учетную запись Hugging Face, авторизоваться посетить https://huggingface.co/settings/tokens для создания токена доступа для чтения.
- Получите доступ к Llama 2, используя тот же адрес электронной почты, который вы использовали при регистрации в Hugging Face.
- Модели Llama 2, доступные через Hugging Face, являются закрытыми моделями. Использование модели Llama регулируется лицензией Meta. Чтобы загрузить веса модели и токенизатор, запросить доступ к Ламе и принять их лицензию.
- После того, как вам будет предоставлен доступ (обычно через пару дней), вы получите подтверждение по электронной почте. Для этого примера мы используем модель
Llama-2-13b-chat-hf
, но у вас должен быть доступ и к другим вариантам.
Подход 1: Обнимающее лицо TGI
В этом разделе мы покажем вам, как развернуть meta-llama/Llama-2-13b-chat-hf
модель в конечную точку SageMaker в реальном времени с потоковой передачей ответов с использованием Hugging Face TGI. В следующей таблице приведены характеристики этого развертывания.
Спецификация | Значение |
Container | Обнимающее лицо TGI |
Название модели | мета-лама/Llama-2-13b-chat-hf |
Экземпляр машинного обучения | мл.g5.12xбольшой |
вывод | В режиме реального времени с потоковой передачей ответов |
Развернуть модель
Сначала вы получаете базовый образ для развертывания LLM. Затем вы строите модель на основе базового изображения. Наконец, вы развертываете модель в экземпляре машинного обучения для хостинга SageMaker для получения выводов в реальном времени.
Давайте посмотрим, как добиться развертывания программным способом. Для краткости в этом разделе обсуждается только код, который помогает на этапах развертывания. Полный исходный код для развертывания доступен в блокноте. llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.
Получите новейший DLC Hugging Face LLM от TGI через предварительно созданный Дополнения для SageMaker. Вы используете этот образ для развертывания meta-llama/Llama-2-13b-chat-hf
Модель на SageMaker. См. следующий код:
Определите среду для модели с параметрами конфигурации, определенными следующим образом:
Замените <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
для параметра конфигурации HUGGING_FACE_HUB_TOKEN
со стоимостью токена, полученного из вашего профиля Hugging Face, как подробно описано в разделе предварительных условий этого сообщения. В конфигурации вы определяете количество графических процессоров, используемых на одну реплику модели, как 4 для SM_NUM_GPUS
. Затем вы можете развернуть meta-llama/Llama-2-13b-chat-hf
модель на экземпляре ml.g5.12xlarge с 4 графическими процессорами.
Теперь вы можете создать экземпляр HuggingFaceModel
с вышеупомянутой конфигурацией среды:
Наконец, разверните модель, предоставив аргументы методу развертывания, доступному в модели, с различными значениями параметров, такими как endpoint_name
, initial_instance_count
и instance_type
:
Выполнить вывод
Дополнение Hugging Face TGI позволяет передавать ответы без каких-либо настроек или изменений кода модели. Вы можете использовать ignore_endpoint_with_response_stream если вы используете Boto3 или Вызвать EndpointWithResponseStream при программировании с помощью SageMaker Python SDK.
Ассоциация InvokeEndpointWithResponseStream
API SageMaker позволяет разработчикам передавать ответы обратно из моделей SageMaker, что может помочь повысить удовлетворенность клиентов за счет снижения воспринимаемой задержки. Это особенно важно для приложений, созданных с использованием генеративных моделей искусственного интеллекта, где немедленная обработка важнее, чем ожидание всего ответа.
В этом примере мы используем Boto3 для вывода модели и используем API SageMaker. invoke_endpoint_with_response_stream
следующим образом:
Аргумент CustomAttributes
установлено значение accept_eula=false
. Ассоциация accept_eula
параметр должен быть установлен на true
чтобы успешно получить ответ от моделей Llama 2. После успешного вызова с использованием invoke_endpoint_with_response_stream
, метод вернет поток ответов в байтах.
Следующая диаграмма иллюстрирует этот рабочий процесс.
Вам нужен итератор, который перебирает поток байтов и преобразует их в читаемый текст. LineIterator
реализацию можно найти по адресу llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Теперь вы готовы подготовить подсказку и инструкции для использования их в качестве полезных данных при выводе модели.
Подготовьте подсказку и инструкции
На этом этапе вы подготавливаете приглашение и инструкции для вашего LLM. Для запроса Llama 2 у вас должен быть следующий шаблон запроса:
Вы создаете шаблон приглашения, программно определенный в методе build_llama2_prompt
, который соответствует вышеупомянутому шаблону приглашения. Затем вы определяете инструкции в соответствии с вариантом использования. В этом случае мы поручаем модели создать электронное письмо для маркетинговой кампании, как описано в разделе get_instructions
метод. Код этих методов находится в файле llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb блокнот. Создайте инструкцию, объединенную с задачей, которую необходимо выполнить, как подробно описано в user_ask_1
следующим образом:
Мы передаем инструкции по созданию приглашения в соответствии с шаблоном приглашения, созданным build_llama2_prompt.
Клубим параметры вывода вместе с подсказкой с ключом stream
со значением True
для формирования окончательной полезной нагрузки. Отправьте полезную нагрузку на get_realtime_response_stream
, который будет использоваться для вызова конечной точки с потоковой передачей ответов:
Сгенерированный текст из LLM будет передан на выход, как показано на следующей анимации.
Подход 2: LMI с обслуживанием DJL
В этом разделе мы покажем, как развернуть meta-llama/Llama-2-13b-chat-hf
модель на конечную точку SageMaker в реальном времени с потоковой передачей ответов с использованием LMI с DJL Serving. В следующей таблице приведены характеристики этого развертывания.
Спецификация | Значение |
Container | Образ контейнера LMI с обслуживанием DJL |
Название модели | мета-лама/Llama-2-13b-chat-hf |
Экземпляр машинного обучения | мл.g5.12xбольшой |
вывод | В режиме реального времени с потоковой передачей ответов |
Сначала вы загружаете модель и сохраняете ее в Простой сервис хранения Amazon (Амазонка S3). Затем вы указываете URI S3, указывающий префикс S3 модели в serving.properties
файл. Затем вы получаете базовый образ для развертывания LLM. Затем вы строите модель на основе базового изображения. Наконец, вы развертываете модель в экземпляре машинного обучения для хостинга SageMaker для получения выводов в реальном времени.
Давайте посмотрим, как выполнить вышеупомянутые шаги развертывания программно. Для краткости в этом разделе подробно описан только код, который помогает при развертывании. Полный исходный код для этого развертывания доступен в блокноте. llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.
Загрузите снимок модели с Hugging Face и загрузите артефакты модели на Amazon S3.
При наличии вышеупомянутых предварительных условий загрузите модель в экземпляр блокнота SageMaker, а затем загрузите ее в корзину S3 для дальнейшего развертывания:
Обратите внимание: даже если вы не предоставите действительный токен доступа, модель будет загружена. Но когда вы развернете такую модель, обслуживание модели не удастся. Поэтому рекомендуется заменить <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
для аргумента token
со значением токена, полученного из вашего профиля Hugging Face, как указано в предварительных условиях. В этом посте мы указываем официальное название модели Llama 2, указанное на Hugging Face, со значением meta-llama/Llama-2-13b-chat-hf
. Несжатая модель будет загружена в local_model_path
в результате запуска вышеупомянутого кода.
Загрузите файлы на Amazon S3 и получите URI, который позже будет использоваться в serving.properties
.
Вы будете упаковывать meta-llama/Llama-2-13b-chat-hf
модель в образе контейнера LMI с DJL Serving, используя конфигурацию, указанную через serving.properties
. Затем вы развертываете модель вместе с артефактами модели, упакованными в образ контейнера, в экземпляре SageMaker ML ml.g5.12xlarge. Затем вы используете этот экземпляр ML для хостинга SageMaker для получения выводов в реальном времени.
Подготовьте артефакты модели для обслуживания DJL
Подготовьте артефакты модели, создав serving.properties
конфигурационный файл:
В этом файле конфигурации мы используем следующие настройки:
- двигатель – Это определяет механизм выполнения, который будет использовать DJL. Возможные значения включают в себя
Python
,DeepSpeed
,FasterTransformer
иMPI
. В данном случае мы установили его наMPI
. Распараллеливание моделей и вывод (MPI) облегчает разделение модели на все доступные графические процессоры и, следовательно, ускоряет вывод. - option.entryPoint – Эта опция указывает, какой обработчик, предлагаемый DJL Serving, вы хотели бы использовать. Возможные значения:
djl_python.huggingface
,djl_python.deepspeed
иdjl_python.stable-diffusion
, Мы используемdjl_python.huggingface
для ускорения обнимания лица. - option.tensor_parallel_степень – Эта опция определяет количество параллельных тензорных разделов, выполняемых в модели. Вы можете установить количество графических устройств, по которым Accelerate необходимо разделить модель. Этот параметр также контролирует количество рабочих процессов на модель, которые будут запущены при запуске обслуживания DJL. Например, если у нас есть компьютер с 4 графическими процессорами и мы создаем четыре раздела, то для обслуживания запросов у нас будет один рабочий процесс на каждую модель.
- option.low_cpu_mem_usage – Это уменьшает использование памяти процессора при загрузке моделей. Мы рекомендуем вам установить это значение
TRUE
. - option.rolling_batch – Это позволяет выполнять пакетную обработку на уровне итерации с использованием одной из поддерживаемых стратегий. Ценности включают в себя
auto
,scheduler
иlmi-dist
, Мы используемlmi-dist
для включения непрерывного пакетирования для Llama 2. - option.max_rolling_batch_size – Это ограничивает количество одновременных запросов в непрерывном пакете. Значение по умолчанию равно 32.
- option.model_id - Вам следует заменить
{{model_id}}
с идентификатором модели предварительно обученной модели, размещенной внутри репозиторий моделей на Hugging Face или путь S3 к артефактам модели.
Дополнительные параметры конфигурации можно найти в Конфигурации и настройки.
Поскольку DJL Serving ожидает, что артефакты модели будут упакованы и отформатированы в файле .tar, запустите следующий фрагмент кода, чтобы сжать и загрузить файл .tar в Amazon S3:
Получите последний образ контейнера LMI с помощью DJL Serving
Затем вы используете DLC, доступные в SageMaker для LMI, для развертывания модели. Получите URI изображения SageMaker для djl-deepspeed
контейнер программно, используя следующий код:
Вы можете использовать вышеупомянутый образ для развертывания meta-llama/Llama-2-13b-chat-hf
Модель на SageMaker. Теперь можно переходить к созданию модели.
Создать модель
Вы можете создать модель, контейнер которой построен с помощью inference_image_uri
и код обслуживания модели, расположенный в URI S3, указанном s3_code_artifact:
Теперь вы можете создать конфигурацию модели со всеми подробностями конфигурации конечной точки.
Создайте конфигурацию модели
Используйте следующий код, чтобы создать конфигурацию модели для модели, идентифицируемой model_name
:
Конфигурация модели определена для ProductionVariants
параметр InstanceType
для экземпляра ML ml.g5.12xlarge. Вы также предоставляете ModelName
используя то же имя, которое вы использовали для создания модели на предыдущем этапе, тем самым устанавливая связь между моделью и конфигурацией конечной точки.
Теперь, когда вы определили модель и ее конфигурацию, вы можете создать конечную точку SageMaker.
Создайте конечную точку SageMaker
Создайте конечную точку для развертывания модели, используя следующий фрагмент кода:
Вы можете просмотреть ход развертывания, используя следующий фрагмент кода:
После успешного развертывания статус конечной точки будет следующим: InService
. Теперь, когда конечная точка готова, давайте выполним вывод с потоковой передачей ответов.
Вывод в реальном времени с потоковой передачей ответов
Как мы уже рассмотрели ранее для Hugging Face TGI, вы можете использовать тот же метод. get_realtime_response_stream
для вызова потоковой передачи ответов из конечной точки SageMaker. Код для вывода с использованием подхода LMI находится в файле llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb блокнот. LineIterator
реализация находится в llama-2-lmi/utils/LineIterator.py, Обратите внимание, что LineIterator
для модели Llama 2 Chat, развернутой в контейнере LMI, отличается от LineIterator
упоминается в разделе TGI «Обнимающее лицо». LineIterator
циклически перебирает поток байтов из моделей чата Llama 2, выведенных с помощью контейнера LMI, с помощью djl-deepspeed
версия 0.25.0. Следующая вспомогательная функция будет анализировать поток ответов, полученный в результате запроса вывода, сделанного через invoke_endpoint_with_response_stream
API:
Предыдущий метод печатает поток данных, считанных LineIterator
в удобочитаемом формате.
Давайте рассмотрим, как подготовить приглашение и инструкции для использования их в качестве полезных данных при выводе модели.
Поскольку вы создаете одну и ту же модель как в Hugging Face TGI, так и в LMI, процесс подготовки подсказки и инструкций одинаков. Поэтому вы можете использовать методы get_instructions
и build_llama2_prompt
для заключения.
Ассоциация get_instructions
метод возвращает инструкции. Составьте инструкции в сочетании с задачей, которую необходимо выполнить, как подробно описано в user_ask_2
следующим образом:
Передайте инструкции по созданию приглашения в соответствии с шаблоном приглашения, созданным build_llama2_prompt:
Мы объединяем параметры вывода вместе с подсказкой для формирования окончательной полезной нагрузки. Затем вы отправляете полезную нагрузку в get_realtime_response_stream,
который используется для вызова конечной точки с потоковой передачей ответов:
Сгенерированный текст из LLM будет передан на выход, как показано на следующей анимации.
Убирать
Чтобы избежать ненужных расходов, используйте Консоль управления AWS удалить конечные точки и связанные с ними ресурсы, которые были созданы при использовании подходов, упомянутых в сообщении. Для обоих подходов к развертыванию выполните следующую процедуру очистки:
Замените <SageMaker_Real-time_Endpoint_Name>
для переменной endpoint_name
с фактической конечной точкой.
При втором подходе мы сохранили артефакты модели и кода на Amazon S3. Вы можете очистить корзину S3, используя следующий код:
Заключение
В этом посте мы обсудили, как различное количество токенов ответа или другой набор параметров вывода могут повлиять на задержки, связанные с LLM. Мы показали, как решить проблему с помощью потоковой передачи ответов. Затем мы определили два подхода к развертыванию и формированию моделей Llama 2 Chat с использованием дополнений AWS — LMI и Hugging Face TGI.
Теперь вы должны понимать важность потоковой передачи ответа и то, как она может уменьшить воспринимаемую задержку. Потоковая передача ответа может улучшить взаимодействие с пользователем, что в противном случае заставило бы вас ждать, пока LLM построит весь ответ. Кроме того, развертывание моделей чата Llama 2 с потоковой передачей ответов улучшает взаимодействие с пользователем и делает ваших клиентов счастливыми.
Вы можете обратиться к официальным образцам aws. amazon-sagemaker-llama2-response-streaming-рецепты это касается развертывания других вариантов модели Llama 2.
Рекомендации
Об авторах
Паван Кумар Рао Навуле — архитектор решений в Amazon Web Services. Он работает с независимыми поставщиками программного обеспечения в Индии, помогая им внедрять инновации на AWS. Он является опубликованным автором книги «Начало работы с V-программированием». Он получил степень магистра технических наук в области науки о данных в Индийском технологическом институте (IIT) в Хайдарабаде. Он также получил степень Executive MBA по специализации ИТ в Индийской школе бизнес-менеджмента и администрирования и имеет степень бакалавра технических наук в области электроники и коммуникационной техники в Институте технологий и науки Ваагдеви. Паван является сертифицированным профессиональным архитектором решений AWS и имеет другие сертификаты, такие как сертифицированный AWS специалист по машинному обучению, сертифицированный специалист Microsoft (MCP) и сертифицированный специалист по технологиям Microsoft (MCTS). Он также является энтузиастом открытого исходного кода. В свободное время он любит слушать великолепные волшебные голоса Сиа и Рианны.
Судханшу Ненависть является главным специалистом по AI/ML в AWS и работает с клиентами, консультируя их по вопросам MLOps и генеративного искусственного интеллекта. На своей предыдущей должности до Amazon он концептуализировал, создавал и руководил командами по созданию фундаментальных платформ искусственного интеллекта и геймификации с открытым исходным кодом, а также успешно коммерциализировал их с более чем 100 клиентами. На счету Судханшу несколько патентов, он написал две книги, несколько статей и блогов, а также представил свою точку зрения на различных технических форумах. Он был идейным лидером и оратором и работает в отрасли почти 25 лет. Он работал с клиентами из списка Fortune 1000 по всему миру, а в последнее время — с местными цифровыми клиентами в Индии.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/inference-llama-2-models-with-real-time-response-streaming-using-amazon-sagemaker/
- :имеет
- :является
- :куда
- $UP
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 150
- 16
- 19
- 1
- 25
- 32
- 385
- 50
- 7
- 70
- 8
- 9
- a
- способность
- в состоянии
- О нас
- ускорять
- ускоряет
- ускоритель
- Принять
- доступ
- Учетная запись
- Достигать
- через
- Действие
- фактического соединения
- Дополнительно
- адрес
- администрация
- принять
- Принятие
- плюс
- консультировать
- влиять на
- После
- AI
- AI модели
- AI / ML
- Алиса
- Выравнивает
- Все
- Позволяющий
- позволяет
- вдоль
- уже
- причислены
- Amazon
- Создатель мудреца Амазонки
- Amazon Web Services
- an
- и
- анимация
- объявило
- Объявление
- любой
- API
- Приложения
- подхода
- подходы
- соответствующий
- архитектурный
- архитектура
- МЫ
- аргумент
- Аргументы
- AS
- помощники
- связанный
- At
- автор
- доступен
- избежать
- AWS
- назад
- Использование темпера с изогнутым основанием
- дозирующий
- BE
- , так как:
- было
- до
- между
- Beyond
- миллиард
- миллиарды
- BIN
- блоги
- тело
- книга
- Книги
- изоферменты печени
- строить
- строит
- построенный
- бизнес
- но
- by
- призывают
- Кампания
- CAN
- способный
- случаев
- сертификаты
- Сертифицированные
- изменения
- расходы
- чат
- chatbots
- чистым
- клиент
- клиентов
- клуб
- код
- лыжных шлемов
- COM
- сочетании
- выходит
- Связь
- параллельный
- Конфигурация
- подтверждение
- Container
- Контейнеры
- (CIJ)
- непрерывно
- контрольная
- может
- Пара
- купон
- покрытый
- Обложки
- Создайте
- создали
- создает
- Создающий
- кредит
- клиент
- Удовлетворенность клиентов
- Клиенты
- данным
- наука о данных
- Дней
- глубоко
- глубокое обучение
- по умолчанию
- определять
- определенный
- Задерживается
- демонстрировать
- развертывание
- развернуть
- развертывание
- развертывание
- подробный
- подробнее
- застройщиков
- Устройства
- различный
- Интернет
- обсуждается
- Dont
- скачать
- в течение
- Ранее
- или
- Electronics
- позволяет
- Конечная точка
- Двигатель
- Проект и
- энтузиаст
- Весь
- Окружающая среда
- особенно
- налаживание
- Даже
- пример
- исполнительный
- ожидается
- надеется
- опыт
- Впечатления
- Больше
- Face
- облегчает
- ложный
- быстрее
- Файл
- Файлы
- окончательный
- в заключение
- Во-первых,
- Впервые
- после
- следующим образом
- Что касается
- форма
- формат
- Fortune
- форумы
- найденный
- Год основания
- 4
- Бесплатно
- от
- полный
- полностью
- функция
- далее
- геймификации
- коттеджный
- порождать
- генерируется
- порождающий
- поколение
- генеративный
- Генеративный ИИ
- генераторы
- получить
- GIF
- земной шар
- Go
- регулируется
- GPU / ГРАФИЧЕСКИЙ ПРОЦЕССОР
- Графические процессоры
- предоставленный
- большой
- счастливый
- ненавидеть
- Есть
- he
- помощь
- помогает
- высокая производительность
- высший
- его
- имеет
- состоялся
- хостинг
- Как
- How To
- Однако
- HTML
- HTTP
- HTTPS
- ОбниматьЛицо
- человек читаемый
- ID
- идентифицированный
- Личность
- if
- иллюстрирует
- изображение
- изображений
- немедленная
- осуществлять
- реализация
- Импортировать
- значение
- важную
- улучшать
- улучшается
- in
- включают
- В том числе
- Индия
- Индийская кухня
- указанный
- промышленность
- информация
- Инфраструктура
- обновлять
- вход
- затраты
- внутри
- пример
- вместо
- Институт
- инструкции
- интерактивный
- Интернет
- вопросы
- IT
- ЕГО
- путешествие
- JSON
- Основные
- Кумар
- язык
- большой
- Задержка
- проблемы с задержкой
- новее
- последний
- запуск
- вести
- лидер
- изучение
- привело
- Длина
- библиотеки
- Лицензия
- такое как
- рамки
- линия
- Слушать
- Лама
- LLM
- погрузка
- расположенный
- любит
- машина
- обучение с помощью машины
- сделанный
- сделать
- ДЕЛАЕТ
- управлять
- управляемого
- управление
- Маркетинг
- Макс
- Май..
- MCP
- Память
- упомянутый
- Мета
- метод
- методы
- Microsoft
- миллионы
- ML
- млн операций в секунду
- модель
- Модели
- месяцев
- БОЛЕЕ
- самых
- Музыка
- должен
- имя
- Названный
- родной
- почти
- Необходимость
- потребности
- Новые
- следующий
- в своих размышлениях
- ноутбук
- сейчас
- номер
- объекты
- наблюдать
- получать
- полученный
- of
- предложенный
- Официальный представитель в Грузии
- .
- on
- ONE
- только
- открытый
- с открытым исходным кодом
- Опция
- Опции
- or
- Другое
- в противном случае
- контуры
- выходной
- за
- общий
- в упаковке
- коробок
- бумага
- Параллельные
- параметр
- параметры
- часть
- pass
- Патенты
- путь
- для
- восприятии
- Выполнять
- выполнены
- Разрешения
- Платформы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- пунктов
- Популярное
- возможное
- После
- Питание
- предшествующий
- Подготовить
- подготовка
- предпосылки
- представлены
- предыдущий
- Основной
- печать
- Проблема
- продолжить
- процесс
- Обработанный
- обработка
- Продукт
- запуск продукта
- профессиональный
- Профиль
- Программирование
- Прогресс
- свойства
- обеспечивать
- при условии
- приводит
- обеспечение
- опубликованный
- целей
- Питон
- pytorch
- вопрос
- ранжирование
- быстро
- скорее
- Читать
- готовый
- реальные
- реального времени
- реализовать
- Получать
- получила
- недавно
- рекомендовать
- Управление по борьбе с наркотиками (DEA)
- уменьшить
- снижает
- снижение
- относиться
- связь
- замещать
- ответ
- хранилище
- запросить
- Запросы
- Полезные ресурсы
- Реагируйте
- ответ
- ответы
- результат
- возвращают
- Возвращает
- Роли
- рутина
- Run
- Бег
- работает
- время выполнения
- sagemaker
- то же
- удовлетворение
- Шкала
- Школа
- Наука
- SDK
- бесшовные
- Во-вторых
- Раздел
- посмотреть
- Отправить
- посылает
- служить
- обслуживание
- Услуги
- выступающей
- набор
- настройки
- несколько
- Короткое
- должен
- показывать
- показал
- показанный
- Шоу
- подпись
- просто
- Снимок
- отрывок
- Решение
- Решения
- скоро
- Источник
- исходный код
- Динамик
- специалист
- специализированный
- Специальные
- спецификации
- указанный
- и политические лидеры
- Статус:
- Шаг
- Шаги
- Stop
- диск
- магазин
- хранить
- стратегий
- поток
- потоковый
- потоковый
- потоковая служба
- быть успешными
- успешный
- Успешно
- такие
- поддержка
- Поддержанный
- Поддержка
- ТАБЛИЦЫ
- взять
- Сложность задачи
- команды
- технологии
- Технический
- Технологии
- шаблон
- текст
- чем
- который
- Ассоциация
- их
- Их
- тогда
- Там.
- тем самым
- следовательно
- Эти
- они
- этой
- хоть?
- мысль
- пропускная способность
- время
- раз
- в
- знак
- Лексемы
- инструменты
- Train
- Переводы
- правда
- Поворот
- два
- напишите
- Типы
- типично
- понимать
- ненужный
- до
- Применение
- использование
- прецедент
- используемый
- Информация о пользователе
- Пользовательский опыт
- через
- действительный
- ценностное
- Наши ценности
- переменная
- различный
- Различная
- Огромная
- версия
- с помощью
- Вид
- Виртуальный
- Войти
- ГОЛОСА
- ждать
- Ожидание
- хотеть
- we
- Web
- веб-сервисы
- ЧТО Ж
- были
- когда
- который
- в то время как
- все
- чья
- будете
- в
- без
- работавший
- работник
- рабочие
- рабочий
- Рабочие процессы
- работает
- работает
- бы
- записывать
- письменный
- лет
- Ты
- ВАШЕ
- зефирнет