Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon

Этот пост написан в сотрудничестве с Баладжи Чандрасекараном, Дженнифер Квагенберг, Эндрю Сэнсомом и Эйманом Эбрахими из Protopia AI.

Новые и мощные модели больших языков (LLM) быстро меняют бизнес, повышая эффективность и результативность для различных вариантов корпоративного использования. Скорость имеет решающее значение, и внедрение технологий LLM может создать или разрушить конкурентное преимущество бизнеса. AWS особенно хорошо подходит для предоставления предприятиям инструментов, необходимых для масштабного развертывания LLM, позволяющего принимать важные решения.

При внедрении технологии генеративного искусственного интеллекта предприятия испытывают реальную обеспокоенность по поводу раскрытия данных и владения конфиденциальной информацией, которая может быть отправлена ​​в LLM. Эти проблемы конфиденциальности и защиты данных могут замедлить или ограничить использование LLM в организациях. Предприятиям нужен ответственный и более безопасный способ отправки конфиденциальной информации моделям без необходимости брать на себя часто непомерно высокие накладные расходы, связанные с локальным DevOps.

В посте описывается, как вы можете преодолеть проблемы сохранения владения данными и конфиденциальности данных при использовании LLM, развернув Stained Glass Transform от Protopia AI для защиты ваших данных. Протопия ИИ заключила партнерское соглашение с AWS, чтобы предоставить важнейший компонент защиты данных и владения ими для безопасного и эффективного внедрения генеративного искусственного интеллекта на предприятии. В этом посте описывается решение и демонстрируется, как его можно использовать в AWS для таких популярных корпоративных сценариев использования, как Извлечение дополненной генерации (RAG) и с такими современными программами магистратуры, как Llama 2.

Обзор трансформации витража

Организации стремятся сохранить полную собственность и контроль над своими конфиденциальными корпоративными данными. Это основа ответственного ИИ и новые требования к защите данных и конфиденциальности, выходящие за рамки базовой безопасности и юридических гарантий поставщиков LLM.

Хотя бизнес-подразделения предприятий хотят использовать LLM для различных задач, они также обеспокоены утечкой коммерческой тайны, интеллектуальной собственности и другой конфиденциальной информации через данные, отправленные в эти модели. В то же время отделы корпоративной безопасности, соответствия требованиям, управления данными и информационные отделы опасаются раскрытия или утечки текстовой информации о клиентах или других регулируемых данных за пределами предприятия. AWS и Protopia AI сотрудничают, чтобы предоставить критически важный компонент, который решает эту общую потребность корпоративных клиентов.

Технология Stained Glass Transform (SGT) от Protopia AI решает эти проблемы путем преобразования незащищенных корпоративных данных в рандомизированное повторное представление, называемое данными RmoRed, как показано на следующем рисунке. Это представление представляет собой стохастическое внедрение исходных данных, сохраняющее информацию, необходимую для функционирования целевого LLM, без раскрытия конфиденциальных подсказок или запросов, контекста или данных точной настройки. Такое перепредставление представляет собой одностороннюю трансформацию, которую невозможно отменить, обеспечивая целостную конфиденциальность корпоративных данных и защиту от утечки конфиденциальной информации в виде открытого текста в LLM. Применимость SGT не ограничивается языковыми моделями. Рандомизированные повторные представления также могут быть созданы для визуальных и структурированных данных. Название «Преобразование витража» связано с визуальным появлением рандомизированных представлений визуальных данных, которые могут напоминать просмотр данных через витраж, как показано в этом Вариант использования ВМС США.

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

SGT работает с современными LLM, такими как Llama 2. На следующем рисунке показан пример применения SGT к модели Llama 2 для следования инструкциям с одновременным добавлением уровня защиты к инструкции и контексту. В левой части рисунка показан пример финансового документа в качестве контекста с инструкцией, предлагающей модели суммировать документ. В левом нижнем углу показан ответ, сгенерированный Llama 2 при работе с необработанным приглашением. При использовании SGT внедрения, связанные с этим приглашением, преобразуются на стороне клиента в стохастические внедрения, как более подробно описано далее в этом посте. В правом нижнем углу показано, что Llama 2 все еще может генерировать правильный ответ, если данные RmoRed (вложения после преобразования) отправляются вместо незащищенных вложений. В правом верхнем углу показано, что в случае утечки данных RmoRed восстановление исходного приглашения приведет к неразборчивому тексту.

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Чтобы создать SGT для конкретной модели, такой как Llama 2, Protopia AI предоставляет облегченную библиотеку под названием Stained Glass SDK, которая является расширением PyTorch. Как показано на следующем рисунке, после создания SGT его можно интегрировать в конвейеры развертывания несколькими способами. Преобразование, созданное с помощью SDK, можно развернуть локально, в гибридной установке или полностью в облаке. Это возможно, поскольку SGT спроектирован как легкий процесс, требующий очень мало вычислительных ресурсов и поэтому оказывающий минимальное влияние на критический путь вывода. Еще одной ключевой оценкой является сохранение точности модели с использованием повторно представленных данных. Мы наблюдаем, что для разных типов данных и вариаций модели точность сохраняется в желаемых пределах допуска при использовании перепредставленных данных.

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Эти варианты развертывания и поддержания точности позволяют уверенно внедрить SGT всеми заинтересованными сторонами в корпоративной организации. Для дополнительной защиты выходных данных LLM Protopia AI может кодировать выходные данные запроса в представление, декодер которого доступен только владельцу корпоративных данных.

Обзор решения

В предыдущем разделе описывалось, как можно использовать преобразование Stained Glass Transform в различных архитектурах. На следующем рисунке подробно описаны шаги, необходимые для создания, развертывания и использования SGT для LLM:

  • Создание SGT. Команда, которая обучает базовую базовую модель LLM (поставщики собственных LLM, поставщик облачных услуг или корпоративные команды ML, создающие свои собственные LLM), запускает программное обеспечение Protopia AI Stained Glass SDK, не изменяя существующие методы обучения и развертывания LLM. После завершения обучения базовой модели SDK запускается для оптимизации языковой модели для вычисления SGT. Этот этап оптимизации осуществляется через расширение PyTorch. SDK оборачивает базовую модель и математически обнаруживает уникальное преобразование витража для этого LLM. Более подробную информацию об основной математике можно найти в сопроводительный технический документ. Обратите внимание: поскольку команда, обучающая LLM, также использует Stained Glass SDK, для завершения этого шага не требуется экспонирование или отправка весов модели.
  • Выпуск и развертывание SGT. SGT, полученный на предыдущем этапе оптимизации, развертывается как часть конвейера данных, который подает обученный LLM. Как описано в предыдущем разделе, SGT находится на стороне корпоративного клиента.
  • Использование SGT. SGT работает на основе запросов, созданных предприятием, и генерирует защищенные запросы, которые отправляются в развернутый LLM. Это позволяет предприятию сохранять право собственности на свои конфиденциальные запросы и контекст. Используя Protopia AI Stained Glass, незащищенные конфиденциальные данные не покидают сайт предприятия или зону доверия.

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Вы можете использовать Stained Glass SDK для создания SGT несколькими способами. Например, вы можете использовать Stained Glass SDK в средах самоуправляемого машинного обучения (ML) с помощью Амазон Эластик Кубернетес Сервис (Amazon EKS) для обучения и получения выводов или в рамках Эластичное вычислительное облако Amazon (Amazon EC2) напрямую. Другой вариант: он может работать внутри Создатель мудреца Амазонки для создания SGT для данной обученной модели. Преобразование входных данных для развертывания во время вывода от клиента не зависит от выбранной реализации развертывания.

На следующем рисунке показана возможная реализация в среде машинного обучения с самоуправлением, где обучение преобразованию Stained Glass выполняется в Amazon EKS.

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

В этом рабочем процессе контейнер создается с помощью Stained Glass SDK и развертывается в Реестр Amazon Elastic Container (Амазонка ECR). Затем этот контейнер развертывается в Amazon EKS для обучения SGT, который сохраняется в Простой сервис хранения Amazon (Амазонка S3). Если вы используете Amazon EC2, вы можете обучить преобразованию непосредственно на своем экземпляре в рамках настройки машинного обучения. Stained Glass SDK может работать на различных типах инстансов, включая семейства инстансов Amazon P5, P4 или G5, в зависимости от ваших основных требований LLM. После развертывания LLM для использования для вывода клиентское приложение использует созданный SGT, который представляет собой упрощенную операцию, для преобразования подсказок и контекста перед отправкой их в LLM. При этом LLM доступны только преобразованные данные, а право собственности на исходные входные данные сохраняется на стороне клиента.

На следующем рисунке показано, как можно обучить преобразование и выполнить вывод в SageMaker.

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Создание SGT происходит по тому же пути, что и настройка Amazon EKS, путем приема данных обучения из Amazon S3, обучения SGT в контейнере и сохранения их в Amazon S3. Вы можете использовать Stained Glass SDK в существующей настройке SageMaker с помощью Студия Amazon SageMaker, Блокноты SageMakerИ Обучение работе с SageMaker. LLM размещается как конечная точка SageMaker, доступная клиентскому приложению. Выводы для клиентского приложения также идентичны настройке Amazon EKS, за исключением того, что обслуживает модель.

Случайное повторное представление для защиты подсказок LLM и данных точной настройки.

В этом разделе рассматриваются различные варианты использования, демонстрирующие, как рандомизированное перепредставление защищает запросы LLM. Эти примеры иллюстрируют основные последствия для усилий предприятий по созданию искусственного интеллекта: открытие новых возможностей для вариантов использования искусственного интеллекта, ускорение скорости выхода на рынок при одновременной должной защите корпоративных данных и сохранение права собственности на конфиденциальные данные, необходимые для использования в подсказках LLM.

Вариант использования RAG

Популярным вариантом корпоративного использования LLM является поисковая дополненная генерация (RAG). На следующем рисунке показан наглядный пример, в котором подсказки и источники защищены с помощью Stained Glass. В левой части рисунка показаны незащищенные подсказки и исходная информация. В корпоративной реализации RAG источники могут включать конфиденциальную информацию, такую ​​как коммерческая тайна предприятия, интеллектуальная собственность или финансовая информация. Справа показана наилучшая возможная реконструкция удобочитаемого текста из подсказок RmoRed, созданных SGT.

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Мы можем наблюдать, что даже при наилучшей реконструкции информация полностью запутывается. Однако ответ модели с преобразованием и без него одинаков, с указателями на исходные исходные документы, что позволяет сохранить точность как вопроса, так и исходных документов при выполнении этого популярного корпоративного варианта использования.

Широкая применимость к LLM и языкам

Одним из преимуществ Stained Glass SDK является то, что он очень устойчив к усовершенствованиям моделей и адаптируется к самым современным моделям, таким как Llama 2. На следующем рисунке показан SGT, созданный на Llama 2 LLM, который ранее был настроен для работы с японским текстом. Этот пример дополнительно иллюстрирует, что SGT можно создавать и применять для любого языка и что даже входные данные для точно настроенных моделей могут быть преобразованы. Общая применимость SGT обусловлена ​​прочной основой Stained Glass SDK, не зависящей от модели и данных.

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Защита данных тонкой настройки, а также подсказок

Преобразование витража не ограничивается исключительно защитой данных во время вывода; он также может защитить данные, используемые для точной настройки базовой модели. Процесс создания преобразования для точной настройки наборов данных аналогичен тому, который описан в разделе «Архитектура решения» ранее в этой статье. Преобразование создается для точной настройки базовой модели без доступа к данным тонкой настройки. После того как SGT создан и обучен для базовой модели, набор данных тонкой настройки преобразуется в рандомизированные повторные представления, которые затем будут использоваться для точной настройки базовой модели. Более подробно этот процесс описан в сопроводительный технический документ.

В следующем примере корпоративному клиенту необходимо было точно настроить существующую модель для обнаружения аномалий в сетевых журналах. Они использовали Stained Glass, чтобы преобразовать чувствительный набор данных тонкой настройки в рандомизированные внедрения, которые использовались для точной настройки их базовой модели. Они обнаружили, что модель обнаружения, которая была точно настроена на преобразованных представлениях, работала с почти такой же точностью по сравнению с гипотетическим сценарием тонкой настройки базовой модели на незащищенном наборе данных тонкой настройки. В следующей таблице показаны два примера записей данных в виде обычного текста из набора данных тонкой настройки и реконструкция в текст тех же записей данных из набора данных тонкой настройки.

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Под капотом преобразования витражей для студентов LLM

Применительно к компьютерному зрению SGT работает с функциями входных пикселей, а для LLM — на уровне внедрения. Чтобы продемонстрировать, как работает преобразование витража, представьте себе быстрые внедрения в виде матрицы, как показано слева на следующем рисунке. В каждой записи есть детерминированное значение. Это значение можно сопоставить с исходными данными, открыв незащищенное приглашение. Преобразование витража преобразует эту матрицу детерминированных значений в матрицу, элементы которой представляют собой облако возможностей.

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Преобразованное приглашение визуализируется путем выборки шума из вероятностных распределений, определенных SGT, и добавления дискретизированного шума к детерминированным внедрениям, что необратимо рандомизирует исходные значения приглашения. Модель по-прежнему понимает рандомизированную перепредставленную подсказку на математическом уровне и может точно выполнить свою задачу.

Заключение

В этом посте обсуждалось, как Stained Glass Transform от Protopia AI отделяет владение и защиту необработанных данных от процесса операций ML, позволяя предприятиям сохранять право собственности и обеспечивать конфиденциальность конфиденциальной информации в подсказках LLM и данных точной настройки. Используя эту современную защиту данных при использовании LLM, предприятия могут ускорить внедрение базовых моделей и LLM, меньше беспокоясь о раскрытии конфиденциальной информации. Безопасно раскрывая ценность реальных корпоративных данных, организации могут более эффективно и быстро обеспечить обещанную эффективность и бизнес-результаты LLM. Чтобы узнать больше об этой технологии, вы можете найти дополнительную информацию в сопроводительный технический документ и связаться с Протопией AI чтобы получить доступ и опробовать его на данных вашего предприятия.

О Протопии ИИ

Protopia AI — лидер в области защиты данных и технологий искусственного интеллекта и машинного обучения, сохраняющий конфиденциальность, базирующийся в Остине, штат Техас, и специализируется на обеспечении работы алгоритмов искусственного интеллекта и программных платформ без необходимости доступа к простой текстовой информации. За последние два года компания Protopia AI успешно продемонстрировала свой флагманский продукт Stained Glass Transform в различных сценариях использования и типах данных ML совместно с ВМС США, ведущими финансовыми службами и мировыми поставщиками технологий.

Protopia AI работает с предприятиями, поставщиками генеративного искусственного интеллекта и LLM, а также поставщиками облачных услуг (CSP), чтобы обеспечить сохранение прав собственности и конфиденциальность корпоративных данных при использовании решений AI/ML. Protopia AI заключила партнерское соглашение с AWS, чтобы предоставить важнейший компонент защиты данных и владения ими для внедрения генеративного ИИ на предприятиях, и была одним из 21 стартапа, выбранного для участия в первом мероприятии. Генеративный ускоритель искусственного интеллекта AWS в 2023 году.


Об авторах

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Баладжи Чандрасекаран является вице-президентом по выходу на рынок и работе с клиентами в Protopia AI. Он тесно сотрудничает с клиентами, чтобы использовать искусственный интеллект в их бизнесе, уделяя при этом приоритетное внимание защите данных и конфиденциальности. До прихода в Protopia AI Баладжи был руководителем отдела ИИ-решений в Infor, занимаясь разработкой продуктов, ориентированных на ценность, и одновременно выступал в качестве надежного партнера для корпоративных клиентов в различных отраслях. Помимо работы он любит музыку, пешие походы и путешествия с семьей.

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Дженнифер Квагенберг возглавляет команду инженеров Protopia AI и работает над тем, чтобы технология Stained Glass отвечала потребностям клиентов в защите их данных. У Дженнифер есть опыт работы в сфере безопасности в Toyota в группе кибербезопасности продуктов, она управляет облачными рабочими нагрузками в N-able и отвечает за данные на Match.com.

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Эндрю Сэнсом — инженер по решениям в области искусственного интеллекта в компании Protopia AI, где он помогает предприятиям использовать искусственный интеллект, сохраняя при этом частную и конфиденциальную информацию в своих данных. До Protopia AI он работал техническим консультантом, занимаясь внедрением решений искусственного интеллекта для клиентов во многих отраслях, включая финансы, производство, здравоохранение и образование. Он также преподавал информатику и математику студентам старших классов, университетов и профессиональных студентов.

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Эйман Эбрахими, доктор философии, является соучредителем и генеральным директором Protopia AI. Доктор Эбрахими с энтузиазмом стремится предоставить ИИ возможность обогатить человеческий опыт в различных социальных и отраслевых сферах. Protopia AI — это концепция улучшения линзы, через которую ИИ наблюдает за необходимыми и качественными данными, в которых он нуждается, одновременно создавая новые возможности для защиты конфиденциальной информации. До работы в Protopia AI он в течение 9 лет был старшим научным сотрудником NVIDIA. Его работа в исследовательской компании NVIDIA была направлена ​​на решение проблем доступа к огромным наборам данных в области машинного обучения и искусственного интеллекта. Он также был соавтором рецензируемых публикаций о том, как использовать мощь тысяч графических процессоров для обучения больших языковых моделей.

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Рохит Таллури — специалист по генеративному ИИ GTM в Amazon Web Services (AWS). Он сотрудничает с ведущими разработчиками моделей генеративного ИИ, стратегическими клиентами, ключевыми партнерами в области ИИ/МО и сервисными командами AWS, чтобы обеспечить следующее поколение искусственного интеллекта, машинного обучения и ускоренных вычислений на AWS. Ранее он был архитектором корпоративных решений и руководителем глобальных решений в отделе консультирования по слияниям и поглощениям AWS.

Отметка времени:

Больше от Машинное обучение AWS