Вопрос: Что мы действительно знаем о безопасности модели большого языка (LLM)? И охотно ли мы открываем дверь хаосу, используя LLM в бизнесе?
Роб Гурзеев, генеральный директор CyCognito: Представьте себе: ваша команда инженеров использует огромные возможности LLM для «написания кода» и быстрой разработки приложения. Это меняет правила игры для вашего бизнеса; скорость разработки теперь на порядки выше. Вы сократили время вывода продукта на рынок на 30%. Это беспроигрышный вариант — для вашей организации, ваших заинтересованных сторон, ваших конечных пользователей.
Шесть месяцев спустя сообщается, что из вашего приложения произошла утечка данных о клиентах; он был взломан, а его код изменен. Ты сейчас сталкиваются с нарушениями SEC и угроза ухода клиентов.
Повышение эффективности заманчиво, но нельзя игнорировать риски. Хотя у нас есть устоявшиеся стандарты безопасности в традиционной разработке программного обеспечения, LLM — это черные ящики, которые требуют переосмысления того, как мы подходим к обеспечению безопасности.
Новые виды рисков безопасности для студентов LLM
LLM изобилуют неизвестными рисками и подвержены атакам, ранее не наблюдавшимся в традиционной разработке программного обеспечения.
-
Атаки с быстрым внедрением включают в себя манипулирование моделью для генерации непреднамеренных или вредных реакций. Здесь атакующий стратегически формулирует подсказки по обману LLM, потенциально в обход мер безопасности или этических ограничений, установленных для обеспечения ответственного использования искусственного интеллекта (ИИ). В результате ответы LLM могут значительно отклоняться от предполагаемого или ожидаемого поведения, создавая серьезные риски для конфиденциальности, безопасности и надежности приложений, управляемых искусственным интеллектом.
-
Небезопасная обработка вывода возникает, когда выходные данные, генерируемые LLM или аналогичной системой искусственного интеллекта, принимаются и включаются в программное приложение или веб-сервис без прохождения надлежащего изучения или проверки. Это может разоблачить серверные системы к уязвимостям, такие как межсайтовый скриптинг (XSS), подделка межсайтовых запросов (CSRF), подделка запросов на стороне сервера (SSRF), повышение привилегий и удаленное выполнение кода (RCE).
-
Отравление обучающих данных происходит, когда данные, используемые для обучения LLM, намеренно манипулируются или загрязняются вредоносной или предвзятой информацией. Процесс искажения обучающих данных обычно включает в себя введение вводящих в заблуждение или вредных данных в набор обучающих данных. Эти экземпляры манипулируемых данных стратегически выбираются для использования уязвимостей в алгоритмах обучения модели или для внесения предвзятостей, которые могут привести к нежелательным результатам в прогнозах и ответах модели.
План защиты и контроля приложений LLM
Хотя кое-что из этого новая территория, есть рекомендации, которые вы можете применить, чтобы ограничить воздействие.
-
Входная санитарная обработка предполагает, как следует из названия, очистка входов для предотвращения несанкционированных действий и запросов данных, инициированных вредоносными подсказками. Первым шагом является проверка ввода, чтобы гарантировать, что ввод соответствует ожидаемым форматам и типам данных. Следующим этапом является очистка ввода, при которой потенциально опасные символы или код удаляются или кодируются для предотвращения атак. Другие тактики включают белые списки одобренного контента, черные списки запрещенного контента, параметризованные запросы для взаимодействия с базой данных, политики безопасности контента, регулярные выражения, ведение журналов и непрерывный мониторинг, а также обновления безопасности и тестирование.
-
Выходная проверка is строгая обработка и оценка результатов, генерируемых LLM, для устранения уязвимостей, таких как XSS, CSRF и RCE. Процесс начинается с проверки и фильтрации ответов LLM перед их принятием для представления или дальнейшей обработки. Он включает в себя такие методы, как проверка контента, кодирование вывода и экранирование вывода, все из которых направлены на выявление и нейтрализацию потенциальных угроз безопасности в сгенерированном контенте.
-
Защита данных обучения необходим для предотвращения отравления обучающих данных. Это включает в себя обеспечение строгого контроля доступа, использование шифрования для защиты данных, поддержание резервных копий данных и контроль версий, внедрение проверки и анонимизации данных, создание комплексной регистрации и мониторинга, проведение регулярных аудитов и обучение сотрудников вопросам безопасности данных. Также важно проверить надежность источников данных и обеспечить безопасные методы хранения и передачи.
-
Обеспечение соблюдения строгих политик изолированной программной среды и контроля доступа. также может помочь снизить риск использования SSRF в операциях LLM. Методы, которые могут быть применены здесь, включают изоляцию песочницы, контроль доступа, внесение в белый и/или черный список, проверку запросов, сегментацию сети, проверку типа контента и проверку контента. Регулярные обновления, комплексное ведение журналов и обучение сотрудников также имеют ключевое значение.
-
Непрерывный мониторинг и фильтрация контента может быть интегрирован в конвейер обработки LLM для обнаружения и предотвращения вредоносного или неприемлемого контента с использованием фильтрации на основе ключевых слов, контекстного анализа, моделей машинного обучения и настраиваемых фильтров. Этические принципы и человеческая модерация играют ключевую роль в поддержании ответственного создания контента, а непрерывный мониторинг в реальном времени, обратная связь с пользователями и прозрачность гарантируют, что любые отклонения от желаемого поведения будут оперативно устранены.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://www.darkreading.com/application-security/how-do-we-integrate-llm-security-into-application-development-
- :имеет
- :является
- :куда
- 10
- 11
- 12
- 13
- 14
- 16
- 17
- 20
- 8
- 816
- 9
- a
- О нас
- принятый
- принимающий
- доступ
- действия
- адресованный
- адекватный
- AI
- цель
- алгоритмы
- Все
- причислены
- an
- анализ
- и
- любой
- Применение
- Разработка приложения
- Приложения
- прикладной
- утвержденный
- МЫ
- возникает
- искусственный
- искусственный интеллект
- Искусственный интеллект (AI)
- AS
- нападающий
- нападки
- аудит
- прочь
- Операции резервного копирования
- BE
- было
- до
- начинается
- поведение
- ЛУЧШЕЕ
- лучшие практики
- пристрастный
- предубеждения
- Черный
- план
- коробки
- бизнес
- бизнес
- но
- by
- CAN
- не могу
- возможности
- Генеральный директор
- Chaos
- символы
- выбранный
- Circle
- код
- комплексный
- проведение
- ограничения
- содержание
- Генерация контента
- контекстной
- (CIJ)
- контроль
- контрольная
- клиент
- данные клиентов
- Клиенты
- настраиваемый
- данным
- точки данных
- защита данных
- безопасность данных
- База данных
- обманывать
- обманчивый
- желанный
- обнаруживать
- развивать
- Развитие
- отклоняться
- do
- Двери
- Сотрудник
- используя
- закодированный
- кодирование
- шифрование
- конец
- обеспечение соблюдения
- Проект и
- обеспечивать
- соблазнительный
- эскалация
- существенный
- налаживание
- этический
- оценка
- выполнение
- ожидаемый
- Эксплуатировать
- использует
- Экспозиция
- выражения
- быстрее
- Обратная связь
- фильтрация
- фильтры
- First
- Что касается
- подделка
- от
- передний
- далее
- Доходы
- игра-чейнджер
- порождать
- генерируется
- поколение
- методические рекомендации
- Управляемость
- вредный
- Освоение
- Есть
- помощь
- здесь
- Как
- HTTPS
- человек
- ICON
- определения
- огромный
- осуществлять
- Осуществляющий
- важную
- in
- включают
- включенный
- включает в себя
- информация
- начатый
- вход
- затраты
- внушать
- интегрировать
- интегрированный
- Интеллекта
- предназначенных
- взаимодействие
- в
- включать в себя
- включает в себя
- изоляция
- IT
- ЕГО
- Основные
- виды
- Знать
- язык
- большой
- новее
- вести
- утечка
- изучение
- такое как
- ОГРАНИЧЕНИЯ
- LLM
- каротаж
- Сохранение
- злонамеренный
- манипулировать
- манипуляционная
- Май..
- меры
- дезориентировать
- смягчать
- модель
- Модели
- умеренность
- Мониторинг
- месяцев
- имя
- сеть
- Новые
- следующий
- сейчас
- of
- от
- on
- открытие
- Операционный отдел
- or
- заказы
- Другое
- Результаты
- выходной
- картина
- трубопровод
- Часть
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Играть
- пунктов
- отравление
- сборах
- постановка
- потенциал
- потенциально
- практиками
- Predictions
- presentation
- предотвращать
- предварительно
- политикой конфиденциальности.
- привилегия
- процесс
- обработка
- быстро
- наводящие
- защиту
- обеспечение
- положил
- Запросы
- быстро
- RE
- реального времени
- на самом деле
- регулярный
- надежность
- удаленные
- удален
- Сообщается
- запросить
- Запросы
- требовать
- ответы
- ответственный
- результат
- тщательный
- Снижение
- рисках,
- роли
- s
- песочница
- рассмотрение
- SEC / КОМИССИЯ ПО ЦЕННЫМ БУМАГАМ И БИРЖАМ
- безопасный
- безопасность
- Меры безопасности
- политики безопасности
- риски безопасности
- сегментация
- серьезный
- обслуживание
- существенно
- аналогичный
- Software
- разработка программного обеспечения
- некоторые
- Источники
- скорость
- заинтересованных сторон
- стандартов
- Шаг
- диск
- Стратегически
- Строгий
- такие
- система
- системы
- тактика
- команда
- снижения вреда
- Тестирование
- который
- Ассоциация
- Их
- Там.
- Эти
- этой
- угроза
- пресекать
- в
- традиционный
- Train
- Обучение
- в мозге
- Прозрачность
- Типы
- типично
- неразрешенный
- Проходят
- неизвестный
- Updates
- использование
- используемый
- Информация о пользователе
- пользователей
- через
- проверки
- Проверка
- Ve
- проверить
- версия
- Уязвимости
- ходьба
- we
- Web
- ЧТО Ж
- Что
- когда
- который
- в то время как
- охотно
- Win-Win
- без
- записывать
- написать код
- XSS
- Ты
- ВАШЕ
- зефирнет