Задолго до окончания 2023 года он уже был назван годом генеративного ИИ. Вдохновленные появлением таких моделей, как ChatGPT, которые выдавали подробные, резко человечные ответы на запросы пользователей, как эксперты, так и новички начали размышлять о потенциальном влиянии этой технологии на работу, образование и творчество.
Но хотя современные модели больших языков (LLM) обладают потрясающими возможностями, они также поразительно уязвимы, говорит профессор Хури Алина Опря. Она изучает ИИ в контексте кибербезопасности более десяти лет и недавно стала соавтором отчета, в котором подробно рассматриваются эти атаки на ИИ — как они работают, как они классифицируются и как их можно (и нельзя) предотвратить. смягчено.
«Очень сложно обеспечить безопасность генеративного ИИ», — говорит Опря. «Масштаб этих моделей и данных их обучения со временем будет расти, что только упростит эти атаки. И как только вы начнете говорить о генеративном искусственном интеллекте, который выходит за рамки преобразования текста в изображения и речь, вопрос безопасности становится очень открытым».
Отчет, опубликованный Национальным институтом стандартов и технологий (NIST) Министерства торговли, представляет собой обновленную версию отчета, написанного Опря в соавторстве в прошлом году с Апостолом Васильевым из NIST. Этот первоначальный отчет касался более традиционного прогнозирующего ИИ, но с тех пор популярность генеративного ИИ резко возросла, поэтому Опера и Васильев пригласили экспертов по генеративному ИИ Эли Фордайс и Хайрама Андерсона из Robust Intelligence, чтобы расширить сферу деятельности проекта.
«Теперь у нас есть ученые, правительство и промышленность, работающие вместе», — отметил Опря, — «которые и являются целевой аудиторией отчета».
Согласно отчету, генеративные модели искусственного интеллекта обязаны своей уязвимостью множеству факторов. Во-первых, отмечает Опря, большинство атак «довольно легко организовать и требуют минимальных знаний о системе искусственного интеллекта». С другой стороны, огромные наборы обучающих данных моделей слишком велики, чтобы люди могли их отслеживать и проверять. И код, лежащий в основе моделей, не автоматизирован; он полагается на человеческую модерацию и подвержен злонамеренному вмешательству человека.
Результатом, по словам квартета исследователей, являются четыре основных типа атак, которые сбивают с толку системы искусственного интеллекта и приводят к их сбоям: атаки уклонения, которые изменяют входные данные модели, чтобы изменить ее ответы, атаки с отравлением, которые повреждают основные алгоритмы модели или обучающие данные, конфиденциальность атаки, которые вынуждают модель раскрыть конфиденциальные данные обучения, такие как медицинская информация, и злоупотребления, которые передают неверную информацию законным источникам, из которых модель учится. Манипулируя входными данными модели, злоумышленники могут заранее выбрать ее выходные данные.
«Это можно использовать в коммерческих целях, для рекламы, для создания спама с вредоносным ПО или разжигания ненависти — вещей, которые эта модель обычно не генерирует», — объясняет Опря.
Не перегружая себя, злоумышленники могут контролировать веб-данные, на которых обучается модель ИИ, внедрять бэкдор, а затем оттуда незаметно управлять поведением модели. Учитывая взрывную популярность этих моделей, такие бэкдоры сами по себе могут вызывать беспокойство. Но ущерб на этом не заканчивается.
«Теперь у нас есть интегрированные приложения, использующие LLM. Например, компания создает почтовый агент, который в фоновом режиме интегрируется с LLM, и теперь он может читать ваши электронные письма и отправлять электронные письма от вашего имени», — говорит Опря. «Но злоумышленники могут использовать один и тот же инструмент для рассылки вредоносного ПО и спама тысячам людей. Поверхность атаки увеличилась, поскольку мы интегрируем LLM в эти приложения».
Какими бы разрушительными и опасными ни были высказывания, разжигающие ненависть, и массовый спам, на горизонте возникают еще более серьезные проблемы безопасности.
«Некоторые приложения критически важны с точки зрения безопасности, например беспилотные автомобили», — говорит Опря. «Если эти модели дают неверные прогнозы, их нельзя использовать».
Итак, что может быть сделано? Команда подготовила отчет, который они планируют обновлять ежегодно, для небольшой аудитории — политиков, разработчиков ИИ и ученых, которые могут использовать таксономию отчета в качестве основы или контекста для своей собственной работы. По словам Опря, всем этим группам предстоит поработать над тем, чтобы модели ИИ соответствовали человеческим ценностям, сохраняли конфиденциальность и работали в интересах пользователей. Но она признает, что решение каждой проблемы, поднятой в отчете, является сложной задачей, и что любой, кто предлагает решения, а не меры по смягчению последствий, глубоко ошибается.
«Существует гораздо больше атак, чем мер по их устранению, и для каждого упомянутого нами смягчения существует компромисс или накладные расходы на производительность, включая снижение точности модели», — предупреждает Опря. «Устранение последствий не происходит бесплатно, и обеспечение безопасности ИИ — действительно сложная задача, но мы надеемся, что отчет станет полезной отправной точкой для понимания атак».
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://www.mtlc.co/in-the-age-of-chatgpt-ai-models-are-massively-popular-and-easily-compromised/
- :имеет
- :является
- 2023
- a
- О нас
- злоупотребление
- ученые
- точность
- актеры
- адресация
- продвижение
- приход
- Реклама
- возраст
- Агент
- AI
- AI модели
- Системы искусственного интеллекта
- алгоритмы
- выравнивать
- одинаково
- Все
- уже
- причислены
- изменять
- an
- и
- андерсон
- Ежегодно
- Другой
- кто угодно
- Приложения
- МЫ
- AS
- атаковать
- нападки
- аудитория
- аудитории
- Автоматизированный
- задняя дверь
- Черные ходы
- фон
- BE
- , так как:
- становится
- было
- до
- начал
- от имени
- поведение
- ЛУЧШЕЕ
- Beyond
- больший
- строит
- но
- by
- CAN
- способный
- легковые автомобили
- Вызывать
- предостережения
- сложные
- изменение
- ChatGPT
- Выберите
- классифицированный
- код
- как
- коммерческая
- Компания
- Ослабленный
- в связи с этим
- Обеспокоенность
- контекст
- контроль
- и коррумпированных лиц
- может
- Совет
- креативность
- Информационная безопасность
- повреждение
- опасно
- данным
- наборы данных
- дело
- десятилетие
- копается
- Кафедра
- подробный
- застройщиков
- трудный
- do
- не
- сделанный
- Dont
- легче
- легко
- легко
- Обучение
- Писем
- прилагать усилия
- закончился
- огромный
- достаточно
- обеспечивать
- уклонение
- Даже
- Каждая
- пример
- Расширьте
- эксперты
- Объясняет
- подвергаться
- факторы
- несколько
- Что касается
- Год основания
- 4
- Бесплатно
- от
- порождать
- порождающий
- генеративный
- Генеративный ИИ
- данный
- идет
- Правительство
- Группы
- Расти
- было
- ненавидеть
- Есть
- надежды
- горизонт
- Как
- HTTPS
- человек
- Людей
- изображений
- Воздействие
- in
- В том числе
- неправильный
- расширились
- промышленность
- информация
- начальный
- затраты
- Институт
- интегрированный
- Интегрируется
- Интегрируя
- Интеллекта
- предназначенных
- интерес
- в
- вводить
- вопрос
- IT
- ЕГО
- Сохранить
- знания
- язык
- большой
- Фамилия
- В прошлом году
- Наша команда
- узнает
- законный
- такое как
- LLM
- основной
- сделать
- ДЕЛАЕТ
- злонамеренный
- вредоносных программ
- манипуляционная
- многих
- Масса
- массивно
- основным медицинским
- упомянуть
- минимальный
- смягчение
- модель
- Модели
- умеренность
- монитор
- БОЛЕЕ
- самых
- ГОРУ
- национальный
- NIST
- отметил,
- Заметки
- новички
- сейчас
- of
- on
- консолидировать
- ONE
- только
- открытый
- Opera
- работать
- or
- выходы
- за
- накладные расходы
- собственный
- Люди
- производительность
- план
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Точка
- отравление
- политики
- Популярное
- популярность
- потенциал
- Predictions
- подготовленный
- политикой конфиденциальности.
- Произведенный
- Профессор
- проектов
- наводящие
- приводит
- опубликованный
- целей
- вопрос
- поднятый
- скорее
- Читать
- на самом деле
- недавно
- полагается
- отчету
- требовать
- исследователи
- ответы
- выявление
- надежный
- то же
- сообщили
- говорит
- Шкала
- безопасный
- обеспечение
- безопасность
- самостоятельное вождение
- Отправить
- чувствительный
- Наборы
- она
- с
- Решения
- Источники
- спам
- речь
- стандартов
- Начало
- Начало
- управлять
- Stop
- изучение
- такие
- Поверхность
- система
- системы
- говорить
- систематики
- команда
- технологии
- Технологии
- текст
- чем
- который
- Ассоциация
- их
- Их
- сами
- тогда
- Там.
- Эти
- они
- вещи
- те
- тысячи
- время
- в
- Сегодняшних
- вместе
- слишком
- инструментом
- традиционный
- Обучение
- поезда
- Типы
- лежащий в основе
- подоплека
- понимание
- Обновление ПО
- использование
- используемый
- полезный
- Информация о пользователе
- пользователей
- обычно
- VALIDATE
- Наши ценности
- разнообразие
- очень
- уязвимость
- Уязвимый
- we
- Web
- приветствовал
- Что
- который
- в то время как
- КТО
- будете
- Работа
- работает
- бы
- год
- Ты
- ВАШЕ
- зефирнет