В эпоху ChatGPT модели искусственного интеллекта чрезвычайно популярны... и их легко скомпрометировать - Совет лидеров массовых технологий

В эпоху ChatGPT модели искусственного интеллекта пользуются огромной популярностью… и их легко скомпрометировать – Совет лидеров массовых технологий

В эпоху ChatGPT модели искусственного интеллекта пользуются огромной популярностью... и их легко скомпрометировать — Совет лидеров массовых технологий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Задолго до окончания 2023 года он уже был назван годом генеративного ИИ. Вдохновленные появлением таких моделей, как ChatGPT, которые выдавали подробные, резко человечные ответы на запросы пользователей, как эксперты, так и новички начали размышлять о потенциальном влиянии этой технологии на работу, образование и творчество.

Но хотя современные модели больших языков (LLM) обладают потрясающими возможностями, они также поразительно уязвимы, говорит профессор Хури Алина Опря. Она изучает ИИ в контексте кибербезопасности более десяти лет и недавно стала соавтором отчета, в котором подробно рассматриваются эти атаки на ИИ — как они работают, как они классифицируются и как их можно (и нельзя) предотвратить. смягчено.

«Очень сложно обеспечить безопасность генеративного ИИ», — говорит Опря. «Масштаб этих моделей и данных их обучения со временем будет расти, что только упростит эти атаки. И как только вы начнете говорить о генеративном искусственном интеллекте, который выходит за рамки преобразования текста в изображения и речь, вопрос безопасности становится очень открытым».

Отчет, опубликованный Национальным институтом стандартов и технологий (NIST) Министерства торговли, представляет собой обновленную версию отчета, написанного Опря в соавторстве в прошлом году с Апостолом Васильевым из NIST. Этот первоначальный отчет касался более традиционного прогнозирующего ИИ, но с тех пор популярность генеративного ИИ резко возросла, поэтому Опера и Васильев пригласили экспертов по генеративному ИИ Эли Фордайс и Хайрама Андерсона из Robust Intelligence, чтобы расширить сферу деятельности проекта.

«Теперь у нас есть ученые, правительство и промышленность, работающие вместе», — отметил Опря, — «которые и являются целевой аудиторией отчета».

Согласно отчету, генеративные модели искусственного интеллекта обязаны своей уязвимостью множеству факторов. Во-первых, отмечает Опря, большинство атак «довольно легко организовать и требуют минимальных знаний о системе искусственного интеллекта». С другой стороны, огромные наборы обучающих данных моделей слишком велики, чтобы люди могли их отслеживать и проверять. И код, лежащий в основе моделей, не автоматизирован; он полагается на человеческую модерацию и подвержен злонамеренному вмешательству человека.

Результатом, по словам квартета исследователей, являются четыре основных типа атак, которые сбивают с толку системы искусственного интеллекта и приводят к их сбоям: атаки уклонения, которые изменяют входные данные модели, чтобы изменить ее ответы, атаки с отравлением, которые повреждают основные алгоритмы модели или обучающие данные, конфиденциальность атаки, которые вынуждают модель раскрыть конфиденциальные данные обучения, такие как медицинская информация, и злоупотребления, которые передают неверную информацию законным источникам, из которых модель учится. Манипулируя входными данными модели, злоумышленники могут заранее выбрать ее выходные данные.

«Это можно использовать в коммерческих целях, для рекламы, для создания спама с вредоносным ПО или разжигания ненависти — вещей, которые эта модель обычно не генерирует», — объясняет Опря.

Не перегружая себя, злоумышленники могут контролировать веб-данные, на которых обучается модель ИИ, внедрять бэкдор, а затем оттуда незаметно управлять поведением модели. Учитывая взрывную популярность этих моделей, такие бэкдоры сами по себе могут вызывать беспокойство. Но ущерб на этом не заканчивается.

«Теперь у нас есть интегрированные приложения, использующие LLM. Например, компания создает почтовый агент, который в фоновом режиме интегрируется с LLM, и теперь он может читать ваши электронные письма и отправлять электронные письма от вашего имени», — говорит Опря. «Но злоумышленники могут использовать один и тот же инструмент для рассылки вредоносного ПО и спама тысячам людей. Поверхность атаки увеличилась, поскольку мы интегрируем LLM в эти приложения».

Какими бы разрушительными и опасными ни были высказывания, разжигающие ненависть, и массовый спам, на горизонте возникают еще более серьезные проблемы безопасности.

«Некоторые приложения критически важны с точки зрения безопасности, например беспилотные автомобили», — говорит Опря. «Если эти модели дают неверные прогнозы, их нельзя использовать».

Итак, что может быть сделано? Команда подготовила отчет, который они планируют обновлять ежегодно, для небольшой аудитории — политиков, разработчиков ИИ и ученых, которые могут использовать таксономию отчета в качестве основы или контекста для своей собственной работы. По словам Опря, всем этим группам предстоит поработать над тем, чтобы модели ИИ соответствовали человеческим ценностям, сохраняли конфиденциальность и работали в интересах пользователей. Но она признает, что решение каждой проблемы, поднятой в отчете, является сложной задачей, и что любой, кто предлагает решения, а не меры по смягчению последствий, глубоко ошибается.

«Существует гораздо больше атак, чем мер по их устранению, и для каждого упомянутого нами смягчения существует компромисс или накладные расходы на производительность, включая снижение точности модели», — предупреждает Опря. «Устранение последствий не происходит бесплатно, и обеспечение безопасности ИИ — действительно сложная задача, но мы надеемся, что отчет станет полезной отправной точкой для понимания атак».

Отметка времени:

Больше от МассаТСХ