Красивая ложь машинного обучения в сфере безопасности PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Прекрасная ложь машинного обучения в сфере безопасности

Вопреки тому, что вы, возможно, читали, обучение с помощью машины (ML) не волшебная пыльца пикси. В общем, машинное обучение хорошо подходит для узкомасштабных задач с огромными доступными наборами данных и там, где интересующие паттерны легко воспроизводимы или предсказуемы. Большинство проблем безопасности не требуют машинного обучения и не извлекают из него пользы. Многие специалисты, в том числе сотрудники Google, предположить, что при решении сложной задачи следует исчерпать все остальные подходы, прежде чем пытаться ML.

Машинное обучение — это широкий набор статистических методов, который позволяет нам обучать компьютер оценивать ответ на вопрос, даже если мы явно не закодировали правильный ответ. Хорошо спроектированная система машинного обучения, примененная к правильному типу проблемы, может открыть доступ к информации, которую иначе было бы невозможно получить.

Успешный пример машинного обучения обработки естественного языка
(НЛП). НЛП позволяет компьютерам «понимать» человеческий язык, включая такие вещи, как идиомы и метафоры. Во многих отношениях кибербезопасность сталкивается с теми же проблемами, что и языковая обработка. Злоумышленники могут не использовать идиомы, но многие приемы аналогичны омонимам, то есть словам, которые имеют одинаковое написание или произношение, но разные значения. Некоторые приемы злоумышленников также очень напоминают действия системного администратора, которые могут быть предприняты из совершенно безобидных побуждений.

ИТ-среды различаются в разных организациях по назначению, архитектуре, установлению приоритетов и устойчивости к рискам. Невозможно создать алгоритмы, будь то машинное обучение или что-то другое, которые широко охватывают варианты использования безопасности во всех сценариях. Вот почему наиболее успешные приложения ML в области безопасности сочетают в себе несколько методов для решения очень конкретной проблемы. Хорошие примеры включают фильтры спама, защиту от DDoS-атак или ботов, а также обнаружение вредоносных программ.

Мусор на входе, мусор на выходе

Самая большая проблема в машинном обучении — доступность релевантных данных, которые можно использовать для решения вашей проблемы. Для контролируемого машинного обучения вам нужен большой набор данных с правильной маркировкой. Например, чтобы построить модель, которая идентифицирует фотографии кошек, вы обучаете модель на многих фотографиях кошек с пометкой «кошка» и на множестве фотографий вещей, не являющихся кошками, с пометкой «не кошка». Если у вас недостаточно фотографий или они плохо промаркированы, ваша модель не будет работать.

В области безопасности хорошо известным вариантом использования контролируемого машинного обучения является обнаружение вредоносного ПО без подписи. Многие поставщики платформ защиты конечных точек (EPP) используют машинное обучение для маркировки огромного количества вредоносных и безвредных образцов, обучая модель тому, «как выглядит вредоносное ПО». Эти модели могут правильно идентифицировать уклончивое мутирующее вредоносное ПО и другие уловки, когда файл достаточно изменен, чтобы обойти сигнатуру, но остается вредоносным. ML не соответствует подписи. Он предсказывает злонамеренные действия, используя другой набор функций, и часто может обнаруживать вредоносное ПО, которое пропускают методы на основе сигнатур.

Однако, поскольку модели машинного обучения являются вероятностными, существует компромисс. Машинное обучение может обнаруживать вредоносное ПО, которое пропускают сигнатуры, но оно также может пропускать вредоносное ПО, которое улавливают сигнатуры. Вот почему современные инструменты EPP используют гибридные методы, которые сочетают методы машинного обучения и методы на основе подписи для оптимального охвата.

Что-то, что-то, ложные срабатывания

Даже если модель хорошо продумана, машинное обучение создает некоторые дополнительные проблемы, когда дело доходит до интерпретации выходных данных, в том числе:

  • Результат - вероятность.
    Модель ML выводит вероятность чего-либо. Если ваша модель предназначена для идентификации кошек, вы получите такие результаты, как «эта вещь на 80% состоит из кошек». Эта неопределенность является неотъемлемой характеристикой систем машинного обучения и может затруднить интерпретацию результата. Достаточно ли 80% кота?
  • Модель не может быть настроена, по крайней мере, не конечным пользователем. Для обработки вероятностных результатов инструмент может иметь пороговые значения, установленные поставщиком, которые сводят их к бинарным результатам. Например, модель идентификации кошек может сообщать, что все, что «кошка» > 90%, является кошкой. Допуск вашего бизнеса к кошачьему характеру может быть выше или ниже установленного поставщиком.
  • Ложноотрицательные результаты (FN), неспособность обнаружить настоящее зло — одно из болезненных последствий моделей машинного обучения, особенно плохо настроенных. Нам не нравятся ложные срабатывания (FP), потому что они тратят время впустую. Но существует неотъемлемый компромисс между ставками FP и FN. Модели ML настроены на оптимизацию компромисса, отдавая приоритет «лучшему» балансу ставок FP-FN. Однако «правильный» баланс варьируется в зависимости от организаций в зависимости от их индивидуальных оценок угроз и рисков. При использовании продуктов на основе машинного обучения вы должны доверять поставщикам в выборе подходящих пороговых значений.
  • Недостаточно контекста для сортировки предупреждений. Частью магии машинного обучения является извлечение мощных предиктивных, но произвольных «функций» из наборов данных. Представьте, что идентификация кошки оказалась тесно связана с погодой. Ни один человек не стал бы так рассуждать. Но в этом и заключается смысл машинного обучения — находить шаблоны, которые мы не могли бы найти иначе, и делать это в масштабе. Тем не менее, даже если причина прогноза может быть раскрыта пользователю, это часто бесполезно в ситуации сортировки предупреждений или реагирования на инциденты. Это связано с тем, что «функции», которые в конечном итоге определяют решение системы машинного обучения, оптимизированы для прогностической способности, а не практической значимости для аналитиков безопасности.

Будет ли «Статистика» под любым другим названием пахнуть так же сладко?

Помимо плюсов и минусов ML, есть еще одна загвоздка: не все «ML» на самом деле ML. Статистика дает вам некоторые выводы о ваших данных. Машинное обучение делает прогнозы относительно данных, которых у вас не было, на основе данных, которые у вас были. Маркетологи с энтузиазмом ухватились за «обучение с помощью машины» и «искусственный интеллект», чтобы обозначить какой-то современный, инновационный, передовой технологический продукт. Тем не менее, часто очень мало внимания уделяется тому, использует ли технология ML, не говоря уже о том, был ли ML правильным подходом.

Итак, может ли ML обнаруживать зло или нет?

ML может обнаруживать зло, когда «зло» четко определено и ограничено. Он также может обнаруживать отклонения от ожидаемого поведения в высоко предсказуемых системах. Чем стабильнее среда, тем больше вероятность того, что машинное обучение правильно выявит аномалии. Но не каждая аномалия является злонамеренной, и оператор не всегда располагает достаточным контекстом для ответа. Суперсила машинного обучения заключается не в замене, а в расширении возможностей существующих методов, систем и групп для оптимального охвата и эффективности.

Отметка времени:

Больше от Темное чтение