Красива брехня машинного навчання в системі безпеки PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Красива брехня машинного навчання в безпеці

Всупереч тому, що ви могли прочитати, навчання за допомогою машини (ML) — це не чарівний пил піксі. Загалом, ML добре підходить для вузькопрофільних проблем із доступними величезними наборами даних і де шаблони, що цікавлять, дуже повторювані або передбачувані. Більшість проблем безпеки не вимагають і не вимагають від ML. Багато експертів, у тому числі люди з Google, припускають, що при розв’язуванні складної задачі слід вичерпують усе інше підходи, перш ніж спробувати ML.

ML — це широкий набір статистичних методів, які дозволяють нам навчити комп’ютер оцінювати відповідь на запитання, навіть якщо ми явно не закодували правильну відповідь. Добре розроблена система машинного навчання, застосована до потрібного типу проблеми, може розкрити розуміння, яке було б недоступне інакше.

Успішним прикладом ML є обробка природного мови
(НЛП). НЛП дозволяє комп’ютерам «розуміти» людську мову, включаючи такі речі, як ідіоми та метафори. Багато в чому кібербезпека стикається з тими ж проблемами, що й мовна обробка. Зловмисники можуть не використовувати ідіоми, але багато методів аналогічні омонімам, словам, які мають однакове написання чи вимову, але різні значення. Деякі прийоми зловмисників також дуже нагадують дії, які системний адміністратор може вжити з цілком доброякісних причин.

ІТ-середовища відрізняються в різних організаціях за призначенням, архітектурою, пріоритетами та толерантністю до ризику. Неможливо створити алгоритми, ML або інші, які широко розглядають випадки використання безпеки в усіх сценаріях. Ось чому більшість успішних застосувань ML у безпеці поєднують кілька методів для вирішення дуже конкретної проблеми. Хороші приклади включають спам-фільтри, DDoS або пом’якшення ботів, а також виявлення шкідливих програм.

Сміття входить, сміття виходить

Найбільшою проблемою в ML є наявність відповідних даних, які можна використовувати для вирішення вашої проблеми. Для контрольованого ML вам потрібен великий, правильно позначений набір даних. Щоб побудувати модель, яка ідентифікує фотографії котів, наприклад, ви навчаєте модель на багатьох фотографіях котів із позначкою «кішка» та багатьох фотографіях речей, які не є котами, із позначкою «не кішка». Якщо у вас недостатньо фотографій або вони погано позначені, ваша модель працюватиме погано.

У сфері безпеки добре відомим випадком використання контрольованого ML є виявлення шкідливих програм без підписів. Багато постачальників платформи захисту кінцевих точок (EPP) використовують ML для позначення величезної кількості шкідливих зразків і доброякісних зразків, тренуючи модель щодо того, «як виглядає зловмисне програмне забезпечення». Ці моделі можуть правильно ідентифікувати зловмисне програмне забезпечення, що ухиляється від зміни, та інші трюки, коли файл змінено настільки, щоб уникнути підпису, але залишається шкідливим. ML не відповідає підпису. Він передбачає зловмисне програмне забезпечення, використовуючи інший набір функцій, і часто може виявити зловмисне програмне забезпечення, яке пропускають методи на основі сигнатур.

Однак, оскільки моделі ML є імовірнісними, існує компроміс. ML може вловлювати зловмисне програмне забезпечення, яке пропускають сигнатури, але воно також може пропускати зловмисне програмне забезпечення, яке вловлюється сигнатурами. Ось чому сучасні інструменти EPP використовують гібридні методи, які поєднують ML і методи на основі підписів для оптимального покриття.

Щось, щось, помилкові спрацьовування

Навіть якщо модель добре розроблена, ML представляє деякі додаткові проблеми, коли справа доходить до інтерпретації результату, зокрема:

  • Результат є ймовірністю.
    Модель ML виводить ймовірність чогось. Якщо ваша модель призначена для ідентифікації котів, ви отримаєте такі результати, як «ця штука на 80% складається з котів». Ця невизначеність є невід'ємною характеристикою систем ML і може ускладнити інтерпретацію результату. Чи достатньо 80% кота?
  • Модель не піддається тюнінгу, принаймні не кінцевим користувачем. Для обробки імовірнісних результатів інструмент може мати встановлені постачальником порогові значення, які згортають їх до двійкових результатів. Наприклад, модель ідентифікації кота може повідомити, що будь-що, що >90% «кота» є котом. Толерантність вашого підприємства до котячості може бути вищою або нижчою, ніж установлено постачальником.
  • Помилкові негативи (FN), нездатність виявити справжнє зло, є одним із болючих наслідків моделей машинного навчання, особливо погано налаштованих. Нам не подобаються помилкові спрацьовування (FP), оскільки вони витрачають час. Але існує невід'ємний компроміс між ставками FP і FN. Моделі ML налаштовані для оптимізації компромісу, віддаючи пріоритет «найкращому» балансу швидкості FP-FN. Однак «правильний» баланс різниться в різних організаціях залежно від їхніх індивідуальних оцінок загроз і ризиків. Використовуючи продукти на основі ML, ви повинні довіряти постачальникам, які виберуть для вас відповідні порогові значення.
  • Недостатньо контексту для сортування сповіщень. Частиною магії машинного навчання є вилучення потужних передбачуваних, але довільних «функцій» із наборів даних. Уявіть собі, що ідентифікація кота сильно пов’язана з погодою. Жодна людина не буде так міркувати. Але це суть ML — знаходити шаблони, які ми не змогли б знайти інакше, і робити це в масштабі. Проте, навіть якщо причину передбачення можна відкрити користувачеві, це часто не допомагає в ситуації сортування попереджень або реагування на інциденти. Це пов’язано з тим, що «функції», які в кінцевому підсумку визначають рішення системи ML, оптимізовані для прогнозування, а не для практичної значущості для аналітиків безпеки.

Чи пахне «статистика» під будь-якою іншою назвою так солодко?

Крім плюсів і мінусів ML, є ще одна заковика: не все «ML» є справді ML. Статистика дає вам деякі висновки щодо ваших даних. ML робить прогнози щодо даних, яких у вас не було, на основі даних, які у вас були. Маркетологи з ентузіазмом вхопилися за "навчання за допомогою машини» і «штучний інтелект», щоб сигналізувати про якийсь сучасний, інноваційний, передовий технологічний продукт. Однак часто дуже мало уваги приділяється тому, чи технологія взагалі використовує ML, неважливо, чи ML був правильним підходом.

Отже, чи може ML виявити зло чи ні?

ML може виявити зло, якщо «зло» є чітко визначеним і вузьким. Він також може виявляти відхилення від очікуваної поведінки в дуже передбачуваних системах. Чим стабільніше середовище, тим більша ймовірність того, що ML правильно визначить аномалії. Але не кожна аномалія є зловмисною, і оператор не завжди має достатньо контексту для відповіді. Суперсила ML полягає не в заміні, а в розширенні можливостей існуючих методів, систем і команд для оптимального охоплення та ефективності.

Часова мітка:

Більше від Темне читання