Las bellas mentiras del aprendizaje automático en seguridad PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Las bellas mentiras del aprendizaje automático en seguridad

Al contrario de lo que puede haber leído, máquina de aprendizaje (ML) no es polvo mágico de hadas. En general, ML es bueno para problemas de alcance limitado con grandes conjuntos de datos disponibles y donde los patrones de interés son altamente repetibles o predecibles. La mayoría de los problemas de seguridad no requieren ni se benefician de ML. Muchos expertos, incluida la gente de Google, sugieren que al resolver un problema complejo debe agotar todos los demás enfoques antes de intentar ML.

ML es una amplia colección de técnicas estadísticas que nos permite entrenar una computadora para estimar una respuesta a una pregunta incluso cuando no hemos codificado explícitamente la respuesta correcta. Un sistema de aprendizaje automático bien diseñado aplicado al tipo correcto de problema puede desbloquear conocimientos que de otro modo no habrían sido posibles.

Un ejemplo exitoso de ML es procesamiento natural del lenguaje
(PNL). La PNL permite que las computadoras "entiendan" el lenguaje humano, incluidas cosas como modismos y metáforas. En muchos sentidos, la ciberseguridad enfrenta los mismos desafíos que el procesamiento del lenguaje. Es posible que los atacantes no usen modismos, pero muchas técnicas son análogas a los homónimos, palabras que tienen la misma ortografía o pronunciación pero diferentes significados. Algunas técnicas de los atacantes también se parecen mucho a las acciones que un administrador del sistema podría tomar por razones perfectamente benignas.

Los entornos de TI varían entre organizaciones en propósito, arquitectura, priorización y tolerancia al riesgo. Es imposible crear algoritmos, ML o de otro tipo, que aborden ampliamente los casos de uso de seguridad en todos los escenarios. Esta es la razón por la cual las aplicaciones más exitosas de ML en seguridad combinan múltiples métodos para abordar un problema muy específico. Buenos ejemplos incluyen filtros de spam, DDoS o mitigación de bots y detección de malware.

Basura dentro basura fuera

El mayor desafío en ML es la disponibilidad de datos útiles y relevantes para resolver su problema. Para el aprendizaje automático supervisado, necesita un conjunto de datos grande y correctamente etiquetado. Para crear un modelo que identifique fotos de gatos, por ejemplo, entrena el modelo con muchas fotos de gatos etiquetadas como "gato" y muchas fotos de cosas que no son gatos etiquetadas como "no gato". Si no tiene suficientes fotos o están mal etiquetadas, su modelo no funcionará bien.

En seguridad, un caso de uso de ML supervisado muy conocido es la detección de malware sin firma. Muchos proveedores de plataformas de protección de puntos finales (EPP) usan ML para etiquetar grandes cantidades de muestras maliciosas y muestras benignas, entrenando un modelo sobre "cómo se ve el malware". Estos modelos pueden identificar correctamente el malware mutante evasivo y otros trucos en los que un archivo se altera lo suficiente como para esquivar una firma pero sigue siendo malicioso. ML no coincide con la firma. Predice la malicia utilizando otro conjunto de funciones y, a menudo, puede detectar malware que los métodos basados ​​en firmas pasan por alto.

Sin embargo, debido a que los modelos de ML son probabilísticos, existe una compensación. ML puede detectar el malware que las firmas no detectan, pero también puede pasar por alto el software malicioso que las firmas detectan. Esta es la razón por la que las herramientas EPP modernas utilizan métodos híbridos que combinan ML y técnicas basadas en firmas para una cobertura óptima.

Algo, algo, falsos positivos

Incluso si el modelo está bien diseñado, ML presenta algunos desafíos adicionales cuando se trata de interpretar el resultado, que incluyen:

  • El resultado es una probabilidad.
    El modelo ML genera la probabilidad de algo. Si su modelo está diseñado para identificar gatos, obtendrá resultados como "esta cosa es 80% gato". Esta incertidumbre es una característica inherente de los sistemas ML y puede dificultar la interpretación del resultado. ¿Es suficiente un 80% de gatos?
  • El modelo no se puede sintonizar., al menos no por el usuario final. Para manejar los resultados probabilísticos, una herramienta puede tener umbrales establecidos por el proveedor que los reducen a resultados binarios. Por ejemplo, el modelo de identificación de gatos puede informar que cualquier cosa > 90 % de "gato" es un gato. La tolerancia de su empresa a la categoría de gato puede ser mayor o menor que la establecida por el proveedor.
  • Falsos negativos (FN), la falla en detectar el mal real, son una dolorosa consecuencia de los modelos ML, especialmente los mal ajustados. No nos gustan los falsos positivos (FP) porque hacen perder el tiempo. Pero existe una compensación inherente entre las tasas FP y FN. Los modelos ML se ajustan para optimizar la compensación, priorizando el "mejor" equilibrio de tasas FP-FN. Sin embargo, el equilibrio "correcto" varía entre las organizaciones, según sus evaluaciones individuales de amenazas y riesgos. Al usar productos basados ​​en ML, debe confiar en los proveedores para seleccionar los umbrales apropiados para usted.
  • No hay suficiente contexto para la clasificación de alertas. Parte de la magia de ML es extraer potentes "características" predictivas pero arbitrarias de los conjuntos de datos. Imagine que la identificación de un gato estuviera altamente correlacionada con el clima. Ningún ser humano razonaría de esta manera. Pero este es el punto de ML: encontrar patrones que de otro modo no podríamos encontrar y hacerlo a escala. Sin embargo, incluso si el usuario puede exponer el motivo de la predicción, a menudo no es útil en una situación de respuesta a incidentes o clasificación de alertas. Esto se debe a que las "características" que finalmente definen la decisión del sistema ML están optimizadas para el poder predictivo, no para la relevancia práctica para los analistas de seguridad.

¿"Estadísticas" con cualquier otro nombre olería tan bien?

Más allá de los pros y los contras de ML, hay una trampa más: no todo "ML" es realmente ML. Las estadísticas te dan algunas conclusiones sobre tus datos. ML hace predicciones sobre datos que no tenía en función de los datos que tenía. Los especialistas en marketing se han aferrado con entusiasmo a “máquina de aprendizaje” e “inteligencia artificial” para señalar un producto de tecnología avanzada, innovador y moderno de algún tipo. Sin embargo, a menudo se tiene muy poco en cuenta si la tecnología incluso usa ML, sin importar si ML fue el enfoque correcto.

Entonces, ¿ML puede detectar el mal o no?

ML puede detectar el mal cuando el "mal" está bien definido y tiene un alcance limitado. También puede detectar desviaciones del comportamiento esperado en sistemas altamente predecibles. Cuanto más estable sea el entorno, más probable es que ML identifique correctamente las anomalías. Pero no todas las anomalías son maliciosas, y el operador no siempre cuenta con suficiente contexto para responder. El superpoder de ML no está en reemplazar, sino en ampliar las capacidades de los métodos, sistemas y equipos existentes para una cobertura y eficiencia óptimas.

Sello de tiempo:

Mas de Lectura oscura