보안 PlatoBlockchain 데이터 인텔리전스에서 기계 학습의 아름다운 거짓말. 수직 검색. 일체 포함.

보안에서 머신 러닝의 아름다운 거짓말

당신이 읽은 것과는 반대로, 기계 학습 (ML)은 마법의 픽시 더스트가 아닙니다. 일반적으로 ML은 사용 가능한 대규모 데이터 세트가 포함된 좁은 범위의 문제와 관심 패턴이 반복 가능하거나 예측 가능한 경우에 적합합니다. 대부분의 보안 문제에는 ML이 필요하지도 ML이 도움이 되지도 않습니다. 관계자를 비롯한 많은 전문가들이 구글, 복잡한 문제를 해결할 때 다음을 수행해야 한다고 제안합니다. 다른 모든 것을 배출 ML을 시도하기 전에 접근합니다.

ML은 정답을 명시적으로 코딩하지 않은 경우에도 질문에 대한 답을 추정하도록 컴퓨터를 훈련시킬 수 있는 광범위한 통계 기술 모음입니다. 올바른 유형의 문제에 적용되는 잘 설계된 ML 시스템은 다른 방법으로는 얻을 수 없는 통찰력을 얻을 수 있습니다.

성공적인 ML 예시는 다음과 같습니다. 자연어 처리
(NLP). NLP를 사용하면 컴퓨터는 관용어나 은유와 같은 인간 언어를 '이해'할 수 있습니다. 여러 면에서 사이버 보안은 언어 처리와 동일한 문제에 직면해 있습니다. 공격자는 관용어를 사용하지 않을 수 있지만 많은 기술은 철자나 발음은 동일하지만 의미가 다른 단어인 동음이의어와 유사합니다. 마찬가지로 일부 공격자 기술은 시스템 관리자가 완전히 무해한 이유로 취할 수 있는 작업과 매우 유사합니다.

IT 환경은 목적, 아키텍처, 우선 순위, 위험 허용 범위가 조직마다 다릅니다. 모든 시나리오에서 보안 사용 사례를 광범위하게 다루는 알고리즘, ML 등을 만드는 것은 불가능합니다. 이것이 바로 보안 분야에서 ML을 성공적으로 적용한 대부분이 매우 특정한 문제를 해결하기 위해 여러 가지 방법을 결합하는 이유입니다. 좋은 예로는 스팸 필터, DDoS 또는 봇 완화, 맬웨어 탐지 등이 있습니다.

쓰레기는 안으로, 쓰레기는 밖으로

ML의 가장 큰 과제는 문제 해결을 위한 관련성 있고 사용 가능한 데이터의 가용성입니다. 지도 ML의 경우 올바르게 레이블이 지정된 대규모 데이터 세트가 필요합니다. 예를 들어, 고양이 사진을 식별하는 모델을 구축하려면 '고양이'라는 라벨이 붙은 여러 고양이 사진과 '고양이 아님'이라는 라벨이 붙은 고양이가 아닌 사물의 여러 사진을 대상으로 모델을 훈련합니다. 사진이 충분하지 않거나 라벨이 잘못 지정되어 있으면 모델이 제대로 작동하지 않습니다.

보안 분야에서 잘 알려진 지도 ML 사용 사례는 시그니처 없는 악성 코드 탐지입니다. 많은 EPP(엔드포인트 보호 플랫폼) 공급업체는 ML을 사용하여 대량의 악성 샘플과 양성 샘플에 라벨을 지정하고 "악성 프로그램의 형태"에 대한 모델을 교육합니다. 이러한 모델은 파일이 서명을 피할 수 있을 만큼 변경되었지만 악성 상태로 남아 있는 회피형 돌연변이 악성 코드 및 기타 속임수를 정확하게 식별할 수 있습니다. ML이 서명과 일치하지 않습니다. 다른 기능 세트를 사용하여 악의를 예측하고 시그니처 기반 방법이 놓친 악성 코드를 포착할 수 있는 경우가 많습니다.

그러나 ML 모델은 확률적이기 때문에 절충점이 있습니다. ML은 서명이 놓친 악성 코드를 포착할 수 있지만 서명으로 포착한 악성 코드도 놓칠 수 있습니다. 이것이 바로 최신 EPP 도구가 최적의 적용 범위를 위해 ML과 서명 기반 기술을 결합하는 하이브리드 방법을 사용하는 이유입니다.

뭔가, 뭔가, 거짓 긍정

모델이 잘 제작되었더라도 ML은 출력 해석과 관련하여 다음을 포함하여 몇 가지 추가 과제를 제시합니다.

  • 결과는 확률입니다.
    ML 모델은 무언가의 가능성을 출력합니다. 모델이 고양이를 식별하도록 설계된 경우 "이것은 80% 고양이입니다."와 같은 결과를 얻게 됩니다. 이러한 불확실성은 ML 시스템의 고유한 특성이며 결과를 해석하기 어렵게 만들 수 있습니다. 고양이 80%면 충분할까?
  • 모델을 조정할 수 없습니다., 적어도 최종 사용자는 아닙니다. 확률적 결과를 처리하기 위해 도구에는 이를 이진 결과로 축소하는 공급업체 설정 임계값이 있을 수 있습니다. 예를 들어, 고양이 식별 모델은 "고양이"의 90% 이상이 고양이라고 보고할 수 있습니다. 고양이에 대한 기업의 허용 범위는 공급업체가 설정한 것보다 높거나 낮을 수 있습니다.
  • 거짓 부정(FN)실제 악을 감지하지 못하는 것은 ML 모델, 특히 제대로 조정되지 않은 모델의 고통스러운 결과 중 하나입니다. 우리는 시간을 낭비하기 때문에 거짓양성(FP)을 싫어합니다. 그러나 FP 요율과 FN 요율 사이에는 본질적인 상충 관계가 있습니다. ML 모델은 "최상의" FP-FN 속도 균형을 우선시하여 절충을 최적화하도록 조정됩니다. 그러나 "올바른" 균형은 개별 위협 및 위험 평가에 따라 조직마다 다릅니다. ML 기반 제품을 사용하는 경우 공급업체가 적절한 임계값을 선택하도록 신뢰해야 합니다.
  • 경고 분류를 위한 컨텍스트가 충분하지 않습니다. ML 마법의 일부는 데이터세트에서 강력한 예측이 가능하지만 임의적인 '기능'을 추출하는 것입니다. 고양이를 식별하는 것이 날씨와 높은 상관관계가 있다고 상상해 보세요. 어떤 인간도 이런 식으로 추론하지 않을 것입니다. 하지만 이것이 ML의 핵심입니다. 다른 방법으로는 찾을 수 없는 패턴을 찾아 대규모로 찾는 것입니다. 하지만 예측 이유가 사용자에게 노출되더라도 경보 분류나 사고 대응 상황에서는 도움이 되지 않는 경우가 많습니다. 이는 ML 시스템의 결정을 궁극적으로 정의하는 "기능"이 보안 분석가에게 실질적인 관련성이 아닌 예측력에 최적화되어 있기 때문입니다.

다른 이름의 "통계"가 달콤할까요?

ML의 장점과 단점 외에도 한 가지 더 중요한 점이 있습니다. 모든 'ML'이 실제로 ML인 것은 아닙니다. 통계는 데이터에 대한 몇 가지 결론을 제공합니다. ML은 보유한 데이터를 기반으로 보유하지 않은 데이터에 대해 예측합니다. 마케터들은 “기계 학습” 및 “인공 지능”은 일종의 현대적이고 혁신적이며 첨단 기술 제품을 나타냅니다. 그러나 기술이 ML을 사용하는지 여부에 대해서는 거의 고려하지 않는 경우가 많습니다. ML이 올바른 접근 방식인지는 신경 쓰지 마세요.

그렇다면 ML이 악을 탐지할 수 있을까요?

ML은 '악'이 잘 정의되고 범위가 좁을 때 악을 감지할 수 있습니다. 또한 예측 가능성이 높은 시스템에서 예상되는 동작과의 편차를 감지할 수도 있습니다. 환경이 안정적일수록 ML이 이상치를 정확하게 식별할 가능성이 높아집니다. 하지만 모든 변칙이 악의적인 것은 아니며, 운영자가 대응할 수 있는 충분한 컨텍스트를 항상 갖추고 있는 것도 아닙니다. ML의 초능력은 최적의 적용 범위와 효율성을 위해 기존 방법, 시스템 및 팀의 기능을 대체하는 것이 아니라 확장하는 데 있습니다.

타임 스탬프 :

더보기 어두운 독서