기계 학습의 편향-분산 절충

플라톤에 의해 재발행

팔로워 : 0

개요

기계 학습에서 바이어스-분산 절충은 모든 예측 모델의 성능에 영향을 미치는 기본 개념입니다. 모델의 편향 오차와 분산 오차를 동시에 최소화할 수 없기 때문에 미묘한 균형을 의미합니다. 최적의 모델 성능을 달성하려면 올바른 균형을 유지하는 것이 중요합니다.

이 짧은 기사에서는 편향과 분산을 정의하고 이들이 기계 학습 모델에 미치는 영향을 설명하고 실제로 이를 처리하는 방법에 대한 몇 가지 실용적인 조언을 제공합니다.

바이어스 및 분산 이해

편향과 분산 사이의 관계에 대해 알아보기 전에 기계 학습에서 이러한 용어가 무엇을 나타내는지 정의해 보겠습니다.

편향 오류는 모델의 예측과 모델이 예측하려고 시도하는 올바른 값(실측 정보) 간의 차이를 나타냅니다. 즉, 바이어스는 기본 데이터 분포에 대한 잘못된 가정으로 인해 모델이 커밋하는 오류입니다. 고편향 모델은 종종 너무 단순하여 데이터의 복잡성을 포착하지 못하여 과소적합으로 이어집니다.

반면 분산 오류는 학습 데이터의 작은 변동에 대한 모델의 민감도를 나타냅니다. 고분산 모델은 지나치게 복잡하고 기본 패턴이 아닌 데이터의 노이즈를 맞추는 경향이 있어 과적합이 발생합니다. 그 결과 보이지 않는 새로운 데이터에 대한 성능이 저하됩니다.

편향이 높으면 모델이 너무 단순하여 데이터의 복잡성을 포착할 수 없는 과소적합으로 이어질 수 있습니다. 데이터에 대해 강력한 가정을 하고 입력 변수와 출력 변수 간의 진정한 관계를 포착하지 못합니다. 반면에 높은 분산은 모델이 너무 복잡하고 입력 변수와 출력 변수 간의 기본 관계가 아닌 데이터의 노이즈를 학습하는 과적합으로 이어질 수 있습니다. 따라서 과대적합 모델은 훈련 데이터에 너무 가깝게 맞추는 경향이 있고 새 데이터에 잘 일반화되지 않는 반면 과소적합 모델은 훈련 데이터를 정확하게 맞출 수조차 없습니다.

앞서 언급했듯이 편향과 분산은 관련이 있으며 좋은 모델은 편향 오류와 분산 오류 사이에서 균형을 이룹니다. Bias-variance trade-off는 이 두 오류 소스 사이에서 최적의 균형을 찾는 프로세스입니다. 편향과 분산이 낮은 모델은 교육 데이터와 새 데이터 모두에서 잘 수행되어 총 오류를 최소화합니다.

편향-분산 절충

모델 복잡성과 알 수 없는 데이터로 일반화하는 기능 사이의 균형을 달성하는 것이 편향-분산 절충의 핵심입니다. 일반적으로 더 복잡한 모델은 편향은 낮지만 분산은 더 크며, 단순한 모델은 편향은 더 높지만 분산은 더 낮습니다.

편향과 분산을 동시에 최소화하는 것은 불가능하기 때문에 이들 사이의 최적의 균형을 찾는 것이 강력한 기계 학습 모델을 구축하는 데 중요합니다. 예를 들어 모델의 복잡성이 증가하면 분산도 증가합니다. 이는 더 복잡한 모델이 훈련 데이터의 노이즈를 맞출 가능성이 더 높기 때문에 과적합으로 이어질 수 있습니다.

반면에 모델을 너무 단순하게 유지하면 바이어스가 증가합니다. 더 단순한 모델은 데이터의 기본 관계를 포착할 수 없어 과소적합으로 이어질 수 있기 때문입니다.

목표는 교육 데이터의 기본 관계를 캡처할 만큼 충분히 복잡하지만 교육 데이터의 노이즈에 맞을 정도로 복잡하지 않은 모델을 교육하는 것입니다.

실전 편향-분산 절충

모델 성능을 진단하기 위해 일반적으로 학습 및 검증 오류를 계산하고 비교합니다. 이를 시각화하는 데 유용한 도구는 학습 과정 전체에서 학습 및 검증 데이터 모두에 대한 모델의 성능을 표시하는 학습 곡선의 플롯입니다. 이러한 곡선을 검사하여 모델이 과적합(높은 분산), 과소적합(높은 편향) 또는 적합(편향과 분산 사이의 최적의 균형)인지 확인할 수 있습니다.

과소적합 모델의 학습 곡선의 예. 열차 오류와 유효성 검사 오류가 모두 높습니다.

실제로 훈련 및 검증 데이터 모두에서 낮은 성능은 모델이 너무 단순하여 과소적합으로 이어진다는 것을 나타냅니다. 반면에 모델이 훈련 데이터에서는 매우 잘 수행되지만 테스트 데이터에서는 성능이 좋지 않은 경우 모델 복잡성이 너무 높아 과적합이 발생할 수 있습니다. 과소적합을 해결하기 위해 더 많은 기능을 추가하거나 학습 알고리즘을 변경하거나 다른 하이퍼파라미터를 선택하여 모델 복잡성을 높일 수 있습니다. 과적합의 경우 일반화 기능을 개선하기 위해 모델을 정규화하거나 교차 검증과 같은 기술을 사용하는 것을 고려해야 합니다.

과적합 모델의 학습 곡선의 예. 검증 오류가 증가하기 시작하는 동안 훈련 오류는 감소합니다. 모델이 일반화할 수 없습니다.

정규화는 기계 학습 모델의 분산 오류를 줄이는 데 사용할 수 있는 기술로 편향-분산 트레이드오프를 해결하는 데 도움이 됩니다. 다양한 정규화 기술이 있으며 각각 고유한 장점과 단점이 있습니다. 널리 사용되는 일부 정규화 기술에는 릿지 회귀, 라소 회귀 및 탄력적 순 정규화가 포함됩니다. 이러한 모든 기술은 모델의 목적 함수에 페널티 항을 추가하여 과적합을 방지하는 데 도움이 되며, 이는 극단적인 매개변수 값을 권장하지 않고 단순한 모델을 권장합니다.

능선 회귀L2 정규화라고도 하는 는 모델 매개변수의 제곱에 비례하는 페널티 항을 추가합니다. 이 기법을 사용하면 매개변수 값이 더 작은 모델이 생성되는 경향이 있어 분산이 줄어들고 일반화가 향상될 수 있습니다. 그러나 기능 선택을 수행하지 않으므로 모든 기능이 모델에 남아 있습니다.

모범 사례, 업계에서 인정하는 표준 및 포함된 치트 시트가 포함된 Git 학습에 대한 실습 가이드를 확인하십시오. 인터넷 검색 Git 명령을 중지하고 실제로 배움 이것!

올가미 회귀또는 L1 정규화는 모델 매개변수의 절대값에 비례하는 페널티 항을 추가합니다. 이 기술은 일부 매개변수를 XNUMX으로 설정하여 기능 선택을 효과적으로 수행하는 희소한 매개변수 값을 가진 모델로 이어질 수 있습니다. 이렇게 하면 해석하기 쉬운 더 간단한 모델이 생성될 수 있습니다.

탄력적 순 정규화 L1 및 L2 정규화의 조합으로 능선과 올가미 회귀 간의 균형을 허용합니다. 두 페널티 항 사이의 비율을 제어함으로써 탄력적 네트워크는 향상된 일반화 및 기능 선택과 같은 두 기술의 이점을 모두 달성할 수 있습니다.

잘 맞는 모델의 학습 곡선
좋은 피팅 모델의 학습 곡선의 예.