본문 바로가기
AI/ML

[ML] 오차/오류의 종류

by hyeok1235 2024. 9. 6.

머신러닝 모델이 설정한 가설의 오류는 크게 두가지로 구분할 수 있다.

1. Empirical Error (Training Error, 경험적 오차)

2. Generalization Error (Test Error, 일반화 오)

 

1. Empirical Error

Empirical Error는 Training 데이터셋 내부에서 발생하는 오차를 말한다. 즉, 모델이 이미 한번 본 데이터에 대해서 예측을 했을 때 실제 값과의 차이를 말해준다. 

보통의 경우 Training 과정에서 Empirical Error 값을 줄이기 위해 파라미터를 조정한다. 

 

2. Generalization Error

Generalization Error는 모델이 한번도 보지 못한 데이터에 대해서 예측 값과 실제 값의 차이를 말한다. 주로 Test 데이터셋이나, Train 데이터셋 내부에서 모델이 보지 못한 데이터에서의 오차 값이다.

 

Generalization Error는 크게 3가지로 구분할 수 있습니다. 

Irreducible error

Irreducible error는 데이터셋이 가지고 있는 노이즈 자체로 인해서 발생하는 오차이다. 입력 자체가 왜곡되거나, 아웃라이어 등으로 인해서 발생하기 때문에 데이터셋 자체에 대해서 처리를 해줘야 줄일 수 있다.

 

편향 (Bias)

Bias는 모델이 잘못된 가정을 하고 있을 때 발생하는 오차이다. 해당 오류는 training 데이터에 대해서도 발생하게 됩니다.

ex) 데이터는 비선형적인데, 모델은 데이터들이 선형적이라고 생각하는 경우

 

분산 (Variance)

Variance는 training 데이터에 대해서 과학습되어 발생하는 오차이다. 해당 오류는 test 데이터에 대해서 발생한다. Overfitting 될 경우에 해당 오류 값이 높아진다.

 

※ Bias-Variance Tradeoff

모델의 복잡도를 높일 수록 Bias는 줄어들지만, Variance는 커지면서 오버피팅의 위험이 높아집니다. 즉, training error는 줄어들지만 test error나 validation error는 커집니다.

반대로 모델의 복잡도를 낮출수록 Bias는 올라가고 Variance는 줄어들게 됩니다. 

 

 

728x90
반응형

'AI > ML' 카테고리의 다른 글

[ML] 선형 모델 정규화 (Regularization)  (0) 2024.09.08
[ML] 경사하강법 (Gradient Descent)  (0) 2024.09.05
[ML] 분류 (Classification)  (0) 2024.08.16
[ML] 모델 파인튜닝  (0) 2024.08.14
[ML] 데이터셋 준비  (0) 2024.08.13