본문 바로가기
머신러닝&딥러닝

[ML] 일반화, 과대 적합, 과소 적합

by IT 정복가 2023. 9. 15.
728x90

지도 학습에서는 훈련 데이터로 학습한 모델이 훈련 데이터와 

특성이 같다면 처음 보는 새로운 데이터가 주어져도 정확히 예측할 거라 기대한다.

 

모델이 처음보는 데이터에 대해 정확하게 예측할 수 있으면 

훈련세트에서 테스트 세트로 일반화 되었다고 한다. 

 

그래서 모델을 만들 때는 가능한 정확하게 일반화되도록 해야 한다.

 

과대적합(Overfitting)

  • 훈련 세트에 너무 맞추어져 있어 테스트 세트의 성능 저하
  • 너무 상세하고 복잡한 모델링을 하여 훈련데이터에만 과도하게 정확히 동작하는 모델

과소적합(Underfitting)

  • 훈련 세트를 충분히 반영하지 못해 훈련 세트, 테스트 세트에서 모두 성능이 저하
  • 모델링을 너무 간단하게 하여 성능이 제대로 나오지 않는 모델

해결방법

  • 주어진 훈련 데이터의 다양성 보장 → 다양한 데이터포인트를 골고루 나타내야함
  • 일반적으로 데이터의 양이 많으면 일반화에 도움
  • 규제(Regularization)을 통해 모델의 복잡도를 적정선으로 설정

(같은 데이터 포인트를 중복하거나 매우 비슷한 데이터를 모으는 것은 도움이 되지 않는다.)

728x90