수학/Statistical Learning

[ISLR] 교차검증(Cross-validation), K-Fold, LOOCV

AI 꿈나무 2021. 5. 9. 18:00
반응형

Resampling Methods

 Resampling Methods는 training data의 서로 다른 부분 집합을 사용하여 동일한 통계 모델을 여러번 fitting 하는 것을 의미합니다. 모델 평가(model assessment), 모델 선택(model selection)을 위해 사용합니다.

 

1. Validation Set Approach

  • 전체 데이터 셋을 동일한 크기를 가진 2개의 집합으로 분할하여 training set, validation set을 만듭니다.
  • 영향력이 큰 관측지가 어느 set에 속하느냐에 따라 MSE가 달라집니다.
  • 관측치의 일부만 train에 속하여 높은 bias를 갖습니다.

 

2. LOOCV(Leave-One-Out Cross-Validation)

  • 단 하나의 관측값(x1, y1)만을 validation set으로 사용하고, 나머지 n-1개 관측값은 train set으로 사용합니다.
  • n번 fitting을 진행하고, n개의 MSE를 평균하여 최종 MSE를 계산합니다.
  • n-1개 관측값을 train에 사용하므로 bias가 낮습니다.
  • overfitting 되어 높은 variance를 갖습니다.
  • n번 나누고 n번 fit 하므로 랜덤성이 없습니다.
  • n번 fit을 진행하므로 expensive 합니다.

 

3. K-Fold Cross-Validation

  • 전체 데이터 셋을 k개의 그룹으로 분할하여 한 그룹은 validation set, 나머지 그룹은 train set으로 사용합니다.
  • k번 fit을 진행하여 k개의 MSE를 평균내어 최종 MSE를 계산합니다.
  • LOOCV보다 연산량이 낮습니다.
  • 중간 정도의 bias와 variance를 갖습니다.


참고자료 및 그림 출처

Gareth James의 An Introduction to Statistical Learning

반응형