최대 1 분 소요

Resampling Method

Cross-Validation

주어진 데이터 세트가 낮은 test error를 갖는다면 특정 statistical learning method의 사용이 보장된다.

지정된 테스트 세트를 사용할 수 있다면 test error는 쉽게 계산될 수 있지만 이것은 일반적인 경우가 아니다.

test error rate를 직접 추정하는데 사용될 수 있는 매우 큰 test set이 없는 경우, 사용가능한 training data 사용하여 이 양을 추정하는데 많은 기술을 사용할 수 있다.

fitting process로부터 training observations를 유지한 다음, 유지된 observarions에 the statistical learning method를 적용함으로써 test error rate를 측정하는 방법을 고려해야한다.

  • The Validation set approach

test error를 추정하는 방법으로 training data를 랜덤하게 반으로 나누어 test error 추정을 위해 따로 빼놓는 방법이다. 이때 빼놓아진 data set들을 validation set이라고 한다.

  • K-fold Cross-validation

training data를 랜덤하게 k개의 그룹으로 나누어 한 그룹씩 제외하여 k-1개의 그룹으로 모델을 적합하는 방법이다. 최종적으로 k개의 MSE의 평균으로 test MSE를 추정한다.

The Bootstrap

statistical accuracy를 평가하는 일반적인 도구로 원래의 data set에서 복원추출로 새로운 샘플을 계속 뽑는 시행을 충분히 반복하여 그에 대한 추정량 α hat으로 SE를 구한다. 이러한 방식으로 적은 수의 data로는 구하기 힘든 통계량의 특성을 구한다.