3 분 소요

Statistical learning

Statistical learning 은 통계와 함수적 분석으로부터 그려진 머신러닝을 위한 뼈대로서, 데이터에 기반을 둔 예측 가능한 함수를 찾는 문제를 다룬다.

본격적인 내용에 앞서 변수와 f 추정에 대한 기본적인 내용입니다.

X는 예측변수, 독립변수, 변수(predictors, independent variables, variables) 등의 이름으로 불리고,

Y는 반응변수, 종속변수(response or dependent variable) 등으로 불린다.

1

X : n×p matrix, xij : the value of the jth variable for the ith observation

우리는 반응변수 Y 와 p개의 예측변수, X1, X2, … , Xp를 관찰한다.

그리고 $Y$와 $X=(X_1, X_2, … , X_p)$둘 사이에 관계가 있다고 가정하고 아래의 형태로 그 관계를 표현한다.

$Y=f(X)+\epsilon$

f : some fixed, unknown function of X,

ε : a random error term, independent X , 평균이 0

Goal : Estimate f

우리는 아래의 식을 사용하여 f를 추정한다.

$\hat{Y}=\hat{f}\left(X\right)$

우리가 추정한 f, Y 등은 f hat, Y hat로 표시하고 이는 실제 f, Y와 구분하기 위한 것이다.

Why estimate f?

① prediction(예측) ② inference(추론)


모수적 방법 vs 비모수적 방법

How do we estimate f?

모수적 방법(Parametric metods)

  • 먼저 X와 Y의 관계에 대해 가정을 한 뒤 f를 추정한 뒤 다시 가정한 것과 비교하는 방법이다.
  • 가정의 parameter 일부만 예측하는 것으로 문제가 축소되고 다양한 분석과 예측이 가능하다.
  • 만약 선택된 모델이 실제 f와 거리가 멀다면 추정이 잘못된 것이며, 가정이 틀리면 분석 자체가 의미가 없어진다.

→ Linear regression, logistic regression, linear SVM, LDA, QDA 등

비모수적 방법(Non-parametric methods)

  • X와 Y의 관계에 대한 명확한 가정 없이 가능한 한 데이터 포인트들과 가까운 점들을 얻어 f를 추정한다. 가정이 없는 추정 방법이라 가정이 틀릴 위험이 없다.
  • 정확한 추정을 위해 매우 많은 관찰(observations)이 필요하다.
  • 다양한 분석을 할 수 없다.

→ thin-plate spline, KNN, kernel SVM, decision tree 등


Supervised learning vs Unsupervised learning

Supervised learning

  • Outcome measurement Y (also called dependent variable, response, target).
  • Vector of p predictor measurements X (also called inputs, regressors, covariates, features, independent variables).
회귀문제(regression problem) 분류문제(classification problem)
Y quantitative한 값. 유한하고 비정렬한 값.
e.g. 가격, 혈압 등 생존/사망, 자릿수 0-9, cancer class of tissue sample

Unsupervised learning

  • No outcome variable, just a set of predictors (features) measured on a set of samples.
  • Objective is more fuzzy – find groups of samples that behave similarly, find features that behave similarly, find linear combinations of features with the most variation.
  • 내가 수행한 것이 얼마나 잘 된 것인지 알기 어렵다.


Training, test, and validation set

Training set

  • 학습에 사용되는 예시의 data set, 즉 주어진 dat로 parameters에 적합하다.
  • 경험적 관계에 대해 training set를 검색하는 대부분의 접근 방식은 데이터에 overfit되는 경향이 있어서 일반적으로 유지되지 않는 training set의 명백한 관계를 식별할 수 있다.

$training\ data\ :\ \left{\left(x_1,\ y_1\right),\ …\ \left(x_n,\ y_n\right)\right}\ i.e.,\ \left{\left(\begin{matrix}x_{11}\…\x_{1p}\end{matrix},\ y_1\right),\ …\ ,\ \left(\begin{matrix}x_{n1}\…\x_{np}\end{matrix},\ y_n\right)\right}$

※ overfit : training MSE는 작은데 test MSE는 커지는 상황

Test set

  • training set과 독립적이지만 같은 확률분포(probability distribution)을 따르는 data set이다.
  • model을 수행하여 주어질 data

Validation set

  • 분류기(classifier)의 hyperparameters를 조정하는데 사용되는 예제 세트이다.


모델의 정확도 평가

  • 주어진 데이터에 대해 어떤 방법이 최상의 결과를 산출하는지 결정하는 것은 중요한 업무

For quantitative y,

$Training\ MSE=\frac{1}{n}\sum _{i=1}^n\left(y_i-\hat{f}\left(x_i\right)\right)^2,\ for\ training\ data\ \left(x_i\ ,\ y_i\right)$

$Test\ MSE=\frac{1}{n}\sum {i=1}^n\left(y{0i}-\hat{f}\left(x_{0i}\right)\right)^2,\ for\ test\ data\ \left(x_{0i}\ ,\ y_{0i}\right)$

가장 낮은 training MSE라고 해서 가장 낮은 test MSE를 제공하는 것은 아니며 심지어 다른 모델보다 성능이 더 안 좋을 수 있다.

가장 낮은 training MSE가 아니라 가장 낮은 test MSE를 제공하는 방법을 선택해야 한다.

실전에서 training MSE는 비교적 계산하기 쉽지만, test MSE는 사용 가능한 test data가 없기 때문에 계산하기 어렵다.

→ cross validation


$Expected\ test\ MSE\ :\ E\left(y_0-\hat{f}\left(x_0\right)\right)^2=Var\left(\hat{f}\left(x_0\right)\right)+\left[Bias\left(\hat{f}\left(x_0\right)\right)\right]^2+Var\left(\epsilon \right)$

  • Flexibility
    • 우리가 가진 데이터에 얼마나 유연하게 fit하여 f를 추정하는지 의미한다. 즉, 얼마나 단순화를 최소화한 모델인지를 나타낸다.
    • flexibility↓ : 단순한 모델, flexibility↑ : 복잡한 모델
    • flexible 할수록 해석력을 잃기 때문에 적절한 조정이 필요하다.
  • Variance(분산)
    • 다른 training set를 사용하여 추정한 경우 변화하는 양이다. 즉 데이터에 얼마나 의존적인가를 나타낸다.
    • 더 flexible한 통계 방법은 variance가 더 높다.
  • Bias(잔차가 아님)

    $Bias\left(\hat{f}\left(x\right)\right)=E\left(\hat{f}\left(x\right)-f\left(x\right)\right)=E\left(\hat{f}\left(x\right)\right)-f\left(x\right)$

    • 실생활 문제를 approximating할 때 발생하는 오류이다. 즉 를 나타낸다.

      예상하는 결과가 얼마나 맞는지

    • 더 flexible한 통계방법은 bias가 더 낮다.

통계적 학습 방법의 좋은 테스트 세트는 낮은 squared bias뿐만 아니라 낮은 variance를 요구한다. (Expeted test MSE 식 참고)

하지만 아주 작은 squared bias나 아주 작은 variance는 동시에 일어나기 힘든 경우이므로 두 값이 모두 작을 경우 모델을 의심해 볼 필요가 있다.

모델의 flexibility에 따라 bias와 variance는 반비례와 비슷한 변화를 보이는데,이는 필연적으로 bias variance trade-off 관계라는 것이다.

bias가 매우 낮지만 variance는 높은 방법에는 모든 single training observation을 통과하는 곡선을 그리기 등, variance가 매우 낮지만 bias가 높은 방법에는 데이터에 수평선을 맞추기 등이 있는데,

bias나 variance 둘 중 하나가 완전히 작으면 나머지 하나가 커지므로 둘의 균형을 고려하여 적절한 값을 찾아야 한다.

3

4

5

=> flexibility ↑, variance ↑, squared bias ↓, test MSE U, training MSE ↓