반응형

수학/Statistical Learning 27

[ISLR] 분류 트리(Classification Tree)

분류 트리(Classification Tree) 분류 트리는 이전에 공부했었던 회귀 트리와 매우 유사하며 차이점은 양적 반응 변수가 아니라 질적 반응 변수를 예측한다는 것입니다. 회귀 트리는 관측값이 속한 terminal node의 평균값을 사용하여 예측했습니다. 이와 반대로 분류 트리는 관측치가 속하는 구역에서 훈련 관측치의 가방 빈번하게 발생하는 클래스에 관측치가 해당하는지를 예측합니다. 따라서 터미널 노드에 해당하는 클래스 예측값(class prediction) 뿐만 아니라 그 구역에 해당하는 훈련 관측치들의 클래스 비율(class proportion)에도 관심이 있습니다. 분류 트리를 구축하기 위해 회귀 트리와 마찬가지로 재귀 이진 분할을 사용합니다. 이진 분할을 위한 기준으로 RSS는 사용할 수..

[ISLR] Tree Pruning

Tree Pruning 트리를 구축하는 과정에서 이전 포스팅에서 살펴본 재귀이진분할은 데이터에 과적합할 위험이 있습니다. 이러한 문제를 해결하기 위한 적합한 대안은 Pruning 입니다. 가장 큰 트리를 만든 다음에 이것을 prune하여 서브트리를 얻는 것입니다. 그러면 tree를 어떤 기준으로 pruning 해야 할까요? 직관적으로 subtree를 선택하는 목적은 가장 낮은 test error를 도출하는 것입니다. 주어진 subtree에 대하여 cross-validation 혹은 validation set apporach를 사용하여 test error를 계산할 수 있습니다. 하지만 모든 가능한 subtree에 대하여 CV하는 것은 불가능해보입니다. 대신에 subtree를 선택하는 방법을 살펴보겠습니다...

[ISLR] 계단 함수(Step Functions)

계단 함수(Step Functions) X의 범위를 bins로 쪼개어 각 bin에 대한 서로 다른 상수로 적합합니다. 이는 연속 변수(continuous variable)을 순서범주형 범주(ordered categorical variable)로 전환합니다. X의 범위에서 절단점(cut point)을 사용하여 K+1개의 새로운 변수를 생성합니다. 여기서 I는 지시 함수이며 조건이 참이면 1, 그렇지 않으면 0을 반환합니다. 이는 더미 변수(dummy variable)이라고도 부릅니다. 주의할 점은 어느 X에 대하여 $C_0(X) + C_1(X) + ... + C_K(X) = 1$을 만족합니다. X가 K+1 구간중 하나에만 속하기 때문입니다. 위 더미 변수를 설명 변수로 사용하여 선형 모델을 최소 적합할 수..

[ISLR] 다항식 회귀(Polynomial Regression)

다항식 회귀(Polynomial Regression) 반응 변수(Y, response)와 설명 변수(X, predictors) 사이의 관계가 비선형인 상황에서 선형 회귀(Linear Regression)을 확장하는 방법은 다항식 함수(polynomial function)으로 대체하는 것입니다. 이 방법이 다항식 회귀이며 차수 d가 충분히 큰 경우에 다항식 회귀는 비선형 곡선을 나타냅니다. 위 식에서 계수들은 최소 제곱을 사용하여 쉽게 추정될 수 있습니다. d 가 3 또는 4보다 큰 경우에 다항 회귀는 과하게 flexible한 곡선을 만듭니다. 이 경우에 과적합이 발생할 수 있습니다. 위 그림은 나이에 따른 임금 데이터에서 차수가 4인 다항 회귀를 최소 제곱을 사용하여 적합한 결과입니다. 점선으로 된 곡선..

[ISLR] 부분 최소 제곱(PLS, Partial Least Squares)

부분 최소 제곱(PLS, Partial Least Squares) 부분 최소 제곱(PLS)는 PCR(주성분 회귀)의 supervised alternative 입니다. PLS는 기존 특징의 선형 결합으로 이루어진 새로운 특징 집합 ($Z_1, ... , Z_M$)을 식별합니다. 그리고나서 이 M개의 특징을 사용하여 최소 제곱 방법을 통해 선형 모델을 적합(fit) 합니다. PCR과 가장 큰 차이점은 supervised way 라는 것입니다. 반응 변수 Y를 사용하여 새로운 특징들을 식별하기 때문에 기존 특징들을 잘 설명할 뿐만아니라 반응 변수와 연관성이 있습니다. 즉, PLS는 반응 변수와 설명 변수 사이를 설명하는 방향을 찾습니다. 우선, p개의 설명 변수들을 standardizing 한 후에, 기존 변..

[ISLR] 주성분 회귀(PCR, Principal Components Regression)

주성분 회귀(Principal components regression, PCR) 주성분 회귀 기법은 p개의 변수를 m개의 변수로 축소하여 m개의 변수들로 선형회귀 모델을 fit합니다. m개의 변수는 주성분 요소(Z1, ..., Zm) 입니다. 주성분 요소는 데이터의 공분산 행렬에 SVD를 적용하여 구할 수 있습니다. PCR 기법은 설명변수 X1, ..., Xp를 가장 잘 나타내는 선형결합 또는 방향을 찾는 것입니다. 이러한 방향은 비지도 방식으로 식별되는데, 반응변수 Y가 주성분 방향을 결정하는데 이용되지 않기 때문입니다. 즉, 반응변수는 주성분을 찾는 것을 지도하지 않습니다. 따라서 PCR은 설명변수들을 가장 잘 설명하는 방향이 반응변수를 예측하는데 사용하기에도 가장 좋은 방향이 된다는 보장이 없습니다..

[ISLR] 주성분 분석 개요(Overview of Prinicipal Components Analysis)

차원축소 방법 중 하나인 주성분 회귀를 알아보겠습니다. 차원축소 방법을 간단히 살펴보면 p개의 변수를 m개의 변수로 축소하여 bias를 증가시키고 variance를 감소합니다. 따라서 overfitting을 방지하는 효과가 있습니다. 주성분 회귀(Principal Components Regression) 주성분분석(PCA, Principal Components Analysis)는 변수의 큰 집합으로부터 저차원의 특징을 유도하기 위한 유명한 방법입니다. PCA는 비지도학습의 방법이며, 여기서는 회귀를 위한 차원축소 방법으로서 PCA를 사용하는 것을 살펴보겠습니다. 주성분 회귀를 알아보기 전에 주성분분석을 잠깐 살펴보겠습니다. 주성분분석 개요(An Overview of Principal Components ..

[ISLR] 차원축소 방법(Dimension Reduction Methods)

차원축소 방법(Dimension Reduction Methods) 차원축소 방법은 p개의 변수 X1, X2, ... ,Xp를 변환하여, 변환된 변수들로 선형제곱 모델을 적합(fit)하는 것입니다. p개의 X1~Xp에서 m개의 Z1~Zm으로 변환된 변수들은 X1~Xp의 선형 결합으로 나타냅니다. 변환된 변수들로 다음과 같이 최소제곱 모델을 fit할 수 있습니다. 이러한 차원축소 방법은 일반적으로 선형제곱 모델보다 뛰어납니다. 차원축소 방법은 기존의 p+1(절편 포함)개의 변수를 m+1개의 변수로 축소하기 때문입니다. 변수의 수가 줄어들었으므로 bias를 증가시키고 variance를 감소합니다. 즉, overfitting을 방지합니다. 이전에 살펴보았던 변수 선택 방법과 수축법과 비슷한 효과를 나타냅니다. ..

반응형