반응형

statistical learning 6

[ISLR] K-평균 군집화(K-Means Clustering)

K-평균 군집화(K-Means Clustering) K-means clustering은 데이터 셋을 K개의 구별되고 겹치치 않는 cluster으로 분할하는 방법입니다. k-means clustering을 수행하기 위하여 cluster의 수 K를 정해야 합니다. 그리고나서 K-means algorithm은 각 관측값을 정확히 K개의 cluster 중 하나에 할당합니다. 아래 그림은 150개의 관측치로 구성된 데이터에 서로 다른 K값을 사용하여 K-means clustering을 수행한 결과입니다. K-means Clustering 절차 $C_1, ... C_K$를 각 cluster 내 관측치들의 인덱스들을 포함하는 집합이라고 하겠습니다. 이 집합은 두 가지 성질을 갖습니다. 1. 각 관측치는 적어도 K개 ..

[ISLR] 서포트 벡터 머신(SVM, Support Vector Machine)

서포트 벡터 머신(Support Vector Machine) 서포트 벡터 머신(SVM, support vector machine)은 서포트 벡터 분류기(support vector classifier)의 확장으로, 커널(kernel)을 사용하여 변수 공간을 확장한 결과입니다. 변수와 출력값 사이의 비선형 관계를 설명하기 위하여 변수 공간을 확장해야 하는데, SVM은 커널을 사용하여 효율적인 연산량으로 변수 공간을 확장한 방법입니다. 서포트 벡터 분류기 문제에 대한 해는 관측값들의 내적만이 관련이 있습니다. 두 관측치 사이의 내적은 다음과 같이 주어집니다. 선형 서포트 벡터 분류기(Linear support vector classifier)는 다음과 같이 나타낼 수 있습니다. 여기서 n개의 파라미터 $\al..

[ISLR] 부스팅(Boosting)

부스팅(Boosting) 결정 트리의 예측을 향상시키는 또다른 방법은 부스팅(boosting) 입니다. 부트스트랩을 사용하여 다수의 training data 부분 집합을 생성하여 각 부분 집합에 대하여 각 트리를 적합하고 결과값을 평균하는 것이 배깅이었습니다. 각 트리는 부트스트랩 데이터셋을 기반으로 구축되고 트리는 서로 독립적입니다. 부스팅은 트리들이 순차적으로 만들어지는 것을 제외하고 이와 비슷한 방법으로 작동합니다. 각 트리는 이전에 만들어진 트리로부터 정보를 사용하여 만들어집니다. 부스팅은 부트스트랩 샘플링을 사용하지 않습니다. 대신에 각 트리를 original dtaset의 수정된 버전에 적합합니다. 우선 회귀 트리를 고려하겠습니다. bagging과 같이 부스팅은 많은 수의 결정 트리를 결합합니..

[ISLR] 랜덤 포레스트(Random Forests)

랜덤 포레스트(Random Forests) 랜덤 포레스트는 트리들의 상관성을 제거하는 방법(decorrelate)으로 bagged tree에 대해 성능 향상을 제공합니다. bagging을 수행하기 위하여 decision tree를 구축해야 합니다. decision tree를 구축할 때, 전체 p개의 변수들 중에서 무작위 m개의 변수들로 분할을 수행할 것인지 고려해야 합니다. 분할은 이 m개의 변수중 하나만을 사용하여 진행하고, 각 분할에서 새로운 m개의 변수를 추출합니다. 일반적으로 m = $\sqrt{q}$로 선정합니다. 예를 들어 p=13이면 m=4를 선택합니다. 다른 말로하면, random forest를 만드는 도중에 트리의 각 분할에서 알고리즘은 사용가능한 다수의 변수들을 고려하는 것이 허용되지 ..

[ISLR] 배깅(Bagging)

배깅은 강력한 예측 모델을 구축하기위해 트리를 buidling block으로 사용합니다. 배깅(Bagging) 이전에 공부했었던 부트스트랩(bootstrap)은 관심있는 양의 표준 편차를 계산하기 어려운 상황에서 사용하는 강력한 아이디어 입니다. 이 부트스트랩을 결정트리와 같은 통계 방법 성능을 향상시키기 위해 완전히 다른 맥락으로 사용할 수 있습니다. 결정트리(decision tree)는 high variance가 문제 됩니다. 이는 학습 데이터를 무작위로 두 부분으로 분할하고 의사 결정 트리를 두 부분에 적합하면 두 결과가 상당히 다를 수 있다는 것을 의미합니다. 반면에 low variance는 서로 다른 데이터셋에 반복적으로 적합을 진행해도 동일한 결과를 생성하는 것을 의미합니다. 부트스트랩 통합(..

[ISLR] 차원축소 방법(Dimension Reduction Methods)

차원축소 방법(Dimension Reduction Methods) 차원축소 방법은 p개의 변수 X1, X2, ... ,Xp를 변환하여, 변환된 변수들로 선형제곱 모델을 적합(fit)하는 것입니다. p개의 X1~Xp에서 m개의 Z1~Zm으로 변환된 변수들은 X1~Xp의 선형 결합으로 나타냅니다. 변환된 변수들로 다음과 같이 최소제곱 모델을 fit할 수 있습니다. 이러한 차원축소 방법은 일반적으로 선형제곱 모델보다 뛰어납니다. 차원축소 방법은 기존의 p+1(절편 포함)개의 변수를 m+1개의 변수로 축소하기 때문입니다. 변수의 수가 줄어들었으므로 bias를 증가시키고 variance를 감소합니다. 즉, overfitting을 방지합니다. 이전에 살펴보았던 변수 선택 방법과 수축법과 비슷한 효과를 나타냅니다. ..

반응형