반응형

iSLR 17

[ISLR] K-평균 군집화(K-Means Clustering)

K-평균 군집화(K-Means Clustering) K-means clustering은 데이터 셋을 K개의 구별되고 겹치치 않는 cluster으로 분할하는 방법입니다. k-means clustering을 수행하기 위하여 cluster의 수 K를 정해야 합니다. 그리고나서 K-means algorithm은 각 관측값을 정확히 K개의 cluster 중 하나에 할당합니다. 아래 그림은 150개의 관측치로 구성된 데이터에 서로 다른 K값을 사용하여 K-means clustering을 수행한 결과입니다. K-means Clustering 절차 $C_1, ... C_K$를 각 cluster 내 관측치들의 인덱스들을 포함하는 집합이라고 하겠습니다. 이 집합은 두 가지 성질을 갖습니다. 1. 각 관측치는 적어도 K개 ..

[ISLR] 서포트 벡터 머신(SVM, Support Vector Machine)

서포트 벡터 머신(Support Vector Machine) 서포트 벡터 머신(SVM, support vector machine)은 서포트 벡터 분류기(support vector classifier)의 확장으로, 커널(kernel)을 사용하여 변수 공간을 확장한 결과입니다. 변수와 출력값 사이의 비선형 관계를 설명하기 위하여 변수 공간을 확장해야 하는데, SVM은 커널을 사용하여 효율적인 연산량으로 변수 공간을 확장한 방법입니다. 서포트 벡터 분류기 문제에 대한 해는 관측값들의 내적만이 관련이 있습니다. 두 관측치 사이의 내적은 다음과 같이 주어집니다. 선형 서포트 벡터 분류기(Linear support vector classifier)는 다음과 같이 나타낼 수 있습니다. 여기서 n개의 파라미터 $\al..

[ISLR] 비선형 결정 경계(Non-linear Decision Boundaries)

비선형 결정 경계에서 분류(Classification with Non-linear Decision Boudaries) 만약 두 class 사이의 경계가 선형이면, 두 개의 class를 지닌 dataset에서 서포트 벡터 분류기(support vector classifier)는 자연스러운 선택입니다. 하지만 비선형 class 경계를 지닌 데이터셋의 경우에는 어떨까요? 위 그림을 살펴보면 Support vector classifier가 찾은 선형 경계가 두 class 분류를 수행하지 못합니다. 이처럼 변수와 출력값 사이의 비선형 관계가 존재하는 경우에 선형 분류기는 성능이 좋지 않습니다. 이 경우에 변수들의 고차 다항식, 3차, 2차를 사용하여 feature space를 확장함으로써 class 사이의 비선형..

[ISLR] 최대 마진 분류기(The Maximal Margin Classifier)

최대 마진 분류기(The Maximal Margin Classifier) 데이터를 초평면을 사용하여 완벽하게 분류할 수 있다면 무한개의 초평면이 존재할 것입니다. 초평면이 어느 관측치와도 만나지 않으면서 약간 위 아래로 움직일 수 있기 때문입니다. 분리 초평면을 사용한 분류기를 구성하기 위하여 어떤 초평면을 사용해야 할지 합리적인 방법이 있어야 합니다. training observation으로부터 가장 멀리 떨어진 분리 초평면(separating hyperplane)인 최대 마진 초평면(maximal margin hyperplane)을 선택하는 것이 자연스럽습니다. 즉, 주어진 분리 초평면 부터 각 training observation 까지의 수직 거리를 계산하고 가장 작은 거리를 마진(margin)이라..

[ISLR] 초평면(Hyperplane)에 대하여, 분리 초평면(Separating hyperplane)

초평면(Hyperplane)에 대하여 p차원 공간에서, 초평면은 p-1 차원인 평평한 affine 부분 공간 입니다. 예를 들어, 2차원 공간에서 초평면은 평평한 1차원 부분공간 입니다. 즉, 선 입니다. 3차원에서 초평면은 평평한 2차원 부분공간이며 이는 평면입니다. p > 3인 경우에는 초평면을 시각화하기가 어렵지만 p-1 차원인 평평한 부분 공간인 것은 여전히 유효합니다. 2차원에서 초평면의 수학적인 정의는 다음의 방정식으로 정의합니다. 2차원의 초평면은 1차원 선입니다. 2차원 파라미터 $\beta _0, \beta _1, \beta_ 2$가 존재하며 $X_1, X_2$는 초평면 상 임의의 점입니다. 위 식은 임의의 p차원으로 확장할 수 있습니다. 즉 p차원에 대한 초평면은 아래의 식으로 정의합니..

카테고리 없음 2021.08.02

[ISLR] 부스팅(Boosting)

부스팅(Boosting) 결정 트리의 예측을 향상시키는 또다른 방법은 부스팅(boosting) 입니다. 부트스트랩을 사용하여 다수의 training data 부분 집합을 생성하여 각 부분 집합에 대하여 각 트리를 적합하고 결과값을 평균하는 것이 배깅이었습니다. 각 트리는 부트스트랩 데이터셋을 기반으로 구축되고 트리는 서로 독립적입니다. 부스팅은 트리들이 순차적으로 만들어지는 것을 제외하고 이와 비슷한 방법으로 작동합니다. 각 트리는 이전에 만들어진 트리로부터 정보를 사용하여 만들어집니다. 부스팅은 부트스트랩 샘플링을 사용하지 않습니다. 대신에 각 트리를 original dtaset의 수정된 버전에 적합합니다. 우선 회귀 트리를 고려하겠습니다. bagging과 같이 부스팅은 많은 수의 결정 트리를 결합합니..

[ISLR] 분류 트리(Classification Tree)

분류 트리(Classification Tree) 분류 트리는 이전에 공부했었던 회귀 트리와 매우 유사하며 차이점은 양적 반응 변수가 아니라 질적 반응 변수를 예측한다는 것입니다. 회귀 트리는 관측값이 속한 terminal node의 평균값을 사용하여 예측했습니다. 이와 반대로 분류 트리는 관측치가 속하는 구역에서 훈련 관측치의 가방 빈번하게 발생하는 클래스에 관측치가 해당하는지를 예측합니다. 따라서 터미널 노드에 해당하는 클래스 예측값(class prediction) 뿐만 아니라 그 구역에 해당하는 훈련 관측치들의 클래스 비율(class proportion)에도 관심이 있습니다. 분류 트리를 구축하기 위해 회귀 트리와 마찬가지로 재귀 이진 분할을 사용합니다. 이진 분할을 위한 기준으로 RSS는 사용할 수..

[ISLR] 계단 함수(Step Functions)

계단 함수(Step Functions) X의 범위를 bins로 쪼개어 각 bin에 대한 서로 다른 상수로 적합합니다. 이는 연속 변수(continuous variable)을 순서범주형 범주(ordered categorical variable)로 전환합니다. X의 범위에서 절단점(cut point)을 사용하여 K+1개의 새로운 변수를 생성합니다. 여기서 I는 지시 함수이며 조건이 참이면 1, 그렇지 않으면 0을 반환합니다. 이는 더미 변수(dummy variable)이라고도 부릅니다. 주의할 점은 어느 X에 대하여 $C_0(X) + C_1(X) + ... + C_K(X) = 1$을 만족합니다. X가 K+1 구간중 하나에만 속하기 때문입니다. 위 더미 변수를 설명 변수로 사용하여 선형 모델을 최소 적합할 수..

[ISLR] 부분 최소 제곱(PLS, Partial Least Squares)

부분 최소 제곱(PLS, Partial Least Squares) 부분 최소 제곱(PLS)는 PCR(주성분 회귀)의 supervised alternative 입니다. PLS는 기존 특징의 선형 결합으로 이루어진 새로운 특징 집합 ($Z_1, ... , Z_M$)을 식별합니다. 그리고나서 이 M개의 특징을 사용하여 최소 제곱 방법을 통해 선형 모델을 적합(fit) 합니다. PCR과 가장 큰 차이점은 supervised way 라는 것입니다. 반응 변수 Y를 사용하여 새로운 특징들을 식별하기 때문에 기존 특징들을 잘 설명할 뿐만아니라 반응 변수와 연관성이 있습니다. 즉, PLS는 반응 변수와 설명 변수 사이를 설명하는 방향을 찾습니다. 우선, p개의 설명 변수들을 standardizing 한 후에, 기존 변..

[ISLR] 주성분 분석 개요(Overview of Prinicipal Components Analysis)

차원축소 방법 중 하나인 주성분 회귀를 알아보겠습니다. 차원축소 방법을 간단히 살펴보면 p개의 변수를 m개의 변수로 축소하여 bias를 증가시키고 variance를 감소합니다. 따라서 overfitting을 방지하는 효과가 있습니다. 주성분 회귀(Principal Components Regression) 주성분분석(PCA, Principal Components Analysis)는 변수의 큰 집합으로부터 저차원의 특징을 유도하기 위한 유명한 방법입니다. PCA는 비지도학습의 방법이며, 여기서는 회귀를 위한 차원축소 방법으로서 PCA를 사용하는 것을 살펴보겠습니다. 주성분 회귀를 알아보기 전에 주성분분석을 잠깐 살펴보겠습니다. 주성분분석 개요(An Overview of Principal Components ..

반응형