초평면(Hyperplane)에 대하여
p차원 공간에서, 초평면은 p-1 차원인 평평한 affine 부분 공간 입니다. 예를 들어, 2차원 공간에서 초평면은 평평한 1차원 부분공간 입니다. 즉, 선 입니다. 3차원에서 초평면은 평평한 2차원 부분공간이며 이는 평면입니다. p > 3인 경우에는 초평면을 시각화하기가 어렵지만 p-1 차원인 평평한 부분 공간인 것은 여전히 유효합니다.
2차원에서 초평면의 수학적인 정의는 다음의 방정식으로 정의합니다.
2차원의 초평면은 1차원 선입니다. 2차원 파라미터 $\beta _0, \beta _1, \beta_ 2$가 존재하며 $X_1, X_2$는 초평면 상 임의의 점입니다.
위 식은 임의의 p차원으로 확장할 수 있습니다. 즉 p차원에 대한 초평면은 아래의 식으로 정의합니다.
p차원 공간의 점 $X_1 ~ X_p$가 위 식을 만족하면 X는 초평면 상에 있습니다.
X가 아래 식을 만족하면 X는 초평면의 한쪽에 놓인다는 것을 의미합니다.
반면에 아래 식을 만족하면 X는 초평면의 다른 한쪽에 놓입니다.
따라서 초평면은 p차원 공간을 두개로 분할한다고 생각할 수 있습니다. X가 분리된 두 공간 중 어느 부분에 속하는지 판별하려면 초평면 식에 X를 대입하여 0보다 큰지 작은지를 확인하면 됩니다.
분리 초평면을 사용한 분류(Classification Using a Separating Hyperplane)
p차원 공간에서 n개의 학습 관측값들로 구성된 n x p 크기의 행렬 X가 있다고 가정하겠습니다. 그리고 이 관측값들은 두 개의 class에 포함된다고 하겠습니다. y1 ~ yn이 -1 또는 1 입니다. 목적은 test observation을 정확하게 분류하는 학습 셋에 기반한 분류기를 만드는 것입니다. 이 분류기를 분리 초평면(separating hyperplane)의 개념으로 만들겠습니다.
training observation이 그들의 class label에 해당하도록 완벽하게 분리하는 초평면을 정의할 수 있다고 가정하겠습니다. 위 그림에서 왼쪽 그림은 3개의 분리 초평면 예입니다. 분리 초평면을 정의하고 식에 X를 대입했을 때, 0보다 큰지 작은지를 판별하여 class를 할당할 수 있습니다.
이를 다르게 표현하면 분리 초평면은 모든 관측값에 대하여 아래의 식을 만족합니다.
분리 초평면이 존재한다면 이것을 사용하여 자연스러운 분류기를 구성할 수 있습니다. test observation이 초평면의 어느 면에 위치해있는지에 따라 class를 부여하면 됩니다. 예를 들어, f(x)가 양수이면 x는 1에 할당하고 f(x)가 음수이면 x는 -1에 할당합니다.
f(x)의 크기도 활용할 수 있습니다. 만약 f(x)가 0에 멀리있으면 x는 초평면에 멀리 떨어져 있고 x에 할당된 class를 신뢰할 수 있습니다. 반면에 f(x)가 0에 가까우면 x는 초평면과 가까이 존재하고 x에 할당된 클래스에 대한 확신이 덜합니다.
참고자료 및 그림 출처
Gareth James의 An Introduction to Statistical Learning