비선형 결정 경계에서 분류(Classification with Non-linear Decision Boudaries)
만약 두 class 사이의 경계가 선형이면, 두 개의 class를 지닌 dataset에서 서포트 벡터 분류기(support vector classifier)는 자연스러운 선택입니다. 하지만 비선형 class 경계를 지닌 데이터셋의 경우에는 어떨까요?
위 그림을 살펴보면 Support vector classifier가 찾은 선형 경계가 두 class 분류를 수행하지 못합니다. 이처럼 변수와 출력값 사이의 비선형 관계가 존재하는 경우에 선형 분류기는 성능이 좋지 않습니다.
이 경우에 변수들의 고차 다항식, 3차, 2차를 사용하여 feature space를 확장함으로써 class 사이의 비선형 경계를 제공할 수 있습니다. 예를 들어 p개의 변수를 사용하여 support vector classifier를 적합하는 대신에
2p개의 변수를 사용하여 support vector classifier를 적합할 수 있습니다.
그러면 support vector classifier의 최적화 문제는 다음과 같습니다.
위 식으로 도출한 결정 경계는 2차 다항식이므로 비선형입니다. 이처럼 변수공간을 더 높은 차수의 다항식 항 혹은 상호작용 항을 갖고 추가로 확장할 수 있습니다. 다음에 공부할 서포트 벡터 머신(Support Vector Machine)은 서포트 벡터 분류기(support vector classifier)에 사용된 변수 공간을 효율적으로 확장할 수 있도록 합니다.
참고자료 및 그림 출처
Gareth James의 An Introduction to Statistical Learning
'수학 > Statistical Learning' 카테고리의 다른 글
[ISLR] 주성분 분석(PCA, Principal Components Analysis) (0) | 2021.08.05 |
---|---|
[ISLR] 서포트 벡터 머신(SVM, Support Vector Machine) (0) | 2021.08.03 |
[ISLR] 서포트 벡터 분류기(Support Vector Classifiers) (0) | 2021.08.02 |
[ISLR] 최대 마진 분류기(The Maximal Margin Classifier) (0) | 2021.08.02 |
[ISLR] 부스팅(Boosting) (0) | 2021.07.31 |