라쏘(Lasso)
능형 회귀(Ridge regression)은 한가지 단점이 존재합니다. 일반적으로 변수의 부분 집합만을 포함하는 모델을 선택하는 best subset, forward stepwise, backward stepwise selection과 다르게 능형 회귀는 모든 p개의 변수를 포함합니다. 그리고 패널티 항은 모든 계수가 0이 되는 방향으로 수축합니다. 하지만 람다가 무한이 아닌 경우에 계수를 정확히 0으로 수축하지 않습니다. 모델의 정확도 관점에서는 문제가 되지 않지만, 모델을 해석해야 하는 경우에 문제점이 발생합니다.
라쏘는 능형회귀의 단점을 극복하기 위해 제안된 방법입니다. 능형회귀의 패널티 항은 L2 norm 이었던 반면에, 라쏘의 패널티 항은 L1 norm 입니다. 능형회귀와 라쏘는 패널티항이 다릅니다.
능형회귀와 마찬가지로 라쏘도 계수 추정치가 0이 되도록 수축합니다. 하지만 람다가 충분히 큰 경우에 L1 패널티 항은 계수 추정치가 정확하게 0이 되도록 합니다. 따라서 라쏘는 변수 선택(variable selection)을 수행합니다. 결과적으로 능형 회귀보다 라쏘가 모델 해석 관점에서 유용합니다.
라쏘와 능형회귀에서 람다값에 따른 계수 추정치 그림을 살펴보면, 라쏘가 특정 변수들을 0으로 만드는 것을 확인할 수 있습니다. 적절한 람다를 선택하면 특정 변수가 0이 되어 변수들의 부분 집합을 포함한 모델을 생성하므로 모델 해석에 유용합니다. 반면에 능형 회귀는 항상 모든 변수들을 포함합니다. 단순히 계수 추정치의 값들이 람다에 의존하는 것입니다.
라쏘의 변수 선택 성질(The Variable Selection Property of the Lasso)
왜 능형회귀와 달리 lasso는 계수들을 정확하게 0으로 만들까요?
위 문제를 푼다고 가정하는 경우에 lasso의 패널티 항과 ridge regression의 패널티 항은 s보다 작아야합니다. lasso의 패널티 항은 다이아몬드 범위로 정의되며 ridge regression의 패널티 항은 원으로 정의됩니다. s가 크다면 기존의 최소 제곱 추정치와 동일한 계수 추정치 값을 생성하며, 적당한 s를 선택하면 선택된 범위 내에서 RSS가 가장 낮은 계수 추정치 값을 생성합니다.
제약된 영역에서 RSS가 가장 낮은 값을 갖도록 계수를 추정합니다. 위 그림을 살펴보면 lasso는 변수가 0이 되는 축에서 RSS가 가장 낮은 값을 갖게 되고, ridge regression은 원의 범위 내에서 가장 낮은 RSS를 갖게 되는데, 이 구역이 계수가 0이 되는 구역이 아닙니다. 약간의 계수 값이 존재하게 되어 ridge regression은 계수를 정확하게 0으로 축소하지 않는 것입니다.
참고자료 및 그림 출처
Gareth James의 An Introduction to Statistical Learning
'수학 > Statistical Learning' 카테고리의 다른 글
[ISLR] 차원축소 방법(Dimension Reduction Methods) (0) | 2021.06.01 |
---|---|
[ISLR] 라쏘(Lasso)와 능형 회귀(Ridge regression) 비교 (0) | 2021.06.01 |
[ISLR] 수축법(Shrinkage Methods), 능형 회귀(Ridge regression) (0) | 2021.05.31 |
[ISLR] Cp, AIC, BIC, Adjusted R2, 검증 및 교차검증(Validation and Cross-Validation) (0) | 2021.05.30 |
[ISLR] 부분집합 선택(Subset Selection), 최상의 부분 집합, 전진 단계적, 후진 단계적, 하이브리드 (0) | 2021.05.30 |