[ISLR] 수축법(Shrinkage Methods), 능형 회귀(Ridge regression)

수학/Statistical Learning

[ISLR] 수축법(Shrinkage Methods), 능형 회귀(Ridge regression)

AI 꿈나무 2021. 5. 31. 22:17

수축법(Shrinkage Methods)

계수 추정치를 0으로 수축(shrink)하는 기법을 사용하여 모든 설명 변수를 포함하고 있는 모델을 적합(fit)할 수 있습니다. 계수 추정치를 수축하는 것은 모델의 variance를 감소시킵니다. 모델의 variance를 감소시킨 다는 의미는 bias를 증가시켜 overfitting을 방지합니다. 회귀 계수를 0으로 수축하는 방법에 대해 가장 잘 알려진 ridge regression과 lasso를 알아보겠습니다.

능형 회귀(Ridge Regression)

능형 회귀는 RSS식에 다음과 같은 항이 추가된 것입니다.

람다는 조율 파라미터(tuning parameter)이며, 위 식을 최소화 하는 방향으로 모델을 학습합니다.

위 식을 수축 패널티(shrinkage penalty)라고 합니다. 계수 추정치가 0에 가까울수록 낮은 값을 갖습니다. 따라서 수축 패널티의 효과는 모든 계수 추정치가 0으로 향하도록 합니다. 조율 파라미터는 두 항의 관계를 조절합니다. 람다가 0이면 최소제곱과 결과가 동일하고 람다가 무한이면 모든 계수 추정치가 0으로 됩니다. 조율 파라미터에 따라 계수 추정치의 값이 달라지므로 람다를 선택하는 것은 중요합니다.

수축 패널티는 절편 B0에는 적용하지 않습니다. 각 변수에 대한 추정값은 수축하고 싶기 때문입니다.

왼 쪽 그림에서 람다가 0인 경우에 기존의 최소 제곱 계수추정치와 동일합니다. 람다가 무한에 가까워 질수록 모든 계수 추정치가 0으로 수렴하는 모습을 확인할 수 있습니다.

능형 회귀를 적용하기 전에 변수들을 표준화(standardizing the predictors) 해야 합니다.

일반적인 최소 제곱 계수 추정치에서 변수 x에 c 값을 곱하는 것은 간단하게 계수 추정치가 1/c 값을 갖습니다. 하지만 능형 회귀를 적용하면 변수에 c를 곱한다 하여도 단순하게 계수 추정치가 1/c가 되지 않습니다. 추정치가 람다값과 변수에 곱해진 c값에 종속적이기 때문입니다. 따라서 변수들을 표준화 하는 것입니다. 변수들을 표준화 하고 나면 계수 추정치들은 scale값 c에 독립적이게 됩니다.

왜 능형회귀가 최소제곱보다 나을까요?

최소제곱보다 능형회귀가 나은 이유는 bias-variance trade-off에 있습니다. 람다가 증가하면서 능형 회귀의 flexibility가 감소하게 됩니다. 이는 bias를 증가시키고 variance를 감소시킵니다.

녹색 선은 variance, 검은 선은 bias, 분홍 선은 test error를 의미합니다. 람다가 증가할수록 variance는 감소하고, bias는 증가합니다. 능형 회귀는 설명 변수와 반응 변수의 관계가 선형적이어서 low bias, high variance를 갖는 경우에 유용합니다. 이는 모델이 overfitting되어 training data가 약간만 변화해도 계수 추정치가 크게 변화합니다. 이경우에 능형 회귀를 적용하여 bias를 증가시키고 variance를 감소시키는 것입니다.

능형회귀 단점

능형 회귀(Ridge regression)은 한가지 단점이 존재합니다. 일반적으로 변수의 부분 집합만을 포함하는 모델을 선택하는 best subset, forward stepwise, backward stepwise selection과 다르게 능형 회귀는 모든 p개의 변수를 포함합니다. 그리고 패널티 항은 모든 계수가 0이 되는 방향으로 수축합니다. 하지만 람다가 무한이 아닌 경우에 계수를 정확히 0으로 수축하지 않습니다. 모델의 정확도 관점에서는 문제가 되지 않지만, 모델을 해석해야 하는 경우에 문제점이 발생합니다.

다음 포스팅에서는 능형회귀의 단점을 보안하는 라쏘(Lasso)를 알아보겠습니다.

참고자료 및 그림 출처

Gareth James의 An Introduction to Statistical Learning

'수학 > Statistical Learning' 카테고리의 다른 글

[ISLR] 라쏘(Lasso)와 능형 회귀(Ridge regression) 비교 (0)	2021.06.01
[ISLR] 라쏘(Lasso) (0)	2021.05.31
[ISLR] Cp, AIC, BIC, Adjusted R2, 검증 및 교차검증(Validation and Cross-Validation) (0)	2021.05.30
[ISLR] 부분집합 선택(Subset Selection), 최상의 부분 집합, 전진 단계적, 후진 단계적, 하이브리드 (0)	2021.05.30
[ISLR] 교차검증(Cross-validation), K-Fold, LOOCV (0)	2021.05.09

현재글[ISLR] 수축법(Shrinkage Methods), 능형 회귀(Ridge regression)

딥러닝 공부방