수학/기초 통계학

[통계학] 03-3. 다변량 자료 기술통계 (3) - 공분산, 상관계수

AI 꿈나무 2020. 9. 14. 19:42
반응형

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다.

(k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다.

 


 

 이번 포스팅에서는 두 수치자료의 직선관계의 정도를 타나내는 통계값(공분산, 상관계수)을 알아보겠습니다.

 


 

5. 공분산 - covariance

 공분산(covariance)은 두 수치변수 간에 직선관계가 어느 정도인지를 나타내는 통계값입니다. 두 수치형 변수 간에 관계가 있는지는 산점도를 통해 시각적으로 확인할 수 있으나 수치적 측도를 통해 그 관계가 어느 정도 되는지를 알아볼 때 이용됩니다.

 

 공분산을 알아보기 위해 양의 기울기와 음의 기울기를 가지는 산점도를 살펴보겠습니다.

 

양의 기울기와 음의 기울기를 가지는 산점도

 

 위의 산점도는 ($\overline{x}$, $\overline{y}$)를 중심으로 1과 3사분면은 양수를, 2와 4사분면은 음수를 의미하게 됩니다. 이러한 성질을 반영할 수 있는 값이 각 변수의 편차를 곱한 $(x_i - \overline{x})(y_i - \overline{y})$입니다.

 

 양수를 의미하는 1,3사분면에 자료들이 모여 있으면 $\sum{(x_i - \overline{x})(y_i - \overline{y})}$양의 값이 될 것입니다.

 음수를 의미하는 2,4사분면에 자료들이 모여 있으면 $\sum{(x_i - \overline{x})(y_i - \overline{y})}$ 음의 값이 될 것입니다.

 자료가 고르게 분포되어 있으면 $\sum{(x_i - \overline{x})(y_i - \overline{y})}$은 0에 가까울 것입니다. 

 

 따라서, $\sum{(x_i - \overline{x})(y_i - \overline{y})}$는 기울기의 부호를 포함한 직선관계 정도를 나타내는 통계값으로 생각할 수 있습니다. 여기에 표본분산을 계산할 떄 처럼 자유도를 적용한 통계값을 생각할 수 있습니다.

 

 

(1) 표본공분산(sample covariance)

 

 이를 적용한 것이 표본공분산입니다.

 양의 기울기인 선분에 자료가 모여 있으면 c > 0이 됩니다.

 음의 기울기인 선분에 자료가 모여 있으면 c < 0이 됩니다.

 

 표본공분산 식에서 y를 x로 바꾸면 표본분산 식이 나옵니다. 이 의미는 두 변수 x와 y의 분산 형태를 가진다고하여 $C_{xy}$를 표본공분산이라고 합니다. 실제 계산을 할 때는 다음과 같은 간편식을 사용할 수 있습니다.

 

 

 공분산을 사용하는 데에 두 가지 문제점이 있습니다.

 

 첫 번째 문제점은 표본공분산은 상관관계(직선관계)만 나타냅니다.

직선관계가 없는 산점도 ( c = 0 )

 상관관계(직선관계)가 없어 c = 0 이지만, 두 자료 간에 관계가 없다는 의미는 아닙니다. 오른쪽 그림은 직선관계는 없지만 대칭으로 곡선형태를 띄고 있습니다. 공분산은 상관관계(직선관계)만을 나타냅니다.

 

 

두 번째 문제점은 측정 단위에 영향을 받기 때문에 그 값 자체로 선형관계의 정도를 알 수 없다는 것 입니다.

 

 예를 들어 연도와 우승기록의 관계에서 우승기록을 초 단위가 아닌 분 단위로 표시하면 똑같은 자료이지만 초 단위 때보다 표본공분산은 1/60의 값이 됩니다. -13.572 / 60 = -0.225가 됩니다. 이런 문제를 해결방법은 측정단위에 영향을 받지 않게 자료를 표준화하여 표본공분산을 구하는 것입니다. 이를 표본상관계수라고 합니다.

 

 

 

(2) 표본상관계수(coefficient of correlation)

 

 표본상관계수는 표본공분산이 측정단위에 영향을 받지 않게 자료를 표준화하여 얻은 표본공분산입니다.

 이를 간편식으로 표시할 수 있습니다.

 라고 표시하면 표본상관계수는 다음과 같은 식으로 표시됩니다.

 여기서 $S_{xx}$와 $S_{yy}$는 편차의 제곱합으로 수정제곱합(corrected sum of squares)라고 합니다.

 

 이 표본상관계수는 다음과 같은 성질을 갖습니다.

 

표본상관계수의 성질

1. $-1 \leq R_{xy} \leq 1$

2. 자료들이 어떤 기울기를 가지는 직선에 조밀하게 모일수록 $\mid R_{xy} \mid$ 는 1에 근접합니다.

3. 음의 기울기를 가지는 직선 주위에 자료가 분포되어 있는 경우 $R_{xy}$는 음수이며 음의 상관관계가 존재한다고 하고 양의 기울기인 경우 양수가 되며 양의 상관관계가 존재한다고 합니다.

4. 모든 관측값들이 직선 위에 위치하면 $\mid R_{xy} \mid$ = 1이 됩니다.

5. $\mid R_{xy} \mid$ == 0이 될때, 상관관계가 없다고 합니다. 상관관계가 없다는 것은 직선관계가 없다는 것이지 관계가 전혀 없다는 것을 의미하지 않습니다.

 

 표본상관계수 두 변수 간에 직선관계가 있는지를 나타낼 뿐 인과관계를 나타내는 것은 아닙니다. 예를 들어 휴대전화 보급률과 기대수명에 대한 상관계수를 구해보면 매우 높은 양의 상관관계를 가지는 것을 볼 수 있습니다. 만약 이를 인과관계가 있는 것으로 해석한다면 기대수명을 늘리기 위해 휴대전화 보급을 늘려야 한다는 비상식적인 결론을 도출할 수 있습니다.

 

 이러한 현상은 대부분 시간에 따라 지속적으로 증가하거나 감소하는 특성을 가지는 자료들입니다. 이때 시간과 같이 두 변수에 영향을 주거나 관계가 있는 변수를 잠복변수(lurking varaible)라고 하며 이렇게 제 3의 변수에 의해 나타나는 상관관계허위상관(spurious correlation) 또는 가짜상관이라고 합니다.

 

 이 경우 각각의 변수에서 잠복변수의 영향을 제거하고 표본상관계수를 계산하여 관련성을 파악해야합니다. 이를 회귀분석이라고 합니다.

 

 

 또한 통합된 그룹의 상관관계도 조심해야 합니다.

통합된 그룹의 상관관계

 다른 그룹인데 자료들을 통합하여 표본상관계수를 구한다면 왼쪽그림에서는 직선관계가 있다고 판단하며, 오른쪽 그림에서는 직선관계가 없다고 판단합니다. 이처럼 잘못 판단할 수 있으므로 자료들을 그룹 구분하여 표본상관계수를 구해야합니다. 


 

 이상으로 두 수치자료의 직선관계의 정도를 나타내는 통계값(공분산, 상관계수)을 알아보았습니다. 감사합니다.

 

반응형