수학/기초 통계학

[통계학] 02-4. 기술통계 (4) - 수치자료 분포의 중심위치(평균, 표본비율, 기하평균, 조화평균, 가중평균)

AI 꿈나무 2020. 9. 13. 20:14
반응형

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다.

(k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다.

 


 

7. 수치를 이용한 자료 정리

 그래프 같은 시각적 기법은 자료의 특성을 파악하는데 있어 중요한 정보를 제공하지만 그것을 보는 사람에 따라 주관적으로 해석될 수 있습니다. 그렇기 때문에 일반적으로 자료분석의 최종 결과는 자료의 특성을 객관적으로 나타내는 수치로 제시됩니다.

 

 일반적으로 자료의 특성은 자료를 대표할 수 있는 중심위치(central location)와 자료들이 얼마나 퍼져 있는지를 나타내는 산포(dispersion)로 표시된됩니다.

 

 이번 포스팅에서는 수치자료 분포의 중심위치(평균, 표본비율, 가중평균, 기하평균, 조화평균)에 대해서 알아보겠습니다.

 

 7.1 중심위치 - central location

 모집단에서 샘플랭해서 n개의 수치자료를 얻었고 그 값들을 $x_1, x_2, ... , x_n$ 이라고 표시합시다.

 

 여기서 $x_i$는 $i$번째 표본의 값을 나타내며, 표본의 개수 n을 표본크기(sample size)라고 합니다. 자료에 대한 중심위치로 가장 많이 사용되는 통계값은 표본평균입니다.

 

 

 

(1) 표본평균(sample mean)

 

 표본평균은 표본의 합을 표본크기로 나눈 값 입니다. 수식으로는 다음과 같이 표시됩니다.

 

$$\overline{x} = \frac{x_1 + x_2 + ... + x_n}{n} = \frac{1}{n}\sum_{t=1}^n{x_i}$$

 

 표본평균이 중심위치로 적절한 이유는 이 점을 중심으로 좌우 자료의 무게가 같은 무게중심이기 때문입니다.

 

 또, $x_i - \overline{x}$를 $i$번째 표본의 편차(deviation)이라고 하는데 편차의 합은 0이 됩니다.

 

이상점(outlier)

 표본평균이 대표적인 중심위치이지만 사용해야 하는 데 주의할 점이 있습니다. 자료 중에는 일부 관측값이 대부분의 나머지 관측값들에서 멀리 떨어져 있는 경우가 있습니다. 이렇게 떨어져 있는 관측값을 통계학에서는 이상점(outlier)이라고 합니다. 이상점이 자료에 포함되어 있는 경우 표본평균의 값에 차이가 크게나는 경향이 있습니다.
=> 이상점에 로버스트(robust)하지 않음

이상점이 있는 점도표

 

 

 (2) 표본비율(sample proportion)

 

 모집단을 여러 개의 범주로 나눈 뒤에 관측개체가 어떤 범주에 속하면 $x_i$의 값을 1, 속하지 않으면 0으로 표시합니다. 전체 표본 중에서 이 범주에 포함된 표본의 수는 $y = x_1 + ... + x_n$ 으로 쓸 수 있으며 이 범주에 포함된 표본비율(sample proportion)은 다음과 같이 나타낼 수 있습니다.

 

$$\frac{y}{n} = \frac{1}{n}\sum_{i=1}^{n}x_i = \overline{x}$$

 

 이는 표본비율 또한 일종의 표본평균으로 이해할 수 있음을 의미합니다.

 

 

 (3) 가중평균(weigthed mean)

 

 투자비율이 70%, 30%일 때 28% 이익발생, 28% 손실발생이 일어났을 때 평균수익률을 풀어봅시다.

 

 투자비율이 다르므로 표본평균을 이용하면 안되고 가중평균을 이용해야 합니다.

 

 여기에서 가중치 개념을 도입하면 $W_1$ = 700, $W_2$ = 300 으로 계산하면 쉽게 풀 수 있습니다.

 

 수익 = 0.7 X 0.28(수익률) + 0.3 X -0.28(수익률) = 0.112

평균수익률 = 0.112 / (0.7+0.3) = 0.112 = 11.2%

 

 이를 수식으로 적어보겠습니다.

 

$$W(가중치) = ({w_1, w_2, ... , w_n}) = \sum_{}{}w_i$$

 

$$일반식 : \overline{x}_{\overline{W}} = \frac{1}{W}\sum_{i=1}^nw_ix_i$$

 

 

 (4) 기하평균(geometric mean)

 

 기하평균을 식으로 나타내면 다음과 같습니다.

 

 

 이해를 돕기 위해 문제를 풀어보겠습니다.

 

 

 문제1 - 수익율 : 1월 28%, 2월 -28% 일때, 평균수익률을 구해라.

 

 이 문제에서는 1월달에 수익을 얻었으므로 2월달에는 더 큰돈에서 -28%를 해줘야 합니다. 이때 기하 평균을 이용해야 합니다.

 

 1월 100 X (1+0.28) = 100 X 1.28 = 128

2월 128 X (1-0.28) = 128 X 0.72 = 92.16

최종 금액 = 100 X (1.28 X 0.72)

 

(1.28 X 0.72) = $(1 + R)^2$

R이 평균 수익률을 의미합니다.

 

$\sqrt{1.28\times0.72}$ = 0.96 = 1-0.04 = -4%

 

R = -0.04가 됩니다.

 

 

 문제2 - 1인당 총소득 1985년 209만원, 2015년 3094.5만원이라고 할 때 연평균 증가율($(최종값/최초값)^{1/n}$)

 

 

 

 (5) 조화평균(harmonic mean)

 

 조화평균을 식으로 나타내면 다음과 같습니다.

 

 

 이해를 돕기 위해 문제를 풀어보겠습니다.

 

문제 - 전체 구간의 반을 60km/h, 나머지를 40km/h일때 평균속력을 구해라.

 

앞 구간 거리를 y, 걸린 시간을 $t_1$, $t_2$로 가정하면 다음과 같이 됩니다.

$$ y=60t_1, y=40t_2$$

 

조화평균으로 구한 평균속력

 


 

 이상으로 수치자료 분포의 중심위치(평균, 표본비율, 가중평균, 기하평균, 조화평균)에 대해서 알았습니다. 감사합니다.

 

 

반응형