수학/기초 통계학

[통계학] 02-5. 기술통계 (5) - 수치자료의 대체중심위치(중앙값, 절사평균, 최빈값)

AI 꿈나무 2020. 9. 13. 21:26
반응형

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다.

(k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다.

 


 

 

 평균이 갖고 있는 단점은 이상점에 민감하다(이상점에 로보스트하지 않다)는 것이었습니다.

 평균이 갖고 있는 단점을 해결할 수 있는 대체 통계값을 계산하는 방법(중앙값, 절사평균, 최빈값)과 성질을 알아보겠습니다.

 

 


 

 (6) 표본중앙값(sample median, 표본중위수)

 표본중앙값은 자료를 크기순서대로 나열했을 때 가운데 위치에 있는 값으로 표본중위수라고도 합니다.

 

 표본을 오름차순으로 정렬한 것을 순서통계량(order statistics)라고 합니다. ($x_1 < x_2 < ... < x_n$)

 

 표본중앙값을 일반식으로 나타내면 다음과 같습니다.

 

 

 여기서 $k_1 = (n+1)/2$이고 $k_2 = n/2$ 입니다.

 

 예를 들어,

 n=5 이면 3번째 순서통계량 $x_(3)$이 표본중앙값이 되고,

 n=6 이면 3번째와 4번째의 평균이 표본중앙값이 됩니다.

 

 장점은 표본중앙값은 극단적인 값에 영향을 받지 않습니다. 이것은 자료에 이상점의 유무에 관계없이 안정적인 중심위치를 제공한다는 것을 의미하는데 이러한 특징을 통계학에서는 '이상점에 로버스트(robust)하다.'라고 합니다.

 

 단점으로는 자료가 가지고 있는 정보를 다 활용하지 못한다는 것 입니다.

 

 평균과 중앙값은 모두 장단점을 가지고 있어 어떤 값을 중심위치로 사용해야하는지 궁금할 때, 두 값을 계산하여 차이가 크지 않으면 표본평균을, 차이가 크면 중앙값을 사용하는 방법이 있습니다. 두 값의 차이가 크다는 것은 자료 중에 이상점이 있을 가능성이 높기 때문입니다.

 

평균과 중앙값의 차이가 클 경우 자료 중에 이상점이 있을 가능성이 높습니다.

 

 이 경우에는 평균으로 중앙값을 사용하는 것이 좋습니다.

 

 

 (7) 표본절사평균(sample trimmed mean)

 표본절사평균은 순서통계량(오름차순 정렬)을 구하고 순서통계량의 하위 $\alpha$%, 상위 $\alpha$%까지의 자료를 이용하여 표본평균을 계산하는 것입니다. 

 

 표본평균은 모든 자료의 정보를 사용하지만 이상점에 로버스트 하지 않습니다.

 표본중앙값은 로버스트 하지만 자료의 정보를 다 활용하지 못합니다.

 절사평균은 이 두 통계값이 가지고 있는 장점을 살리면서 단점을 줄여주는 통계값입니다. 

 

 하위 $\alpha$%, 상위 $\alpha$%에 해당하는 위치를 찾아야 하는 번거로움이 있습니다. 따라서 실제로 사용할 때는 n개 중 작은 것과 큰 것 k개씩을 제외한 나머지 n-2k개의 표본평균을 이용합니다.

 

 순서통계량에서 하위 $\alpha$%의 값을 $\alpha$백분위수(percentile)라고 합니다.

 

 

 (8) 표본최빈값(sample mode)

 최빈값(mode)은 자료 중 빈도가 가장 많은 값을 의미합니다.

 

 주로 이산자료인 경우 사용되며 연속자료의 경우에는 자료의 값을 직접 사용하기보다는 그룹화하여 히스토그램을 그리고 간단하게 가장 높은 밀도를 가지는 구간의 중앙값을 최빈값으로 사용하거나 내삿법을 이용하여 가장 높은 밀도의 위치를 추정하여 최빈값으로 사용합니다.

 

히스토그램에서 내삿법을 이용해 가장 높은 밀도의 위치를 추정

 

 위 그림과 같이 얻은 위치는 히스토그램에서 가장 높은 밀도를 가지는 부분으로 중요한 위치가 됩니다.

 


 

 이상으로 평균이 갖고 있는 단점을 해결할 수 있는 대체 통계값을 계산하는 방법(중앙값, 절사평균, 최빈값)과 성질을 알아보았습니다. 감사합니다.

 

 

반응형