(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다.
(k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다.
자료의 분표 형태가 대칭인지 아닌지를 나타내는 통계값(왜도)을 알아보겠습니다.
분포의 꼬리 부분이 얼마나 두터운지를 나타내는 통계값(첨도)를 알아보겠습니다.
7.3 분포의 형태
지금까지의 포스팅에서는 자료의 중심위치와 산포에 관련된 통계값에 대해 알아보았습니다. 수치형 자료에 대한 통계분석방법에서는 대부분 모집단의 형태가 중심위치를 기준으로 좌우대칭인 것으로 가정하고 있습니다.
분석방법의 적절성은 가정한 조건을 자료가 얼마나 만족하고 있는지에 따라 영향을 받습니다. 이런 점에서 자료가 어떤 형태로 분포되어 있는지, 자료가 모집단의 가정을 만족하는지 확인하는 통계값에 대해 알아보겠습니다.
(1) 왜도(skewness)
왜도란 자료의 대칭과 비대칭의 형태를 수치화하기 위해 피어슨이 제안한 통계값입니다.
왜도의 주요부분은 편차의 세제곱인 $(x_i - \overline{x})^3$로 평균을 중심으로 왼쪽의 자료는 음수, 오른쪽의 자료는 양수 값을 갖는 것입니다. 자료가 평균에서 멀어지면 멀어질수록 큰 음수가 큰 양수가 됩니다.
왜도를 설명하기 위해 정규화(평균 0, 표준편차 1) 자료의 히스토그램을 살펴보겠습니다.
첫 번째 그림은 오른쪽으로 꼬리부분이 길게 뻗어 있어 $\sqrt{b_1}$은 큰 양수값을 갖게 됩니다.
두 번째 그림은 좌우가 비슷한 형태를 가져 음수와 양수가 상쇄되어 $\sqrt{b_1}$는 0 근처의 값을 갖게 됩니다.
세 번째 그림은 왼쪽으로 꼬리부분이 길게 뻗어 있어 $\sqrt{b_1}$은 큰 음수값을 갖게 됩니다.
이를 정리하면 순서대로 양의 왜도(positive skewness), 대칭적(symmetric), 음의 왜도(negative skewness)를 의미합니다. 다른 표현으로는 양의 왜도를 "skewed to the right"(오른쪽으로 치우쳤음), 음의 왜도를 "skewed to the left"(왼쪽으로 치우쳤음) 이라고도 합니다.
통계학에서는 꼬리가 길게 분포된 것을 두터운 꼬리(heavy tail)이라고 합니다.
SAS와 같은 통계 프로그램에서는 수정된 왜도를 사용하고 있습니다.
(2) 첨도(kurtosis)
첨도는 꼬리부분의 두터운 정도를 수치화하기 위한 방법으로 피어슨이 제안한 통계값입니다.
첨도의 주요부분은 편차의 네제곱인 $(x_i - \overline{x})^4$로 평균을 중심으로 자료가 멀리 떨어져 있으면 상대적으로 매우 큰 값을 가지며 근처에 있으면 작은 값을 갖습니다. 첨도는 왜도와 다르게 항상 양수가 되며 분포의 중심보다는 꼬리부분이 얼마나 두터운지에 따라 영향을 많이 받습니다.
첨도를 설명하기 위해 정규화(평균 0, 표준편차 1) 자료의 히스토그램을 살펴보겠습니다.
꼬리가 짧으면 $b_2$는 작은 값을 갖게 되고 꼬리가 길면 $b_2$는 큰 값을 갖게 됩니다.
통계학에서 가장 중요한 분포인 정규분포의 경우 이론적으로 첨도는 3이 됩니다. 이러한 이유로 첨도를 계산할 때 아래 식을 사용하기도 합니다.
SAS와 같은 통계 프로그램에서는 다음과 같은 수정된 첨도를 사용하기도 합니다.
(3) 왜도와 첨도의 활용
왜도와 첨도는 자료 분포의 형태를 나타내는 측도입니다. 심한 왜도나 큰 첨도를 갖는 경우 자료에 이상점이 있을 가능성이 높아짐니다. 또한 나중에 배울 정규성 검정에도 이용됩니다.
JB검정을 통해 자료가 정규분포에 얼마나 가까운지 확인할 수 있습니다.
이상으로 자료의 분포 형태가 대칭인지 아닌지를 나타내는 왜도와 분포의 꼬리 부분이 얼마나 두터운지를 나타내는 첨도를 알아보았습니다. 감사합니다.
'수학 > 기초 통계학' 카테고리의 다른 글
[통계학] 03-2. 다변량 자료 기술통계 (2) - 비교그림, 산점도, 산점도 행렬, 시계열 그림 (0) | 2020.09.14 |
---|---|
[통계학] 03-1. 다변량 자료 기술통계 (1) - 분할표, k차원 분할표, 원도표, 막대그래프 (0) | 2020.09.14 |
[통계학] 02-7. 기술통계 (7) - 수치자료 분포의 산포2 (표본분산, 표본표준편차, 표준화, 변동계수) (0) | 2020.09.14 |
[통계학] 02-6. 기술통계 (6) - 수치자표 분포의 산포1 (범위, 사분위범위, 상자그림) (0) | 2020.09.13 |
[통계학] 02-5. 기술통계 (5) - 수치자료의 대체중심위치(중앙값, 절사평균, 최빈값) (0) | 2020.09.13 |