(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다.
(k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다.
수치자료의 퍼져있는 정도인 산포도를 나타내는 값 중 두 특정 위치의 정보를 활용한 통계값(범위, 사분위 범위)을 알아보겠습니다.
자료의 주요 위치를 파악하고 이상점 유무를 확인하는 데 사용되는 상자그림에 대해 알아보겠습니다.
7.2 산포 - dispersion, 퍼짐
대부분의 경우 중심위치만으로 자료의 특성을 파악하기에는 한계가 있습니다.. 중심위치만큼 중요한 통계값이 산포입니다.
산포는 자료들이 얼마나 퍼져 있는지를 나타내는 측도이며, 중심위치가 얼마나 안정적인지에 대한 중요한 정보를 제공합니다.
자료가 조밀하게 모여 있는 경우 중심위치(평균)의 변동성이 작아져 신뢰도는 높아집니다.
자료가 넓게 퍼져있는 경우 중심위치(평균)의 변동성이 커져 신뢰도는 떨어질 수 있습니다.
(1) 범위(range)
범위는 자료 중 가장 큰 값과 작은 값의 차이입니다.
$$ 범위 = x_{(n)} - x_{(1)} $$
표본은 최댓값 $x_{(n)}$과 최솟값 $x_{(1)}$을 계산하는 데만 이용되기 때문에 많은 정보를 활용하지 못할 뿐만 아니라 자료 중 이상점이 있으면 범위가 클 수 있어 자료 전체의 퍼져있는 정보를 파악할 수 없습니다.
(2) 사분위(간)범위(Interquartile-Range)
사분위수(quartile)는 자료를 동일한 비율로 4등분 할 때의 세 위치를 의미합니다.
자료를 오름차순으로 정렬 했을 때
25% 지점 : 제1사분위수($Q_1$)
50% 지점 : 제2사분위수($Q_2$) = 표본 중앙값
75% 지점 : 제3사분위수($Q_3$)
사분위 수 계산방법 입니다.
k가 정수이면 $x_{(k)}$가 해당 사분위수가 되고, 정수가 아니면 비례에 의한 내삽법 or 가중평균을 적용하여 사분위수를 결정합니다.
예를 들어,
n=42일때 $Q_1$에 해당하는 위치는 41 X 0.25 + 1 = 11.25가 됩니다.
$x_{(11)}$와 $x_{(12)}$의 가중 평균을 적용하여 $Q_1$을 구할 수 있습니다.
$Q_1$ = 0.75 X $x_{(11)}$ + 0.25 X $x_{(12)}$
여기서, 0.75와 0.25는 가중치를 의미합니다.
이번에는 사분위(간)범위를 알아보겠습니다. 사분위(간)범위는 제3사분위수와 제1사분위수의 간격을 의미하며 자료가 얼마나 퍼져있는지를 나타내는 측도로 사용됩니다.
$$IQR = Q_{3} - Q_{1}$$
사분위수범위의 경우 25% 지점과 75% 지점의 값을 이용해 이상점에 로버스트하지만 대부분의 표본값은 순서를 정할 때 사용되고 직접적으로 이용되지 않기 때문에 정보의 손실이 여전히 많다는 단점이 있습니다.
상자그림(box plot)
사분위수와 사분위범위는 상자그림을 그릴 때 사용됩니다.
상자그림은 자료의 주요 위치 파악과 이상점 검출 등에 사용되는 그림입니다.
상자그림 작성방법
1. $Q_1$, $Q_2$, $Q_3$ 지점에 수직선을 긋고 상자를 만든다.
2. $Q_2$는 중앙값이므로 굷게 표시한다.
3. L = $Q_1 - 1.5 \times IQR$을 계산하고 L 보다 큰 관측값 중 가장 잔은 값에 직선을 표시하고 이 직선과 $Q_1$ 위치를 점선으로 연결한다.
4. U = $Q_3 + 1.5 \times IQR$을 계산하고 U보다 작은 관측값 중 가장 큰 값에 직선을 표시하고 이 직선과 $Q_3$의 위치를 점선으로 연결한다.
5. L보다 작은 값, U보다 큰 값은 이상점으로 o표시를 한다.
이상으로 수치자료 분포의 산포(범위, 사분위간범위)를 공부하였고 사분위간범위로 그릴 수 있는 상자그림에 대해 공부하였습니다. 감사합니다.
'수학 > 기초 통계학' 카테고리의 다른 글
[통계학] 02-8. 기술통계 (8) - 수치자료의 형태 (왜도, 첨도, 꼬리) (0) | 2020.09.14 |
---|---|
[통계학] 02-7. 기술통계 (7) - 수치자료 분포의 산포2 (표본분산, 표본표준편차, 표준화, 변동계수) (0) | 2020.09.14 |
[통계학] 02-5. 기술통계 (5) - 수치자료의 대체중심위치(중앙값, 절사평균, 최빈값) (0) | 2020.09.13 |
[통계학] 02-4. 기술통계 (4) - 수치자료 분포의 중심위치(평균, 표본비율, 기하평균, 조화평균, 가중평균) (0) | 2020.09.13 |
[통계학] 02-3. 기술통계 (3) - 수치형 자료 정리(도수분포표, 점도표, 히스토그램, 줄기-잎 그림) (0) | 2020.09.13 |