수학/기초 통계학

[통계학] 03-2. 다변량 자료 기술통계 (2) - 비교그림, 산점도, 산점도 행렬, 시계열 그림

AI 꿈나무 2020. 9. 14. 17:58
반응형

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다.

(k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다.

 


 

 표나 그래프를 이용하여 수치자료를 그룹별로 나누어 비교하는 방법을 알아보겠습니다.

 두 수치자료의 관계를 나타내거나 하나는 범주형, 하나는 수치형 자료를 이용하는 표나 그래프를 알아보겠습니다.

 


 

4. 비교그림

 

(1) 표를 이용한 비교

 

 자료구조와 분석목적에 따라 목적에 맞는 표를 만들 수 있습니다. 구조로는 분류자료(그룹, 범주) + 수치자료로 구성되어 있는 표를 알아보겠습니다. 목적으로는 그룹 간 비교입니다. 이를 위해 수치자료의 특성을 나타내는 값을 그룹별로 정리하여야 합니다. 예를 들어 표본크기, 평균, 표준편차 등으로 그룹을 나누는 경우가 있습니다.

 

 이를 정당별 당선자 득표율 비교를 위해 표를 하나 더 만들어 보겠습니다.

 이처럼 비교를 위해 수치자료를 범주화하여 표를 만들면 쉽게 비교를 할 수 있습니다.

 또한 상자그림을 통하여 비교를 할 수 있습니다.

 

 

 

(2) 그래프를 이용한 비교

 

 점도표, 히스토그램(막대그래프)을 중첩하거나 병렬로 만들어 비교할 수 있습니다.

 이처럼 히스토그램을 병렬로 그린다면 쉽게 비교를 할 수 있습니다.

 

 

 

(3) 산점도(scatter plot)

 

 산점도(scatter plot)는 순서쌍 자료를 2차원 평면상에 점으로 표시하여 두 변수들 간의 관계를 시각적으로 나타내는 그림입니다. 수치적 변수들 간의 관계를 유도할 때 이용됩니다. 관측개체의 수가 n인 다변량 자료에서 임의의 두 수치변수 $x$와 $y$의 관계를 알아본다고 합시다. 각각의 관측개체에 대해 두 변수의 값은 순서쌍 ($x_1$, $y_1$), ($x_2$, $y_2$), ... , ($x_n$, $y_n$) 으로 표시할 수 있습니다. 이를 2차원 평면상에 점으로 표시한 것이 산점도입니다.

 

올림픽 100미터 우승기록

 이 표를 산점도로 만들어 보겠습니다.

산점도

 이처럼 산점도를 이용하면 연도와 우승기록간의 상관관계를 시각적으로 파악할 수 있습니다.

 

 

 

(4) 산점도 행렬(scatter matrix)

 

 산점도 행렬은 3개 이상의 수치변수에 대해 두 변수씩 쌍으로 조합하여 산점도를 행렬형태로 표시하는 것입니다.

산점도 행렬

 변수명을 중심으로 상하의 그림은 해당변수가 x축, 좌우의 그림은 y축임을 의미합니다.

 

 

 

(5) 시계열 그림(time series plot)

 

 자료가 시간에 따라 관측된 경우 x 축에 관측시험, y축에 관측된 값을 표시한 산점도를 시계열 그림(time serise plot)이라고 합니다. 순서 파악을 쉽게하기 위해 일반적으로 관측 순으로 관측값들을 선으로 연결합니다.

 


 

 이상으로 표나 그래프를 이용하여 수치자료와 수치자료를 비교하거나 수치자료를 그룹별로 나누어 비교하는 방법을 알아보았습니다. 감사합니다.

 

반응형