수학/기초 통계학

[통계학] 03-1. 다변량 자료 기술통계 (1) - 분할표, k차원 분할표, 원도표, 막대그래프

AI 꿈나무 2020. 9. 14. 15:46
반응형

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다.

(k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다.

 


 

 다변량 범주형 자료를 표나 그래프를 이용하여 정리하는 방법을 알아보겠습니다.

 


 

 다변량 변수(형태)는 다음으로 분류할 수 있습니다.

 이를 분석 목적에 따라 다양한 표나 그래프를 선정해야 합니다.

 

비교 : X에 따라 Y에 차이가 있는가? (1번과 2번, 비율, 빈도, 분산, 평균 등)

관계 : X와 Y가 관련이 있는가?, X가 Y에 영향을 주는가? (1번, 4번)

분류 : X에 따라 Y를 분류할 수 있는가?, X와 Y가 비슷한 것끼리 묶을 수 있는가?

 

 이제부터 다변량 변수를 정리하는 표나 그래프에 대해 알아보겠습니다.

 

1. 분할표 - contingency table

 앞에서 배운 도수분포표는 일변량 자료에 대해 해당 범주에 몇 개의 관측개체가 있는지를 정리한 것입니다. 때로는 두 개 이상의 변수를 동시에 고려하여 관측개체의 빈도를 정리할 필요가 있습니다. 예를 들어, 아이돌 그룹 자료에서 성별과 혈액형 간에 관계가 있는지를 알아본다고 할 때 자료를 다음과 같은 2차원 표로 정리할 수 있습니다.

분할표

 위와 같이 2개 이상의 변수에 대해 교차시켜 빈도를 표시한 표를 분할표(contingency table) 또는 교차표(cross tabulation)라고 하며 위의 표를 2 X 3 분할표 라고 합니다. 또한 두 변수에 대해 각 범주에 교차되는 부분을 (cell)이라고 합니다.

 

 이러한 분할표에 비교를 위해 비율(상대도수)도 표기할 수 있습니다. 비율은 분석 목적 또는 자료가 어떻게 수집되었는지에 따라 다르게 표시해야 합니다. 아래 표를 살펴보도록 하겠습니다.

표1 : 성별에 따른 스마트폰 선호도 차이 조사
표2 : 성별과 스마트폰 모델 선호도 간에 관련성 여부

 분석 목적에 따라 비율표시 기준이 다르다는 것을 확인할 수 있습니다. 성별에 따른 스마트폰 선호도 차이를 조사할 때는 표1의 비율표시가 적절하고, 성별과 스마트폰 모델 선호도 간에 관련성 여부를 조사할 때는 표2의 비율표시가 적절합니다. 또한, 표1은 사전에 남자 76명과 여자 70명을 나눈 경우이고 표2는 146명을 무작위로 조사한 경우입니다.

 

 

 또한 수치자료를 범주화하고 분할표를 작성할 수 있습니다. 부자의 신장을 165, 170, 175, 180을 기준으로 범주화한 자료들로 분할표를 작성해보겠습니다.

수치자료를 범주화한 분할표

 표에서 보듯이 부자의 신장은 상관관계가 있다는 것을 확인할 수 있습니다.

 

 

 

 k차원 분할표(k-dimensional contigency table)

 3개 이상의 범주형 변수에 대해도 분할표를 작성할 수 있습니다. 변수의 개수가 k라고 하면 k차원 분할표라고 합니다.

 

 타이타닉호에 승선했던 승객과 승무원의 생존자와 사망자 수의 자료를 통해 제작된 k차원 분할표를 살펴보겠습니다.

 이 표는 그룹(성인남녀와 어린이) 3개, 생존여부 2개, 등급(객실등급과 승무원) 4개로 분류하여 정리한 k차원 분할표입니다. 3 X 2 X 4 = 24칸 총 24칸이 나오게 됩니다.

k차원 분할표

 분할표를 통해 승무원의 생존률이 낮다는 것을 확인할 수 있습니다. 하지만 이것은 잘못된 정보입니다. 막대그래프를 통하여 세세하게 알아본다면 정보에 오류가 있다는 것을 확인할 수 있습니다.

 

2. 원도표 - pie chart

 다변량 자료를 원도표를 이용해 그래프로 나타낼 수 있습니다.

 비교 그룹별로 파이차트를 작성하여 그래프를 그리면 됩니다.

 

 

3. 막대그래프 - bar chart

 막대그래프를 그릴 때는 분석목적과 자료형태에 맞게 빈도/비율 중 선택할 수 있습니다.

 타이타닉호 생존율 분할표를 이용하여 제작한 막대그래프를 살펴보도록 하겠습니다. 

타이타닉호 생존율 분할표

 분할표를 통해 남자의 생존율이 여자의 생존율보다 낮다는 것을 확인할 수 있습니다. 이제 막대그래프를 살펴보겠습니다.

 막대그래프를 보면 승무원 중에는 어린아이가 없다는 것을 확인할 수 있습니다. 또한 남자의 생존율이 여성보다 낮다는 것을 알 수 있으며 2등급 객실에 거주하는 남자의 생존율이 현저히 낮다는 것을 알 수 있습니다.

 

 

정보 정리

 이들 정보를 종합하여 k차원 분할표를 통해 승무원의 생존율이 낮다라는 정보는 승무원 중에 남자의 비율이 높기 때문이라는 것을 알 수 있습니다. 또, 승무원 중에는 어린이가 없었습니다.

 2등급 객실에 거주하는 남자의 생존율이 현저히 낮은데 그 남성들의 정보를 조사한다면 생존율이 낮았던 이유를 알 수 있을 것 같습니다.

 


 

 이상으로 다변량 범주형 자료를 표나 그래프를 이용하여 정리하는 방법을 알아보았습니다. 또한 수치자료도 범주화를 이용하여 순서자료로 만든 뒤에 표나 그래프를 이용하여 정리할 수 있었습니다. 감사합니다.

 

 

반응형