수학/기초 통계학

[통계학] 02-1. 기술통계 (1) - 자료의 종류와 구조(범주형, 수치형자료)

AI 꿈나무 2020. 9. 13. 13:43
반응형

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다.

(k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다.


2장 기술통계 - Descriptive statistics

 이번 장에서는 자료를 속성에 따라 분류하고 이 분류에 따라 자료를 표나 그래프와 같은 시각적인 방법으로 정리하는 방법에 대해 알아보겠습니다. 또한 평균이나 분산과 같은 수치를 이용하여 자료의 특성을 알아보는 방법에 대해 알아보겠습니다.

 


 

 1. 자료의 종류와 구조

 자료를 속성에 따라 어떻게 분류하는지 알아보겠습니다. 아래의 신체검사 자료(데이타셋)을 확인하겠습니다.

 

자료 1 : 임의로 선택된 아이돌 그룹 멤버들의 프로필 자료

 

 위의 자료에서 변수와 관측개체를 확인할 수 있습니다. 변수와 관측개체가 무엇인지 알아보겠습니다.

 

변수(variable)
 위의 자료에서 성별, 혈액형, 비만도 같은 항목을 의미합니다.

1. 일변량 자료(univariate data) : 하나의 변수만 있는 자료
2. 다변량 자료(multivariate data) : 여러 개의 변수로 이루어진 자료

- 변수들간 관련성 유무를 확인해야 합니다. 관련성이 있을 수도 있고 없을 수도 있습니다. 관련성이 있을 경우 분석하기가 어려워집니다.



관측개체(observation)
 선택된 각각의 대상을 의미합니다. (1번부터 끝까지)

- 관측개체들 간 관련성 유무를 확인해야 합니다. (관련성이 없고 각각의 독립된 개체라고 가정하면 분석하기가 쉬워집니다.)



 자료1은 8개의 변수에 50개의 관측개체로 이루어진 다변량 자료라고 할 수 있습니다.

 

 

 

 자료는 속성에 따라 크게 범주형 자료수치자료로 나눌 수 있습니다.

 

속성에 따른 자료의 분류

 

 각각의 의미에 대해 알아보겠습니다.

1. 범주형 자료(categorical data)
  신제검사 자료에서 성별, 혈액형, 비만도와 같이 질적인 속성을 갖습니다.

 범주형 자료를 두가지 종류로 나눌 수 있습니다.

  (1) 명목자료(nomibal data)
 단순히 범주를 표시하는 것으로 자료1에서는 성별, 혈액형이 명목자료 입니다.
ex) 혈액형, 성별

  (2) 순서자료(ordinal data)
 범주의 순서가 상대적으로 비교 가능한 경우를 순서자료라고 합니다.
 대부분의 순서자료는 원래 수치자료인데 이를 구간으로 그룹화(범주화)하여 순서자료로 바꾸어 사용하는 경우가 많습니다.
ex) 학점(A, B, C, D, F), 선호도(5, 4, 3, 2, 1)


2. 수치자료(numerical data)
 연령, 신장, 체중, 멤버의 수와 같이 양적으로 표시됩니다.

 수치자료를 두가지 종류로 나눌 수 있습니다.
  
  (1) 이산자료(discrete data)
 멤버의 수와 같이 값을 셀 수 있는 형태입니다.
 범주형 자료의 발생빈도로도 표현할 수 있습니다.

  (2) 연속자료(continuous data)
 신장이나 체중과 같이 연속적인 형태로 나뉘어지는 자료입니다.
 연속자료는 대부분 이산화를 통해 절사된 형태(소수점 아래의 값을 반올림)로 표시합니다.
ex) 신장(175cm~180cm), 체중, 시간

 


 

 이상으로 자료의 종류와 구조를 알아보았습니다. 감사합니다.

 

반응형