수학/기초 통계학

[통계학] 01-2. 통계학이란? (2) - 표본 추출 (단순확률, 계층, 층화, 집락추출법)

AI 꿈나무 2020. 9. 13. 00:44
반응형

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다.

(k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다.


 

2. 표본추출(sampling)

 표본추출을 이해하는데 필요한 주요 개념을 알아보겠습니다.

 모집단을 대표할 수 있는 표본을 얻기 위한 표본추출 방법에 대해 알아보겠습니다.

 

 (1) 확률표본추출(probability sampling)

 

 모집단을 구성하는 모든 추출단위에 대해 표본으로 추출된 확률을 알 수 있는 방법이다.

 표본추출틀(sampling frame, 표집틀) 필요하다.

 특정한 표본이 선정될 확률을 토대로 추정오차를 확률개념을 이용하여 과학적으로 설명할 수 있다.

 

표본추출틀이란? 모집단을 대표하는 표본을 추출하기 위해 명부가 필요한데 이를 표본추출틀이라고 한다.

 

종류

 단순확률추출, 계통추출, 집락추출, 층화추출 등

 

예시

모집단(1,2,3,4,5) 중 2개의 표본을 뽑으면, 어떤 개체가 표본으로 뽑힐 확률은 2/5가 된다.

 

 

 

 (2) 비확률표본추출(non-probability sampling)

 

 특정 표본이 선정될 확률을 알 수 없음

 추론결과의 정확도를 모른다.

 간편하고 비용이 적게 든다는 이유로 사회조사에서 광범위하게 사용된다.

 모집단을 대표하지 못한다.

 

종류

 편의추출: 자발적 참여, 백화점 앞, 포털사이트 인터넷 조사
 유의추출: 전문가를 선택해서 조사
 할당추출: 그룹 내 조사대상 임의로 선택, 랜덤화 과정 없음.

 

 

 2.1 단순확률추출(SRS, simple random sampling)

 

 크기가 N인 모집단에서 크기 n인 표본을 무작위로 추출 (1/N)

 모든 단위들이 표본에 선택될 확률이 동일 (n/N)

 실제 대규모 조사에서는 거의 사용되지 않지만 다른 모든 표본추출방법의 기초

 

예시

 모집단의 개체가 N개라고 할 떄, 개체 하나를 무작위로 뽑는다면 각각의 개체가 뽑일 확률은 1/N이 되고, 표본을 n개 추출하고자 한다면 모든 개체들이 표본으로 선택될 확률은 n/N이 된다.

 

 

 2.2 계통표본추출(systematic sampling)

 

 표집틀에서 처음 1~k 번째 단위들 중 하나를 랜덤하게 선택한 다음, 매 k 번쨰에 해당하는 단위들을 표본으로 추출한다.

 표집틀이 없어 고유번호 부여, 난수발생 등 단순확률추출법을 적용하기 어려운 실제 조사현장에서 폭 넓게 사용된다.

  예) 선거출구조사, 주차장 출입 차량에 대한 조사

 

 계통표본 추출과정

   1. 추출 간격 k의 결정: N/n 또는 정확도를 고려하여 결정

   2. 1~k에서 난수 하나를 선택해서 시작점을 선정

   3. 시작점에 k를 반복적으로 더해서 표본 추출

 

예시

 모집단 크기 = 500, 표본크기 50 일때, k = 500/50 = 10로 결정한다. 3을 선택했으면 3 + k, 3 + 2k 번째 난수를 선택한다. (3, 13, 23, 33)

계통표본추출 예시

 

 

 2.3 층화확률추출(stratified random sampling)

 

 모집단에 대한 사전정보를 이용하여 모집단을 여러 개의 부모집단(subpopulation)으로 나누고 각각의 부모집단에서 모집단의 비율만큼 단순확률추출하는 표본추출 방법을 의미한다.

    부모집단(subpopulation)의 구성 내역을 알고 있어야 한다.

    부모 집단 간 특성에 차이가 있다.

 

예시

 어떤 선거구는 지지성향이 다른 두 지역 A, B로 나누어지고 전체에서 A 지역의 유권자 비율은 60%이고 B 지역은 40%라고 하자. 사전정보를 이용하여 전체표본에서 60%를 A 지역에서, 40%를 B 지역에서 추출하게 만든다면 더욱 정확한 결과를 얻을 수 있다.

 

 

 2.4 집락표본추출(cluster sampling)

 서로 인접한 조사단위들을 묶어 구성한 집락(cluster)을 추출하고, 이들 집락 내의 조사단위들을 조사한다.

 

집락추출 과정

 1단계 : 고등학교 리스트에서 고등학교 추출(PSU, primary sampling unit)

 2단계 : 고등학교에서 학급을 추출

 3단계 : 학급에서 학생들을 추출

 

활용이유

 집락에 대한 표집틀 확보가 쉽다.

 지역적으로 집중되도록 표본추출을 할 수 있다.

 

 

 

 

반응형