수학/기초 통계학

[통계학] 09-3. 초기하분포

AI 꿈나무 2020. 9. 20. 01:24
반응형

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다.

(k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다.

 


 

 유한모집단이 두 그룹으로 나누어져 있고 표본을 비복원으로 추출할 때 특정 그룹에서 뽑힌 표본의 수에 대한 확률분포를 알아보겠습니다.

 초기하분포의 성질과 관련 문제에 대해 알아보겠습니다.

 


1. 초기하분포 - Hypergeometric Distribution

 초기하분포란

 크기가 $N$인 모집단이 크기가 $M$과 $N-M$인 두 개의 부모집단 (A, B)로 나누어진 경우(유한 모집단)

 n개의 표본을 비복원 추출할 때, 부모집단(A)에서 추출된 표본 수의 분포를 의미합니다. (각 표본의 추출과정은 독립적이지 않음)

 

 일반식은 다음과 같습니다.

 여기서 분모의 값은 전체 $N$개 중 $n$개의 표본을 선택하는 조합의 수이고

 분자의 값은 불량품 $M$개에서 $x$개를 선택하고 정상품 $N-M$개에서 $n-x$개를 선택하는 조합의 수 입니다.

 

 

예시문제

 6개가 정상품, 4개의 불량품이 있는 상자에서 임의로 3개의 제품을 비복원 추출한 경우에 3개 중 1개가 불량품일 확률을 구해봅시다.

 

 위 식에서 3은 위치 중 하나를 선택해 '불' 대입하는 방법의 수 입니다.

 그러면 $\frac{4 X 6 X 5}{10 X 9 X 8}$의 의미도 살펴보겠습니다.

 

 이를 정리하면 다음과 같은 식이 됩니다.

 

 위 식을 확률질량함수로 나타내면 다음과 같습니다.

 여기서 분모의 값은 전체 $N$개 중 $n$개의 표본을 선택하는 조합의 수이고

 분자의 값은 불량품 $M$개에서 $x$개를 선택하고 정상품 $N-M$개에서 $n-x$개를 선택하는 조합의 수 입니다.

 

2. 초기하분포의 확률질량함수

 초기하분포의 확률질량함수는 다음과 같습니다.

 

 여기서 X의 최댓값은 n과 M 중 작은 값인 mni(n,M)이 됩니다.

 X의 최솟값은 max(0, n-N+M)가 됩니다. n이 정상품의 수 N-M보다 크면 최소한 n-N+M개의 불량품이 반드시 선택되기 때문입니다.

 

 N(모집단)이 매우 크고 n(표본의 크기)이 상대적으로 작은 경우,

 비복원추출의 경우에도 베르누이시행으로 보아도 무리가 없습니다.

 따라서 초기화분포는 p = M/N인 이항분포로 근사할 수 있습니다.

 

예시문제

 10000개의 제품 중 7000개가 정상, 3000개가 불량이라면 3개를 비복원 추출에서 불량품이 한 개일 확률을 구해보겠습니다.

 N이 크고 n이 작으므로 이항분포로 가정하여 풀 수 있습니다.

 

3. 초기하분포의 기댓값

 초기하분포의 기댓값은 다음 식으로 나타낼 수 있습니다.

 분산은 다음과 같습니다.

 

 왜 이런 결과가 나왔는지 설명하도록 하겠습니다.

 

설명

 초기하분포의 평균과 분산은 이항분포의 평균과 분산을 계산할 때처럼 각 실험의 결과의 합으로 생각하면 쉽게 유도할 수 있습니다.

 확률변수 $X_i$는 $i$번째 추출에서 불량품이면 1, 아니면 0의 값을 가진다고 하면, 초기하확률변수 $X$도 다음과 같이 쓸 수 있습니다.

 

 여기서 $X$가 이항확률변수와 다른 점은 $X_i$들이 서로 독립이 아니라는 것 입니다.

 하지만 모든 $i$ = 1, ... , n$에 대해 $X_i$의 확률 분포는 다음과 같습니다.

 

 그러므로 $p = M/N$이라고 하면 $E(X_i) = M/N = p$이고 $Var(X_i) = p(1 - p)$가 되고 $X$의 평균은 다음과 같이 계산이 됩니다.

 

 이제 분산을 구해보도록 하겠습니다.

 이항분포와 다른 점은 추출이 비복원이므로 각각의 시행이 독립이 아닙니다.

 따라서 공분산계수 값을 더해주어야 합니다.

 

 위 식을 정리하면 다음 식을 도출할 수 있습니다.

 초기하분포의 분산은 이항분포의 분산에 $\frac{M-n}{M-1}$을 곱한 형태인데 이 항을 유한모집단수정항이라고 합니다. 이 값은 n이 1보다 크므로 언제나 1보다 작습니다.

 

 즉, 초기하분포의 분산은 이항분포의 분산보다 작아 통계적으로 더 안정적인 결과를 얻을 수 있기 때문에 표집(sampling)검사에서는 복원추출보다는 비복원추출에 의한 검사를 많이 합니다.

 

예시문제

 50개의 전구들이 들어 있는 상자에서 10개의 전구를 무작위로 선택하여 검사하겠습니다.

 10개의 전구 중 불량전구의 개수가 1개 이하이면 이 회사의 전구를 구매하기로 합니다.

 만약 이 상자에 5개의 불량품이 있을 때, 구매할 확률은?

QC곡선

 

4. 정리

 


 

 이상으로 초기하분포에 대해서 알아보았습니다. 감사합니다.

 

반응형