수학/기초 통계학

[통계학] 10-4. 다항분포

AI 꿈나무 2020. 9. 20. 19:31
반응형

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다.

(k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다.

 


 

 이항분포의 확장된 형태인 다항분포의 성질에 대해 알아보겠습니다.

 


1. 도수분포표 - frequency table

 다항분포를 알아보기 전에 도수분포표를 먼저 보겠습니다.

 도수분포표는 범주형 자료 또는 범주화된 자료를 정리하는 표입니다.

 각 범주에 몇 개의 관측개체가 있는지를 정리한 표 입니다.

 도수와 상대도수가 있습니다.

 표본을 계속 뽑으면 해당범주가 모집단에서 차지하는 비율(확률)로 수렴하게 됩니다. 이것이 통계학에서의 관심사입니다.

 

2. 다항분포 - multinomial distribution

  다항분포란?

 아래 세가지 조건을 충족한 것을 다항분포를 따른다고 합니다.

 각 시행에서 발생 가능한 결과는 k가지입니다.

 각 시행에서 $i$번째 결과의 확률은 $p_i$로 고정합니다.

 각 시행은 독립적으로 수행합니다.

 

 

 이해를 돕기 위해 $(X_1, X_2, ... , X_k)$ : n번 시행했을 때, 각 결과의 횟수를 적어둔 표를 보겠습니다.

 $X_{ij}$는 $i$번째 시행에서 결과 $j$가 나오면 1 아니면 0이 됩니다.

 $X_ij$가 1이면 $X_il$은 0입니다. (l $\neq$ j)

 $i_1 \neq i_2$인 경우 $X_{i_1j_1}$와 $X_{i_2j_2}는 서로 독립입니다.

 

3. 다항분포의 확률질량함수

 다항분포의 확률질량함수는 다음과 같이 표기할 수 있습니다.

 

 이항분포의 확률질량함수는 다음과 같습니다.

 

3. 다항분포의 특징

 특정 결과에만 관심이 있는 경우 나머지 결과를 묶어서 하나의 변수로 계산하면 편리합니다.

 

 예를 들어, $i$번째 결과($R_i$)에만 관심이 있으면 나머지 결과($R_i^c$)를 묶습니다.

 그러면 다음 식이 도출됩니다.

 

 $i$번째 또는 $j$번째 결과 ($R_i \cup R_j$)에 관심이 있다고 하겠습니다.

 그러면 다음 식이 도출됩니다.

 

4. $X_i$와 $X_j$와의 관계

 두 확률변수의 관계를 알기 위해 공분산을 이용합니다.

 

 

 분산은 다음과 같이 구할 수 있습니다.

 

5. 예시문제

 

6. 정리

 


 

 이상으로 다항분포에 대해 알아보았습니다. 감사합니다.

 

반응형