수학/기초 통계학

[통계학] 06-1. 조건부 확률 (1) - 조건부 확률의 정의와 응용사례

AI 꿈나무 2020. 9. 16. 00:04
반응형

 

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다.

(k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다.

 


 조건부 확률의 정의와 조건부 확률에서 파생되는 주요 정리 및 응용사례에 대해 알아보겠습니다.

 


조건부 확률

 

문제

 동전 두 개를 던지는 실험에서 어떤 한 동전이 앞면이라는 것을 알았을 때, 두 동전 모두 앞면일 사건의 확률을 구해 보겠습니다. 두 동전을 던지는 실험에서의 표본공간은 다음과 같습니다.

 여기서 어떤 한 동전이 앞면이라는 정보가 추가로 주어지면 표본공간에서 {$TT$}가 발생할 수 없기 때문에 표본공간은 {$HH, TH, HT$} 으로 축소됩니다. 이 표본공간상에서 두 동전 모두 앞면일 사건의 확률은 1/3가 됩니다.

 

 위의 문제에서와 같이 확률실험에서 새로운 정보 또는 조건($A$)이 추가되었을 때, 사전 $B$의 확률을 조건부 확률(conditional probability)라고 합니다.

 사건 $A$가 일어났다면 $A$ 이외의 것은 일어날 수 없기 때문에 그림과 같이 $A$가 새로운 표본공간 $Ω^{'}$이 되고, $A$ 안에서 $A \cap B$에 있는 원소가 발생할 때 $B$가 일어날 것이므로 $A$하에서 $B$의 조건부확률은 $A$에서 $A \cap B$가 차지하는 비율로 $P(A \cap B) / P(A)$로 표시할 수 있습니다.

 

 사건 $A$가 주어졌을 때 사건 $B$의 조건부확률은 $P(B \mid A)$로 표시하고 다음과 같은 수식으로 정의할 수 있습니다.

 참고로 $A$가 주어졌을 때 $B$의 조건부 확률은 영어로 probability of $B$ given $A$라고 읽기 때문에 $P(B \mid A)$로 표시합니다. 또 조건부확률 $P(B \mid A)$은 순서적으로 볼 때, 대부분 사건 $A$가 먼저 발생하고 $B$가 이어 발생하는 상황으로 $A$는 원인, $B$는 결과의 형태를 갖습니다.

 

 

 

 

 조건부확률로 표시되는 대표적인 사회지표 중 하나사 사망률(mortality rate)입니다. 예를 들어 어떤 해의 40대 사망률이란 그해 전체 인구 중에서 40대에 사망한 사람의 비율이 아니라 40대 이상인 사람들 중에서 40대에 사망한 사람의 비율을 의미합니다. 

 이 자료에 의하면 40세의 남성사망률은 40세 이상 남자 생존자 97,727명 중 40세에 사망한 97727 - 97581 = 146명으로 다음과 같습니다.

 

$$40세 남성 사먕률 = \frac{40세 남자 사망자}{40세 이상 남자생존자} = \frac{146}{97727} = 0.00149 = 0.15% $$

 

 

 

 

 조건부 확률의 정의로부터 다음과 같은 다양한 확률이론을 도출할 수 있는데 먼저 간단한 조건부확률의 응용에 대해 알아보겠습니다.

 

 

 

조건부확률의 응용

첫 번째 응용

 이 식은 곱사건이 순차적인 사건들의 조건부확률의 곱으로 표시될 수 있다는 것을 의미합니다.

 

 예시1

 정상제품(정) 90개와 불량품(불) 10개가 들어있는 상자에서 무작위로 2개를 비복원추출하면 표본공간은 다음과 같이 됩니다.

표본공간

 표곤공간상의 (정상1, 정상2)의 확률을 먼저 구해 보겠습니다. 첫 번째 뽑은 부품이 정상일 확률은 100개의 부품 중 90개가 정상이므로 90/100이 되고 두 번째도 정상일 확률은 비복원이므로 99개 중 89개가 정상이므로 89/99가 되어 다음과 같이 됩니다.

 여기서 90/100을 식으로 표시하면 $P(정상_1)$이고 뒤의 확률 89/99는 $P(정상_2 \mid 정상_1)$으로 표시할 수 있습니다.

 

 두 번째 응용

 이 식에 수학적 귀납법을 이용하면 사건 $A_1$, ... , $A_n$에 대해 $P(A_1 \cap A_2 \cap ... \cap A_{n-1})$ >0 일 때 다음과 같이 일반식을 유도할 수 있습니다.

 

$$P(A_1 \cap A_2 \cap ... \cap A_n) = P(A_1)P(A_2 \mid A_1)P(A_3 \mid A_1 \cap A_2) ... P(A_n \mid A_1 \cap A_2 \cap ... \cap A_{n-1})$$

 

 

예시2

 예시1에서 상자에서 3개를 비복원으로 추출한다고 할 때, 순서적으로 (정상, 정상, 불량)일 확률은 다음과 같이 구할 수 있습니다.

 

$$P(정상_1, 정상_2, 불량_3) = P(정상_1)P(정상_2 \mid 정상_1)P(불량_3 \mid 정상_1 \cap 정상_2) = \frac{90}{100} \times \frac{89}{99} \times \frac{10}{98} = \frac{89}{1078}$$

 

 

세 번째 응용

예시3

 당첨복권이 4장인 복권 1000장 발매했을 때

 구입한 4장의 복권 중에서 $i$번째 복권이 당첨될 사건을 $A_i$라고 하면, 모든 $i$ = 1, 2, 3, 4에 대해 $P(A_1)$ = 0.004가 됩니다.

 첫 번째 복권이 당첨될 사건의 확률은 1000개 중 당첨복권은 4장이므로 $P(A_1)$ = 0.004가 되는 것은 당연합니다. 하지만 두 번째 복권부터의 확률계산은 직관적이지 않습니다. 왜냐하면 두 번째 복권은 첫 번째 복권이 무엇인가에 따라 달라질 수 있기 때문입니다. 그러므로 두 번째 복권이 당첨될 확률은 첫 번째 복권이 당첨이 되는 경우와 되지 않는 경우로 나누어 보아야 합니다.

 문제는 $P(A_2)$는 첫 번째 복권의 당첨여부와 관계없이 두 번째 복권이 당첨될 확률을 구하라는 것입니다. 이 문제를 알아보기 위해 아래와 같은 벤다이어그램을 살펴보겠습니다.

 벤다이어그램에서 보는 것과 같이 $B$는 $A_1$과 교집합을 이루는 부분과 $A_1^c$와 교집합을 이루는 부분으로 나눌 수 있습니다. 두 교집합 부분은 서로배반사건이므로 다음과 같이 쓸 수 있습니다.

 

$$P(A_2) = P(A_1 \cap A_2) + P(A_1^c \cap A_2)$$

 

 이 확률 식을 보면 두 번째 복권이 당첨될 확률은 첫 번째 복권이 당첨되고 두 번째도 당첨되는 확률과 첫 번째 복권은 당첨되지 않고 두 번째 복권이 당첨되는 확률의 합으로 표시됨을 알 수 있습니다. 교사건에 대한 조건부확률의 첫 번째 응용을 이용하면 $P(A_2)$는 다음과 같이 됩니다.

 

$$P(A_2) = P(A_1)P(A_2 \mid A_1) + P(A_1^c)P(A_2 \mid A_1^c)$$

$$ = \frac{4}{1000} \frac{3}{999} + \frac{996}{1000} \frac{4}{999} = \frac{4}{1000} = 0.004$$

 

 $P(A_1) = P(A_2)$가 되는 것을 확인할 수 있습니다. 이는 몇 번째 복권인지와 관계없이 당첨될 확률은 동일하게 0.004가 된다는 것을 의미합니다.

 어떤 일련의 사건들이 순차적으로 결합된 경우 특정 시점에서의 사건 확률은 앞에서 발생할 수 있는 상황이나 연결된 상황들의 확률을 모두 더하여 구할 수 있습니다.

 

예시 4

 어떤 메일시스템의 수신메일 중 40%가 스팸매일($S$)이고 나머지는 정상메일($N$)입니다.

$$ P(S) = 0.4, P(N) = 0.6 $$

 

 스팸메일 중 25%는 '$A$'라는 단어를 포함하고 정상메일 중 2%가 이 단어를 포함합니다.

$$P(A \mid S) = 0.25, P(A \mid N) = 0.02

 

 전체 메일 중 'A' 단어를 포함한 메일의 비율은?

$$P(A) = P(S \cap A) + P(N \cap A)

$$= P(S)P(A \mid S) + P(N)P(A \mid N)

 

$P(A)$ = 0.4 X 0.25 + 0.6 X 0.02 = 0.1 + 0.012 = 0.112

 

 

확률수형도(probability tree)

 예시 4를 푸는 데 유용하게 사용되는 그림이 확률수형도(probability tree)입니다.

확률수형도

 

표본공간의 분할(partition)

 복잡한 상황의 문제를 쉽게 해결하는 방법 중에 하나는 문제를 상황에 따라 세분화하여 해결하는 것입니다. 확률에서는 분할을 통해 문제의 상황을 세분화하고 있습니다.

 사건 $A_1, ... , A_n$이

 (1) 서로배반사건, 즉 모든 $i \neq j$에 대해 $A_i \cap A_j = \phi $

 (2) 전체를 이루는 사건(exhaustive), 즉 $A_1 \cup ... \cup A_n =$ Ω 이면, 사건 $A_1, ..., A_n$을 표본공간 Ω의 분할(partition)이라고 합니다. 따라서 다음의 등식이 성립하게 됩니다.

 


 

 이상으로 조건부 확률의 정의와 조건부 확률의 응용에 대해서 알아보았습니다. 감사합니다.

 

반응형