Loading [MathJax]/jax/output/CommonHTML/jax.js

수학/기초 통계학

[통계학] 06-1. 조건부 확률 (1) - 조건부 확률의 정의와 응용사례

AI 꿈나무 2020. 9. 16. 00:04
반응형

 

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다.

(k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다.

 


 조건부 확률의 정의와 조건부 확률에서 파생되는 주요 정리 및 응용사례에 대해 알아보겠습니다.

 


조건부 확률

 

문제

 동전 두 개를 던지는 실험에서 어떤 한 동전이 앞면이라는 것을 알았을 때, 두 동전 모두 앞면일 사건의 확률을 구해 보겠습니다. 두 동전을 던지는 실험에서의 표본공간은 다음과 같습니다.

 여기서 어떤 한 동전이 앞면이라는 정보가 추가로 주어지면 표본공간에서 {TT}가 발생할 수 없기 때문에 표본공간은 {HH,TH,HT} 으로 축소됩니다. 이 표본공간상에서 두 동전 모두 앞면일 사건의 확률은 1/3가 됩니다.

 

 위의 문제에서와 같이 확률실험에서 새로운 정보 또는 조건(A)이 추가되었을 때, 사전 B의 확률을 조건부 확률(conditional probability)라고 합니다.

 사건 A가 일어났다면 A 이외의 것은 일어날 수 없기 때문에 그림과 같이 A가 새로운 표본공간 이 되고, A 안에서 AB에 있는 원소가 발생할 때 B가 일어날 것이므로 A하에서 B의 조건부확률은 A에서 AB가 차지하는 비율로 P(AB)/P(A)로 표시할 수 있습니다.

 

 사건 A가 주어졌을 때 사건 B의 조건부확률은 P(BA)로 표시하고 다음과 같은 수식으로 정의할 수 있습니다.

 참고로 A가 주어졌을 때 B의 조건부 확률은 영어로 probability of B given A라고 읽기 때문에 P(BA)로 표시합니다. 또 조건부확률 P(BA)은 순서적으로 볼 때, 대부분 사건 A가 먼저 발생하고 B가 이어 발생하는 상황으로 A는 원인, B는 결과의 형태를 갖습니다.

 

 

 

 

 조건부확률로 표시되는 대표적인 사회지표 중 하나사 사망률(mortality rate)입니다. 예를 들어 어떤 해의 40대 사망률이란 그해 전체 인구 중에서 40대에 사망한 사람의 비율이 아니라 40대 이상인 사람들 중에서 40대에 사망한 사람의 비율을 의미합니다. 

 이 자료에 의하면 40세의 남성사망률은 40세 이상 남자 생존자 97,727명 중 40세에 사망한 97727 - 97581 = 146명으로 다음과 같습니다.

 

40=4040=14697727=0.00149=0.15

 

 

 

 

 조건부 확률의 정의로부터 다음과 같은 다양한 확률이론을 도출할 수 있는데 먼저 간단한 조건부확률의 응용에 대해 알아보겠습니다.

 

 

 

조건부확률의 응용

첫 번째 응용

 이 식은 곱사건이 순차적인 사건들의 조건부확률의 곱으로 표시될 수 있다는 것을 의미합니다.

 

 예시1

 정상제품(정) 90개와 불량품(불) 10개가 들어있는 상자에서 무작위로 2개를 비복원추출하면 표본공간은 다음과 같이 됩니다.

표본공간

 표곤공간상의 (정상1, 정상2)의 확률을 먼저 구해 보겠습니다. 첫 번째 뽑은 부품이 정상일 확률은 100개의 부품 중 90개가 정상이므로 90/100이 되고 두 번째도 정상일 확률은 비복원이므로 99개 중 89개가 정상이므로 89/99가 되어 다음과 같이 됩니다.

 여기서 90/100을 식으로 표시하면 P(1)이고 뒤의 확률 89/99는 P(21)으로 표시할 수 있습니다.

 

 두 번째 응용

 이 식에 수학적 귀납법을 이용하면 사건 A1, ... , An에 대해 P(A1A2...An1) >0 일 때 다음과 같이 일반식을 유도할 수 있습니다.

 

P(A1A2...An)=P(A1)P(A2A1)P(A3A1A2)...P(AnA1A2...An1)

 

 

예시2

 예시1에서 상자에서 3개를 비복원으로 추출한다고 할 때, 순서적으로 (정상, 정상, 불량)일 확률은 다음과 같이 구할 수 있습니다.

 

P(1,2,3)=P(1)P(21)P(312)=90100×8999×1098=891078

 

 

세 번째 응용

예시3

 당첨복권이 4장인 복권 1000장 발매했을 때

 구입한 4장의 복권 중에서 i번째 복권이 당첨될 사건을 Ai라고 하면, 모든 i = 1, 2, 3, 4에 대해 P(A1) = 0.004가 됩니다.

 첫 번째 복권이 당첨될 사건의 확률은 1000개 중 당첨복권은 4장이므로 P(A1) = 0.004가 되는 것은 당연합니다. 하지만 두 번째 복권부터의 확률계산은 직관적이지 않습니다. 왜냐하면 두 번째 복권은 첫 번째 복권이 무엇인가에 따라 달라질 수 있기 때문입니다. 그러므로 두 번째 복권이 당첨될 확률은 첫 번째 복권이 당첨이 되는 경우와 되지 않는 경우로 나누어 보아야 합니다.

 문제는 P(A2)는 첫 번째 복권의 당첨여부와 관계없이 두 번째 복권이 당첨될 확률을 구하라는 것입니다. 이 문제를 알아보기 위해 아래와 같은 벤다이어그램을 살펴보겠습니다.

 벤다이어그램에서 보는 것과 같이 BA1과 교집합을 이루는 부분과 Ac1와 교집합을 이루는 부분으로 나눌 수 있습니다. 두 교집합 부분은 서로배반사건이므로 다음과 같이 쓸 수 있습니다.

 

P(A2)=P(A1A2)+P(Ac1A2)

 

 이 확률 식을 보면 두 번째 복권이 당첨될 확률은 첫 번째 복권이 당첨되고 두 번째도 당첨되는 확률과 첫 번째 복권은 당첨되지 않고 두 번째 복권이 당첨되는 확률의 합으로 표시됨을 알 수 있습니다. 교사건에 대한 조건부확률의 첫 번째 응용을 이용하면 P(A2)는 다음과 같이 됩니다.

 

P(A2)=P(A1)P(A2A1)+P(Ac1)P(A2Ac1)

=410003999+99610004999=41000=0.004

 

 P(A1)=P(A2)가 되는 것을 확인할 수 있습니다. 이는 몇 번째 복권인지와 관계없이 당첨될 확률은 동일하게 0.004가 된다는 것을 의미합니다.

 어떤 일련의 사건들이 순차적으로 결합된 경우 특정 시점에서의 사건 확률은 앞에서 발생할 수 있는 상황이나 연결된 상황들의 확률을 모두 더하여 구할 수 있습니다.

 

예시 4

 어떤 메일시스템의 수신메일 중 40%가 스팸매일(S)이고 나머지는 정상메일(N)입니다.

P(S)=0.4,P(N)=0.6

 

 스팸메일 중 25%는 'A'라는 단어를 포함하고 정상메일 중 2%가 이 단어를 포함합니다.

$$P(A \mid S) = 0.25, P(A \mid N) = 0.02

 

 전체 메일 중 'A' 단어를 포함한 메일의 비율은?

$$P(A) = P(S \cap A) + P(N \cap A)

$$= P(S)P(A \mid S) + P(N)P(A \mid N)

 

P(A) = 0.4 X 0.25 + 0.6 X 0.02 = 0.1 + 0.012 = 0.112

 

 

확률수형도(probability tree)

 예시 4를 푸는 데 유용하게 사용되는 그림이 확률수형도(probability tree)입니다.

확률수형도

 

표본공간의 분할(partition)

 복잡한 상황의 문제를 쉽게 해결하는 방법 중에 하나는 문제를 상황에 따라 세분화하여 해결하는 것입니다. 확률에서는 분할을 통해 문제의 상황을 세분화하고 있습니다.

 사건 A1,...,An

 (1) 서로배반사건, 즉 모든 ij에 대해 AiAj=ϕ

 (2) 전체를 이루는 사건(exhaustive), 즉 A1...An= Ω 이면, 사건 A1,...,An을 표본공간 Ω의 분할(partition)이라고 합니다. 따라서 다음의 등식이 성립하게 됩니다.

 


 

 이상으로 조건부 확률의 정의와 조건부 확률의 응용에 대해서 알아보았습니다. 감사합니다.

 

반응형