(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다.
(k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다.
조건부 확률의 주요 이론인 베이즈 정리에 대해 알아보고 베이즈 정리와 관련된 다양한 응용문제를 다루어보겠습니다.
1. 베이즈 정리 - Bayes' theorem
베이즈 정리는 조건부확률을 이용하여 계산하는 이론입니다. 식은 다음과 같습니다.
조건부 확률의 두 가지 응용식을 이용했습니다.
이제 베이즈 정리에 대해 알아보도록 하겠습니다.
베이즈 정리는 원인과 결과 형태의 문제에서 결과에 대한 원인 분석을 가능하게 합니다!
조건부확률 $P(B \mid A)$는 순서적으로 볼 때, 대부분 사건 $A$가 먼저 발생하고 $B$가 이어 발생하는 상황으로 $A$는 원인, $B$는 결과의 형태를 갖습니다.
이와 같은 상황에서 원인의 가능성을 나타내는 $P(A)$ 또는 $P(A^c)$를 사건 $B$가 관측되기 이전의 확률이라고 해서 사전확률(pior probability)라고 합니다.
어떤 문제에서는 결과를 얻은 상태에서 그 결과가 발생하게 된 원인을 역으로 추적해 가는 경우가 있는데 이런 연구방식을 후향적 연구(retrospective study)라고 합니다.
이런 연구에서는 결과 $B$가 관측됐을 때 그 원인이 $A$일 사건의 확률 $P(A \mid B)$이 얼마인지에 관심을 갖습니다. 이 확률을 사건 $B$가 관측된 후의 $A$의 확률이라고 해서 사후확률(posterior probability)라고 합니다. 종종 $P(B \mid A)$와 $P(A \mid B)$를 혼돈하는 경우가 있는데 두 확률은 다른 개념입니다.
그러면 B가 발생했을 때 A의 확률(사후확률)을 어떻게 구할 수 있을까? 이 질문에 대한 답을 베이즈가 제시하였습니다.
$P(B)$와 $P(A \cap B)$에 조건부확률의 응용을 적용한 식입니다. 이 식에 의하면 결과 $B$가 주어졌을 때 원인 $A$의 확률을 사전확률 $P(A)$, $P(A^c)$와 일반적인 순서의 조건부확률을 이용하여 계산할 수 있다는 것입니다. $P(A)$의 정보(사전정보)를 알고 있다면 풀 수 있습니다.
베이즈정리를 이용하여 문제를 풀어보도록 하겠습니다.
문제1
암 간이진단 검사를 실시하는데 이 검사는 암에 걸렸을 때 양성반응이 나올 확률은 0.96이고 암에 걸리지 않았을 때 양성반응이 나올 확률이 0.05라고 하겠습니다. 그리고 암에 걸릴 확률을 0.001이라고 하겠습니다. 만약 검사에서 양성반응이 나왔다면, 암에 걸렸을 확률을 구해보도록 하겠습니다.
문제2
포털회사에서 스팸메일을 걸러내는 시스템을 개발하기 위해 메일 내용에 특정 단어가 들어갔을 때 스팸메일일 확률을 계산하고자 합니다. 수신메일중 40%가 스팸메일이고 나머지는 정상메일입니다. 스팸메일 중 내용에 '$A$'라는 단어가 있는 메일은 25%이고 정상메일 중 이 단어가 있는 경우는 2%라고 하겠습니다. 전체 메일 중 '$A$'단어를 포함한 메일의 비율은 이전 포스팅에서 풀었으므로 $P(A)$ = 0.112라는 정보를 이용하겠습니다.
수신메일 내용에 '$A$'라는 단어가 있다고 할 때 이 메일이 스팸메일일 확률을 구해 보겠습니다.
이상으로 조건부 확률의 주요 이론인 베이즈 정리에 대해 알아보고 베이즈 정리와 관련된 다양한 응용문제를 다루어보았습니다. 감사합니다.
'수학 > 기초 통계학' 카테고리의 다른 글
[통계학] 07-2. 확률분포, 확률분포표 (0) | 2020.09.17 |
---|---|
[통계학] 07-1. 확률변수의 정의와 종류 (이산확률변수, 연속확률변수) (0) | 2020.09.16 |
[통계학] 06-2. 조건부 확률 (2) - 독립사건 (0) | 2020.09.16 |
[통계학] 06-1. 조건부 확률 (1) - 조건부 확률의 정의와 응용사례 (0) | 2020.09.16 |
[통계학] 05. 확률의 기본 정리 - 확률의 공리, 기본 성질 (0) | 2020.09.15 |