반응형

분류 전체보기 823

[통계학] 15. 이항분포의 정규근사

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다. 시행횟수가 많은 경우 이항분포의 확률을 정규근사로 계산하는 원리에 대해 알아보겠습니다. 이를 통해 비율에 대한 통계적 추론의 이론적 근거를 마련합니다. 1. 이항분포의 정규근사 $X$ ~ $B(n,p)$, $n$이 크고 $p$가 작은 경우 => 포아송 근사 $p$가 큰 경우 => 포아송 근사 $p$가 0.5에서 많이 벗어나지 않은 경우 => 정규근사를 이용합니다. $X_i$를 $i$번째 시행에서의 베르누이 확률변수 라고 하면 다음과 같이 표시할 수 있습니다. $$ X = X_1 + X_2 + ... + X_n, P = \frac{X_1 + X_2 + ... ..

[통계학] 14. 중심극한정리

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다. 확률표본을 이용하여 계산된 표본평균(합)의 통계적 성질을 알아보겠습니다. 통계학의 중요 이론인 중심극한정리에 대해 알아보겠습니다. 1. 큰 수의 법칙 - Law of large numbers, 대수의 법칙 표본평균의 분산에서 n을 계속 크게 만들면 분산이 0이 됩니다. 이를 큰 수의 법칙이라고 합니다. 분산이 0이라는 의미는 표본평균은 모평균에 수렴한다는 의미입니다. 2. 중심극한정리 - Central limit thorem, CLT 중심극한정리는 모집단의 형태와 관계없이 표본크기 $n$이 커질수록 $\overline X$의 분포는 정규분포에 근사한다는 성질..

[통계학] 13. 표집분포

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다. 통계량의 확률분포인 표집분포에 대해 알아보겠습니다. 표본평균의 통계적 성질을 살펴보겠습니다. 1. 통계량 - statistic 통계량은 측정 가능한 확률표본의 함수를 의미합니다. 관심통계량은 다음과 같습니다. 표본평균 : $\overline X$ (표본비율 포함) 표본분산 : $S^2$ (표본표준편차) 극한값 : $X_{(n)}$ ~ $X_{(1)}$ -> 범위 ($X_{{1)}, X_{(n)}$) 순위(rank) : $X_i$의 크기 순서 2. 표집분포 - sampling distribution 표집분포는 통계량의 확률분포를 의미합니다. 평균 $\mu$, ..

[통계학] 12. 확률표본과 통계량

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다. 확률표본이 무엇인지 알아보고 이를 이용하여 만든 통계량의 통계적 성질을 유도해보겠습니다. 1. 확률표본 - random sample 확률표본은 모집단에서 무작위로 선택되어진 관측값입니다. 정규분포에서 n개의 표본을 무작위로 뽑았을 때, $i$번째 값을 $X_i$라고 하면, $X_1, X_2, ... , X_n$을 표본크기 $n$인 확률표본이라고 하고 다음과 같이 표시합니다. 여기서 iid의 의미는 서로 독립이고 동일한 분포를 따른다는 의미입니다. [확률표본의 두가지 중요한 성질] 1. 서로 독립입니다. 독립이기 때문에 결합분포는 각각의 주변분포 곱으로 표시할..

[통계학] 11. 정규분포, 표준화, 표준정규분포

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다. 통계학에서 가장 중요한 분포인 정규분포에 대해 알아보겠습니다. 표준화를 알아보고 정규분포에 표준화를 거친 표준정규분포를 알아보겠습니다. 정규분포의 성질에 대해서 알아보겠습니다. 1. 정규분포 [정규분포란?] 이항분포가 대표적인 이산확률분포라고 하면 정규분포는 대표적인 연속확률분포 입니다. 정규분포의 확률밀도함수는 다음과 같이 나타낼 수 있습니다. 여기서 $\mu$는 평균, $\sigma^2$는 분산, $\sigma$는 표준편차를 의미합니다. $X$가 평균이 $\mu$이고 분산이 $\sigma^2$인 정규확률변수라고 하면 $X$ ~ $N(\mu,\sigma^2..

[통계학] 10-4. 다항분포

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다. 이항분포의 확장된 형태인 다항분포의 성질에 대해 알아보겠습니다. 1. 도수분포표 - frequency table 다항분포를 알아보기 전에 도수분포표를 먼저 보겠습니다. 도수분포표는 범주형 자료 또는 범주화된 자료를 정리하는 표입니다. 각 범주에 몇 개의 관측개체가 있는지를 정리한 표 입니다. 도수와 상대도수가 있습니다. 표본을 계속 뽑으면 해당범주가 모집단에서 차지하는 비율(확률)로 수렴하게 됩니다. 이것이 통계학에서의 관심사입니다. 2. 다항분포 - multinomial distribution 다항분포란? 아래 세가지 조건을 충족한 것을 다항분포를 따른다고..

[통계학] 10-3. 음이항분포

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다. 베르누이시행의 응용분포인 음이항분포에 대해 알아보겠습니다. 1. 음이항분포 - negative binomial distribution 음이항분포는 성공할 확률이 $p$인 베르누이 시행을 $r$번 성공할 때 까지 시행하는 경우 실패(시행)횟수의 분포입니다. 실패횟수관점, 시행횟수관점 두 가지 관점으로 이용할 수 있습니다. (1) 실패횟수 관점 $X$는 실패횟수라고 하겠습니다. $X=x$라고 하면, $x + r$번째는 S(성공)이 됩니다. $x+r-1$번째까지의 결과에서 성공은 $r-1$개, 실패는 $x$개가 존재합니다. 실패횟수 관점에서 확률질량함수는 다음과 ..

[통계학] 10-2. 기하분포

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다. 베르누이시행의 응용분포인 기하분포에 대해 알아보겠습니다. 기하분포의 중요한 특성인 무기억성을 알아보겠습니다. 1. 기하분포 - geometric distribution 기하분포는 베르누이 시행을 성공할 때까지의 실패(시행) 횟수의 분포입니다. 이항분포나 초기하분포에서는 시행횟수 n을 정해놓고 그 중에 성공한 횟수에 관심을 가졌으나 어떤 경우에는 시행횟수에 관심을 가질 때가 있습니다. 이 경우에 기하분포를 이용합니다. 중요한 특성은 무기억성입니다. 확률질량함수는 다음과 같이 나타낼 수 있습니다. 기하분포에서 $X$는 성공할때 까지 시행했을 때 실패한 횟수를 의..

[통계학] 10-1 포아송분포

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다. 계수자료(counting data)에 대한 대표적인 분포인 포아송분포의 성질에 대해 알아보겠습니다. 포아송분포를 이용해 이항분포 확률의 근사값 계산방법을 알아보겠습니다. 1. 포아송분포 이항분포에서 $n$이크고 $p$가 작은 경우 계산하기가 어렵습니다. 이 경우에 포아송분포를 이용하여 이항분포의 근사확률을 구하면 됩니다. 포아송분포의 확률질량함수는 다음과 같습니다. 여기서 $\lambda$는 $np$를 의미합니다. 포아송분포의 조건은 다음과 같습니다. 발생 가능성이 희박한 사건이 임의의 구간에서 평균적으로 $\lambda$번 발생 구간을 나누었을 때 각 구간..

[통계학] 09-3. 초기하분포

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다. 유한모집단이 두 그룹으로 나누어져 있고 표본을 비복원으로 추출할 때 특정 그룹에서 뽑힌 표본의 수에 대한 확률분포를 알아보겠습니다. 초기하분포의 성질과 관련 문제에 대해 알아보겠습니다. 1. 초기하분포 - Hypergeometric Distribution 초기하분포란 크기가 $N$인 모집단이 크기가 $M$과 $N-M$인 두 개의 부모집단 (A, B)로 나누어진 경우(유한 모집단) n개의 표본을 비복원 추출할 때, 부모집단(A)에서 추출된 표본 수의 분포를 의미합니다. (각 표본의 추출과정은 독립적이지 않음) 일반식은 다음과 같습니다. 여기서 분모의 값은 전체..

반응형