반응형

분산 9

[확률론] 연속형 확률 분포 - 일양 분포(uniform distribution)

고려대학교 김성범 교수님의 확률/통계 강의와 교재 'Sheldon Ross, A First Course in Probability (10th edition)' 를 공부하고 정리한 내용입니다. 일양 분포(Uniform Distribution) 일양 분포는 확률 변수 X가 구간 $\alpha, \beta$에서 균일한 확률을 지니고 있습니다. 확률 밀도 함수는 다음과 같이 정의합니다. 연속형 확률 분포의 총합(면적)은 1이 되어야 합니다. 구건 $\alpha, \beta$ 사이에 일정한 확률을 갖고, 면적이 1이 되야 하므로 확률은 1/($\beta - \alpha$가 됩니다. 일양 분포의 cdf는 세 가지 구간으로 나눠서 살펴볼 수 있습니다. 일양 분포의 기대값과 분산 기대값과 분산은 다음과 같이 정의합니다..

수학/확률론 2021.03.04

[확률론] 이산형 확률분포 - 음이항 분포

고려대학교 김성범 교수님의 확률/통계 강의와 교재 'Sheldon Ross, A First Course in Probability (10th edition)' 를 공부하고 정리한 내용입니다. 음이항 분포(Negative Binomial Distribution) 음이항 분포는 기하 분포의 확장된 형태입니다. 성공 확률이 p인 베르누이 시행을 k번 성공할 때 까지 반복하여 발생하는 확률들의 패턴이 음이항 분포입니다. 확률 변수 X는 k번 성공을 하기 위해 시행하는 횟수로 정의됩니다. 확률질량함수는 다음과 같습니다. n-1번 시행까지 r-1번 성공, n-r번 실패가 발생하고 n번째에 성공하는 확률을 나타냅니다. 예시 5번째 시행에서 3번째 성공이 나타날 확률을 구하는 문제입니다. 5번째 시행에서 3번째 성공이..

수학/확률론 2021.02.13

[확률론] 이산형 확률분포 - 포아송 분포

고려대학교 김성범 교수님의 확률/통계 강의와 교재 'Sheldon Ross, A First Course in Probability (10th edition)' 를 공부하고 정리한 내용입니다. 포아송 분포(Poisson distribution) 확률 변수 X가 이산형 값인 0,1,2,... 중 하나를 취할 때 파라미터 $\lambda$를 지닌 포아송 확률 변수라고 정의합니다. $\lambda$(람다) = np는 단위 시간 동안 특정 사건이 몇번 발생한 것인지를 나타냅니다. 단위 시간동안 사건의 평균 발생 회수로 이해하면 됩니다. 그리고 포아송 확률 변수에서 나온 실수를 확률로 변환해주는 확률질량함수는 다음과 같이 정의됩니다. 포아송 확률질량함수는 실수를 확률로 대응하는 함수이므로 모든 값을 더하면 1이 됩..

수학/확률론 2021.02.10

[확률론] 이산형 확률분포 - 이항분포

고려대학교 김성범 교수님의 확률/통계 강의와 교재 'Sheldon Ross, A First Course in Probability (10th edition)' 를 공부하고 정리한 내용입니다. 이항 분포(Binomial Distribution) 베르누이 실험을 한 번 한것을 베르누이 시행이라고 합니다. 이항 분포는 독립적인 베르누이 시행을 n번 한것 입니다. 독립적인 베르누이 시행이므로 첫 번째 시행은 두 번째 시행에 영향을 주지 않습니다. 확률 변수 X는 n번 시행에서 성공횟수로 정의합니다. 이항 분포의 확률질량함수(pmf)는 다음과 같습니다. 이항 분포는 이항확률함수로부터 나온 확률들의 패턴을 말합니다. 그리고 모수(parameter) n과 p를 갖고 있습니다. 그림을 보면 모수인 p와 n에 따라 분포..

수학/확률론 2021.02.08

[확률론] 분산과 표준편차

고려대학교 김성범 교수님의 확률/통계 강의와 교재 'Sheldon Ross, A First Course in Probability (10th edition)' 를 공부하고 정리한 내용입니다. 분산(Variance) 확률 변수 X가 주어졌을 때, X의 분포를 요약할 수 있는 모수가 있으면 편리할 것입니다. X의 분포를 요약하는 모수는 E[X] 기대값이 있습니다. 하지만 E[X]는 X의 가중 평균을 의미하기 때문에 편차, 흩어짐 등을 나타내지 않습니다. 예를 들어, 확률 변수 W, Y, Z가 다음과 같은 확률 질량 함수를 갖고 있다고 해보겠습니다. 이 세개의 확률 변수의 기대값은 0으로 동일합니다. 그리고 Y는 W보다 흩어짐이 크고, Z가 Y보다 흩어짐이 크다는 것을 생각해볼 수 있습니다. 확률 변수의 값이..

수학/확률론 2021.02.06

[통계학] 회귀분석 - 예측값 평균에 대한 통계적 추론 - 중심축량, 신뢰구간

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 예측값 평균에 대한 통계적 추론 예측값의 평균, E(Y) = $b_0$ + $b_1x$를 추론하기 위한 중심축량과 예측구간을 알아보겠습니다. 1. 반응변수 기댓값 E($Y_k$)에 대한 추론 주의할 점은 $Y_k$를 직접 추론하는 것이 아니라 E($Y_k$)를 추론하는 것입니다. 점추정량의 성질에 대해 알아보겠습니다. 점추정량을 Y들의 선형 결합으로 나타낼 수 있습니다. 이는 정규분포를 따른다는 것을 의미합니다. 추정된 예측값 평균은 다음과 같이 표시할 수 있습니다. 분산은 다음과 같습니다. 이는 $x_k$가 $\overline{x}$에서 멀어질수록 분산이 커진다는 것을 의미합니다. 평균과 분산을 구했으므로 $\hat{Y_k}..

[통계학] 회귀분석 - 회귀계수(절편)에 대한 통계적 추론 - 절편의 중심축량과 구간추정

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 절편 $\beta_0$ 에 대한 통계적 추론 회귀계수 중 절편에 해당하는 $\beta_0$의 중심축량과 구간추정에 대해 알아보겠습니다. 1. $\hat{\beta_0} = \overline{Y} - \hat{\beta_1}\overline{x}$의 역할 x가 0일 때 E(Y)의 값이 $\beta_0$ 입니다. 최소제곱법 추정으로 $\beta_0$ 추정과정을 알아보겠습니다. D를 $b_0$으로 미분함으로써 최소로하는 $b_1$과 $b_0$을 찾습니다. 추정한 $b_1, b_0$를 $\hat{b_1}, $\hat{b_0}$으로 표현합니다. $\beta_0$가 없는 모형에서의 잔차 합은 0이 되지 않을 수 있습니다. $b_0$이 0..

[통계학] 08-1. 확률벡터(1) - 분산과 표준편차

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 공부한 내용을 정리해보았습니다. 모집단의 분포가 얼마나 퍼져있는지를 나타내는 분산 및 표준편차의 계산과 성질에 대해 알아보겠습니다. 1. 분산 표본평균은 자료의 중심위치를 의미하며, 분산과 표준편차는 자료가 얼마나 펴져 있는가에 대한 통계값입니다. 분산을 식으로 표기하면 다음과 같습니다. 이를 간편식으로 나타내면 다음 식이 됩니다. 위의 식이 어떻게 도출되었는지 알아보도록 하겠습니다. 표본크기가 n개가 있고 자료가 k개가 있어 이들 값을 $x_1, ... , x_2$라고 하겠습니다. $n_i$는 표본 중 $x_i$값을 가지는 표본수라고 하겠습니다. 값이 중복되는 자료가 있기 때문에 n > ..

[통계학] 02-7. 기술통계 (7) - 수치자료 분포의 산포2 (표본분산, 표본표준편차, 표준화, 변동계수)

(통계학-기본개념과 원리, 여인권)을 바탕으로 제작하였습니다. (k-mooc 통계학의 이해1, 여인권)을 수강하면서 정리해보았습니다. 자료들 간의 거리를 이용하여 산포도를 계산하는 방법(표본분산, 표본표준편차)을 알아보겠습니다. 자료분석에서 측정 단위에 영향을 받지 않게 만드는 표준화에 대해 알아보겠습니다. 그리고 평균으로 표본표준편차를 보정한 변동계수를 알아보겠습니다. (3) 표본분산과 표본표준편차 범위나 사분위수범위의 경우 특정 위치의 두 값을 이용하기 때문에 표본의 정보를 많이 활용하지 못합니다. 이런 문제를 해결하기 위해 모든 자료들 간의 거리의 합을 이용하는 것 입니다. 수학적으로 거리 $D$는 임의의 점 a, b, c에 대해 다음과 같은 성질을 만족합니다. 우리는 거리$D$의 성질 중 $D$(..

반응형