반응형

통계학 52

[통계학] 회귀분석 - 새로운 관측값에 대한 예측 - 중심축량과 예측구간

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 새로운 관측값에 대한 예측 새로운 설명변수(x)에 대한 예측값에 대한 추정과 예측구간을 알아보겠습니다. 저번 포스팅에서는 $x_k$일 때, $y_k$의 평균의 예측값을 공부했습니다. 평균의 예측값을 구할 때는 관심이 $b_0 + b_1x_k$에 관심이 있었지만 새로운 관측값에 대한 예측은 오차까지 고려한 $b_0 + b_1x_k + \epsilon_k$에 관심이 있습니다. 1. 새로운 $x_*$에 대한 예측값 $Y_*$의 추론 $\hat{Y_*}$에 관심이 있으면 $\hat{b_0} + \hat{b_1}x_*$를 이용해도 되지만 $\epsilon_*$에 관심이 있으면 예측오차 $\hat{Y_*} - Y_*$에 관심을 가져야 합..

[통계학] 회귀분석 - 예측값 평균에 대한 통계적 추론 - 중심축량, 신뢰구간

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 예측값 평균에 대한 통계적 추론 예측값의 평균, E(Y) = $b_0$ + $b_1x$를 추론하기 위한 중심축량과 예측구간을 알아보겠습니다. 1. 반응변수 기댓값 E($Y_k$)에 대한 추론 주의할 점은 $Y_k$를 직접 추론하는 것이 아니라 E($Y_k$)를 추론하는 것입니다. 점추정량의 성질에 대해 알아보겠습니다. 점추정량을 Y들의 선형 결합으로 나타낼 수 있습니다. 이는 정규분포를 따른다는 것을 의미합니다. 추정된 예측값 평균은 다음과 같이 표시할 수 있습니다. 분산은 다음과 같습니다. 이는 $x_k$가 $\overline{x}$에서 멀어질수록 분산이 커진다는 것을 의미합니다. 평균과 분산을 구했으므로 $\hat{Y_k}..

[통계학] 회귀분석 - 회귀계수(절편)에 대한 통계적 추론 - 절편의 중심축량과 구간추정

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 절편 $\beta_0$ 에 대한 통계적 추론 회귀계수 중 절편에 해당하는 $\beta_0$의 중심축량과 구간추정에 대해 알아보겠습니다. 1. $\hat{\beta_0} = \overline{Y} - \hat{\beta_1}\overline{x}$의 역할 x가 0일 때 E(Y)의 값이 $\beta_0$ 입니다. 최소제곱법 추정으로 $\beta_0$ 추정과정을 알아보겠습니다. D를 $b_0$으로 미분함으로써 최소로하는 $b_1$과 $b_0$을 찾습니다. 추정한 $b_1, b_0$를 $\hat{b_1}, $\hat{b_0}$으로 표현합니다. $\beta_0$가 없는 모형에서의 잔차 합은 0이 되지 않을 수 있습니다. $b_0$이 0..

[통계학] 회귀추론을 위한 기본이론 - 회귀모델에서의 MSE와 중심축량

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 회귀추론을 위한 기본이론 회귀모형의 모수 또는 예측값을 추론을 위한 기본 통계이론을 정리하겠습니다. 1. 회귀 모형식 가정 단순회귀모형에서 모형식은 다음과 같이 가정할 수 있습니다. 여기서, $\beta_0 + \beta_1x_i$는 평균을 의미합니다. $\epsilon_i$ ~ iid N(0,$\sigma^2$)는 추론할 때 필요한 가정입니다. 최소제곱법에 의한 모수 추정에서는 특별히 오차항의 가정을 사용하지 않습니다. 최소제곱법은 $y_i - \beta_0 - \beta_1x_i$를 이용하기 때문에 $\epsilon_i$는 신경쓰지 않는다는 의미입니다. 모수 추정량 또는 예측값의 성질을 유도하기 위해 오차항의 가정이 필요합..

[통계학] 확률화 블록 계획법 - 이원배치 분산분석과의 차이점과 분석결과 해석 방법

여인권 교수님의 KMOOC 강의 "통계학의 이해 2"를 수강하면서 공부한 내용을 정리해보았습니다. 확률화블록설계의 개념과 단순 이원배치 분산분석과의 차이점을 알아보겠습니다. 확률화블록설계에 의한 분석결과를 어떻게 해석해야 하는지 알아보겠습니다. 확률화 블록 계획법 블록(block)은 요인의 처리 효과를 비교하는데 정확도를 높이기 위해 예비 지식을 이용하여 나눈 동일적인 실험 단위를 의미합니다. 예를 들어 수준(처리)는 처치 방법(관심 요인)이면 블록은 성별 또는 연령으로 구분할 수 있습니다. 쌍을 이룬 비교의 일반화(대응표본의 일반화)를 한 것입니다. 블록은 차이가 있다고 가정하므로 가설검정을 하지 않습니다. 1. 실험설계 p개의 수준(처리)과 b개의 블록이 있다고 가정하겠습니다. 각 블록 안에서 처리 ..

[통계학] 분산분석 - 다중비교 - Fisher LSD, Bonferroni, Scheffe, Tukey HSD

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 처리효과가 있다고 할 때, 어떤 수준들 간에 차이가 있는지 확인하기 위해 모든 평균 차의 조합에 대해 유의성을 검정하는 방법을 알아보겠습니다. 다중비교 - Multiple comparison 분산분석 고정효과모형 가설검정을 통해 처리효과가 있다고 판단될때 다중비교를 통해 어떤 수준들 간에 차이가 있는지 확인할 수 있습니다. 모든 그룹의 평균에 대해 검정하는 방법입니다. 다중비교 방법은 여러가지가 있습니다. 여기서 배워볼 방법은 Fisher's LSD, Bonferroni's MSD, Scheffe, Tukey HSD 방법입니다. 1. Fisher's least significant difference - 최소유의차 방법, LS..

[통계학] 분산분석 - 등분산성 검정 - 잔차그림, Hartley 검정, Bartlett 검정

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 분산분석에서의 통계적 추론을 하는데 필요한 가정에 대해 알아보겠습니다. 분산분석에서 가정한 조건을 분석자료들이 만족하는지 확인하는 방법을 알아보겠습니다. 모형 가정 분산 분석에서 가장 중요한 것이 모형식이 등분산성을 만족하냐가 중요합니다. 모형식이 다음과 같이 주어졌을 때 1. 등분산성 2. 정규성 - Shapiro-Wilk, jarque-bera 등등 3. 독립성 세 가지를 검정해야 합니다. 등분산성 검정 등분산성 검정은 가설검정으로 구할 수 있습니다. 귀무가설과 대립가설을 다음과 같이 설정합니다. 반복수가 같은 경우 동일한 분산을 가진다는 가정을 약간 어기는 것에 대해 분산분석 방법은 robust한 편입니다. 이는 검정을 ..

[통계학] 일원배치 분산분석 - 고정효과모형 - 요인이 하나 수준은 임의적

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 요인이 하나이고 수준을 실험자가 결정하는 경우, 처리효과를 확인하기 위해 어떻게 모형을 설정하는지 알아보겠습니다. 고정효과 모형의 결과 해석과 어떤 모수에 대해 추론하는지 알아보겠습니다. 1. 일원배치 분산분석 일원배치 분산분석은 하나의 요인의 수준에 대한 평균을 비교하는 분석입니다. 실험 단위의 배치 또는 실험 순서에 있어 확률화의 원리에 충실해야 한다고 해서 완전 확률화 설계(completelt randomized design)라고도 합니다. 예제 4 종류의 사료(요인)에 의한 쥐 체중증가(반응변수) 실험에서 요인은 사료이고 수준은 사료 종류 수 4개 입니다. 쥐를 선정하고 할당하는 과정이 랜덤하게 이루어져야 합니다. 모든..

[통계학] 세 모집단의 평균 비교 - 다중검정의 문제점과 분산분석의 개념

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 독립 표본을 통해 분산이 같은 세 정규 모집단의 평균 비교하는 방법을 알아보겠습니다. 모든 조합에 대해 평균 차에 의한 가설검정으로 결과를 도출할 때 발생하는 문제에 대해 알아보겠습니다. 세 모집단 평균 비교 두 모집단의 경우 모평균의 차를 이용했지만 세 모집단의 경우는 검정통계량을 찾기 어렵습니다. 세 모집단의 평균 비교를 하는 방법으로 다중검정을 생각할 수 있습니다. 방법 1. 모든 쌍에 대해 t-검정 => 다중 검정 다중검정시에 유의수준 문제가 발생하게 됩니다. 하지만 다중검정시에 유의수준 문제가 발생하게 됩니다. 다중검정의 문제에 대해 알아보겠습니다. 다중검정을 통해 유의수준이 도출되었을 때 본페르니의 부등식에 의해 다..

[통계학] 32. 두 모집단 비율 비교 - 비율 차, 구간 추정, 신뢰 구간, 중심축량

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 두 모집단 비율 비교 독립표본을 통해 두 범주로 이루어진 두 모집단의 비율을 비교하는 방법을 알아보겠습니다. 비율 차에 대한 중심축량과 이를 바탕으로 한 구간추정방법을 알아보겠습니다. 1. 모집단 가정과 점추정, 중심축량 구하기 각각의 모집단은 동일한 두 범주 (S, F)로 나누어져 있다고 가정하겠습니다. 여기서 S는 성공, F는 실패입니다. 또 각각의 표본은 정규분포를 따른다고 가정하겠습니다. 관심문제를 설정하겠습니다. 4번이 통계적 성질은 가장 좋지만, 형태가 어려우므로 이 강의에서는 1번 비율차에 대해서 다뤘습니다. 두 모집단에서 베르누이 시행으로 표본을 추출했다고 가정하겠습니다. 모집단을 가정 했으므로 비율차에 대한 점..

반응형