반응형

수학/기초 통계학 81

[통계학] 회귀분석 - 새로운 관측값에 대한 예측 - 중심축량과 예측구간

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 새로운 관측값에 대한 예측 새로운 설명변수(x)에 대한 예측값에 대한 추정과 예측구간을 알아보겠습니다. 저번 포스팅에서는 $x_k$일 때, $y_k$의 평균의 예측값을 공부했습니다. 평균의 예측값을 구할 때는 관심이 $b_0 + b_1x_k$에 관심이 있었지만 새로운 관측값에 대한 예측은 오차까지 고려한 $b_0 + b_1x_k + \epsilon_k$에 관심이 있습니다. 1. 새로운 $x_*$에 대한 예측값 $Y_*$의 추론 $\hat{Y_*}$에 관심이 있으면 $\hat{b_0} + \hat{b_1}x_*$를 이용해도 되지만 $\epsilon_*$에 관심이 있으면 예측오차 $\hat{Y_*} - Y_*$에 관심을 가져야 합..

[통계학] 회귀분석 - 예측값 평균에 대한 통계적 추론 - 중심축량, 신뢰구간

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 예측값 평균에 대한 통계적 추론 예측값의 평균, E(Y) = $b_0$ + $b_1x$를 추론하기 위한 중심축량과 예측구간을 알아보겠습니다. 1. 반응변수 기댓값 E($Y_k$)에 대한 추론 주의할 점은 $Y_k$를 직접 추론하는 것이 아니라 E($Y_k$)를 추론하는 것입니다. 점추정량의 성질에 대해 알아보겠습니다. 점추정량을 Y들의 선형 결합으로 나타낼 수 있습니다. 이는 정규분포를 따른다는 것을 의미합니다. 추정된 예측값 평균은 다음과 같이 표시할 수 있습니다. 분산은 다음과 같습니다. 이는 $x_k$가 $\overline{x}$에서 멀어질수록 분산이 커진다는 것을 의미합니다. 평균과 분산을 구했으므로 $\hat{Y_k}..

[통계학] 회귀분석 - 회귀계수(절편)에 대한 통계적 추론 - 절편의 중심축량과 구간추정

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 절편 $\beta_0$ 에 대한 통계적 추론 회귀계수 중 절편에 해당하는 $\beta_0$의 중심축량과 구간추정에 대해 알아보겠습니다. 1. $\hat{\beta_0} = \overline{Y} - \hat{\beta_1}\overline{x}$의 역할 x가 0일 때 E(Y)의 값이 $\beta_0$ 입니다. 최소제곱법 추정으로 $\beta_0$ 추정과정을 알아보겠습니다. D를 $b_0$으로 미분함으로써 최소로하는 $b_1$과 $b_0$을 찾습니다. 추정한 $b_1, b_0$를 $\hat{b_1}, $\hat{b_0}$으로 표현합니다. $\beta_0$가 없는 모형에서의 잔차 합은 0이 되지 않을 수 있습니다. $b_0$이 0..

[통계학] 회귀분석 - 회귀계수(기울기)에 대한 통계적 추론 - MSE, 구간추정, 가설검정, 검정통계량

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 회귀계수(기울기)에 대한 통계적 추론 회귀계수 중 기울기에 해당하는 $\beta_1$의 중심축량, 구간추정, 가설검정에 대해 알아보겠습니다. 1. 기울기 $\beta_1$에 대한 추론 $\hat{\beta_1}$은 $\beta_1$의 추정값입니다. $\hat{\beta_1} = S_{xY}/S_{xx}$의 통계적 성질은 다음과 같습니다. $\hat{\beta_1}$의 기댓값은 다음과 같이 구할 수 있습니다. $\hat{\beta_1}$의 분산은 다음과 같습니다. $\hat{\beta_1}$의 기댓값과 분산을 구했으므로 $\hat{\beta_1}$는 다음과 같이 가정할 수 있습니다. 이를 표준화하면 중심축량을 구할 수 있습니다...

[통계학] 회귀추론을 위한 기본이론 - 회귀모델에서의 MSE와 중심축량

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 회귀추론을 위한 기본이론 회귀모형의 모수 또는 예측값을 추론을 위한 기본 통계이론을 정리하겠습니다. 1. 회귀 모형식 가정 단순회귀모형에서 모형식은 다음과 같이 가정할 수 있습니다. 여기서, $\beta_0 + \beta_1x_i$는 평균을 의미합니다. $\epsilon_i$ ~ iid N(0,$\sigma^2$)는 추론할 때 필요한 가정입니다. 최소제곱법에 의한 모수 추정에서는 특별히 오차항의 가정을 사용하지 않습니다. 최소제곱법은 $y_i - \beta_0 - \beta_1x_i$를 이용하기 때문에 $\epsilon_i$는 신경쓰지 않는다는 의미입니다. 모수 추정량 또는 예측값의 성질을 유도하기 위해 오차항의 가정이 필요합..

[통계학] 단순선형회귀모형에서의 모수 추정 - 기울기와 절편, 최소제곱법, 최소절대편차법

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 단순선형회귀모형에서의 모수 추정 설명변수가 하나인 회귀모형에서 관측값과 회귀선과의 거리를 어떻게 표시하는지 알아보겠습니다. 최소제곱법을 이용한 회귀모수를 추정하는 방법을 알아보겠습니다. 1. 단순선형회귀모형 - Simple Linear Regression Model 단순선형회귀모형은 설명변수가 하나인 선형회귀모형을 의미합니다. 회귀모형 중에서 가장 간단한 형태입니다. $x_i$를 소문자로 쓴 이유는 상수로 가정하기 때문입니다. 또한 $Y_i$ ~ iidN(0,$\sigma^2$)를 가정합니다. $\epsilon$은 오차(error)를 의미하며 모형에서 설명이 안되는 부분입니다. 설명변수(x)는 조절 가능한 상수로 가정합니다. ..

[통계학] 회귀분석 - 회귀모형 개념 - 선형회귀모형

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 저번 포스팅에서는 다변량 자료의 관계를 파악하는 방법인 산점도와 상관분석에 대해 공부해보았습니다. 이번에는 수치변수들 간 인과관계를 설명하기 위한 대표적인 통계모형인 회귀모형을 알아보겠습니다. 다변량 자료에서 주요 관심사 다변량 자료에서 주요 관심사는 변수들 간의 관계입니다. 1. 산점도와 상관분석으로 분석 가능한 관심사 (1) 변수들 간 관계가 있는가? (2) 있다면 어떤 관계가 있는가? (3) 관계가 어느 정도 되는가? 위 세 개의 관심사는 산점도와 상관분석을 통해 직선관계를 파악하여 분석할 수 있습니다. 산점도와 상관분석은 직선관계만 파악할 수 있습니다. 2. 회귀모형으로 분석 가능한 관심사 (1) 관계를 식으로 표시할 ..

[통계학] 다변량 자료 - 산점도와 상관분석 - 표준상관계수, 상관분석 예제

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 수치변수들 간의 관계를 간단히 알아보는 방법을 알아보겠습니다. 회귀 분석을 공부하기 전에 다변량 자료가 무엇인지 복습을 해보도록 하겠습니다. 다변량 자료 - Multivariate Data 다변량 자료는 어떤 대상에 대해 여러 가지 변수들을 관측(측정)한 자료들의 집함을 의미합니다 예) 신체검사 자료에서 연령, 성별, 신장, 체중 시력, 혈액형 등등 자료의 형태를 보면 변수가 여러개 인것을 확인할 수 있습니다. 이를 다변량 자료라고 합니다. 변수가 하나면 일변량 자료 입니다. 각각의 관측값 간에는 관력성이 없습니다. 이는 독립적인 관측값을 의미합니다. 다음에 배울 회귀 분석에서는 독립적인 관측값을 가정합니다. 다변량 자료에서의..

[통계학] 이원배치 분산분석 - 반복이 있는 변량/혼합효과모형

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 반복이 있는 이원배치 분산분석 - 변량/혼합효과모형 반복이 있는 이원배치 변량 또는 혼합효과모형에서 상호작용효과가 있는 경우의 분산분석표와 고정효과모형의 분산분석표의 차이점을 알아보겠습니다. 분산분석 결과에 따른 관심 모수에 대한 추론 방법을 알아보겠습니다. 1. 변량효과모형 (1) 변량효과 모형식 변량효과모형식은 다음과 같이 설계할 수 있습니다. 변량효과모형은 분산에 대해 관심이 있으므로 분산요소에 대한 추론을 해야합니다. (2) 평균제곱(MS)의 기댓값 변량효과모형에서는 고정효과모형과 다르게 MS를 계산합니다. 상호작용이 유의한 경우 주효과에 대한 추론은 MSE 기반이 아닌 MS(AB)을 기반으로 진행합니다. (3) 분산분..

[통계학] 이원배치 분산분석 - 반복이 있는 고정효과모형 - 상호작용 효과, 상호작용도표, 상호작용여부

여인권 교수님의 KMOOC 강의 를 수강하면서 공부한 내용을 정리해보았습니다. 반복이 있는 고정효과모형의 이원배치 분산분석 반복이 있는 고정효과모형의 경우 상호작용이 무엇이고 상호작용효과의 유의성을 확인하는 방법을 알아보겠습니다. 상호작용여부에 따라 분산분석 및 추론 결과를 어떻게 해석해야 하는지 알아보겠습니다. 1. 실험설계 요인 A의 수준 수는 p, 요인 B의 수준 수는 q라고 하겠습니다. 반복이 있는 이원배치 분산분석은 p X q처리를 완전 확률화 하여 n번 반복(개체) 실험을 진행한 것입니다. 2. 자료구조 반복이 있는 이원배치 분산분석의 자료구조는 다음과 같습니다. 반복이 없는 경우와 차이점은 처리들간에 차이가 있는지를 확인하는 것입니다. 처리들간의 차이를 상호작용이라고 합니다. 3. 상호작용 ..

반응형