수학/기초 통계학

[통계학] 회귀분석 - 새로운 관측값에 대한 예측 - 중심축량과 예측구간

AI 꿈나무 2020. 10. 19. 11:57
반응형

 여인권 교수님의 KMOOC 강의 <통계학의 이해 2>를 수강하면서 공부한 내용을 정리해보았습니다.

 


새로운 관측값에 대한 예측

 새로운 설명변수(x)에 대한 예측값에 대한 추정과 예측구간을 알아보겠습니다.

 

 저번 포스팅에서는 $x_k$일 때, $y_k$의 평균의 예측값을 공부했습니다.

 평균의 예측값을 구할 때는 관심이 $b_0 + b_1x_k$에 관심이 있었지만

 새로운 관측값에 대한 예측은 오차까지 고려한 $b_0 + b_1x_k + \epsilon_k$에 관심이 있습니다.

 

1. 새로운 $x_*$에 대한 예측값 $Y_*$의 추론

 

 $\hat{Y_*}$에 관심이 있으면 $\hat{b_0} + \hat{b_1}x_*$를 이용해도 되지만

 $\epsilon_*$에 관심이 있으면 예측오차 $\hat{Y_*} - Y_*$에 관심을 가져야 합니다.

 

2. 예측오차 $\hat{Y_*} - Y_*$에 대한 추론

 

 $\hat{Y_*}$는 기존 Y들의 선형결합이고 $Y_*$는 새로운 변수이므로  $\hat{Y_*}$와 $Y_*$는 독립입니다.

 

 $\hat{Y_*}$의 기대값은 다음과 같이 구할 수 있습니다.

 

 $\hat{Y_*}$의 분산은 다음과 같습니다.

 

 예측오차 $\hat{Y_*} - Y_*$의 분산은 다음과 같이 구할 수 있습니다.

 E($Y_*$)의 분산식과 비교했을 때 1이 하나 더 포함된 것을 확인할 수 있습니다.

 이는 기댓값보다 더 큰 변동성을 갖는다는 것을 의미합니다.

 

 

 예측오차의 평균과 분산을 구했으므로 정규분포로 표현할 수 있습니ㅏㄷ.

 

 이를 표준화하면 중심축량을 구할 수 있습니다.

 

 중심축량의 분모와 t분포의 임계값을 이용하면 $Y_*$에 대한 100(1-a)% 예측구간을 구할 수 있습니다.

 

3. 예제 문제

 

 위의 남자 자료를 통해 2024년 우승기록에 대한 예측구간을 구해보겠습니다.

 이전 포스팅에서 남자 자료에 대한 회귀모델을 설계하고 기울기와 절편을 구했으므로 그것을 이용하겠습니다.

 

 

 2024년 우승 기록에 대한 예측구간을 구하기 위해 필요한 통계값을 구해야 합니다.

 

 이를 예측구간 구하는 식에 대입하면 됩니다.

 

4. 정리

 새로운 설명변수에 대한 예측값에 대한 추정과 예측구간을 알아보았습니다.

 중심축량예측구간은 다음과 같이 구할 수 있습니다.

 

반응형