여인권 교수님의 KMOOC 강의 <통계학의 이해 2>를 수강하면서 공부한 내용을 정리해보았습니다.
새로운 관측값에 대한 예측
새로운 설명변수(x)에 대한 예측값에 대한 추정과 예측구간을 알아보겠습니다.
저번 포스팅에서는 $x_k$일 때, $y_k$의 평균의 예측값을 공부했습니다.
평균의 예측값을 구할 때는 관심이 $b_0 + b_1x_k$에 관심이 있었지만
새로운 관측값에 대한 예측은 오차까지 고려한 $b_0 + b_1x_k + \epsilon_k$에 관심이 있습니다.
1. 새로운 $x_*$에 대한 예측값 $Y_*$의 추론
$\hat{Y_*}$에 관심이 있으면 $\hat{b_0} + \hat{b_1}x_*$를 이용해도 되지만
$\epsilon_*$에 관심이 있으면 예측오차 $\hat{Y_*} - Y_*$에 관심을 가져야 합니다.
2. 예측오차 $\hat{Y_*} - Y_*$에 대한 추론
$\hat{Y_*}$는 기존 Y들의 선형결합이고 $Y_*$는 새로운 변수이므로 $\hat{Y_*}$와 $Y_*$는 독립입니다.
$\hat{Y_*}$의 기대값은 다음과 같이 구할 수 있습니다.
$\hat{Y_*}$의 분산은 다음과 같습니다.
예측오차 $\hat{Y_*} - Y_*$의 분산은 다음과 같이 구할 수 있습니다.
E($Y_*$)의 분산식과 비교했을 때 1이 하나 더 포함된 것을 확인할 수 있습니다.
이는 기댓값보다 더 큰 변동성을 갖는다는 것을 의미합니다.
예측오차의 평균과 분산을 구했으므로 정규분포로 표현할 수 있습니ㅏㄷ.
이를 표준화하면 중심축량을 구할 수 있습니다.
중심축량의 분모와 t분포의 임계값을 이용하면 $Y_*$에 대한 100(1-a)% 예측구간을 구할 수 있습니다.
3. 예제 문제
위의 남자 자료를 통해 2024년 우승기록에 대한 예측구간을 구해보겠습니다.
이전 포스팅에서 남자 자료에 대한 회귀모델을 설계하고 기울기와 절편을 구했으므로 그것을 이용하겠습니다.
2024년 우승 기록에 대한 예측구간을 구하기 위해 필요한 통계값을 구해야 합니다.
이를 예측구간 구하는 식에 대입하면 됩니다.
4. 정리
새로운 설명변수에 대한 예측값에 대한 추정과 예측구간을 알아보았습니다.
중심축량과 예측구간은 다음과 같이 구할 수 있습니다.
'수학 > 기초 통계학' 카테고리의 다른 글
[통계학] 회귀분석 - 예측값 평균에 대한 통계적 추론 - 중심축량, 신뢰구간 (0) | 2020.10.19 |
---|---|
[통계학] 회귀분석 - 회귀계수(절편)에 대한 통계적 추론 - 절편의 중심축량과 구간추정 (0) | 2020.10.19 |
[통계학] 회귀분석 - 회귀계수(기울기)에 대한 통계적 추론 - MSE, 구간추정, 가설검정, 검정통계량 (1) | 2020.10.18 |
[통계학] 회귀추론을 위한 기본이론 - 회귀모델에서의 MSE와 중심축량 (0) | 2020.10.18 |
[통계학] 단순선형회귀모형에서의 모수 추정 - 기울기와 절편, 최소제곱법, 최소절대편차법 (1) | 2020.10.17 |