수학/기초 통계학

[통계학] 회귀분석 - 회귀모형 개념 - 선형회귀모형

AI 꿈나무 2020. 10. 17. 10:34
반응형

 여인권 교수님의 KMOOC 강의 <통계학의 이해 2>를 수강하면서 공부한 내용을 정리해보았습니다.

 


 

 저번 포스팅에서는 다변량 자료의 관계를 파악하는 방법인 산점도상관분석에 대해 공부해보았습니다.

 

 이번에는 수치변수들 간 인과관계를 설명하기 위한 대표적인 통계모형인 회귀모형을 알아보겠습니다.

 

다변량 자료에서 주요 관심사

다변량 자료에서 주요 관심사는 변수들 간의 관계입니다.

 

1. 산점도와 상관분석으로 분석 가능한 관심사

 

 (1) 변수들 간 관계가 있는가?

 (2) 있다면 어떤 관계가 있는가?

 (3) 관계가 어느 정도 되는가?

 

 위 세 개의 관심사는 산점도상관분석을 통해 직선관계를 파악하여 분석할 수 있습니다.

 산점도와 상관분석은 직선관계만 파악할 수 있습니다.

 

2. 회귀모형으로 분석 가능한 관심사

 

 (1) 관계를 식으로 표시할 수 있는가?

 (2) 관계식을 유도할 수 있는가?

 (3) 유도된 관계식을 통해 다른 값을 예측할 수 있는가?

 

 위 세 개의 관심사는 회귀분석으로 분석해야 합니다.

 분석 목적이 관계유도 및 예측인 대표적인 모형이 회귀모형입니다.

 

 양적인 값은 회귀분석으로 분석하고 질적인 값은 분산분석으로 분석합니다.

 

회귀모형 - Regression Model

 회귀모형은 변수들 간의 인과 관계 유도합니다.

 

 회귀모형에서 인과관계는 f(system, 함수)로 표현합니다.

 

 

 회귀모형으로 인과 관계를 유도해서 Y(Output)이 어떤 값이 나오는지에 대해 관심이 있습니다.

 

 여기서 X와 Y의 의미는 다음과 같습니다.

 

 입력변수 X : 설명(explanatory)변수, 독립(independent) 변수

   - 양적 변수 : 공변량(covariate), 질적변수 : 요인(factor)

 양적인 값은 회귀분석으로 분석하고 질적인 값은 분산분석으로 분석합니다.

 

 출력변수 Y : 반응(response)변수, 종속(dependent)변수

 

 예를 들어 광고비와 판매량, 공부량과 시험성적은 회귀모형으로 표현하 수 있습니다.

 

 주의할 점은 동일한 입력변수 X에 대해 출력변수 Y는 다른 값을 가질 수 있습니다.

 이는 f(System)이 1대 1매칭이 안될 수 있다는 의미입니다.

 그 이유는 오차가 포함되어 있기 때문입니다.

 

선형회귀모형 - Linear Regerssion Model

 가장 간단한 회귀모형 형태인 선형회귀모형에 대해 알아보겠습니다.

 

 선형회귀모형에서 관계식은 다음과 같이 가정합니다.

 

 

 여기서 $\beta$회귀계수(regression coefficients)를 의미하며 f(x)를 의미합니다.

 

  관계식은 회귀계수 $\beta$에 대해 선형입니다.

 선형과 비선형의 구분은 $\beta$의 미분 값이 $\beta$를 포함하면 비선형입니다.

 $\beta$의 미분값에 $\beta$가없으면선형입니다.

 

 $\epsilon$오차(error)을 의미합니다.

 오차는 모형으로 설명이 안되는 부분이며 오차에 특정 패턴이 있으면 모형화 할 수 있는 부분이 남아있습니다.

 통계적 추론을 위해 오차를 다음과 같이 가정합니다.

 

 

정리

 수치변수들 간 인과관계를 설명하기 위한 대표적인 통계모형인 회귀모형에 대해 알아보았습니다.

 

 회귀모형중 가장 간단한 형태인 선형회귀모형에 대해 알아보았습니다.

 

 

반응형