프로그래밍

[R] R을 이용한 회귀분석

RainIron 2021. 5. 17. 20:08
반응형

1. 회귀분석의 개념

* 회귀(Regression): 한 바퀴 돌아 제자리로 돌아오거나 돌아감

 

* 배경

  19세기 영국의 우생학자 프랜시스 갤턴 -> "부모의 키가 큰 자식들의 키가 점점 더 커지지 않고 다시 평균 키로 회귀하는 경향을 발견"

=> '평균으로의 회귀' 

 

* 정의

- 독립변수가 종속변수에 영향을 미치는지 확인하기 위해 실시하는 분석 방법

- 독립 변수와 종속변수 사이에 인과관계가 존재할 때, 그 관계의 정도를 분석하고 통계적 유의성을 검정하는 것

 

* 독립변수: 실험 또는 연구에서 자극을 주는 변수(원인변수)

-> 어떤 것의 원인이 되는 변수이며 종속변수에 영향을 미침

 

* 종속변수: 자극에 대한 반응이나 결과를 나타내는 변수(반응변수, 결과변수)

-> 독립변수의 영향을 받아 변함

 

* 회귀분석 4단계

  1) 선형회귀식 도출(최소제곱법, 회귀선)

  2) 회귀식의 설명력(지표: 피어슨 상관계수, 회귀선의 기울기, 결정계수 R^2, 수정된 R^2)

  3) 회귀분석에 대한 가정

  4) 선형회귀 분석과의 비교(T검정, F검정)

 

* 최소제곱법: 관측점들과 회귀선간의 수직 거리(잔차)를 제곱하여 각각 더한 값, 각각의 관측값들에서 추정된 직선까지의 거리 제곱합이 최소가 되도록 회귀계수를 구하는 것

 

* 회귀선: 흩어진 데이터 점들에 가장 적합한 선

y = a + bx

- y: 종속변수

- a: 절편

- b: 기울기

- x: 독립변수

 

- 피어슨 상관계수: 상관계수의 절대값이 1에 가까울수록 회귀식을 구성하는 변수가 강한 선형관계를 갖는다는 것을 의미

- 회귀선의 기울기: 선형적 관련성

- 결정계수: 종속변수의 분산 가운데 회귀식에 의해 설명되는 비율

- 수정된 R^2: 동일한 모집단으로부터 수집된 다른 표본의 데이터를 현재의 회귀식으로 설명하는 정도

 

* 회귀식의 유의성 검정

  귀무가설
F통계량 T통계량
H0 - 회귀식이 포함된 독립변수의 회귀게수는 모두 0이다.
- 종속변수와 독립변수 간 선형관계가 없다.
- 모집단 회귀계수는 0이다.
- 모집단 결정계수는 0이다.
- 회귀식이 포함된 독립변수의 회귀계수는 0이다.
- 종속변수와 독립변수 간 선형관계가 없다.

 

2. 회귀분석의 특성

* 연구 문제 예시: 지능지수가 성적에 영향을 미치는가? 게임시간이 성적에 영향을 미치는가? 직원의 응대, 매장 인테리어, 브랜드 인지도 등이 고객만족도에 영향을 미치는가?

 

* 회귀방정식: 회귀분석에서 독립변수가 종속변수에 미치는 영향에 대해 나타내는 것(회귀식)

 

* 회귀계수: 변수의 관련성에 따라 양수(+) 혹은 음수(-)의 형태를 띔

 

* 회귀분석의 구분

구분요인 분석방법
독립변수의 수 1개 단순회귀분석
2개 이상 다중 회귀분석
독립변수의 척도 명목/서열 척도 더미변수 회귀분석(기준을 수치로 임의 변환)
등간/비율 척도 일반 회귀분석
독립변수와 종속변수의 관계 선형 선형 회귀분석
비선형(연속적) 비선형 회귀분석

 

* 다중회귀분석: 둘 이상의 독립변수가 종속변수에 미치는 영향에 대해 나타내는 경우 사용함

Y = a + b(X1) + c(X2) + d(X3) +.... + e

<- 각 독립변수의 회귀계수는 각각의 변수가 독립적으로 종속변수에 영향을 주는 크기

 

* 회귀분석과 상관분석

구분요인 회귀분석 상관분석
차이점 변수 간의 인과관계를 검증 변수 간의 관계 여부를 검증하는 분석법
공통점 변수간의 관계성을 검증

 


 

1. 데이터 입력

year = c(26, 16, 20, 7, 22, 15, 29, 28, 17, 3)
annual_salary = c(1246, 887, 1022, 511, 1100, 800, 1700, 1500, 1000, 422)
Data = data.frame(year, annual_salaray)

summary(Data)

 

2. 상관계수 추출

plot(year, annual_salary)
cor(year, annual_salary)

 => 근무년수와 연봉은 수치가 0.97로 강한 상관관계에 있으며, 선형성이 있다.

 

3. 회귀분석 실시

* lm(종속변수~독립변수, data = 데이터)

LS = lm(annual_salary~year, data = Data)
summary(LS)

- 회귀식: y = 194.030 + 45.069 * x

- 총변동 중 회귀직선에 의해 94.11%가 설명됨

- F-통계량: 유의수준 0.001에서 귀무가설을 기각함 

- 수정된 결정계수: 0.9337

 

* 유의성 검정 결과: 회귀계수가 0이 아님 -> 유의함 -> '근무연수는 연봉에 영향을 미친다'

 

반응형