1. 회귀분석의 개념
* 회귀(Regression): 한 바퀴 돌아 제자리로 돌아오거나 돌아감
* 배경
19세기 영국의 우생학자 프랜시스 갤턴 -> "부모의 키가 큰 자식들의 키가 점점 더 커지지 않고 다시 평균 키로 회귀하는 경향을 발견"
=> '평균으로의 회귀'
* 정의
- 독립변수가 종속변수에 영향을 미치는지 확인하기 위해 실시하는 분석 방법
- 독립 변수와 종속변수 사이에 인과관계가 존재할 때, 그 관계의 정도를 분석하고 통계적 유의성을 검정하는 것
* 독립변수: 실험 또는 연구에서 자극을 주는 변수(원인변수)
-> 어떤 것의 원인이 되는 변수이며 종속변수에 영향을 미침
* 종속변수: 자극에 대한 반응이나 결과를 나타내는 변수(반응변수, 결과변수)
-> 독립변수의 영향을 받아 변함
* 회귀분석 4단계
1) 선형회귀식 도출(최소제곱법, 회귀선)
2) 회귀식의 설명력(지표: 피어슨 상관계수, 회귀선의 기울기, 결정계수 R^2, 수정된 R^2)
3) 회귀분석에 대한 가정
4) 선형회귀 분석과의 비교(T검정, F검정)
* 최소제곱법: 관측점들과 회귀선간의 수직 거리(잔차)를 제곱하여 각각 더한 값, 각각의 관측값들에서 추정된 직선까지의 거리 제곱합이 최소가 되도록 회귀계수를 구하는 것
* 회귀선: 흩어진 데이터 점들에 가장 적합한 선
y = a + bx
- y: 종속변수
- a: 절편
- b: 기울기
- x: 독립변수
- 피어슨 상관계수: 상관계수의 절대값이 1에 가까울수록 회귀식을 구성하는 변수가 강한 선형관계를 갖는다는 것을 의미
- 회귀선의 기울기: 선형적 관련성
- 결정계수: 종속변수의 분산 가운데 회귀식에 의해 설명되는 비율
- 수정된 R^2: 동일한 모집단으로부터 수집된 다른 표본의 데이터를 현재의 회귀식으로 설명하는 정도
* 회귀식의 유의성 검정
귀무가설 | ||
F통계량 | T통계량 | |
H0 | - 회귀식이 포함된 독립변수의 회귀게수는 모두 0이다. - 종속변수와 독립변수 간 선형관계가 없다. - 모집단 회귀계수는 0이다. - 모집단 결정계수는 0이다. |
- 회귀식이 포함된 독립변수의 회귀계수는 0이다. - 종속변수와 독립변수 간 선형관계가 없다. |
2. 회귀분석의 특성
* 연구 문제 예시: 지능지수가 성적에 영향을 미치는가? 게임시간이 성적에 영향을 미치는가? 직원의 응대, 매장 인테리어, 브랜드 인지도 등이 고객만족도에 영향을 미치는가?
* 회귀방정식: 회귀분석에서 독립변수가 종속변수에 미치는 영향에 대해 나타내는 것(회귀식)
* 회귀계수: 변수의 관련성에 따라 양수(+) 혹은 음수(-)의 형태를 띔
* 회귀분석의 구분
구분요인 | 분석방법 | |
독립변수의 수 | 1개 | 단순회귀분석 |
2개 이상 | 다중 회귀분석 | |
독립변수의 척도 | 명목/서열 척도 | 더미변수 회귀분석(기준을 수치로 임의 변환) |
등간/비율 척도 | 일반 회귀분석 | |
독립변수와 종속변수의 관계 | 선형 | 선형 회귀분석 |
비선형(연속적) | 비선형 회귀분석 |
* 다중회귀분석: 둘 이상의 독립변수가 종속변수에 미치는 영향에 대해 나타내는 경우 사용함
Y = a + b(X1) + c(X2) + d(X3) +.... + e
<- 각 독립변수의 회귀계수는 각각의 변수가 독립적으로 종속변수에 영향을 주는 크기
* 회귀분석과 상관분석
구분요인 | 회귀분석 | 상관분석 |
차이점 | 변수 간의 인과관계를 검증 | 변수 간의 관계 여부를 검증하는 분석법 |
공통점 | 변수간의 관계성을 검증 |
1. 데이터 입력
year = c(26, 16, 20, 7, 22, 15, 29, 28, 17, 3)
annual_salary = c(1246, 887, 1022, 511, 1100, 800, 1700, 1500, 1000, 422)
Data = data.frame(year, annual_salaray)
summary(Data)
2. 상관계수 추출
plot(year, annual_salary)
cor(year, annual_salary)
=> 근무년수와 연봉은 수치가 0.97로 강한 상관관계에 있으며, 선형성이 있다.
3. 회귀분석 실시
* lm(종속변수~독립변수, data = 데이터)
LS = lm(annual_salary~year, data = Data)
summary(LS)
- 회귀식: y = 194.030 + 45.069 * x
- 총변동 중 회귀직선에 의해 94.11%가 설명됨
- F-통계량: 유의수준 0.001에서 귀무가설을 기각함
- 수정된 결정계수: 0.9337
* 유의성 검정 결과: 회귀계수가 0이 아님 -> 유의함 -> '근무연수는 연봉에 영향을 미친다'
'프로그래밍' 카테고리의 다른 글
[R] R을 이용한 주성분분석 (0) | 2021.05.23 |
---|---|
[R] R을 이용한 분산분석 (0) | 2021.05.23 |
[R] R을 이용한 상관분석 (0) | 2021.05.16 |
[Python] Machine Learning(Linear Regression, PCA, KNN, SVM, Kmeans) (0) | 2021.05.16 |
[Python] Matplotlib 활용(3) (0) | 2021.05.13 |