r 13

[R] R을 이용한 분산분석

1. 분산분석의 개념 1) 배경 t검정 -> 비효율성을 줄이기 위해 F 분포에 근거하여 검정 두 집단 간 속성에 대한 평균 차이를 검증하는 방법 집단간 변화량과 집단 내 변화량을 비교하는 방법 * 비효율성: 3개 이상 모집단을 비교할 때, 두 독립집단끼리 비교하는 t 검정을 3번 시행 2) 정의 - 두 개 이상 집단들의 평균을 비교하는 통계 분석 기법 - 두 개 이상 집단들의 평균 간 차이에 대한 통계적 유의성을 검증하는 방법 - 관측자료가 몇 개의 그룹으로 구분된 경우 그룹 평균 간 차이를 그룹 내 변동에 비교하여 살펴보는 데이터 분석 방법 3) 사용하는 이유 - '각 집단의 평균이 다르다.' = '집단 간 평균이 떨어져 있어, 분산이 크다' = '집단간 분산이 클수록 집단 간 평균이 서로 다를 가능성..

프로그래밍 2021.05.23

[R] R을 이용한 회귀분석

1. 회귀분석의 개념 * 회귀(Regression): 한 바퀴 돌아 제자리로 돌아오거나 돌아감 * 배경 19세기 영국의 우생학자 프랜시스 갤턴 -> "부모의 키가 큰 자식들의 키가 점점 더 커지지 않고 다시 평균 키로 회귀하는 경향을 발견" => '평균으로의 회귀' * 정의 - 독립변수가 종속변수에 영향을 미치는지 확인하기 위해 실시하는 분석 방법 - 독립 변수와 종속변수 사이에 인과관계가 존재할 때, 그 관계의 정도를 분석하고 통계적 유의성을 검정하는 것 * 독립변수: 실험 또는 연구에서 자극을 주는 변수(원인변수) -> 어떤 것의 원인이 되는 변수이며 종속변수에 영향을 미침 * 종속변수: 자극에 대한 반응이나 결과를 나타내는 변수(반응변수, 결과변수) -> 독립변수의 영향을 받아 변함 * 회귀분석 4..

프로그래밍 2021.05.17

[R] R을 이용한 상관분석

1. 상관분석의 개념 * 정의 1) 상관분석: 두 변수 간에 관계가 있는지를 알아보고자 할 때 실시하는 분석방법 2) 상관관계: 두 변수(대상)이 서로 관련성이 있다고 추측되는 단계 => 한 쪽이 증가하면 다른 쪽도 증가(혹은 감소)하는 경향이 있을 때, '상관관계가 있다'라고 함. 3) 상관계수: 상관분석에서 두 변수의 관련된 정도를 나타내주는 값(표기법: 알파벳 'r'(Correlation)) => 변수들 간의 상관도가 높아질 수록, 상관계수 값이 커짐 2. 상관분석의 특징 * 연구 예시 - 양의 상관관계: 지능지수와 성적, 키와 몸무게 - 음의 상관관계: 농작물 생산량과 가격, 고도와 기온 - 무의 상관관계: 스마트폰 이용 시간과 성적, 범죄율과 아이스크림 판매량 * 상관계수의 값: -1

프로그래밍 2021.05.16