r 13

[R] 내부 평가를 이용한 분류 모델 성능 평가

1. 분류 모델과 내부 평가 1) 분류 모델 - 특정 기준(정답)에 의해 분석 대상을 특정 개수의 집단으로 분류하는 예측 모형 - 학습된 모델을 통해, 입력된 값을 미리 정해진 결과로 분류해주는 모델 2) 내부 평가 - 통계 분석 과정상 당연히 거쳐야 하는 과정을 제대로 이행하는지 여부에 중점을 둠 - 정확성, 안정성, 적합성, 객관성 등의 세부 평가 지표에 따라 평가 -> 세부 지표 중 평가에 활용할 지표를 통상적 기준에 의해 선택하여 활용 3) 분류 모델의 종류 구분 정의 다중 판별 분석 집단 간의 차이를 의미있게 설명해 줄 수 있는 독립변수들을 찾아내고 이들의 선형결합으로 판별식을 만들어 내어 분류하고자 하는 대상들이 속하는 집단을 찾아내는 기법 로지스틱 회귀분석 독립변수의 선형결합을 이용해 사건의..

프로그래밍 2021.06.05

[R] ROC 곡선 기법을 통한 분류 모델 성능 평가

1. ROC 곡선의 개념 1) ROC 곡선 - 정의: 식별 모델의 성능 평가 방법 - 유래: 제 2차 세계대전 때 수신된 레이더 신호에서 적 전투기를 찾으려는 미국의 레이더 연구에서 탄생한 개념으로 글자가 구성되어 수신자 조작 특성을 의미함 - 두 개의 범주를 가지고 있는 분류 모형의 성능을 평가하기 위해 쓰는 그래프 - 민감도(Sensitivity)와 특이도(Specificity)를 알아보는데 주로 사용 * 특징 - 신호감시이론의 한 분야 - 세계 2차 대전 당시, 레이더가 감지한 신호를 통해 적함/아군함/단순 잡음인지를 판별하는데 사용 - 레이더를 수신하는 수신기의 특성을 요약하여 보여준다는 점에서 착안하여 이름이 정해짐 - 1970년 이후, 의료와 금융 등 분류가 필요한 분야에 유용하게 사용 2) ..

프로그래밍 2021.06.05

[R] Confusion Matrix를 통한 분류 모델 성능 평가

1. 컨퓨전 매트릭스의 개념 1) 컨퓨전 매트릭스(Confusion Matrix, 혼동 행렬) - 머신러닝 혹은 통계학적 방법이 사용된 분류 모델에서, 알고리즘의 성능을 보기 쉽게 시각화하는 테이블 형태의 레이아웃 - 타당성 검증: 모델을 만들 때 모델이 얼마나 정확한 결과를 계산하는지 객관적으로 측정하는 것 2) ROC 곡선(Receiver Operating Characteristic curve) - 특정 진단 방법의 민감도와 특이도가 어떤 관계를 갖고 있는지를 표현한 그래프 - 데이터의 정답 결과 세트를 제작 -> 데이터의 식별 결과 세트 제작 -> 2*2 컨퓨전 매트릭스 제작 3) 컨퓨전 매트릭스 형태 컴퓨전 매트릭스 (Confusion Matrix) 실제(True Condition) Positiv..

프로그래밍 2021.06.05

[R] 교차 유효성 검사를 통한 예측 모델 성능 평가

1. 교차 유효성 개념 1) 교차 유효성 검사(Cross Validation, 교차 검증) * 정의 - 주어진 데이터의 일부를 학습시켜 모델을 생성하고, 나머지 일부(비학습 데이터)는 모델을 검증하는데 사용하는 것 => 교차 타당화 - 연구 결과에 대한 타당성을 해당 연구에 사용하지 않은 표본으로 평가해보는 타당화 방법 2) 교차 유효성 검사의 필요성 - 과적합(Overfitting)을 방지하기 위해 교차 유효성 검사를 실시 - 과적합: 비학습 데이터 혹은 향후에 만들어질 모델에 대해 예측력이 떨어지거나 성능이 좋지 않은 상태 - 전체 데이터 -> 훈련용 데이터(약 80%) + 테스트용 데이터(약 20%) 2. 교차 유효성 검사 종류 1) 종류 - Cross-Validation - LOOCV - K-Fo..

프로그래밍 2021.06.05

[R] 예측 오차를 통한 예측 모델 성능 평가

1. 예측 오차의 개념 1) 오차와 예측 오차 * 정의 - 오차(Error): 실제값과 예측값의 차이의 정도 - 예측 오차(Prediction Error): 예측 분석 시 발생하는 예측값과 실제값의 차이 * 예측오차 발생시 통계적 문제점 (예) - 원인1: 시계열의 집계수준(월, 주 등)이 예측 데이터에 비해 지나치게 세밀하거나 간격이 클 경우(데이터가 너무 많거나 적을 오류 발생) - 원인2: 매출 데이터의 기초 수준이 월이지만 주별로 집계할 경우(Null이 너무 많음) * 오류와 해결 방법 오류 메시지 해결 방법 제안 "뷰의 날짜 필드에서 연속형 날자를 파생할 수 없습니다." - 예측하려면 날자 필드를 연속적으로 해석할 수 있어야 함 - 날자 필드가 명시적으로 연속하지 않는 경우 날짜 수준에 연도가 ..

프로그래밍 2021.06.02

[R] 분석모델 확장(파생변수, 앙상블 기법)

[파생변수 활용] 1. 파생 변수의 개념 1) 파생 변수의 정의 - 작위적(의도적) 정의에 의해 특정 의미를 갖는 변수 - 사용자가 특정 조건을 만들어 의미를 부여한 변수 2) 파생 변수의 성격 - 주관적: 논리적 타당성을 갖추지 못한 경우, 분석과 해석에 문제가 생김 - 특정 상황에만 의미있는 것이 아닌, 대표성이 나타나도록 변수 설계를 해야 함. ex) 2021년 하반기 제품 구매 고객 리스트(X) -> 하반기 제품 구매 고객 리스트 - 세분화, 고객행동 예측, 마케팅 혹은 캠페인 반응 예측에 활용이 가능 ex) 변수(근무시간 중 구매정도, 주거래매장, 선호상품, 가격대 등) -> 고객의 예상 구매 빈도, 거래 금액으로 고객 등급 분류, 캠페인 시행 효과 확인 등 2. 파생 변수의 예시와 활용 1) ..

프로그래밍 2021.05.31

[R] R을 이용한 군집분석

1. 군집화 1) 개념 * 군집분석: 동일한 성격을 가진 여러 개의 그룹으로 대상을 분류하는 것 - 대상 개체를 유사하거나 서로 관련있는 항목기리 묶어 몇 개의 집단으로 그룹화 하는 것 - 각 집단의 성격을 파악함으로써 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적 분석방법 (집단 간 이질성: 크게 / 집단 내 동질성: 작게) 2) 군집 분석의 특징 * 사전에 정의된 어떤 특수한 목적이 없음 -> 종속변수에 대한 독립변수의 영향과 같이, 사전에 정의된 어떤 특수한 목적이 없음 -> 데이터 자체에 의존하여 데이터의 구조와 자료를 탐색하고 요약하는 기법 * 대용량 데이터의 경우, 전체에 대한 의미 있는 정보를 얻어낼 수 있음 - 전체를 유사한 관찰치들의 군집으로 구분(잘 대표하는 군집) -> 전체에 ..

프로그래밍 2021.05.29

[R] R을 이용한 예측분석

1. 예측분석의 개념 1) 예측분석 * 정의: 데이터 마이닝 기법 혹은 기존 데이터나 미래 상황에 대한 가정을 활용하여 고객의 반응을 보이는 제안이나 특정 제품을 구매할 확률 등의 활동 결과를 예측하는 것 => 정형/비정형 데이터의 트렌드, 패턴 및 관계를 분석하고, 향후에 발생할 사건들을 예측하며 목표로 하는 결과를 달성하기 위한 의사 결정을 지원하는 종류의 분석 2) 예측분석의 종류와 사용 분석 방법 사용 분석 방법 사용 예시 시계열 분석을 사용한 패턴 분석 수요, 물가, 주식지수 예측 등 회귀 분석을 이용한 영향 분석 만족도, 품질 진단 등 텍스트 마이닝을 활용한 비정형분석 SNS 분석, 상품평 분석 등 의사결정나무 분석 방법을 활용한 예측분석 기업 부도, 환율 예측 등 + 인공신경망을 이용하여 미..

프로그래밍 2021.05.29

[R] R을 이용한 로지스틱회귀분석

1. 로지스틱 회귀분석의 개념 1) 로지스틱 회귀분석 - 정의: 분석하고자 하는 대상들이 두 집단 혹은 그 이상의 집단으로 나누어진 경우, 개별 관측치들이 어느 집단으로 분류될 수 있는가를 판단하는 분석 방법 분석방법 종속변수(y) 독립변수(x) 회귀분석 연속형 자료 범주형 자료 연속형 자료 로지스틱 회귀분석 범주형 자료 * 범주형(질적) 자료(이산형 변수): 명목, 서열 척도 * 연속형 자료(양적 변수): 등간, 비율 척도 - 로지스틱 회귀분석은 종속변수에 범주형 데이터가 사용됨 -> 일종의 분류 기법으로 볼 수 있음(분석 결과, 데이터가 특정 분류로 나뉘기 때문) 2) 종류(종속변수의 범주에 따른 구분) 분석방법 종속변수의 개수 예 이항형 로지스틱 회귀 2개 성공, 실패 다항형 로지스틱 회귀 3개 이..

프로그래밍 2021.05.24

[R] R을 이용한 주성분분석

1. 주성분분석의 개념 1) 정의: 해당 데이터의 원래 변수들을 선형변환을 통해 '주성분'이라 불리는, 서로 상관되어 있지 않거나 독립적인 새로운 인공 변수를 구하여 해석하는 분석 방법 2) 다변량 자료: 둘 이상의 서로 상관관계에 있는 변수들을 포함하고 있는 자료 - 변수 정보를 차원 축소하여 단순화 시킨 후 이해 3) 특징 - 주성분분석은 다변량 자료 분석 방법 중 하나 - 서로 상관되어 있는 변수들의 복잡한 구조를 '차원 단순화'시켜 간편하고 이해하기 쉽도록 한다. 4) 차원: 공간 내에 있는 점 등의 위치를 나타내기 위해 필요한 축의 개수 - 데이터 분석의 측면에서 '차원 = 변수의 수' 5) 차원 축소와 주성분분석이 필요한 이유 - 차원의 저주: 변수의 수가 늘어나, 차원이 커지면서 발생하는 문..

프로그래밍 2021.05.23