전체 글 97

[R] 예측 오차를 통한 예측 모델 성능 평가

1. 예측 오차의 개념 1) 오차와 예측 오차 * 정의 - 오차(Error): 실제값과 예측값의 차이의 정도 - 예측 오차(Prediction Error): 예측 분석 시 발생하는 예측값과 실제값의 차이 * 예측오차 발생시 통계적 문제점 (예) - 원인1: 시계열의 집계수준(월, 주 등)이 예측 데이터에 비해 지나치게 세밀하거나 간격이 클 경우(데이터가 너무 많거나 적을 오류 발생) - 원인2: 매출 데이터의 기초 수준이 월이지만 주별로 집계할 경우(Null이 너무 많음) * 오류와 해결 방법 오류 메시지 해결 방법 제안 "뷰의 날짜 필드에서 연속형 날자를 파생할 수 없습니다." - 예측하려면 날자 필드를 연속적으로 해석할 수 있어야 함 - 날자 필드가 명시적으로 연속하지 않는 경우 날짜 수준에 연도가 ..

프로그래밍 2021.06.02

[Hive] Hive 설치 및 환경 조성

※ Hive(Hadoop Ecosystem) - 대용량 분산환경에서 데이터 처리(통계 함수 등)를 할 수 있는 프레임워크 - 사용 언어: HiveQL(Hive SQL) - HiveQL을 사용하면 MapReduce 코드 생성/실행 - HiveQL을 사용하여 데이터 추가하면 HDFS에 파일 데이터로 저장 - derby, MySQL: Metadata 저장하는 용도 - HiveQL을 이용하여 DB 사용하듯이 할 수 있지만 결국 HDFS 영역에 파일로 저장된다 ※ Hive 설치 및 환경 설정 1. wget https://downloads.apache.org/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz 파일 다운로드 및 압축 해제 2. .bashrc에 환경 변수 추가 $ nano..

프로그래밍 2021.06.02

[HDFS] HDFS 명령어 및 운영 규칙

※ HDFS 1. Hadoop - 빅데이터 분산, 저장, 처리 시스템 - Java 언어로 작성되었고, Hadoop 기반의 프로그래밍은 자바를 사용 - 반드시 Java를 사용할 필요는 없음 - MapReduce: Java(비범용적, 복잡) / Python(범용적, 쉽고 간단) 2. Python을 이용하여 HDFS 활용 - Hadoop이 지원하는 hadoop-streamxxxxx.jar 기능 활용 - Map, Reduce를 연결할 때, 표준 입력 스트림/표준 출력 스트림을 사용 - 리눅스 상에서 파이프('|') 사용 ex) cat test.txt > copy.txt: 출력 방향이 모니터가 아닌 파일 cat test.txt >> copy.txt: copy.txt의 내용에 이어서 작성 cat test.py | ..

프로그래밍 2021.06.02

[Linux] Linux 명령어 정리 & Hadoop 설치 및 환경 조성

※Linux 명령어 정리 1. Change Directory - cd 디렉터리명: 디렉터리로 이동 - cd ..: 상위 티렉터리로 이동 2. List Segment - ls: 디렉터리 안에 있는 폴더와 파일 리스트를 출력 - ls -R 디렉터리명: 하위디렉터리 안에 있는 폴더와 파일 리스트 출력 - ls -a 디렉터리명: 디렉터리 안에 숨어있는 파일도 출력( ex: .bashrc, .readme) - ls -l 파일명: 파일 상세정보 출력 3. Remove - rm 파일명: 파일 제거 - rm -f 파일명: 파일 강제 삭제 - rm -r 디렉터리명: 디렉터리 삭제 (-r 옵션 없이 디렉터리 삭제 불가능) 4. Make Directory - mkdir 디렉터리명: 디렉터리 생성 - mkdir -p 디렉터리..

프로그래밍 2021.06.02

[R] 분석모델 확장(파생변수, 앙상블 기법)

[파생변수 활용] 1. 파생 변수의 개념 1) 파생 변수의 정의 - 작위적(의도적) 정의에 의해 특정 의미를 갖는 변수 - 사용자가 특정 조건을 만들어 의미를 부여한 변수 2) 파생 변수의 성격 - 주관적: 논리적 타당성을 갖추지 못한 경우, 분석과 해석에 문제가 생김 - 특정 상황에만 의미있는 것이 아닌, 대표성이 나타나도록 변수 설계를 해야 함. ex) 2021년 하반기 제품 구매 고객 리스트(X) -> 하반기 제품 구매 고객 리스트 - 세분화, 고객행동 예측, 마케팅 혹은 캠페인 반응 예측에 활용이 가능 ex) 변수(근무시간 중 구매정도, 주거래매장, 선호상품, 가격대 등) -> 고객의 예상 구매 빈도, 거래 금액으로 고객 등급 분류, 캠페인 시행 효과 확인 등 2. 파생 변수의 예시와 활용 1) ..

프로그래밍 2021.05.31

[R] R을 이용한 군집분석

1. 군집화 1) 개념 * 군집분석: 동일한 성격을 가진 여러 개의 그룹으로 대상을 분류하는 것 - 대상 개체를 유사하거나 서로 관련있는 항목기리 묶어 몇 개의 집단으로 그룹화 하는 것 - 각 집단의 성격을 파악함으로써 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적 분석방법 (집단 간 이질성: 크게 / 집단 내 동질성: 작게) 2) 군집 분석의 특징 * 사전에 정의된 어떤 특수한 목적이 없음 -> 종속변수에 대한 독립변수의 영향과 같이, 사전에 정의된 어떤 특수한 목적이 없음 -> 데이터 자체에 의존하여 데이터의 구조와 자료를 탐색하고 요약하는 기법 * 대용량 데이터의 경우, 전체에 대한 의미 있는 정보를 얻어낼 수 있음 - 전체를 유사한 관찰치들의 군집으로 구분(잘 대표하는 군집) -> 전체에 ..

프로그래밍 2021.05.29

[R] R을 이용한 예측분석

1. 예측분석의 개념 1) 예측분석 * 정의: 데이터 마이닝 기법 혹은 기존 데이터나 미래 상황에 대한 가정을 활용하여 고객의 반응을 보이는 제안이나 특정 제품을 구매할 확률 등의 활동 결과를 예측하는 것 => 정형/비정형 데이터의 트렌드, 패턴 및 관계를 분석하고, 향후에 발생할 사건들을 예측하며 목표로 하는 결과를 달성하기 위한 의사 결정을 지원하는 종류의 분석 2) 예측분석의 종류와 사용 분석 방법 사용 분석 방법 사용 예시 시계열 분석을 사용한 패턴 분석 수요, 물가, 주식지수 예측 등 회귀 분석을 이용한 영향 분석 만족도, 품질 진단 등 텍스트 마이닝을 활용한 비정형분석 SNS 분석, 상품평 분석 등 의사결정나무 분석 방법을 활용한 예측분석 기업 부도, 환율 예측 등 + 인공신경망을 이용하여 미..

프로그래밍 2021.05.29

[R] R을 이용한 로지스틱회귀분석

1. 로지스틱 회귀분석의 개념 1) 로지스틱 회귀분석 - 정의: 분석하고자 하는 대상들이 두 집단 혹은 그 이상의 집단으로 나누어진 경우, 개별 관측치들이 어느 집단으로 분류될 수 있는가를 판단하는 분석 방법 분석방법 종속변수(y) 독립변수(x) 회귀분석 연속형 자료 범주형 자료 연속형 자료 로지스틱 회귀분석 범주형 자료 * 범주형(질적) 자료(이산형 변수): 명목, 서열 척도 * 연속형 자료(양적 변수): 등간, 비율 척도 - 로지스틱 회귀분석은 종속변수에 범주형 데이터가 사용됨 -> 일종의 분류 기법으로 볼 수 있음(분석 결과, 데이터가 특정 분류로 나뉘기 때문) 2) 종류(종속변수의 범주에 따른 구분) 분석방법 종속변수의 개수 예 이항형 로지스틱 회귀 2개 성공, 실패 다항형 로지스틱 회귀 3개 이..

프로그래밍 2021.05.24

[R] R을 이용한 주성분분석

1. 주성분분석의 개념 1) 정의: 해당 데이터의 원래 변수들을 선형변환을 통해 '주성분'이라 불리는, 서로 상관되어 있지 않거나 독립적인 새로운 인공 변수를 구하여 해석하는 분석 방법 2) 다변량 자료: 둘 이상의 서로 상관관계에 있는 변수들을 포함하고 있는 자료 - 변수 정보를 차원 축소하여 단순화 시킨 후 이해 3) 특징 - 주성분분석은 다변량 자료 분석 방법 중 하나 - 서로 상관되어 있는 변수들의 복잡한 구조를 '차원 단순화'시켜 간편하고 이해하기 쉽도록 한다. 4) 차원: 공간 내에 있는 점 등의 위치를 나타내기 위해 필요한 축의 개수 - 데이터 분석의 측면에서 '차원 = 변수의 수' 5) 차원 축소와 주성분분석이 필요한 이유 - 차원의 저주: 변수의 수가 늘어나, 차원이 커지면서 발생하는 문..

프로그래밍 2021.05.23

[R] R을 이용한 분산분석

1. 분산분석의 개념 1) 배경 t검정 -> 비효율성을 줄이기 위해 F 분포에 근거하여 검정 두 집단 간 속성에 대한 평균 차이를 검증하는 방법 집단간 변화량과 집단 내 변화량을 비교하는 방법 * 비효율성: 3개 이상 모집단을 비교할 때, 두 독립집단끼리 비교하는 t 검정을 3번 시행 2) 정의 - 두 개 이상 집단들의 평균을 비교하는 통계 분석 기법 - 두 개 이상 집단들의 평균 간 차이에 대한 통계적 유의성을 검증하는 방법 - 관측자료가 몇 개의 그룹으로 구분된 경우 그룹 평균 간 차이를 그룹 내 변동에 비교하여 살펴보는 데이터 분석 방법 3) 사용하는 이유 - '각 집단의 평균이 다르다.' = '집단 간 평균이 떨어져 있어, 분산이 크다' = '집단간 분산이 클수록 집단 간 평균이 서로 다를 가능성..

프로그래밍 2021.05.23