자격증

[빅데이터 분석기사] 실기 준비(3) - 필기/실기 준비 키워드

RainIron 2021. 6. 14. 00:03
반응형

※ 빅데이터 분석 기획

1. 데이터 수집 기술

정형 데이터 수집 기술 ETL, FTP, API(솔루션 제조사 및 3rd party 소프트웨어로 제공되는 도구), DBToDB, RSync, Sqoop
비정형 데이터 수집 기술 크롤링, RSS, Open API, Scrapy, Apach Kafka(Publish, Scribe로 구성)
반정형 데이터 수집 기술 센싱, 스트리밍, 플럼, 스크라이브, 척와

 

2. 데이터 활용성의 품질 특성

유용성, 접근성, 적시성, 보안성 [ 유/접/적/보 ]

 

3. 데이터 특성

- 데이터 정확성: 정확성, 사실성, 적합성, 필수성, 연관성 [ 정/사/적/ 필/연]

- 데이터 일관성: 정합성, 일치성, 무결성 [ 정/일/무 ]

 

4. 하둡 에코 시스템

- 데이터 가공: Pig, Hive

- 데이터마이닝: Mahout(머하웃)

- 실시간 SQL 처리: Impala(임팔라)

- 워크플로우 관리: Oozie

- 분산 코디네이션: Zookeeper

 

+ 데이터 수집: 비정형(척와, 플럼, 스크라이브), 정형(스쿱)

+ 분산 데이터 처리: MapReduce

+ 데이터 저장: HDFS

+ 분산 DB: HBase

 

5. 데이터 변환 기술

- 평활화: 이상값 변환, 잡음 제거

- 집계: 요약(다양한 차원의 방법으로 요약)

- 일반화: 스케일 변환

- 정규화: 정해진 구간 안에 들도록 하는 기법

 

6. 데이터 지식 경영

공통화(습득) -> 표출화(저장, 가공, 분석 과정) -> 연결화(새로운 창출) -> 내면화(체화)

 

7. NoSQL(빅데이터 저장 기술)

- Key-Value Store: Redis, DynamoDB

- Column Family Store: HBase, Cassandra

- Document Store: MongoDB, Couchbase

- Graph Store: Neo4j, Allegrograph

 

8. Soft Skill & Hard Skill

- Soft Skill: 통찰력, 전달력, 협업 능력

- Hard Skill: 이론적 지식, 분석 기술의 숙련도

 

9. SEMMA 분석 방법론(Sampling Exploration Modification Modeling Accessment)

샘플링 -> 탐색 -> 수정 -> 모델링 -> 검증 [ 색/탐/ 수/모/검 ](5단계)

 

10. KDD 분석 방법론

- Fayyad

- 프로파일링 기술

- 데이터 마이팅 프로세스

- 절차: Selection => 전처리 => 변환(차원 축소, 학습 및 검증 데이터로 분리) => 데이터마이닝 => 결과 평가

 

11. CRISP-DM 방법론(Cross Industry Standard Process for Data Mining)

- 5개 업체 연합

- 계층적 프로세스 모델

- 4개 레벨, 6단계

- 비즈니스 이해 바탕

- 절차: 업무 이해 <=> 데이터 이해(인사이트 발견) => 데이터 준비 <=> 모델링(최적화, 과적합 문제 평가) => 평가(프로세스 목적에 부합하는지 평가하는 단계) =>전개(실업무 적용)

 

12. 데이터 비식별 조치 방법

- 가명처리: ex) 장길산 => 장가명

- 총계 처리: 데이터 값을 합, 평균 등으로 표현

- 데이터 삭제

- 데이터 범주화: ex) 장길산, 41세 => 장씨, 40대

- 데이터 마스킹: ex) 장길산 => 장**

 

13. 데이터 확보 계획 수립 절차

목표 정의 -> 요구사항 도출 -> 예산안 수립 -> 계획 수립

 

14. 분석 대상과 방법

OISD 분석 대상
Known Un-Known
방법 Known 최적화(Opimization) 통찰(Insight)
Un-Known 솔루션(Solution) 발견(Discovery)

 

15. 빅데이터 분석 방법론

1) 분석 기획: 비즈니스 이해, 프로젝트 정의, 계획 수립, 프로젝트 위험 계획 수립

  - 프로젝트 위험 대응: 회피, 완화, 수용, 전가

2) 데이터 준비: 필요 데이터 정의, 데이터 스토어 설계, 데이터 수집 및 정합성 검증

3) 데이터 분석: 분석용 데이터 준비, 텍스트 분석, 탐색적 데이터 분석, 모델링, 모델 평가

4) 시스템 구현: 설계 및 구현, 시스템 테스트

5) 평가 및 전개: 모델 발전 계획 수립, 프로젝트 평가


※ 빅데이터 탐색

1. 통계적 데이터 분석 방법

1) 기술통계량

2) 상관분석: 연관성의 정도

3) 회귀분석: 두 변수 사이의 모형을 구한 뒤 적합도 측정

4) 분산분석: 집단 간 비교, F-분포 이용

5) 주성분분석

* 검정

- 카이제곱검정: 목표(기대빈도)와 실제 비교

- ANOVA: 세 집단 이상 집단 분산 분석

- T검정: 평균 비교 ex) 남자와 여자의 암기력 차이

- F검정: 분산 비교

 

2. 데이터 결측값 종류

- 완전 무작위

- 비 무작위

- 무작위

 

3. 결측값 단순 대치법

- 완전 분석법

- 평균 대치법

- 단순 확률 대치법: hot, cold, 혼합 방법

 

4. 탐색적 데이터 분석 특성(EDA)

- 저항성

- 잔차 해석

- 자료 재표현

- 현시성(시각화)

 

5. 변수 선택 기법

- 필터: 통계적 특성을 이용 ex) 정보 소득, 카이제곱검정, 피셔 스코어, 상관계수

- 래퍼: 변수의 일부만 모델링에 사용, 그리디 알고리즘, 과적합 ex) RFE(Recursive, 재귀 제거), SFS(Sequential, 순차합성), 유전 알고리즘, 단변량 선택, mRMR(minimum, Maximum)

- 임베디드: 변수 학습, 회귀식 찾기 ex) LASSO(L1 Norm), Ridge(L2 Norm), 엘라스틱 넷(LASSO+Ridge), SelectFromModel

 

6. 차원 축소 기법

- PCA

- SVM

- 요인 분석(잠재적인 변수가 있다고 가정)

- ICA(독립성분분석)

 

7. 상관성 분석

수치 데이터 피어슨 상관계수
순서 데이터 스피어만 순위 상관계수(두 변수 간 비선형적 관계)
명목 데이터 카이제곱 검정(두 집단의 연관성)

 

8. 점 추정 조건 [ 불/효/일/충 ]

- 불편성

- 효율성

- 일치성

- 충족성

 

9. 가설검정

  실제
H0 H1
채택 H0 T 제 2종 오류
H1 제 1종 오류 T

 

10. 데이터 정제 기술

- ETL, MapReduce, Spark/Strom

- CEP(Complex Event Processing): 실시간 이벤트 처리

- Pig

- Flume


※ 빅데이터 모델링

1. 회귀분석

- 가정: 선형성, 독립성, 등분산성, 비상관성, 정상성(잔차항이 정규 분포를 이뤄야함)

- 다중 회귀 모형 => F통계량

- 하나 이상의 독립변수들이 종속변수에 미치는 영향 추정

- R^2 결정계수

  * 총 변동 중에서 설명되는 변동이 차지하는 비율

  * 다중 회귀 모형에서 수정된 결정계수 사용(<= 적적하지 않은 변수 입력 시 감소)

  * 입력변수와 비례

 

2. 로지스틱 회귀 모형

- 종속변수: 범주형

- 분류의 목적

- 회귀계수가 양수일 경우 S자형, 회귀계수가 음수일 경우 역 S자형 모형

 

3. 의사결정나무

- 분리 기준: 자식 마디들이 형성될 때, 입력변수의 선택과 범주의 병합이 이루어질 기준

- 분류 규칙: 카이제곱 통계량, 지니지수, 엔트로피 지수

- 알고리즘

CART - 독립변수: 이산형, 연속형
- 종속변수: 번주형, 연속형
- 분류규칙: 지니지수
- 이진분리
- 독립변수를 이분화하는 과정을 반복하여 이진 트리를 형성함으로써 분류를 수행
C4.0, C5.0 - 독립변수: 범주형
- 종속변수: 범주형, 연속형
- 분류규칙: 엔트로피 지수
- 다지분리
CHAID - 독립변수: 범주형, 연속형
- 종속변수: 범주형
- 분류규칙: 카이제곱검정, F검정
- 다지분리
QUEST - 독립변수: 범주형
- 종속변수: 범주형, 연속형
- 분류규칙: 카이제곱검정, F검정
- 이진분리

 

4. 시계열예측

- 정상성: 시점에 상관없이 시계열의 특성이 일정

- 평균 일정

- 분산: 시점에 의존하지 않음

- 공분산: 시차에는 의존하지만, 시점에는 의존하지 않음

- 종류

자기 회귀 모형
(AR모델, Auto-Regressive)
현시점의 자료가 P시점 전인 유한 개의 자료로 설명될 수 있는 모델
이동 평균 모형
(MA모델, Moving Average)
시간이 지날수록 평균이 증가하거나 감소하는 모형, 자신의 과거값 사용
자기 회귀 누적 이동 평균 모형
(ARIMA, p/d/q, 비정상 시계열)
분기/반기/연간 등 지표 예측
분해 시계열(TSCI) Trend 추세, Season 계절, Cyclic 순환, Irregular 불규칙

 

5. 앙상블 분석 종류

- 배깅: 데이터 집합에서 크기가 같은 표본 여러 개를 단순 임의 복원 추출하여 분류기를 생성하여 결과를 앙상블하는 기법 (ex: MetaCost)

- 부스팅: 잘못 분류된 개체들에 가중치를 적용, 틀린 것에 더 크게 처벌 (ex: AdaBoost)

- 랜덤포레스트: 전체 변수 집합에서 부분 변수 집합을 선택하여 각각의 집합에 대해 모형을 생성한 후 결합을 하는 방식의 앙상블 방법 

 

6. 다중 공손성

 회귀 모형에 사용된 독립변수 간의 상관관계가 존재하여 회귀 계수 추정치가 불안하고 해석하기 어려워지는 현상

 

7. 기울기 소실 문제

 다층 신경망 모형에서 은닉층의 개수를 너무 많이 설정하게 되면 역전파 과정에서 가중치 조정이 일어나지 않아 신경망의 학습이 이루어지지 않는 현상

 

8. 활성함수

Sigmoid 로지스틱 함수와 유사
Softmax 출력값이 여러 개로 주어지고 목표치가 범주인 경우 각 범주에 속할 사후 확률을 제공하는 함수
ReLU, Leaky Relu  
지지도 P(A∩B)
신뢰도(조건부 확률) P(A∩B) / P(B)
향상도(규칙의 예측력) P(A∩B) / (P(A)*P(B))

- 향상도가 1이면 독립, 1 초과일 경우 관련 O, 1 미만일 경우 관련 X

 

11. 와드 연결법

 군집 내의 SSE(오차 제곱합)에 기초

 

12. EM 알고리즘

 관측되지 않은 잠재 변수에 의존하는 확률 모델에서 최대 가능도나 최대 사후 확률을 갖는 모수의 추정값을 찾는 반복적인 알고리즘

 

13. 범주형 데이터 분석기법

표본 집단의 분포가 주어진 특정 이론을 잘 따르고 있는지? 적합도 검정
여러 범주를 가지는 2개의 요인이 독립적인지, 서로 연관성이 있는지 검정 독립성 검정
서로 동일한지? 동질성 검정

 

14. 다변량 분석기법 [ 피/스/다/주 ]

- 피어슨 상관계수: 두 변수의 선형적인 관계 ( -1 ≤ a ≤ 1 , a = 0 이면 독립)

- 스피어만 상관계수: 피어슨 + 비선형적 관계

- 다차원 척도법: 집단화 -> 시각화, 거리를 실수 공간의 점으로 변환

- 주성분 분석: 고차원 -> 저차원 / 누적기여율: 데이터의 전체 정보량 비율

 

15. 사회연결망 분석(SNA) 속성 [ 응/구/명/범/중 ]

- 응집력

- 구조적 등위성

- 명성

- 범위

- 중계

 

16. 자카드 계수

- 두 집합이 동일하면 1, 공통의 원소가 하나도 없으면 0의 값

- 두 집합 사이의 유사도 측정

 

17. 오피니언 마이닝 절차

 특징 추출(Feature) => 문장 인식 => 요약 및 전달

 

18. 비모수 통계

- 비모수: 평균, 분산 사용하지 않고 부호나 순위를 사용해 이상값 영향을 적게 함

- 분포에 대한 가정

- 모집단 분포에 대해 제약 X

 

19. 편차, 오차, 잔차

- 편차: 관측치가 평균으로부터 떨어져 있는 정도

- 오차: 추정된 값과 실제값의 차이

- 잔차: 회귀식 등으로 추정된 값의 차이

 

20. 분석 모형 구축 절차

 요건 정의 => 모델링 => 검증 및 테스트 => 적용

 

21. 수학적 거리

- 연속형 변수거리: 맨해튼 거리, 유클리드 거리, 민코프스키 거리, 표준화 거리, 마할라노비스 거리

- 명목형 변수거리: 자카드 계수, 단순 일치 계수


※ 빅데이터 결과 해석 

1. 혼동행렬 [ 정오/특거/민정 ]

  예측
True False
실제 True TP FN
False FP TN

정확도 / 오차비율

특이도 / 거짓긍정률

민감도 / 정밀도

 

- 특이도: 부정인 범주 중에서 부정으로 올바르게 예측한 비율

- 민감도(재현율, Recall): 긍정인 범주인 중에서 긍정으로 올바르게 예측한 비율

 

2. 카이제곱검정

 -> 관측된 데이터가 가정된 확률을 따르는지 확인하기 위해 사용하는 적합도 검정 기법

 

3. 데이터 검증

- K-Fold Cross Validation: K개의 부분집합

- LOOCV: K-Fold 처럼 N개로 나누고 N번 반복

- LpOCV: nCp 교차검증

- Holdout Cross Validation: 비복원 추출, 데이터 손실 O

반응형