자격증

[빅데이터 분석기사] 실기 후기

RainIron 2021. 6. 19. 20:04
반응형

※ 실기

- 일자

  2021-06-19

 

- 시험장소

  더조은아카데미 신관 5고사실

- 난이도

  (체감) 중하

 

- 문제 유형

1) 필답형 10문제

빅데이터 분석기사 필기 준비 -> ADsP 준비 -> 빅데이터 분석기사 실기 준비 과정을 거쳐서 많은 부담을 가지지는 않았다. 그래서 시험 직전에 정리해놓은 키워드들(단답형 답으로 나올 만한 개념들)을 위주로 살피기만 했다.

나온 키워드로는

- 지도학습, 비지도학습의 개념

- 데이터 이상값, 결측값의 정의

- 데이터 결측값 처리 방법

- 데이터 분석 모델 평가 방법

- 앙상블 기법의 종류와 개념

- 변수 선택 기법

- 하이퍼파라미터

이외에는 기억이 안 나서 여기까지..

위에 언급된 키워드만 보더라도, ADsP와 크게 다른 내용이 없는 것 같았고, 자세하게 물어보기보다는 데이터 분석을 할 때, 필요한 주요 개념을 물어본 것 같았다.

 

2) 작업형 1유형 3문제

- 데이터 일부 선택(전체의 80%)

- 중위수 파악

- 표준편차 파악

- 결측값 대치

- 데이터 프레임에서 조건을 두고 데이터 추출하는 방법

이외에는 기억이 안 나서 여기까지..

기본적으로 검정통계량(기본적인 평균, 중위수, 표준편차, 분산)을 구하는 방법을 숙지하고, 데이터 전처리 과정을 유연하게 할 수 있어야 할 것 같다.

특정 칼럼이 0보다 큰 경우, 80보다 작은 경우와 같이 조건이 주어졌을 때 해당되는 데이터를 추출할 수 있어야 하고, 결측값 혹은 이상값을 대체할 수 있는 능력도 필요할 것 같다.

 

3) 작업형 2유형 1문제

시험 전, 홈페이지에서 공개된 예시 문제와 크게 다른 점은 없었다. 훈련 데이터를 적용해 모델을 제작하고, 테스트 데이터를 입력해 확률 값을 구하는 것이 목적이었다.

부분 점수에 대한 기준은 공개되지 않았고, 예상되는 부분 점수 기준은

  1. 데이터 전처리(이상값, 결측값을 변환했는가?)

  2. 데이터 추출(훈련 데이터, 검증 데이터로 학습을 시켰는가?)

  3. 모델의 정확성

으로 생각하고 있다. 먼저 코드를 실행하기 전에, 데이터를 분석해본다고 했지만, 단순히 눈으로 훑어보는 정도밖에 안 되서, 스스로 EDA 과정을 수월하게 수행할 수 있는 능력을 갖춰야 할 것 같다고 생각했다.

데이터를 살펴볼 수 있었지만, EDA가 부족하지 않았나 생각한다.

 

데이터를 살펴보면서 눈 여겨 봤던 점은

  1. 결측값이 있었는가? X

  2. 이상값이 있었는가? O

  => 일부 칼럼의 값이 숫자로 기록되지 않고 문자로 기록된 형태가 있었다. ex) 17이 아니라 '17'로

  => 일부 칼럼의 값이 오류가 있었다. 숫자의 일부 형태가 마스킹 된 상태여서 어떻게 처리할 지 고민을 했다.

  3. 데이터 특성

  => 범주형 데이터의 경우 수치형 데이터로 변환해줘야 한다.

  => preprocessing의 여러 Encoder가 있지만, 시간 관계상 LabelEncoder만 적용해 데이터를 변환했다. 지금 생각해보면, LabelEncoder보다 OrdinalEncoder -> OneHotEncoder를 사용하는 것이 더 좋지 않았을까 생각한다(훈련시킬 칼럼이 많아 차원의 저주가 걱정되기는 하지만..)

 

Train.csv, Test.csv가 주어지는데, Train.csv를 80:20으로 훈련 데이터와 검증 데이터로 분리하고 모델에 학습시켰다.

 

모델의 정확성은 문제에서 주어진 metric을 활용했다.

하이퍼 파라미터를 변경하며 LogisticRegression, RandomForestClassifier, MLPClassifier를 사용해봤지만, 결과는 RandomForestClassifier가 평균적으로 좋아 제출했다. 기억나는 정확도는 67%로 높지 않아, 높은 점수를 얻지 못할 것 같다.

 

- 기타

1. 메모장을 왜 사용할 수 있게 했는가?

 개인적으로 매우 궁금한 부분. 왜 메모장을 쓸 수 있게 한건지 모르겠다. 내 앞자리에 앉은 분은 시험 직전까지 미리 메모장에 뭔가를 잔뜩 쓰셨는데, 시험 때 그 창을 닫았는지는 모르겠다. 내가 시험 보기에 바빠서 신경쓸 틈이 없었다. 혹시나 그게 되는 사항인가 의문이 들어 감독관에게 물어봤지만 당연히 No.

 홈페이지에서 코드를 작성하고 디버깅하는 것이 좋을텐데, 메모장은 왜...?

 부정행위 가능성만 높인 사항이 아닌가 싶었다.

 

2. 시험 중 문의에 대한 늦은 대답

 후기가 그렇게 많지는 않고, 카페의 후기를 보는 중에 시험 중 문의를 드렸는데 답이 늦었다고 하는 글이 있었다. 문제가 아주 약간 오해의 소지가 있을 경우가 있어서 궁금했는데, 애매하지 않게 확실하게 문제를 서술해주면 좋겠다.

 

3. 난이도

 필기에서 빅데이터보다 단순히 데이터 분석, 통계와 관련된 사항이 많아 실기도 그럴까 싶었는데, 딱히 빅데이터가 생각나는 문제는 퍼셉트론 계산? 말고는 없었다. 쓰고보니 그것 마저도 인공지능의 인공 신경망 파트인데...

 머신러닝 모듈 활용, 데이터 전처리 말고 특별히 기억나는 것과 어려운 사항이 없어서, 실기 난이도 조절은 실패한 것 같다.(이렇게 써놓고 불합격하면 민망쓰)

 실기 난이도가 낮은 것으로 봐서, 빅데이터 분석기사란 자격증에 대해 메리트가 좋지는 않을 것 같다는 생각이 든다.

 

4. 첫 시험 & 공부법

 필기는 그래도 여러 문제집, 참고서가 있지만 실기의 경우 아무것도 없다. 신기하게도...

 필기 때 활용한 수제비에서는 필기 문제 예측 실패 글에 이어, 실기 서적을 내지 않을 것이라 했기 때문에 준비하면서 답답한 감이 있었다. 유튜브와 다른 블로그를 참고하며 공부했다.

 1) 유튜브

 2) Kaggle

 3) sklearn.datasets의 데이터 가지고 놀기

위 3가지 방법으로 실기를 준비했고, 원하는 데이터를 가지고 놀 수 있을 정도로(?) 활용한다면 수월하게 취득할 수 있을 것 같다.

 

여러 변수가 있기 때문에 합격할 것 같다고 자신하지는 못 하고, 추후 7월에 나올 발표를 기다리며 다른 공부를 해야겠다.

반응형