자격증

[빅데이터 분석기사] 실기 준비(2)

RainIron 2021. 6. 11. 16:39
반응형

0. 공통

import pandas as pd
import numpy as np  

# 전처리(Encoder)
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, OrdinalEncoder
# 전처리(Scaler)
from sklearn.preprocessing import MinMaxScaler, MaxAbsScaler, RobustScaler, StandardScaler,
 maxas_scale, minmax_scale, robust_scale

# 분류 정확도 측정
from sklearn.metrics import roc_auc_score, accuracy_score

# 값 정확도 측정(Regression metrics)
from sklearn.metrics import mean_squared_error, median_absolute_error, median_absolute_percentage_error

# 군집화 정확도 측정
from sklearn.metrics import silhouette_score

* LabelEncoder 사용: fit 사용한 후, transform을 사용한다.

- 속성: classes_

l_encoder = LabelEncoder()
l_encoder.fit(tmp)
l_encoder.transform(tmp)

* OrdinalEncoder 사용: fit_transform() 사용

o_encoder = OrdinalEncoder()
o_encoder.fit_transform(list)

* OneHotEncoder 사용: fit 사용한 후, transform을 사용한다. 사용한 결과를 toarray()를 사용해야 결과를 제대로 확인할 수 있다. OrdinalEncoder를 사용한 결과를 그대로 Input으로 넣도록 해보자

oh_encoder = OneHotEncoder()
oh_encoder.fit(trans_ordinal)
oh_encoder.transform(trans_ordinal).toarray()

 

1. 데이터 분할

from sklearn.model_selection import train_test_split

 

1. 값 추정

from sklearn.linear_model import LinearRegression, SGDRegressor
from sklearn.ensemble import RandomForestRegressor, AdaboostRegressor, BaggingRegressor
from sklearn.svm import SVR, LinearSVR

 

2. 확률 추정

from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.ensemble import RandomFoerestClassifier, AdaBoostClassifier, BaggingClassifier
from sklearn.svm import LinearSVR

 

3. MLP 관련 모델

from sklearn.neural_network import MLPClassifier, MLPRegressor

 

4. fillna()

df.fillna(0)

 

5. Permutation()

df.loc[np.random.permutation(index's length)]

 

6. concat()

pd.concat([ df1, df2 ] , axis = 0 or 1 )
반응형