23.02.04 의사결정나무

Notice

Recent Posts

Recent Comments

Link

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

project:eve

23.02.04 의사결정나무 본문

Daily

23.02.04 의사결정나무

eveee 2023. 2. 4. 21:11

Studying here🏠콘하스 연희점

7번째 분석 모델인 의사결정나무이다. 이제 머신러닝 파트는 반 정도 배운 것 같다...(책 기준) 조금만 더 열심히 해보자!!

1) 정의 : 데이터를 분리하는 규칙을 세워 학습하고 그 규칙에 따라 예측하는 모형

- 특징 : 시각화하기 간편하다. 전처리를 안 해도 된다 / 성능이 안 좋다....

2) 종류와 분리 기준

1- 분류 : 카이제곱 통계량 p값, 지니지수, 엔트로피지수

2- 회귀 : 분산분석 F통계량, 분산의 감소량

3) 코드

1- 분류 : 독일 신용 데이터로 분석을 해보려고 한다.

출처 : ( https://archive-beta.ics.uci.edu/dataset/144/statlog+german+credit+data)

데이터를 가져와 결측치가 있는지 살펴보자

import pandas as pd

credit = pd.read_csv('/Users/eve/Downloads/jupyter notebook/files/germancredit.csv')

credit.info()

(* 이제까지 데이터를 분석하면서 전처리를 빡세게 한 적이 없는 것 같다. 대충 결측치 있으면 평균값 넣거나 아님 그냥 행을 빼버리거나.. 정규성, 선형성이나 분포 같은 것도 다 보면 좋은데. 나중에 게시글 하나를 전처리만 다루는 내용으로 하나 써야겠다)

독립변수와 종속변수를 나누고 학습/검증 데이터를 분할한다.

X = credit.drop(columns=['OBS', 'RESPONSE'])
y = credit['RESPONSE']

from sklearn.model_selection import train_test_split

train_x, test_x, train_y, test_y = train_test_split(X, y, train_size = 0.7, random_state=1, stratify=y)

의사결정나무를 호출하고 데이터를 학습/예측한다. 여기에서 분류기의 속성을 추가해서 어느 것이 더 성능이 좋은지 알아보자. 위에서 말했던 것처럼 분리 기준을 하나는 지니지수, 하나는 엔트로피지수를 사용하는 것으로 지정해서 비교해보기

from sklearn.tree import DecisionTreeClassifier

clf_gn = DecisionTreeClassifier(criterion='gini', min_samples_split=50, max_depth=5)
clf_et = DecisionTreeClassifier(criterion='entropy', min_samples_split=50, max_depth=5)

clf_gn.fit(train_x, train_y)
clf_et.fit(train_x, train_y)

pred_gn = clf_gn.predict(test_x)
pred_et = clf_et.predict(test_x)

성능 평가해보자. 변수를 다 나누어서 각각 계산하기

from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import classification_report
from sklearn.metrics import plot_roc_curve, roc_auc_score

clf_gn_cm = confusion_matrix(test_y, pred_gn)
clf_gn_acc = round(accuracy_score(test_y, pred_gn), 2)
clf_gn_prc = round(precision_score(test_y, pred_gn), 2)
clf_gn_rc = round(recall_score(test_y, pred_gn), 2)
clf_gn_f1 = round(f1_score(test_y, pred_gn), 2)

clf_et_cm = confusion_matrix(test_y, pred_et)
clf_et_acc = round(accuracy_score(test_y, pred_et), 2)
clf_et_prc = round(precision_score(test_y, pred_et), 2)
clf_et_rc = round(recall_score(test_y, pred_et), 2)
clf_et_f1 = round(f1_score(test_y, pred_et), 2)

비교하기. 원래라면 for문 돌려서 분류기 생성부터 성능 평가까지 모두 만들면 되는데 오늘 왜이리 공부하기 힘들까.. 그냥 노가다로 만들었다

result = pd.DataFrame(columns=['criterion', 'acc', 'prc', 'rc', 'f1'])

result['criterion'] = ['gini', 'entropy']
result.loc[result['criterion']=='gini','acc'] = clf_gn_acc
result.loc[result['criterion']=='gini','prc'] = clf_gn_prc
result.loc[result['criterion']=='gini','rc'] = clf_gn_rc
result.loc[result['criterion']=='gini','f1'] = clf_gn_f1

result.loc[result['criterion']=='entropy','acc'] = clf_et_acc
result.loc[result['criterion']=='entropy','prc'] = clf_et_prc
result.loc[result['criterion']=='entropy','rc'] = clf_et_rc
result.loc[result['criterion']=='entropy','f1'] = clf_et_f1

result

정확도는 지니 계수를 사용한 쪽이 조금 더 높은데 재현율이 차이가 난다. 두가지 중에 하나를 골라야 한다면 재현율이 높은 분류기를 사용할 것 같다.

또 이번에는 성능 평가와 관련된 다른 라이브러리 함수도 써봤다. roc그래프, auc점수, 그리고 classification report 함수는 실제값과 예측값을 넣으면 정확도, 정밀도, 재현율과 f1점수까지 전부 구해준다! 다음부터는 이 함수만 써야겠다.

코드에서는 지니 분류기와 엔트로피 분류기를 나누어서 그래프와 성능지표를 표시해봤다.

from sklearn.metrics import plot_roc_curve, roc_auc_score
from sklearn.metrics import classification_report

fig = plt.figure(figsize=(10, 8))
plot_roc_curve(clf_gn, test_x, test_y)
plt.show()
clf_report_gn = classification_report(test_y, pred_gn)
print(clf_report_gn)


plot_roc_curve(clf_et, test_x, test_y)
clf_report_et = classification_report(test_y, pred_et)
plt.show()
print(clf_report_et)

auc점수로 보면 지니 분류기가 아주 조금 더 성능이 좋은 것 같다. classification report는 정말 편해서 앞으로는 성능 지표 구할 때 이것만 쓸 것 같다.

그리고 한가지 더) 분석을 하고 나서 컬럼별로 중요도를 알 수 있다.

ft_imp = clf_gn.feature_importances_

print(ft_imp)

중요도 배열은 원본 데이터의 열 순서대로 나오므로 보기 쉽게 데이터에서 열을 가져와 합쳐주면 된다. pd.concat을 사용하기 위해 두 데이터를 각각 데이터프레임으로 만들어주는 것 포함

df_ft_imp = pd.DataFrame(ft_imp)

col = pd.DataFrame(X.columns)

imp = pd.concat([col, df_ft_imp], axis=1)

imp.columns = ['col', 'importance']

imp.sort_values(by = 'importance', axis=0, ascending=False)

내림차순으로 상위 5개 열만 가져왔다. 30개에 가까운 열 중 10개 정도만 영향력이 있고 나머지는 거의 0이다.

2- 회귀 : 나이 등 여러가지 요인에 따른 보험료 자료를 가지고 분석해봤다.

데이터 가져오고 전처리 해보기

import pandas as pd

ins = pd.read_csv('/Users/eve/Downloads/jupyter notebook/files/insurance.csv')
ins.info()

결측치는 없고, 문자형식 데이터가 몇 개 보인다. 수치형으로 바꿔주자.

ins[['sex', 'smoker']]

ins['sex'] = np.where(ins['sex']=='female', 1, 0)
ins['smoker'] = np.where(ins['smoker']=='yes', 1, 0)

전처리가 끝났으면 데이터 분할해 주기.

X = ins_1.drop(columns=['charges'])
y = ins_1['charges']

from sklearn.model_selection import train_test_split

train_x, test_x, train_y, test_y = train_test_split(X, y, train_size=0.7, random_state=1)

의사결정나무 회귀함수를 호출하고 주요 속성인 max_depth가 3인 것과 5인 것으로 각각 분석해 차이를 비교해 보기로 했다. 이번에는 일일이 하지 않고 반복문으로 만들어봤다.

from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error

preds = ['reg_5', 'reg_3']

result = pd.DataFrame(columns=['preds', 'mae', 'mse', 'rmse'])
result['preds'] = preds

depth = [5, 3]

for i, d in enumerate(depth):
    
    reg = DecisionTreeRegressor(max_depth=d)
    reg.fit(train_x, train_y)
    pred = reg.predict(test_x)
    
    mae = round(mean_absolute_error(test_y, pred), 2)
    mse = round(mean_squared_error(test_y, pred))
    rmse = round(np.sqrt(mse), 2)
    
    result.loc[i, 'mae'] = mae
    result.loc[i, 'mse'] = mse
    result.loc[i, 'rmse'] = rmse
    
print(result)

오차가 적을수록 좋은 분석기이므로 max_depth가 3인 것이 조금 더 좋아보이는 것 같다. 숫자가 이렇게 크게 나오는 건 아무래도 종속변수의 값 폭이 넓어서 같은데.. 정규화를 먼저 하고 분석했으면 보기 편했을 것 같다.

'Daily' 카테고리의 다른 글

23.02.11 Naive Bayes 나이브 베이즈 (0)	2023.02.06
23.02.05 앙상블 (0)	2023.02.05
23.01.31 KNN 최근접 이웃 (0)	2023.01.31
23.01.28 SVM 서포트 벡터 머신 (0)	2023.01.29
23.01.28 Logistic Regression로지스틱 회귀 (0)	2023.01.29

'Daily' Related Articles

project:eve

23.02.04 의사결정나무 본문

23.02.04 의사결정나무

'Daily' 카테고리의 다른 글

티스토리툴바