Post

[Python] Decision Tree

[Python] Decision Tree

Decision Tree

Create. Seung-Ho Ryu (Comment. Jung-In Seo)

Reference - 파이썬 머신러닝 완벽 가이드 (Chapter 4-2) - 주머니속 머신러닝 (Chapter 10-5) - 데이터 과학자를 위한 실전 머신러닝(Chapter 6)

DT_Information

< 실습 데이터셋 >

  • Titanic 데이터 셋 : 타이타닉 사건(1912년도) 때 타이타닉 호에 탑승했던 승객들의 정보, 생존 여부등으로 총 11개의 Feature로 이루어져 있습니다.
    • 11개의 변수 중 분석에 사용할 변수는 아래의 표에서 소개를 합니다.

Features_Information

  • Flow Chart

Flow_Chart

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
# Data Preprocessing 
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.preprocessing import StandardScaler, LabelEncoder

# Visualization 
import seaborn as sns
import matplotlib.pyplot as plt

# warning ignore 
import warnings
warnings.filterwarnings(action = 'ignore')

# Model Definition
from sklearn.tree import DecisionTreeClassifier

# Evaluation
from sklearn.metrics import roc_curve, accuracy_score, confusion_matrix, roc_auc_score

1. 데이터 불러오기

1
2
3
4
# 데이터 불러오기
titanic = pd.read_csv('./Data/Titanic.csv')

titanic
 SurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked
003Braund, Mr. Owen Harrismale22.010A/5 211717.2500NaNS
111Cumings, Mrs. John Bradley (Florence Briggs Th…female38.010PC 1759971.2833C85C
213Heikkinen, Miss. Lainafemale26.000STON/O2. 31012827.9250NaNS
311Futrelle, Mrs. Jacques Heath (Lily May Peel)female35.01011380353.1000C123S
403Allen, Mr. William Henrymale35.0003734508.0500NaNS
88602Montvila, Rev. Juozasmale27.00021153613.0000NaNS
88711Graham, Miss. Margaret Edithfemale19.00011205330.0000B42S
88803Johnston, Miss. Catherine Helen “Carrie”femaleNaN12W./C. 660723.4500NaNS
88911Behr, Mr. Karl Howellmale26.00011136930.0000C148C
89003Dooley, Mr. Patrickmale32.0003703767.7500NaNQ

891 rows × 11 columns

2. 전처리

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# 가족 변수 추가
titanic['FamSize'] = titanic['SibSp'] + titanic['Parch']  # FamSize = 형제 및 배우자 수 + 부모님 및 자녀 수

# 분석에 사용할 변수만 선택
Use_Columns = ['Survived', 'Pclass', 'Sex', 'Age', 'FamSize', 'Fare', 'Embarked']  
titanic = titanic[Use_Columns] 

# 결측값 제거
titanic.dropna(subset = ['Age'], axis = 0, inplace = True)

# 변수 형태 변경
titanic[['Survived', 'Pclass', 'Sex', 'Embarked']] = titanic[['Survived', 'Pclass', 'Sex', 'Embarked']].astype('category')
titanic['Age'] = titanic['Age'].astype('int')

# One-Hot-Encoding
titanic = pd.get_dummies(titanic, columns = ['Pclass', 'Sex', 'Embarked'], drop_first = True)

3. 데이터 탐색

1
2
# 변수 형태
titanic.info()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
<class 'pandas.core.frame.DataFrame'>
Index: 714 entries, 0 to 890
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   Survived    714 non-null    category
 1   Age         714 non-null    int64   
 2   FamSize     714 non-null    int64   
 3   Fare        714 non-null    float64 
 4   Pclass_2    714 non-null    bool    
 5   Pclass_3    714 non-null    bool    
 6   Sex_male    714 non-null    bool    
 7   Embarked_Q  714 non-null    bool    
 8   Embarked_S  714 non-null    bool    
dtypes: bool(5), category(1), float64(1), int64(2)
memory usage: 26.6 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# 수치형 변수 시각화
def numberic_plot(df, target):
    g = sns.PairGrid(df, hue = target)  # 주어진 데이터 컬럼에 대한 모든 조합을 만들어주는 빈 틀을 위한 코드        
    g.map_diag(sns.histplot)            # 삼각행렬의 중간 부분
    g.map_lower(sns.scatterplot)        # 아래 부분
    
    # 상관 계수 행렬을 구하고 상관 계수 값 표시
    corr_matrix = df.corr()
    for i, j in zip(*plt.np.triu_indices_from(g.axes, k = 1)):                                        # np.triu_indices_from : 삼각행렬의 위쪽 삼각형의 인덱스 (k = 0 : 대각 행렬 포함, 1 : 제외)
        g.axes[i, j].annotate(f"corr : {corr_matrix.iloc[i, j]:.2f}",                                 # 상관계수
                              (0.5, 0.5), xycoords = "axes fraction", ha = 'center', va = 'center',   # 중앙 정렬
                              fontsize = 12,                                                          # 글자 크기
                              color = 'black')                                                        # 글자 색  
    g.add_legend()  # 범례 표시
    plt.show()

Columns = ['Age', 'FamSize', 'Fare', 'Survived']  # 수치형 변수
numberic_plot(titanic[Columns], 'Survived')

numberic plot

4. 데이터 분할

1
2
3
4
5
6
7
8
# 생존 여부 변수를 Target으로 지정
y = titanic['Survived']

# 나머지 변수들을 예측 변수로 지정
X = titanic.drop(['Survived'], axis = 1)

# 75 : 25로 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

5. 결정 트리 (DT ; Decision Tree)

from sklearn.tree import DecisionTreeClassifier

# 결정 트리(Decision Tree) 모형 정의(파라미터 기본값)
DecisionTreeClassifier(
    max_depth = None,                   # 트리의 최대 깊이
    min_samples_split = 2,              # 노드 분할에 필요한 최소 샘플 수
    min_samples_leaf = 1,               # 말단(Leaf) 노드에 필요한 최소 샘플 수
    max_features = None,                # 각 분할을 위해 검사할 특징의 수
    random_state = 0                    # 고정값
)
Parameters DT_Parameter_Information

5-1. 모형 정의

1
2
3
4
5
6
7
DT = DecisionTreeClassifier(
    max_depth = None,       # 트리의 최대 깊이
    min_samples_split = 2,  # 노드 분할에 필요한 최소 샘플 수
    min_samples_leaf = 1,   # 말단(Leaf) 노드에 필요한 최소 샘플 수
    max_features = None,    # 각 분할을 위해 검사할 특징 수
    random_state = 0        # 고정값
)

5-2. 모형 훈련

1
2
DT_fit = DT.fit(X_train, y_train)
DT_fit
DecisionTreeClassifier(random_state=0)
In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook.
On GitHub, the HTML representation is unable to render, please try loading this page with nbviewer.org.

5-2-1. 변수 중요도

1
2
3
4
5
6
7
8
9
10
11
feature_importance = DT.feature_importances_    # 피처 중요도 가져오기
indices = np.argsort(feature_importance)[::-1]  # 정렬
feature_names = X_train.columns                 # 피처 이름

# 피처 중요도 시각화
plt.bar(range(X_train.shape[1]), feature_importance[indices], align = "center")
plt.xticks(range(X_train.shape[1]), feature_names[indices], rotation = 45)
plt.xlabel("Feature Index")
plt.ylabel("Feature Importance")
plt.title("Decision Tree Feature Importance")
plt.show()

Feature Importance

5-2-2. 트리 시각화

1
2
3
4
5
6
7
8
from sklearn import tree

fig = plt.figure(figsize = (40, 20))
tree.plot_tree(DT_fit,
               feature_names = list(X_train.columns),
               class_names = ['0', '1'],
               filled = True)        
plt.show()

tree plot

6-3. 모형 평가

1
2
DT_pred = DT.predict(X_test)
DT_pred
1
2
3
4
5
6
7
8
9
array([1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1,
       1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1,
       1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0,
       1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0,
       1, 1, 1])

6-3-1. Confusion Matrix

Confusion Matrix

1
2
3
4
5
6
7
8
DT_cfx = confusion_matrix(y_test, DT_pred)                     # Confusion Matrix(True, pred)
DT_sensitivity = DT_cfx[1, 1] / (DT_cfx[1, 0] + DT_cfx[1, 1])  # 민감도 계산
DT_specificity = DT_cfx[0, 0] / (DT_cfx[0, 0] + DT_cfx[0, 1])  # 특이도 계산

print(f"DT 정확도(accuracy) : {accuracy_score(y_test, DT_pred) * 100 :.2f}%")
print(f"DT Confusion_Matrix :\n{DT_cfx}")
print(f"DT 민감도(sensitivity) : {DT_sensitivity * 100 :.2f}%")
print(f"DT 특이도(specificity) : {DT_specificity * 100 :.2f}%")
1
2
3
4
5
6
DT 정확도(accuracy) : 79.89%
DT Confusion_Matrix :
[[83 20]
 [16 60]]
DT 민감도(sensitivity) : 78.95%
DT 특이도(specificity) : 80.58%

6-3-2. ROC 곡선

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
DT_pred = DT.predict(X_test)

fpr, tpr, thresholds = roc_curve(y_test, DT_pred)

J = tpr - fpr
ix = np.argmax(J)             # 가장 큰 원소의 위치(최대값의 인덱스)
best_thresh = thresholds[ix]

#plot roc and best threshold
sens, spec = tpr[ix], 1 - fpr[ix]

# plot the roc curve for the model
plt.plot([0,1], [0,1], linestyle = '--', markersize = 0.01, color = 'black')  # 중간 기준 선
plt.plot(fpr, tpr, marker = '.', color = 'black', markersize = 0.01, label = "Ridge AUC = %.2f" % roc_auc_score(y_test, DT_pred))
plt.scatter(fpr[ix], tpr[ix], marker = '+', s = 100, color = 'r', 
            label = f"Best threshold = {best_thresh:.3f}, \nSensitivity = {sens:.3f}, \nSpecificity = {spec:.3f}")

# axis labels
plt.xlabel("False Positive Rate(1 - Specificity)")
plt.ylabel("True Positive Rate(Sensitivity)")
plt.legend(loc = 4)

# show the plot
plt.show()

ROC Plot

This post is licensed under CC BY 4.0 by the author.