[Python] AdaBoost
[Python] AdaBoost
Create. Seung-Ho Ryu (Comment. Jung-In Seo)
Reference
- 파이썬 머신러닝 완벽 가이드(Chapter 4-5)< 실습 데이터셋 >
- Titanic 데이터 셋 : 타이타닉 사건(1912년도) 때 타이타닉 호에 탑승했던 승객들의 정보, 생존 여부등으로 총 11개의 Feature로 이루어져 있습니다.
- 11개의 변수 중 분석에 사용할 변수는 아래의 표에서 소개를 합니다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
# Data Preprocessing
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.preprocessing import StandardScaler, LabelEncoder
# Visualization
import seaborn as sns
import matplotlib.pyplot as plt
# warning ignore
import warnings
warnings.filterwarnings(action = 'ignore')
# Model Definition
from sklearn.ensemble import AdaBoostClassifier
# Evaluation
from sklearn.metrics import roc_curve, accuracy_score, confusion_matrix, roc_auc_score
1. 데이터 불러오기
1
2
3
4
# 데이터 불러오기
titanic = pd.read_csv('./Data/Titanic.csv')
titanic
Survived | Pclass | Name | Sex | Age | SibSp | Parch | Ticket | Fare | Cabin | Embarked | |
---|---|---|---|---|---|---|---|---|---|---|---|
0 | 0 | 3 | Braund, Mr. Owen Harris | male | 22.0 | 1 | 0 | A/5 21171 | 7.2500 | NaN | S |
1 | 1 | 1 | Cumings, Mrs. John Bradley (Florence Briggs Th… | female | 38.0 | 1 | 0 | PC 17599 | 71.2833 | C85 | C |
2 | 1 | 3 | Heikkinen, Miss. Laina | female | 26.0 | 0 | 0 | STON/O2. 3101282 | 7.9250 | NaN | S |
3 | 1 | 1 | Futrelle, Mrs. Jacques Heath (Lily May Peel) | female | 35.0 | 1 | 0 | 113803 | 53.1000 | C123 | S |
4 | 0 | 3 | Allen, Mr. William Henry | male | 35.0 | 0 | 0 | 373450 | 8.0500 | NaN | S |
… | … | … | … | … | … | … | … | … | … | … | … |
886 | 0 | 2 | Montvila, Rev. Juozas | male | 27.0 | 0 | 0 | 211536 | 13.0000 | NaN | S |
887 | 1 | 1 | Graham, Miss. Margaret Edith | female | 19.0 | 0 | 0 | 112053 | 30.0000 | B42 | S |
888 | 0 | 3 | Johnston, Miss. Catherine Helen “Carrie” | female | NaN | 1 | 2 | W./C. 6607 | 23.4500 | NaN | S |
889 | 1 | 1 | Behr, Mr. Karl Howell | male | 26.0 | 0 | 0 | 111369 | 30.0000 | C148 | C |
890 | 0 | 3 | Dooley, Mr. Patrick | male | 32.0 | 0 | 0 | 370376 | 7.7500 | NaN | Q |
891 rows × 11 columns
2. 전처리
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# 가족 변수 추가
titanic['FamSize'] = titanic['SibSp'] + titanic['Parch'] # FamSize = 형제 및 배우자 수 + 부모님 및 자녀 수
# 분석에 사용할 변수만 선택
Use_Columns = ['Survived', 'Pclass', 'Sex', 'Age', 'FamSize', 'Fare', 'Embarked']
titanic = titanic[Use_Columns]
# 결측값 제거
titanic.dropna(subset = ['Age'], axis = 0, inplace = True)
# 변수 형태 변경
titanic[['Survived', 'Pclass', 'Sex', 'Embarked']] = titanic[['Survived', 'Pclass', 'Sex', 'Embarked']].astype('category')
titanic['Age'] = titanic['Age'].astype('int')
# One-Hot-Encoding
titanic = pd.get_dummies(titanic, columns = ['Pclass', 'Sex', 'Embarked'], drop_first = True)
3. 데이터 탐색
1
2
# 변수 형태
titanic.info()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
<class 'pandas.core.frame.DataFrame'>
Index: 714 entries, 0 to 890
Data columns (total 9 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 Survived 714 non-null category
1 Age 714 non-null int64
2 FamSize 714 non-null int64
3 Fare 714 non-null float64
4 Pclass_2 714 non-null bool
5 Pclass_3 714 non-null bool
6 Sex_male 714 non-null bool
7 Embarked_Q 714 non-null bool
8 Embarked_S 714 non-null bool
dtypes: bool(5), category(1), float64(1), int64(2)
memory usage: 26.6 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
# 수치형 변수 시각화
def numberic_plot(df, target):
g = sns.PairGrid(df, hue = target) # 주어진 데이터 컬럼에 대한 모든 조합을 만들어주는 빈 틀을 위한 코드
g.map_diag(sns.histplot) # 삼각행렬의 중간 부분
g.map_lower(sns.scatterplot) # 아래 부분
# 상관 계수 행렬을 구하고 상관 계수 값 표시
corr_matrix = df.corr()
for i, j in zip(*plt.np.triu_indices_from(g.axes, k = 1)): # np.triu_indices_from : 삼각행렬의 위쪽 삼각형의 인덱스 (k = 0 : 대각 행렬 포함, 1 : 제외)
g.axes[i, j].annotate(f"corr : {corr_matrix.iloc[i, j]:.2f}", # 상관계수
(0.5, 0.5), xycoords = "axes fraction", ha = 'center', va = 'center', # 중앙 정렬
fontsize = 12, # 글자 크기
color = 'black') # 글자 색
g.add_legend() # 범례 표시
plt.show()
Columns = ['Age', 'FamSize', 'Fare', 'Survived'] # 수치형 변수
numberic_plot(titanic[Columns], 'Survived')
4. 데이터 분할
1
2
3
4
5
6
7
8
# 생존 여부 변수를 Target으로 지정
y = titanic['Survived']
# 나머지 변수들을 예측 변수로 지정
X = titanic.drop(['Survived'], axis = 1)
# 75 : 25로 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)
5. 에이다 부스트(AdaBoost)
from sklearn.ensemble import AdaBoostClassifier
# 에이다 부스트(Ada Boost) 모형 정의(파라미터 기본값)
AdaBoostClassifier(
base_estimator = None, # 기본 분류기 지정
n_estimators = 50, # 기본 분류기의 개수
learning_rate = 1.0, # 학습률
algorithm = 'SAMME.R', # 분류기의 학습 알고리즘 지정
random_state = None # 고정값
)
5-1. 모형 정의
1
2
3
4
5
6
7
8
# 에이다 부스트(Ada Boost) 모형 정의
AdaB = AdaBoostClassifier(
base_estimator = None, # 기본 분류기 지정
n_estimators = 50, # 기본 분류기의 개수
learning_rate = 1.0, # 학습률
algorithm = 'SAMME.R', # 분류기의 학습 알고리즘 지정
random_state = 0 # 고정값
)
5-2. 모형 훈련
1
2
# Ada Boost 기본 모형 훈련
AdaB.fit(X_train, y_train)
AdaBoostClassifier(base_estimator=None, random_state=0)In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook.
On GitHub, the HTML representation is unable to render, please try loading this page with nbviewer.org.
AdaBoostClassifier(base_estimator=None, random_state=0)
5-2-1. 변수 중요도
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# 피처 중요도 가져오기
feature_importance = AdaB.feature_importances_
# 정렬
indices = np.argsort(feature_importance)[::-1]
# 피처 이름
feature_names = X_train.columns
# 피처 중요도 시각화
plt.bar(range(X_train.shape[1]), feature_importance[indices], align = "center")
plt.xticks(range(X_train.shape[1]), feature_names[indices], rotation = 45)
plt.xlabel("Feature Index")
plt.ylabel("Feature Importance")
plt.title("AdaBoost Feature Importance")
plt.show()
5-3. 모형 평가
1
2
AdaB_pred = AdaB.predict(X_test)
AdaB_pred
1
2
3
4
5
6
7
8
9
array([1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1,
1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0,
0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1,
1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0,
1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0,
0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0,
1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0,
1, 1, 1])
5-3-1. Confusion Matrix
1
2
3
4
5
6
7
8
AdaB_cfx = confusion_matrix(y_test, AdaB_pred) # Confusion Matrix(True, pred)
AdaB_sensitivity = AdaB_cfx[1, 1] / (AdaB_cfx[1, 0] + AdaB_cfx[1, 1]) # 민감도 계산
AdaB_specificity = AdaB_cfx[0, 0] / (AdaB_cfx[0, 0] + AdaB_cfx[0, 1]) # 특이도 계산
print(f"AdaB 정확도(accuracy) : {accuracy_score(y_test, AdaB_pred) * 100 :.2f}%")
print(f"AdaB Confusion_Matrix :\n{AdaB_cfx}")
print(f"AdaB 민감도(sensitivity) : {AdaB_sensitivity * 100 :.2f}%")
print(f"AdaB 특이도(specificity) : {AdaB_specificity * 100 :.2f}%")
1
2
3
4
5
6
AdaB 정확도(accuracy) : 78.77%
AdaB Confusion_Matrix :
[[83 20]
[18 58]]
AdaB 민감도(sensitivity) : 76.32%
AdaB 특이도(specificity) : 80.58%
5-3-2. ROC 곡선
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
AdaB_pred = AdaB.predict(X_test)
fpr, tpr, thresholds = roc_curve(y_test, AdaB_pred)
J = tpr - fpr
ix = np.argmax(J) # 가장 큰 원소의 위치(최대값의 인덱스)
best_thresh = thresholds[ix]
#plot roc and best threshold
sens, spec = tpr[ix], 1 - fpr[ix]
# plot the roc curve for the model
plt.plot([0,1], [0,1], linestyle = '--', markersize = 0.01, color = 'black') # 중간 기준 선
plt.plot(fpr, tpr, marker = '.', color = 'black', markersize = 0.01, label = "Ridge AUC = %.2f" % roc_auc_score(y_test, AdaB_pred))
plt.scatter(fpr[ix], tpr[ix], marker = '+', s = 100, color = 'r',
label = f"Best threshold = {best_thresh:.3f}, \nSensitivity = {sens:.3f}, \nSpecificity = {spec:.3f}")
# axis labels
plt.xlabel("False Positive Rate(1 - Specificity)")
plt.ylabel("True Positive Rate(Sensitivity)")
plt.legend(loc = 4)
# show the plot
plt.show()
This post is licensed under CC BY 4.0 by the author.