[Python] ML-LDA (Linear Discriminant Analysis)
1. 왜 등장했는가 PCA처럼 고차원 데이터를 저차원으로 줄이고 싶지만, PCA는 분산을 기준으로 축을 찾아 클래스 구분에 최적화되지 않는 문제가 있었습니다. LDA는 클래스 간 분산을 최대화하고 클래스 내 분산을 최소화하는 방향으로 투영해 분류에 특화된 차원 축소와 분류를 동시에 수행합니다. (Fisher, 1936) 2. 핵심 아이디어 — ...
1. 왜 등장했는가 PCA처럼 고차원 데이터를 저차원으로 줄이고 싶지만, PCA는 분산을 기준으로 축을 찾아 클래스 구분에 최적화되지 않는 문제가 있었습니다. LDA는 클래스 간 분산을 최대화하고 클래스 내 분산을 최소화하는 방향으로 투영해 분류에 특화된 차원 축소와 분류를 동시에 수행합니다. (Fisher, 1936) 2. 핵심 아이디어 — ...
1. 왜 등장했는가 기존 Gradient Boosting 계열(XGBoost, LightGBM)은 범주형 특성을 직접 처리하지 못해 One-hot Encoding 등 별도 전처리가 필요했고, 이 과정에서 타깃 누수(Target Leakage) 문제가 발생했습니다. CatBoost는 범주형 특성을 자체적으로 안전하게 처리하고 순서 기반 부스팅으로 편향...
1. 왜 등장했는가 AdaBoost는 틀린 샘플의 가중치를 높이는 방식이었지만, 이상치에 취약한 문제가 있었습니다. Gradient Boosting은 “잔차(residual)를 직접 다음 모델이 학습” 하는 방식으로 이를 일반화했습니다. 손실 함수의 음의 기울기(Negative Gradient)를 잔차로 보고 트리를 순서대로 쌓아나갑니다. (Frie...
1. 왜 등장했는가 선형 회귀는 특성이 많아질수록 계수가 커져 과적합이 생깁니다. Ridge는 계수를 작게 만들어 이를 완화하지만, 불필요한 특성을 완전히 제거하지는 못합니다. Lasso는 불필요한 특성의 계수를 정확히 0으로 만들어 모델링과 특성 선택을 동시에 수행합니다. (Tibshirani, 1996) Ridge가 “모든 특성의 계수를 조금씩...
1. 왜 등장했는가 선형 회귀는 특성들 사이에 상관관계가 높아지거나(다중공선성) 특성이 많아지면 계수가 불안정하게 폭발합니다. Ridge는 손실 함수에 계수 제곱합 패널티(L2) 를 추가해 계수 크기를 균일하게 억제합니다. Lasso와 달리 계수를 완전히 0으로 만들지 않고 모든 특성을 조금씩 유지합니다. (Hoerl & Kennard, 19...
1. 왜 등장했는가 로지스틱 회귀는 클래스를 나누는 결정 경계를 찾지만, 어떤 경계가 “가장 좋은 경계”인지 기준이 없습니다. SVM은 두 클래스 사이의 여백(Margin)을 최대화하는 경계를 찾아 일반화 성능을 높입니다. 또한 커널 함수로 선형 분리가 불가능한 데이터도 처리할 수 있습니다. (Vapnik, 1995) “무한히 많은 결정 경계 중 ...
1. 왜 등장했는가 기존 Gradient Boosting은 정확하지만 느리고, 과적합 제어 수단이 부족했습니다. XGBoost는 2차 미분(헤시안)을 이용한 정밀한 분기 탐색과 다양한 정규화 기법으로 속도·성능·과적합 제어를 동시에 개선해 캐글 대회를 석권했습니다. (Chen & Guestrin, 2016) Gradient Boosting이...
1. 왜 등장했는가 단일 Decision Tree는 훈련 데이터에 과적합되고, 데이터가 조금만 달라져도 트리 구조가 크게 변하는 불안정 문제가 있었습니다. “여러 트리를 독립적으로 학습시켜 평균 내면 분산이 줄어든다”는 Bagging 아이디어에 각 트리가 서로 다른 특성 부분집합을 보도록 무작위성을 추가한 것이 Random Forest입니다. (Br...
1. 왜 등장했는가 선형 회귀는 연속값을 예측하지만, “생존/사망”처럼 0과 1 사이 확률을 예측해야 할 때 적합하지 않습니다. 선형 회귀의 출력은 음수나 1 초과가 될 수 있어 확률로 해석이 불가능합니다. Logistic Regression은 시그모이드 함수로 출력을 [0, 1] 범위로 변환해 분류 확률을 제공합니다. 2. 핵심 아이디어 — ...
1. 왜 등장했는가 Gradient Boosting은 강력하지만, 모든 특성의 모든 분기점을 탐색하므로 대용량 데이터에서 매우 느렸습니다. LightGBM은 히스토그램 기반 분기 탐색과 리프 우선(Leaf-wise) 성장으로 기존 대비 10~100배 빠른 속도와 낮은 메모리 사용량을 달성했습니다. (Microsoft, 2017) Gradient B...