[Python] ML-Random Forest
1. 왜 등장했는가 단일 Decision Tree는 훈련 데이터에 과적합되고, 데이터가 조금만 달라져도 트리 구조가 크게 변하는 불안정 문제가 있었습니다. “여러 트리를 독립적으로 학습시켜 평균 내면 분산이 줄어든다”는 Bagging 아이디어에 각 트리가 서로 다른 특성 부분집합을 보도록 무작위성을 추가한 것이 Random Forest입니다. (Br...
1. 왜 등장했는가 단일 Decision Tree는 훈련 데이터에 과적합되고, 데이터가 조금만 달라져도 트리 구조가 크게 변하는 불안정 문제가 있었습니다. “여러 트리를 독립적으로 학습시켜 평균 내면 분산이 줄어든다”는 Bagging 아이디어에 각 트리가 서로 다른 특성 부분집합을 보도록 무작위성을 추가한 것이 Random Forest입니다. (Br...
1. 왜 등장했는가 선형 회귀는 연속값을 예측하지만, “생존/사망”처럼 0과 1 사이 확률을 예측해야 할 때 적합하지 않습니다. 선형 회귀의 출력은 음수나 1 초과가 될 수 있어 확률로 해석이 불가능합니다. Logistic Regression은 시그모이드 함수로 출력을 [0, 1] 범위로 변환해 분류 확률을 제공합니다. 2. 핵심 아이디어 — ...
1. 왜 등장했는가 Gradient Boosting은 강력하지만, 모든 특성의 모든 분기점을 탐색하므로 대용량 데이터에서 매우 느렸습니다. LightGBM은 히스토그램 기반 분기 탐색과 리프 우선(Leaf-wise) 성장으로 기존 대비 10~100배 빠른 속도와 낮은 메모리 사용량을 달성했습니다. (Microsoft, 2017) Gradient B...
1. 왜 등장했는가 대부분의 ML 알고리즘은 학습 단계에서 명시적인 모델(계수, 트리 구조 등)을 만듭니다. KNN은 반대로 학습을 아예 하지 않고, 예측 시점에 가장 가까운 이웃을 찾아 답을 내는 방식입니다. 모델을 따로 저장하지 않고 데이터 자체를 기억하기 때문에 게으른 학습(Lazy Learning) 이라고 불립니다. 단순하지만 강력한 직관을...
1. 왜 등장했는가 기존 통계 모델(선형 회귀, 로지스틱 회귀)은 “직선”으로만 데이터를 나눌 수 있었습니다. 실제 세계의 패턴은 직선보다 복잡한 경우가 많아, 사람이 실제로 의사결정을 내리는 방식인 “조건을 순서대로 따져가며 판단” 하는 구조를 모델로 옮긴 것이 Decision Tree입니다. 2. 핵심 아이디어 — 스무고개 Decision...
1. 왜 등장했는가 단일 Decision Tree는 훈련 데이터에 과적합되기 쉽고 성능 한계가 명확했습니다. “약한 모델(weak learner) 여러 개를 순서대로 쌓으면 강한 모델이 된다”는 Boosting 이론을 최초로 실용화한 것이 AdaBoost (Adaptive Boosting) 입니다. 핵심은 이전 모델이 틀린 샘플에 더 집중해서 다음 ...
MIPS(Maximum Inner Product Search) 학습된 임베딩의 점수 자체를 신뢰하는 검색 방식 주어진 질의 벡터와 가장 내적(Inner Product)이 큰 벡터(문서)를 찾는 검색 방법 EX) 입력 질의 $q$와 문서 임베딩들 $d_1, d_2, …, d_N$이 주어졌을 때, 다음 값을 최대화하는 문서를 찾...
수정 - 설명 추가 - Flow Chart 도메인 데이터(금융 약관)를 활용하여, LLaMA 3.1 모델이 복잡한 문맥을 어떻게 검색(Retrieval)하고 정교한 답변을 생성(Generation)하는지를 검증 I. Data Load # GPU 할당 import os os.environ["CUDA_VISIBLE_DEVICES"] = "3...
📐 Markdown 수식 정리 수학 · 통계 · 머신러닝 · 딥러닝 글을 작성할 때 자주 사용되는 Markdown(LaTeX) 수식 기호를 용도별로 정리한 참고 문서 ✏️ 수식 작성 기본 규칙 Markdown에서는 LaTeX 문법을 사용해 수식을 표현 문장 안 수식: $ ... $ → 문장 흐름 안에서 간단한 수식 표현 독립 수식:...
RAG에서 Retrieval이란? RAG(Retrieval-Augmented Generation)는 외부 지식을 검색(Retrieval) 하고, 그 결과를 바탕으로 LLM이 답변을 생성(Generation) 하는 구조의 아키텍처이다. 이 글에서는 RAG의 핵심 구성요소 중 하나인 Retrieval 단계를 중심으로 개념부터 구현 관점까지 정리한다. ...