[Python] ML-LightGBM
Light GBM 개념 LightGBM은 Microsoft에서 개발한 빠르고 효율적인 Gradient Boosting 프레임워크입니다. 기존 Gradient Boost의 느린 속도 문제를 두 가지 핵심 기술로 해결 Level-wise(좌)는 같은 깊이의 모든 노드를 분할하지만, Leaf-wise(우)는 손실이 가장 큰 Leaf 하나만...
Light GBM 개념 LightGBM은 Microsoft에서 개발한 빠르고 효율적인 Gradient Boosting 프레임워크입니다. 기존 Gradient Boost의 느린 속도 문제를 두 가지 핵심 기술로 해결 Level-wise(좌)는 같은 깊이의 모든 노드를 분할하지만, Leaf-wise(우)는 손실이 가장 큰 Leaf 하나만...
개념 Random Forest는 여러 개의 Decision Tree를 독립적으로 학습시키고 그 결과를 다수결(분류) 또는 평균(회귀)으로 합치는 앙상블(Ensemble) 알고리즘입니다. 단일 Decision Tree의 문제: → 데이터 변화에 민감하고 과적합하기 쉬움 Random Forest의 해결책: → 다양한 트리를 만들고 결과를 합쳐 분산을...
개념 Decision Tree는 데이터를 조건으로 반복적으로 분할하여 예측하는 알고리즘입니다. 마치 스무고개처럼, 각 노드에서 특정 조건으로 데이터를 나누고 최종 Leaf 노드에서 예측값을 반환합니다. 분류(Classification) 와 회귀(Regression) 모두 사용 가능 결과를 트리 구조로 시각화할 수 있어 해석이 쉬움 별도...
MIPS(Maximum Inner Product Search) 학습된 임베딩의 점수 자체를 신뢰하는 검색 방식 주어진 질의 벡터와 가장 내적(Inner Product)이 큰 벡터(문서)를 찾는 검색 방법 EX) 입력 질의 $q$와 문서 임베딩들 $d_1, d_2, …, d_N$이 주어졌을 때, 다음 값을 최대화하는 문서를 찾...
수정 - 설명 추가 - Flow Chart 도메인 데이터(금융 약관)를 활용하여, LLaMA 3.1 모델이 복잡한 문맥을 어떻게 검색(Retrieval)하고 정교한 답변을 생성(Generation)하는지를 검증 I. Data Load # GPU 할당 import os os.environ["CUDA_VISIBLE_DEVICES"] = "3...
📐 Markdown 수식 정리 수학 · 통계 · 머신러닝 · 딥러닝 글을 작성할 때 자주 사용되는 Markdown(LaTeX) 수식 기호를 용도별로 정리한 참고 문서 ✏️ 수식 작성 기본 규칙 Markdown에서는 LaTeX 문법을 사용해 수식을 표현 문장 안 수식: $ ... $ → 문장 흐름 안에서 간단한 수식 표현 독립 수식:...
RAG에서 Retrieval이란? RAG(Retrieval-Augmented Generation)는 외부 지식을 검색(Retrieval) 하고, 그 결과를 바탕으로 LLM이 답변을 생성(Generation) 하는 구조의 아키텍처이다. 이 글에서는 RAG의 핵심 구성요소 중 하나인 Retrieval 단계를 중심으로 개념부터 구현 관점까지 정리한다. ...
Prefix Sum Algorithm이란? Prefix sum (누적 합) 앞부분 합을 미리 계산해 두어 이후의 구간 합 / 구간 업데이트를 아주 빠르게 처리하기 위한 기법 어떻게 생각을 하게 되었는가? “배열의 구간 합 (sum of A[l … r])”을 반복해서 묻거나, “구간에 같은 ...
설명 추가 필요한 정보 I. MIPS II. BART III. LLM IV. Retrieval V. Transformers VI. LangChain RAG (Retrieval-Augmented Generation) 개요(Overview) 1.1 RAG란 무엇인가 1.2 RAG의 필요성 및 장점 1.3 RAG의 활용...
데이터 설명 실제 전자상거래(이커머스) 거래 내역을 기반으로 한 거래 데이터(Transaction Data)로, 고객의 구매 행동 분석, RFM 세분화, 코호트 분석, 리텐션 분석, 추천 시스템, 수요 예측 등의 연구에 자주 사용됨 URL : https://archive.ics.uci.edu/dataset/352/...