[Python] ML-LightGBM
개념 데이터가 수백만 건에 달하는 빅데이터 시대, 전통적인 Gradient Boost는 너무 느립니다. 이때 혜성처럼 등장하여 Kaggle과 현업을 휩쓴 모델이 바로 LightGBM입니다. 이름처럼 가볍고 빠른 이 모델의 강력함은 어디서 나오는지 분석합니다. LightGBM은 Microsoft에서 개발한 빠르고 효율적인 Gradient Boost...
개념 데이터가 수백만 건에 달하는 빅데이터 시대, 전통적인 Gradient Boost는 너무 느립니다. 이때 혜성처럼 등장하여 Kaggle과 현업을 휩쓴 모델이 바로 LightGBM입니다. 이름처럼 가볍고 빠른 이 모델의 강력함은 어디서 나오는지 분석합니다. LightGBM은 Microsoft에서 개발한 빠르고 효율적인 Gradient Boost...
개념 Random Forest는 여러 개의 Decision Tree를 독립적으로 학습시키고 그 결과를 다수결(분류) 또는 평균(회귀)으로 합치는 앙상블(Ensemble) 알고리즘입니다. 단일 Decision Tree의 문제: → 데이터 변화에 민감하고 과적합하기 쉬움 Random Forest의 해결책: → 다양한 트리를 만들고 결과를 합쳐 분산을...
개념 Decision Tree는 데이터를 조건으로 반복적으로 분할하여 예측하는 알고리즘입니다. 마치 스무고개처럼, 각 노드에서 특정 조건으로 데이터를 나누고 최종 Leaf 노드에서 예측값을 반환합니다. 분류(Classification) 와 회귀(Regression) 모두 사용 가능 결과를 트리 구조로 시각화할 수 있어 해석이 쉬움 별도...
MIPS(Maximum Inner Product Search) 학습된 임베딩의 점수 자체를 신뢰하는 검색 방식 주어진 질의 벡터와 가장 내적(Inner Product)이 큰 벡터(문서)를 찾는 검색 방법 EX) 입력 질의 $q$와 문서 임베딩들 $d_1, d_2, …, d_N$이 주어졌을 때, 다음 값을 최대화하는 문서를 찾...
수정 - 설명 추가 - Flow Chart 도메인 데이터(금융 약관)를 활용하여, LLaMA 3.1 모델이 복잡한 문맥을 어떻게 검색(Retrieval)하고 정교한 답변을 생성(Generation)하는지를 검증 I. Data Load # GPU 할당 import os os.environ["CUDA_VISIBLE_DEVICES"] = "3...
📐 Markdown 수식 정리 수학 · 통계 · 머신러닝 · 딥러닝 글을 작성할 때 자주 사용되는 Markdown(LaTeX) 수식 기호를 용도별로 정리한 참고 문서 ✏️ 수식 작성 기본 규칙 Markdown에서는 LaTeX 문법을 사용해 수식을 표현 문장 안 수식: $ ... $ → 문장 흐름 안에서 간단한 수식 표현 독립 수식:...
RAG에서 Retrieval이란? RAG(Retrieval-Augmented Generation)는 외부 지식을 검색(Retrieval) 하고, 그 결과를 바탕으로 LLM이 답변을 생성(Generation) 하는 구조의 아키텍처이다. 이 글에서는 RAG의 핵심 구성요소 중 하나인 Retrieval 단계를 중심으로 개념부터 구현 관점까지 정리한다. ...
Prefix Sum Algorithm이란? Prefix sum (누적 합) 앞부분 합을 미리 계산해 두어 이후의 구간 합 / 구간 업데이트를 아주 빠르게 처리하기 위한 기법 어떻게 생각을 하게 되었는가? “배열의 구간 합 (sum of A[l … r])”을 반복해서 묻거나, “구간에 같은 ...
설명 추가 필요한 정보 I. MIPS II. BART III. LLM IV. Retrieval V. Transformers VI. LangChain RAG (Retrieval-Augmented Generation) 개요(Overview) 1.1 RAG란 무엇인가 1.2 RAG의 필요성 및 장점 1.3 RAG의 활용...
데이터 설명 실제 전자상거래(이커머스) 거래 내역을 기반으로 한 거래 데이터(Transaction Data)로, 고객의 구매 행동 분석, RFM 세분화, 코호트 분석, 리텐션 분석, 추천 시스템, 수요 예측 등의 연구에 자주 사용됨 URL : https://archive.ics.uci.edu/dataset/352/...