Post

RAG_LLAMA

RAG (Retrieval-Augmented Generation)

  1. 개요(Overview)

1.1 RAG란 무엇인가 1.2 RAG의 필요성 및 장점 1.3 RAG의 활용 사례

  1. 시스템 아키텍처(System Architecture)

2.1 전체 구조(High-level Architecture) 2.2 주요 구성 요소 소개  • 데이터 저장소  • 인덱싱 및 임베딩  • Retriever  • Generator  • Post-processing

  1. 데이터 수집 및 전처리(Data Collection & Preprocessing)

3.1 데이터 수집 원천 3.2 문서 정제(cleaning) 3.3 Chunking 전략 3.4 메타데이터 설계

  1. 임베딩(Embedding)

4.1 임베딩 모델 선택 기준 4.2 텍스트 임베딩 생성 4.3 임베딩 품질 평가 4.4 벡터 스토어 선택(Faiss, Pinecone, Weaviate 등)

  1. 인덱싱(Indexing)

5.1 벡터 인덱스 구조 5.2 인덱싱 파이프라인 구성 5.3 효율성 및 성능 튜닝

  1. 검색(Retrieval)

6.1 Retrieve 알고리즘 소개(BM25 / Hybrid / Dense retrieval) 6.2 검색 파라미터 설정(k, scoring 방식) 6.3 Hybrid Search 구현 6.4 검색 성능 평가

  1. 생성(Generation)

7.1 생성 모델 선택(OpenAI, Llama, Mistral 등) 7.2 Prompt Engineering 전략 7.3 Context Window 및 Token Budget 설정 7.4 Hallucination 방지 기법

  1. RAG 파이프라인 통합(End-to-End Pipeline)

8.1 Retrieval → Rerank → Generation 흐름 구성 8.2 Retrieval-Augmented Prompt 구조 8.3 RAG API 또는 서비스 구조 설계

  1. 고급 기능(Advanced Features)

9.1 Reranking(ColBERT, Cross-Encoder) 9.2 Caching 전략 9.3 Query Rewriting 9.4 Multi-hop RAG 9.5 Structured RAG(DB, 코드, 표 등)

  1. 평가(Evaluation)

10.1 RAG 평가 지표(Recall@k, MRR, etc.) 10.2 LLM 기반 자동 평가 10.3 사용자 평가(User Study) 10.4 Continuous Monitoring

  1. 배포 및 운영(Deployment & MLOps)

11.1 API 기반 서비스화 11.2 Vector DB 운영 전략 11.3 Scale-out 방식 11.4 Observability(Log, Metric, Tracing)

  1. 보안 및 개인정보 보호(Security & Privacy)

12.1 데이터 암호화 12.2 접근 제어 12.3 개인정보 포함 텍스트 처리

  1. 비용 최적화(Cost Optimization)

13.1 모델 선택에 따른 비용 분석 13.2 검색/생성 호출 최적화 13.3 캐시 및 리랭킹을 통한 비용 절감

This post is licensed under CC BY 4.0 by the author.