RAG_LLAMA

Posted Nov 10, 2025 Updated Nov 26, 2025

By ryunada

2 min read

RAG (Retrieval-Augmented Generation)

1.1 RAG란 무엇인가 1.2 RAG의 필요성 및 장점 1.3 RAG의 활용 사례

2.1 전체 구조(High-level Architecture) 2.2 주요 구성 요소 소개 • 데이터 저장소 • 인덱싱 및 임베딩 • Retriever • Generator • Post-processing

3.1 데이터 수집 원천 3.2 문서 정제(cleaning) 3.3 Chunking 전략 3.4 메타데이터 설계

4.1 임베딩 모델 선택 기준 4.2 텍스트 임베딩 생성 4.3 임베딩 품질 평가 4.4 벡터 스토어 선택(Faiss, Pinecone, Weaviate 등)

5.1 벡터 인덱스 구조 5.2 인덱싱 파이프라인 구성 5.3 효율성 및 성능 튜닝

6.1 Retrieve 알고리즘 소개(BM25 / Hybrid / Dense retrieval) 6.2 검색 파라미터 설정(k, scoring 방식) 6.3 Hybrid Search 구현 6.4 검색 성능 평가

7.1 생성 모델 선택(OpenAI, Llama, Mistral 등) 7.2 Prompt Engineering 전략 7.3 Context Window 및 Token Budget 설정 7.4 Hallucination 방지 기법

8.1 Retrieval → Rerank → Generation 흐름 구성 8.2 Retrieval-Augmented Prompt 구조 8.3 RAG API 또는 서비스 구조 설계

9.1 Reranking(ColBERT, Cross-Encoder) 9.2 Caching 전략 9.3 Query Rewriting 9.4 Multi-hop RAG 9.5 Structured RAG(DB, 코드, 표 등)

10.1 RAG 평가 지표(Recall@k, MRR, etc.) 10.2 LLM 기반 자동 평가 10.3 사용자 평가(User Study) 10.4 Continuous Monitoring

11.1 API 기반 서비스화 11.2 Vector DB 운영 전략 11.3 Scale-out 방식 11.4 Observability(Log, Metric, Tracing)

12.1 데이터 암호화 12.2 접근 제어 12.3 개인정보 포함 텍스트 처리

13.1 모델 선택에 따른 비용 분석 13.2 검색/생성 호출 최적화 13.3 캐시 및 리랭킹을 통한 비용 절감

This post is licensed under CC BY 4.0 by the author.