RAG_LLAMA
RAG (Retrieval-Augmented Generation)
- 개요(Overview)
1.1 RAG란 무엇인가 1.2 RAG의 필요성 및 장점 1.3 RAG의 활용 사례
- 시스템 아키텍처(System Architecture)
2.1 전체 구조(High-level Architecture) 2.2 주요 구성 요소 소개 • 데이터 저장소 • 인덱싱 및 임베딩 • Retriever • Generator • Post-processing
- 데이터 수집 및 전처리(Data Collection & Preprocessing)
3.1 데이터 수집 원천 3.2 문서 정제(cleaning) 3.3 Chunking 전략 3.4 메타데이터 설계
- 임베딩(Embedding)
4.1 임베딩 모델 선택 기준 4.2 텍스트 임베딩 생성 4.3 임베딩 품질 평가 4.4 벡터 스토어 선택(Faiss, Pinecone, Weaviate 등)
- 인덱싱(Indexing)
5.1 벡터 인덱스 구조 5.2 인덱싱 파이프라인 구성 5.3 효율성 및 성능 튜닝
- 검색(Retrieval)
6.1 Retrieve 알고리즘 소개(BM25 / Hybrid / Dense retrieval) 6.2 검색 파라미터 설정(k, scoring 방식) 6.3 Hybrid Search 구현 6.4 검색 성능 평가
- 생성(Generation)
7.1 생성 모델 선택(OpenAI, Llama, Mistral 등) 7.2 Prompt Engineering 전략 7.3 Context Window 및 Token Budget 설정 7.4 Hallucination 방지 기법
- RAG 파이프라인 통합(End-to-End Pipeline)
8.1 Retrieval → Rerank → Generation 흐름 구성 8.2 Retrieval-Augmented Prompt 구조 8.3 RAG API 또는 서비스 구조 설계
- 고급 기능(Advanced Features)
9.1 Reranking(ColBERT, Cross-Encoder) 9.2 Caching 전략 9.3 Query Rewriting 9.4 Multi-hop RAG 9.5 Structured RAG(DB, 코드, 표 등)
- 평가(Evaluation)
10.1 RAG 평가 지표(Recall@k, MRR, etc.) 10.2 LLM 기반 자동 평가 10.3 사용자 평가(User Study) 10.4 Continuous Monitoring
- 배포 및 운영(Deployment & MLOps)
11.1 API 기반 서비스화 11.2 Vector DB 운영 전략 11.3 Scale-out 방식 11.4 Observability(Log, Metric, Tracing)
- 보안 및 개인정보 보호(Security & Privacy)
12.1 데이터 암호화 12.2 접근 제어 12.3 개인정보 포함 텍스트 처리
- 비용 최적화(Cost Optimization)
13.1 모델 선택에 따른 비용 분석 13.2 검색/생성 호출 최적화 13.3 캐시 및 리랭킹을 통한 비용 절감