| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- flashattention
- Embedding
- re-ranking
- SK AI SUMMIT 2025
- fréchet inception distance
- Langchain
- chain-of-thought
- gqa
- extended thinking
- Multi-Head Attention
- self-attention
- PEFT
- Engineering at Anthropic
- test-time scaling
- langgraph
- context engineering
- BLEU
- MQA
- CoT
- reinforcement learning from human feedback
- 토크나이저
- model context protocol
- rotary position embedding
- attention
- Positional Encoding
- catastrophic forgetting
- RLHF
- MHA
- transformer
- 트랜스포머
Archives
- Today
- Total
목록Prompt Caching (1)
AI Engineer 공간 "사부작 사부작"
대규모 언어 모델(LLM)의 세상은 마치 거대한 도서관과 같습니다. 사서가 매번 같은 책을 찾을 때마다 처음부터 전체 서가를 뒤져야 한다면 얼마나 비효율적일까요? 현재 많은 LLM 서비스에서 비슷한 일이 일어나고 있습니다. 사용자들이 비슷한 프롬프트 템플릿이나 시스템 메시지를 반복 사용할 때마다, 모델은 동일한 계산을 처음부터 다시 수행하고 있는 것입니다. 2023년 예일대학교 연구팀이 발표한 프롬프트 캐시(Prompt Cache)는 이러한 비효율성을 해결하는 혁신적인 접근법입니다. 이 기술은 자주 사용되는 프롬프트 구간의 어텐션 상태를 미리 계산하고 저장해두었다가, 동일한 구간이 다시 등장할 때 재사용함으로써 추론 지연 시간을 획기적으로 단축시킵니다. GPU 기반 추론에서는 최대 8배, CPU 기반 추..
Theory/Prompting
2025. 8. 20. 08:34