| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- SK AI SUMMIT 2025
- RLHF
- test-time scaling
- re-ranking
- transformer
- MHA
- MQA
- model context protocol
- Engineering at Anthropic
- 토크나이저
- langgraph
- chain-of-thought
- CoT
- catastrophic forgetting
- Multi-Head Attention
- 트랜스포머
- context engineering
- attention
- flashattention
- PEFT
- gqa
- Langchain
- rotary position embedding
- BLEU
- fréchet inception distance
- Embedding
- Positional Encoding
- extended thinking
- self-attention
- reinforcement learning from human feedback
Archives
- Today
- Total
목록speculative decoding (1)
AI Engineer 공간 "사부작 사부작"
추측 디코딩: 거대 언어 모델(LLM) 추론에 날개를 달아주는 기술거대 언어 모델(LLM)은 인간과 유사한 텍스트를 이해하고 생성하는 능력으로 자연어 처리 분야에 혁명을 일으켰습니다. 하지만 LLM이 점점 더 정교해짐에 따라 계산적인 문제, 특히 추론 과정에서의 속도 저하라는 큰 장벽에 직면하게 되었습니다. LLM은 일반적으로 한 번에 하나의 토큰을 순차적으로 생성하는 자기회귀적(autoregressive) 디코딩 방식을 사용하는데, 이로 인해 상당한 추론 지연 시간이 발생합니다. 이러한 문제를 해결하기 위해 등장한 혁신적인 기법이 바로 추측 디코딩(Speculative Decoding)입니다. 추측 디코딩은 마치 숙련된 작가와 빠른 초고 작가가 협업하듯, 더 빠르고 효율적인 텍스트 생성을 목표로 합니다..
Theory/FoundationModel Engineering
2025. 6. 3. 20:14