| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- rotary position embedding
- PEFT
- flashattention
- langgraph
- test-time scaling
- MHA
- transformer
- attention
- model context protocol
- extended thinking
- Embedding
- BLEU
- CoT
- 토크나이저
- Engineering at Anthropic
- context engineering
- SK AI SUMMIT 2025
- chain-of-thought
- 트랜스포머
- Positional Encoding
- Multi-Head Attention
- Langchain
- reinforcement learning from human feedback
- gqa
- MQA
- catastrophic forgetting
- RLHF
- re-ranking
- fréchet inception distance
- self-attention
Archives
- Today
- Total
목록target (1)
AI Engineer 공간 "사부작 사부작"
추측 디코딩: 거대 언어 모델(LLM) 추론에 날개를 달아주는 기술거대 언어 모델(LLM)은 인간과 유사한 텍스트를 이해하고 생성하는 능력으로 자연어 처리 분야에 혁명을 일으켰습니다. 하지만 LLM이 점점 더 정교해짐에 따라 계산적인 문제, 특히 추론 과정에서의 속도 저하라는 큰 장벽에 직면하게 되었습니다. LLM은 일반적으로 한 번에 하나의 토큰을 순차적으로 생성하는 자기회귀적(autoregressive) 디코딩 방식을 사용하는데, 이로 인해 상당한 추론 지연 시간이 발생합니다. 이러한 문제를 해결하기 위해 등장한 혁신적인 기법이 바로 추측 디코딩(Speculative Decoding)입니다. 추측 디코딩은 마치 숙련된 작가와 빠른 초고 작가가 협업하듯, 더 빠르고 효율적인 텍스트 생성을 목표로 합니다..
Theory/FoundationModel Engineering
2025. 6. 3. 20:14