| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- extended thinking
- Positional Encoding
- RLHF
- 토크나이저
- flashattention
- self-attention
- attention
- catastrophic forgetting
- fréchet inception distance
- chain-of-thought
- Multi-Head Attention
- Engineering at Anthropic
- Langchain
- MHA
- CoT
- model context protocol
- MQA
- langgraph
- transformer
- reinforcement learning from human feedback
- context engineering
- BLEU
- rotary position embedding
- 트랜스포머
- gqa
- test-time scaling
- PEFT
- Embedding
- re-ranking
- SK AI SUMMIT 2025
Archives
- Today
- Total
목록DRAFT (1)
AI Engineer 공간 "사부작 사부작"
추측 디코딩: 거대 언어 모델(LLM) 추론에 날개를 달아주는 기술거대 언어 모델(LLM)은 인간과 유사한 텍스트를 이해하고 생성하는 능력으로 자연어 처리 분야에 혁명을 일으켰습니다. 하지만 LLM이 점점 더 정교해짐에 따라 계산적인 문제, 특히 추론 과정에서의 속도 저하라는 큰 장벽에 직면하게 되었습니다. LLM은 일반적으로 한 번에 하나의 토큰을 순차적으로 생성하는 자기회귀적(autoregressive) 디코딩 방식을 사용하는데, 이로 인해 상당한 추론 지연 시간이 발생합니다. 이러한 문제를 해결하기 위해 등장한 혁신적인 기법이 바로 추측 디코딩(Speculative Decoding)입니다. 추측 디코딩은 마치 숙련된 작가와 빠른 초고 작가가 협업하듯, 더 빠르고 효율적인 텍스트 생성을 목표로 합니다..
Theory/FoundationModel Engineering
2025. 6. 3. 20:14