| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
Tags
- Embedding
- MHA
- CoT
- Langchain
- SK AI SUMMIT 2025
- gqa
- re-ranking
- extended thinking
- Engineering at Anthropic
- BLEU
- transformer
- chain-of-thought
- RLHF
- rotary position embedding
- catastrophic forgetting
- MQA
- flashattention
- langgraph
- 토크나이저
- Multi-Head Attention
- PEFT
- self-attention
- reinforcement learning from human feedback
- fréchet inception distance
- model context protocol
- attention
- Positional Encoding
- test-time scaling
- 트랜스포머
- context engineering
Archives
- Today
- Total
목록vllm (1)
AI Engineer 공간 "사부작 사부작"
LLM 추론 성능 극대화: 정적 배칭 vs 연속 배칭, 그리고 vLLM의 마법대규모 언어 모델(LLM)은 이제 우리 삶 깊숙이 들어와 다양한 분야에서 혁신을 이끌고 있습니다. 하지만 LLM을 실제 서비스에 적용하려면, 특히 여러 사용자의 요청을 동시에 처리해야 하는 상황에서는 '추론(inference)' 과정의 효율성이 매우 중요합니다. 마치 수많은 손님이 동시에 주문하는 인기 맛집처럼, LLM 서버도 밀려드는 요청들을 빠르고 정확하게 처리해야 사용자의 만족도를 높일 수 있습니다. 이를 위해 등장한 핵심 기술 중 하나가 바로 배칭(Batching)입니다.배칭은 여러 요청을 한데 묶어 GPU와 같은 병렬 처리 하드웨어에서 한 번에 연산함으로써 처리 효율을 높이는 기법입니다. 오늘은 LLM 추론 시 사용되는..
Theory/FoundationModel Engineering
2025. 6. 3. 21:30