| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- MHA
- transformer
- fréchet inception distance
- extended thinking
- RLHF
- test-time scaling
- model context protocol
- chain-of-thought
- CoT
- rotary position embedding
- catastrophic forgetting
- 트랜스포머
- re-ranking
- BLEU
- Multi-Head Attention
- reinforcement learning from human feedback
- SK AI SUMMIT 2025
- PEFT
- langgraph
- Positional Encoding
- flashattention
- Engineering at Anthropic
- MQA
- context engineering
- Embedding
- gqa
- Langchain
- attention
- self-attention
- 토크나이저
- Today
- Total
목록gqa (2)
AI Engineer 공간 "사부작 사부작"
GQA (Grouped Query Attention): 성능과 속도의 절묘한 줄타기, MHA와 MQA를 넘어서거대 언어 모델(LLM)의 심장에는 '어텐션(Attention)'이라는 핵심 메커니즘이 자리 잡고 있습니다. 이는 모델이 문장의 어떤 부분에 더 집중해야 할지 결정하는 능력으로, 인간의 독해 방식과 유사합니다. 초기 트랜스포머 모델의 멀티 헤드 어텐션(MHA)은 뛰어난 성능을 보였지만, 모델이 커지면서 막대한 계산 비용과 메모리 대역폭이라는 치명적인 병목 현상에 부딪혔습니다. 이러한 문제를 해결하기 위한 다양한 시도 끝에, 성능과 효율성 사이의 완벽한 균형점을 찾은 기술이 등장하게 되었습니다. GQA(Grouped Query Attention) 입니다. 이 글에서는 MHA(Mulit Head At..
LLM 추론 효율성 극대화: KV 캐싱, MQA, GQA 심층 분석대규모 언어 모델(LLM)은 자연어 처리 분야에서 혁신적인 발전을 이끌고 있지만, 특히 텍스트를 순차적으로 생성하는 자기회귀(autoregressive) 방식의 디코더-온리 모델에서는 추론 과정에서의 엄청난 계산량과 메모리 사용량이라는 숙제를 안고 있습니다. 마치 긴 소설을 한 문장씩 이어서 쓰면서, 매번 새로운 문장을 쓸 때마다 앞서 쓴 모든 내용을 다시 검토해야 하는 작가의 고뇌와 비슷하다고 할 수 있습니다. 이러한 비효율성을 해결하고 LLM을 더 빠르고 경제적으로 활용하기 위해 다양한 최적화 기법들이 등장했는데, 그중에서도 KV 캐싱(KV Caching), 멀티-쿼리 어텐션(Multi-Query Attention, MQA), 그리고 ..