| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- CoT
- self-attention
- Langchain
- rotary position embedding
- langgraph
- Embedding
- fréchet inception distance
- model context protocol
- test-time scaling
- re-ranking
- catastrophic forgetting
- chain-of-thought
- Multi-Head Attention
- Engineering at Anthropic
- Positional Encoding
- extended thinking
- MHA
- transformer
- gqa
- RLHF
- SK AI SUMMIT 2025
- context engineering
- reinforcement learning from human feedback
- flashattention
- 토크나이저
- PEFT
- 트랜스포머
- BLEU
- attention
- MQA
- Today
- Total
목록MHA (2)
AI Engineer 공간 "사부작 사부작"
GQA (Grouped Query Attention): 성능과 속도의 절묘한 줄타기, MHA와 MQA를 넘어서거대 언어 모델(LLM)의 심장에는 '어텐션(Attention)'이라는 핵심 메커니즘이 자리 잡고 있습니다. 이는 모델이 문장의 어떤 부분에 더 집중해야 할지 결정하는 능력으로, 인간의 독해 방식과 유사합니다. 초기 트랜스포머 모델의 멀티 헤드 어텐션(MHA)은 뛰어난 성능을 보였지만, 모델이 커지면서 막대한 계산 비용과 메모리 대역폭이라는 치명적인 병목 현상에 부딪혔습니다. 이러한 문제를 해결하기 위한 다양한 시도 끝에, 성능과 효율성 사이의 완벽한 균형점을 찾은 기술이 등장하게 되었습니다. GQA(Grouped Query Attention) 입니다. 이 글에서는 MHA(Mulit Head At..
멀티-헤드 어텐션(MHA): 숲을 보는 여러 개의 눈, 싱글-헤드 어텐션과의 차이점과 강력한 장점자연어 처리(NLP) 분야에서 트랜스포머(Transformer) 모델의 등장은 가히 혁명적이었습니다. 트랜스포머의 심장에는 '어텐션(Attention)' 메커니즘이 자리 잡고 있으며, 특히 문장 내 단어들 사이의 관계를 스스로 파악하는 '셀프 어텐션(Self-Attention)'은 핵심적인 역할을 합니다. 하지만 마치 우리가 사물을 관찰할 때 하나의 눈으로만 보는 것보다 여러 각도에서 다양한 측면을 동시에 살펴보는 것이 더 깊이 있는 이해를 가져다주듯, 셀프 어텐션 역시 한 번의 연산만으로는 문맥의 다채로운 정보를 모두 담아내기 어려울 수 있습니다.이러한 한계를 극복하고 모델의 표현력을 한층 끌어올리기 위해 ..