| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- MQA
- gqa
- flashattention
- langgraph
- BLEU
- Positional Encoding
- transformer
- extended thinking
- PEFT
- catastrophic forgetting
- Multi-Head Attention
- chain-of-thought
- model context protocol
- test-time scaling
- attention
- reinforcement learning from human feedback
- SK AI SUMMIT 2025
- self-attention
- context engineering
- rotary position embedding
- CoT
- 토크나이저
- Engineering at Anthropic
- RLHF
- MHA
- Embedding
- Langchain
- fréchet inception distance
- 트랜스포머
- re-ranking
- Today
- Total
목록self-attention (2)
AI Engineer 공간 "사부작 사부작"
셀프 어텐션 메커니즘 파헤치기: 쿼리, 키, 밸류는 문맥을 어떻게 이해할까?자연어 처리(NLP) 분야는 마치 복잡한 퍼즐과 같아서, 단어들이 모여 문장을 이루고, 문장들이 모여 문맥을 형성하는 과정을 컴퓨터가 이해하도록 만드는 것은 늘 큰 숙제였습니다. 특히 문장 속 단어들이 서로 어떤 관계를 맺고 있는지, 어떤 단어가 핵심적인 의미를 담고 있는지 파악하는 것은 매우 중요합니다. 이러한 과제를 해결하기 위해 등장한 혁신적인 기술 중 하나가 바로 셀프 어텐션(Self-Attention) 메커니즘입니다. 셀프 어텐션은 마치 문장 스스로 각 단어의 중요도를 파악하고 서로에게 '주목'하게 만드는 마법과 같습니다. 특히 트랜스포머(Transformer) 모델의 핵심 구성 요소로, 오늘날 GPT와 같은 거대 언어 ..
트랜스포머(Transformer): RNN/LSTM의 한계를 넘어선 혁신의 아키텍처자연어 처리(NLP) 분야는 마치 끊임없이 새로운 길이 열리는 광대한 숲과 같습니다. 수많은 연구자들이 더 정확하고, 더 빠르고, 더 똑똑한 모델을 만들기 위해 노력해왔죠. 그중에서도 2017년 구글 연구팀이 발표한 '트랜스포머(Transformer)'는 NLP 역사에 한 획을 그은 혁명적인 모델입니다. 기존의 RNN(Recurrent Neural Network)이나 LSTM(Long Short-Term Memory)이 가지고 있던 근본적인 한계들을 극복하며, 오늘날 GPT, BERT와 같은 거대 언어 모델(LLM)의 기반이 되었기 때문입니다.그렇다면 트랜스포머는 과연 어떤 마법을 부렸길래 이토록 강력한 성능을 보여주는 걸..