| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
- Positional Encoding
- context engineering
- RLHF
- MQA
- flashattention
- rotary position embedding
- reinforcement learning from human feedback
- Engineering at Anthropic
- gqa
- 트랜스포머
- self-attention
- 토크나이저
- extended thinking
- PEFT
- fréchet inception distance
- catastrophic forgetting
- SK AI SUMMIT 2025
- Embedding
- Multi-Head Attention
- test-time scaling
- BLEU
- model context protocol
- re-ranking
- attention
- Langchain
- langgraph
- transformer
- chain-of-thought
- CoT
- MHA
- Today
- Total
목록Positional Encoding (2)
AI Engineer의 '사부작' 공간
트랜스포머의 위치 정보 주입 전략: 포지셔널 인코딩의 발전과 비교인간의 언어는 순서에 따라 의미가 달라집니다. "개가 소년을 물었다"와 "소년이 개를 물었다"는 같은 단어로 구성되었지만 완전히 다른 상황을 묘사합니다. 오늘은 트랜스포머 모델이 어떻게 이러한 순서 정보를 이해하는지, 그리고 최신 위치 인코딩 방법들이 어떻게 발전했는지 알아보겠습니다.포지셔널 인코딩이 필요한 이유트랜스포머 모델이 등장하기 전, 자연어 처리는 주로 RNN(Recurrent Neural Network)이나 LSTM 같은 순환 신경망 구조에 의존했습니다. 이러한 구조는 단어를 하나씩 순차적으로 처리하면서 자연스럽게 순서 정보를 기억할 수 있었죠. 하지만 트랜스포머는 근본적으로 다른 접근 방식을 취합니다. 모든 입력 단어를 동시에(..
트랜스포머(Transformer): RNN/LSTM의 한계를 넘어선 혁신의 아키텍처자연어 처리(NLP) 분야는 마치 끊임없이 새로운 길이 열리는 광대한 숲과 같습니다. 수많은 연구자들이 더 정확하고, 더 빠르고, 더 똑똑한 모델을 만들기 위해 노력해왔죠. 그중에서도 2017년 구글 연구팀이 발표한 '트랜스포머(Transformer)'는 NLP 역사에 한 획을 그은 혁명적인 모델입니다. 기존의 RNN(Recurrent Neural Network)이나 LSTM(Long Short-Term Memory)이 가지고 있던 근본적인 한계들을 극복하며, 오늘날 GPT, BERT와 같은 거대 언어 모델(LLM)의 기반이 되었기 때문입니다.그렇다면 트랜스포머는 과연 어떤 마법을 부렸길래 이토록 강력한 성능을 보여주는 걸..