| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- gqa
- Engineering at Anthropic
- Positional Encoding
- MQA
- MHA
- catastrophic forgetting
- Embedding
- self-attention
- attention
- Multi-Head Attention
- re-ranking
- SK AI SUMMIT 2025
- flashattention
- reinforcement learning from human feedback
- fréchet inception distance
- RLHF
- extended thinking
- PEFT
- 토크나이저
- test-time scaling
- chain-of-thought
- CoT
- BLEU
- rotary position embedding
- transformer
- model context protocol
- 트랜스포머
- context engineering
- Langchain
- langgraph
- Today
- Total
목록Theory/Transfomer (7)
AI Engineer 공간 "사부작 사부작"
LLM의 첫 단추, 토크나이저: 텍스트를 숫자로 바꾸는 마법거대 언어 모델(LLM)이 마치 사람처럼 글을 쓰고, 대화하고, 번역하는 모습을 보면 경이롭기까지 합니다. 하지만 컴퓨터는 본질적으로 '텍스트'를 이해하지 못합니다. 오직 숫자만을 처리할 수 있을 뿐이죠. 그렇다면 LLM은 어떻게 우리가 사용하는 자연어를 이해하고 처리하는 걸까요? 그 비밀의 첫 단추는 바로 토크나이저(Tokenizer)에 있습니다. 토크나이저는 인간의 언어를 기계가 이해할 수 있는 숫자 데이터로 변환하는 필수적인 다리 역할을 합니다. 이 과정이 없다면 LLM은 그저 복잡한 연산을 수행하는 기계에 불과할 것입니다. 이번 글에서는 LLM의 심장부로 들어가는 첫 관문인 토크나이저의 개념부터 시작해, 서브워드 방식, 임베딩, 그리고 모..
표준 트랜스포머의 보이지 않는 벽: 계산량 한계와 극복 전략자연어 처리(NLP) 분야에 혁명을 가져온 트랜스포머(Transformer)는 놀라운 성능으로 GPT, BERT와 같은 거대 언어 모델(LLM)의 핵심 아키텍처로 자리매김했습니다. 하지만 이 강력한 모델도 피해 갈 수 없는 그림자가 있었으니, 바로 입력 시퀀스 길이가 길어질수록 기하급수적으로 증가하는 '계산량'이라는 보이지 않는 벽입니다. 마치 강력한 엔진을 가졌지만 연료 탱크가 작아 멀리 가지 못하는 자동차와 같다고 할 수 있습니다.이번 글에서는 표준 트랜스포머(Vanilla Transformer)가 마주한 계산적 한계의 본질을 파헤치고, 이 벽을 넘어서기 위한 다양한 혁신적인 접근 방식들을 알기 쉽게 살펴보겠습니다.셀프 어텐션의 양날의 검: ..
트랜스포머 아키텍처 삼총사: 인코더-온리, 디코더-온리, 인코더-디코더 완전 정복자연어 처리(NLP)의 세계는 마치 레고 블록으로 다양한 구조물을 만드는 놀이터와 같습니다. 수많은 연구자들이 더 정교하고, 더 효율적이며, 더 인간과 유사한 언어 모델을 만들기 위해 노력해왔습니다. 그중에서도 '트랜스포머(Transformer)' 아키텍처는 NLP 분야에 혁명적인 변화를 가져왔으며, 오늘날 우리가 사용하는 챗봇, 번역기, 검색 엔진 등 다양한 AI 서비스의 핵심 기술로 자리 잡았습니다.트랜스포머는 기본적으로 '인코더(Encoder)'와 '디코더(Decoder)'라는 두 가지 주요 구성 요소로 이루어집니다. 하지만 이 블록들을 어떻게 조립하느냐에 따라, 마치 다른 종류의 로봇을 만들듯, 크게 세 가지 유형의 ..
트랜스포머의 위치 정보 주입 전략: 포지셔널 인코딩의 발전과 비교인간의 언어는 순서에 따라 의미가 달라집니다. "개가 소년을 물었다"와 "소년이 개를 물었다"는 같은 단어로 구성되었지만 완전히 다른 상황을 묘사합니다. 오늘은 트랜스포머 모델이 어떻게 이러한 순서 정보를 이해하는지, 그리고 최신 위치 인코딩 방법들이 어떻게 발전했는지 알아보겠습니다.포지셔널 인코딩이 필요한 이유트랜스포머 모델이 등장하기 전, 자연어 처리는 주로 RNN(Recurrent Neural Network)이나 LSTM 같은 순환 신경망 구조에 의존했습니다. 이러한 구조는 단어를 하나씩 순차적으로 처리하면서 자연스럽게 순서 정보를 기억할 수 있었죠. 하지만 트랜스포머는 근본적으로 다른 접근 방식을 취합니다. 모든 입력 단어를 동시에(..
멀티-헤드 어텐션(MHA): 숲을 보는 여러 개의 눈, 싱글-헤드 어텐션과의 차이점과 강력한 장점자연어 처리(NLP) 분야에서 트랜스포머(Transformer) 모델의 등장은 가히 혁명적이었습니다. 트랜스포머의 심장에는 '어텐션(Attention)' 메커니즘이 자리 잡고 있으며, 특히 문장 내 단어들 사이의 관계를 스스로 파악하는 '셀프 어텐션(Self-Attention)'은 핵심적인 역할을 합니다. 하지만 마치 우리가 사물을 관찰할 때 하나의 눈으로만 보는 것보다 여러 각도에서 다양한 측면을 동시에 살펴보는 것이 더 깊이 있는 이해를 가져다주듯, 셀프 어텐션 역시 한 번의 연산만으로는 문맥의 다채로운 정보를 모두 담아내기 어려울 수 있습니다.이러한 한계를 극복하고 모델의 표현력을 한층 끌어올리기 위해 ..
셀프 어텐션 메커니즘 파헤치기: 쿼리, 키, 밸류는 문맥을 어떻게 이해할까?자연어 처리(NLP) 분야는 마치 복잡한 퍼즐과 같아서, 단어들이 모여 문장을 이루고, 문장들이 모여 문맥을 형성하는 과정을 컴퓨터가 이해하도록 만드는 것은 늘 큰 숙제였습니다. 특히 문장 속 단어들이 서로 어떤 관계를 맺고 있는지, 어떤 단어가 핵심적인 의미를 담고 있는지 파악하는 것은 매우 중요합니다. 이러한 과제를 해결하기 위해 등장한 혁신적인 기술 중 하나가 바로 셀프 어텐션(Self-Attention) 메커니즘입니다. 셀프 어텐션은 마치 문장 스스로 각 단어의 중요도를 파악하고 서로에게 '주목'하게 만드는 마법과 같습니다. 특히 트랜스포머(Transformer) 모델의 핵심 구성 요소로, 오늘날 GPT와 같은 거대 언어 ..
트랜스포머(Transformer): RNN/LSTM의 한계를 넘어선 혁신의 아키텍처자연어 처리(NLP) 분야는 마치 끊임없이 새로운 길이 열리는 광대한 숲과 같습니다. 수많은 연구자들이 더 정확하고, 더 빠르고, 더 똑똑한 모델을 만들기 위해 노력해왔죠. 그중에서도 2017년 구글 연구팀이 발표한 '트랜스포머(Transformer)'는 NLP 역사에 한 획을 그은 혁명적인 모델입니다. 기존의 RNN(Recurrent Neural Network)이나 LSTM(Long Short-Term Memory)이 가지고 있던 근본적인 한계들을 극복하며, 오늘날 GPT, BERT와 같은 거대 언어 모델(LLM)의 기반이 되었기 때문입니다.그렇다면 트랜스포머는 과연 어떤 마법을 부렸길래 이토록 강력한 성능을 보여주는 걸..