| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- 토크나이저
- MQA
- langgraph
- rotary position embedding
- transformer
- Embedding
- RLHF
- Engineering at Anthropic
- extended thinking
- re-ranking
- gqa
- BLEU
- test-time scaling
- flashattention
- PEFT
- Langchain
- reinforcement learning from human feedback
- MHA
- context engineering
- attention
- 트랜스포머
- Positional Encoding
- self-attention
- fréchet inception distance
- Multi-Head Attention
- CoT
- SK AI SUMMIT 2025
- model context protocol
- chain-of-thought
- catastrophic forgetting
- Today
- Total
AI Engineer 공간 "사부작 사부작"
트랜스포머(Transformer): 아키텍처(Architectures) 본문
트랜스포머 아키텍처 삼총사: 인코더-온리, 디코더-온리, 인코더-디코더 완전 정복
자연어 처리(NLP)의 세계는 마치 레고 블록으로 다양한 구조물을 만드는 놀이터와 같습니다. 수많은 연구자들이 더 정교하고, 더 효율적이며, 더 인간과 유사한 언어 모델을 만들기 위해 노력해왔습니다. 그중에서도 '트랜스포머(Transformer)' 아키텍처는 NLP 분야에 혁명적인 변화를 가져왔으며, 오늘날 우리가 사용하는 챗봇, 번역기, 검색 엔진 등 다양한 AI 서비스의 핵심 기술로 자리 잡았습니다.
트랜스포머는 기본적으로 '인코더(Encoder)'와 '디코더(Decoder)'라는 두 가지 주요 구성 요소로 이루어집니다. 하지만 이 블록들을 어떻게 조립하느냐에 따라, 마치 다른 종류의 로봇을 만들듯, 크게 세 가지 유형의 아키텍처로 나뉘며 각각 고유한 강점과 활용 분야를 갖게 됩니다. 이번 글에서는 이 세 가지 트랜스포머 아키텍처 – 인코더-온리, 디코더-온리, 인코더-디코더 – 의 특징과 차이점, 그리고 각각 어떤 마법을 부리는지 쉽고 자세하게 알아보겠습니다.
1. 인코더-온리 (Encoder-Only) 아키텍처: 문맥 이해의 달인 (예: BERT)
개념: 인코더-온리 아키텍처는 입력된 문장 전체를 한 번에 받아들여, 문장 속 각 단어가 주변 단어들과 어떤 관계를 맺고 있는지 깊이 이해하는 데 초점을 맞춥니다. 마치 퍼즐 조각 전체를 펼쳐놓고 각 조각이 어떤 그림의 일부인지 파악하는 것과 같습니다. 이 아키텍처의 핵심은 '양방향(bidirectional) 문맥'을 고려한다는 점입니다. 즉, 특정 단어의 의미를 파악할 때 그 단어의 앞뒤에 나오는 모든 단어 정보를 활용합니다.
작동 방식 (비유): 우리가 책을 읽을 때, 특정 문장의 의미를 정확히 파악하기 위해 앞뒤 문맥을 모두 살펴보는 것과 유사합니다. "은행에 가서 돈을 찾았다"라는 문장에서 '은행'이 금융 기관인지, 강둑인지 구분하려면 문장 전체의 흐름을 봐야 하는 것처럼 말이죠. 인코더-온리 모델은 문장 전체를 한꺼번에 보고 각 단어에 숨겨진 진짜 의미와 역할을 파악합니다.
대표 모델: BERT (Bidirectional Encoder Representations from Transformers)가 가장 대표적인 인코더-온리 모델입니다.
주요 특징 및 강점:
- 입력 시퀀스 전체에 대한 깊은 이해가 가능합니다.
- 단어의 숨겨진 의미나 문맥적 중요도를 파악하는 데 뛰어납니다.
일반적인 적용 분야:
- 텍스트 분류 (Text Classification): 주어진 텍스트가 긍정인지 부정인지, 어떤 주제에 관한 내용인지 분류합니다. 예를 들어, 소셜 미디어 게시글에서 우울증 징후를 감지하는 연구에 활용될 수 있습니다.
- 개체명 인식 (Named Entity Recognition, NER): 문장에서 인명, 지명, 기관명 등 특정 유형의 단어를 식별합니다.
- 질의응답 (Question Answering): 주어진 질문에 대해 본문에서 정답을 찾아냅니다.
- 문장 임베딩 및 검색 (Sentence Embedding & Retrieval): 문장을 벡터 형태로 표현하여 의미적으로 유사한 문장을 찾는 데 사용됩니다.
2. 디코더-온리 (Decoder-Only) 아키텍처: 창의적인 이야기꾼 (예: GPT)
개념: 디코더-온리 아키텍처는 마치 이야기를 풀어나가듯, 한 단어씩 순차적으로 다음 단어를 예측하고 생성하는 데 특화되어 있습니다. 이 아키텍처는 '자기회귀적(autoregressive)' 방식으로 작동하며, 각 단어를 생성할 때 이전에 자신이 생성했던 단어들만을 참고합니다. 이를 '단방향(unidirectional)' 또는 '인과적(causal)' 어텐션이라고 부릅니다.
작동 방식 (비유): 우리가 소설을 쓸 때, 이미 작성한 앞부분 내용을 바탕으로 다음 문장, 다음 단어를 이어 나가는 모습과 비슷합니다. "옛날 옛날 아주 먼 옛날에..."라고 시작했다면, 그 다음에는 "한 공주가 살았습니다."와 같이 자연스럽게 이어질 내용을 예측하고 만들어내는 것이죠. 디코더-온리 모델은 이전에 나온 단어들을 보고 다음에 나올 가장 적절한 단어를 예측하여 문장을 생성합니다.
대표 모델: GPT (Generative Pre-trained Transformer) 시리즈가 이 아키텍처의 대표 주자입니다.
주요 특징 및 강점:
- 새로운 텍스트를 창의적으로 생성하는 능력이 뛰어납니다.
- 이전 문맥을 바탕으로 일관성 있는 이야기를 만들어낼 수 있습니다.
일반적인 적용 분야:
- 텍스트 생성 (Text Generation): 소설, 시, 코드, 기사 등 다양한 종류의 글을 자동으로 생성합니다.
- 챗봇 (Chatbots): 사람과 자연스러운 대화를 나눌 수 있는 대화형 AI를 만듭니다.
- 요약 (Summarization): 긴 글의 핵심 내용을 간추려 짧게 요약합니다.
- 언어 모델링 (Language Modeling): 주어진 단어 시퀀스 다음에 올 단어를 예측합니다.
- 광학 문자 인식 (Optical Character Recognition, OCR): DTrOCR과 같이 이미지 속 텍스트를 인식하는 데에도 활용될 수 있습니다.
3. 인코더-디코더 (Encoder-Decoder) 아키텍처: 능숙한 번역가 (예: T5, 초기 트랜스포머)
개념: 인코더-디코더 아키텍처는 두 세계를 연결하는 다리와 같습니다. 먼저 인코더가 입력된 정보(예: 한국어 문장)를 받아 그 의미와 문맥을 압축된 형태로 이해합니다. 그리고 디코더는 인코더가 전달한 이 압축된 정보를 바탕으로 새로운 형태의 정보(예: 영어 문장)를 생성해냅니다. 이 과정에서 디코더는 인코더의 출력과 자신이 이전에 생성한 출력을 모두 참고하며, 특히 인코더의 정보를 활용하는 '크로스 어텐션(cross-attention)' 메커니즘이 중요한 역할을 합니다.
작동 방식 (비유): 외국어 번역가의 업무 과정을 떠올리면 쉽습니다. 번역가는 먼저 원문(예: 영어 기사)을 꼼꼼히 읽고 전체적인 내용과 뉘앙스를 파악합니다(인코더의 역할). 그런 다음, 파악한 의미를 바탕으로 다른 언어(예: 한국어)로 자연스럽게 옮겨 적습니다(디코더의 역할). 이때 번역가는 원문의 특정 단어나 구절이 번역문의 어떤 부분에 해당할지 계속해서 대조하며 작업합니다(크로스 어텐션).
대표 모델: 트랜스포머를 처음 제안한 "Attention Is All You Need" 논문의 모델과 T5 (Text-to-Text Transfer Transformer)가 대표적입니다.
주요 특징 및 강점:
- 하나의 시퀀스를 다른 형태의 시퀀스로 변환하는 작업에 매우 효과적입니다.
- 입력 정보의 맥락을 유지하면서 새로운 결과물을 생성할 수 있습니다.
일반적인 적용 분야:
- 기계 번역 (Machine Translation): 한 언어로 된 텍스트를 다른 언어로 번역합니다.
- 문서 요약 (Document Summarization): 긴 문서를 핵심 내용만 간추려 요약합니다.
- 질문 생성 및 답변 (Question Generation & Answering): 주어진 문맥에서 질문을 만들거나, 질문에 대한 답을 생성합니다.
- 음성 인식 (Speech Recognition): 사람의 음성을 텍스트로 변환합니다.
- 특정 도메인에 미세 조정된 인코더-디코더 모델은 때때로 더 큰 범용 디코더-온리 모델보다 뛰어난 성능을 보이기도 합니다.
마무리하며
트랜스포머 아키텍처의 세 가지 주요 유형인 인코더-온리, 디코더-온리, 그리고 인코더-디코더는 각각 뚜렷한 정보 처리 방식과 강점을 가지고 있어, 해결하고자 하는 문제의 성격에 따라 적합한 구조를 선택하는 것이 중요합니다.
- 문맥 전체를 깊이 이해해야 한다면 인코더-온리.
- 새로운 내용을 창의적으로 생성해야 한다면 디코더-온리.
- 하나의 정보를 다른 형태로 변환해야 한다면 인코더-디코더.
마치 요리사가 다양한 도구를 사용하여 최고의 요리를 만들듯, AI 개발자들은 이러한 트랜스포머 아키텍처들을 활용하여 더욱 정교하고 유용한 AI 모델들을 만들어내고 있습니다.
Transformer Architectures - Hugging Face LLM Course
In the previous sections, we introduced the general Transformer architecture and explored how these models can solve various tasks. Now, let’s take a closer look at the three main architectural variants of Transformer models and understand when to use ea
huggingface.co
'Theory > Transfomer' 카테고리의 다른 글
| LLM의 첫 단추, 토크나이저: 텍스트를 숫자로 바꾸는 마법 (0) | 2025.07.02 |
|---|---|
| 트랜스포머(Transformer): 한계와 극복 전략 (0) | 2025.05.17 |
| 트랜스포머(Transformer): 포지셔널 인코딩(Positional Encoding) (0) | 2025.05.17 |
| 트랜스포머(Transformer): 멀티-헤드 어텐션(Multi-Head Attention, MHA) (0) | 2025.05.17 |
| 트랜스포머(Transformer): 셀프 어텐션(Self-Attention) 메커니즘 (0) | 2025.05.17 |