일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- model context protocol
- Lora
- transformer
- MHA
- attention
- catastrophic forgetting
- PEFT
- MQA
- flashattention
- BLEU
- LLM
- Positional Encoding
- 트랜스포머
- rotary position embedding
- RLHF
- Multi-Head Attention
- fréchet inception distance
- self-attention
- Embedding
- CoT
- FID
- Rag
- tokenizer
- chain-of-thought
- Rope
- reinforcement learning from human feedback
- 토크나이저
- gqa
- context
- re-ranking
- Today
- Total
AI Engineer의 '사부작' 공간
Residual Connection(잔차 연결): 깊은 신경망 학습의 혁신적 돌파구 본문
Residual Connection(잔차 연결): 깊은 신경망 학습의 혁신적 돌파구
ChoYongHo 2025. 6. 19. 08:16Residual Connection(잔차 연결): 깊은 신경망 학습의 혁신적 돌파구
딥러닝의 세계는 마치 끝없이 높아지는 마천루와 같습니다. 더 높은 성능을 위해 신경망을 더 깊게 쌓으려 하지만, 어느 순간부터는 오히려 성능이 떨어지는 역설적인 상황에 직면하게 됩니다. 마치 고층 건물을 지을 때 기초 공사가 부실하면 건물이 무너지는 것처럼, 깊은 신경망도 학습 과정에서 정보가 소실되어 제대로 훈련되지 않는 문제가 발생했습니다. 이러한 딥러닝 분야의 근본적인 한계를 해결한 것이 바로 Residual Connection(잔차 연결)입니다. 2015년 마이크로소프트 연구팀의 Kaiming He 등이 제안한 이 혁신적인 기술은, 단순하면서도 강력한 아이디어로 딥러닝 역사에 새로운 전환점을 만들어냈습니다. 오늘날 GPT, BERT, LLaMA와 같은 거대 언어 모델들이 수백 개의 층을 가질 수 있게 된 것도 바로 이 기술 덕분입니다. 그렇다면 Residual Connection은 어떤 방법으로 깊은 신경망의 학습을 가능하게 한 것인지 알아보도록 하겠습니다.
깊은 신경망의 딜레마: 그래디언트 소실 문제(Vanishing Gradient Problem)
깊은 신경망이 학습하기 어려운 이유를 이해하기 위해서는 먼저 역전파(Backpropagation) 과정을 살펴봐야 합니다. 신경망 학습은 마치 산 정상에서 계곡 아래로 메아리가 전해지는 것과 같습니다. 출력층에서 계산된 오차 정보가 역방향으로 전파되면서 각 층의 가중치를 업데이트하는데, 이 과정에서 연쇄 법칙(Chain Rule)에 따라 여러 미분값들이 곱해집니다.
개념: 역전파는 출력층의 손실 함수로부터 시작하여 각 층을 거슬러 올라가면서 가중치의 기울기(gradient)를 계산합니다. 이때 각 층을 지날 때마다 활성화 함수의 미분값이 곱해지는데, 시그모이드(Sigmoid)와 같은 전통적인 활성화 함수는 미분값이 0과 1 사이의 작은 값을 가집니다.
비유: 이는 마치 속삭임 게임과 같습니다. 첫 번째 사람이 "사과"라고 말했지만, 10명을 거쳐 전달되면서 각자 목소리가 작아져서 마지막 사람에게는 거의 들리지 않는 소리가 됩니다. 신경망에서도 마찬가지로 출력층의 오차 정보가 여러 층을 거치면서 점점 작아져, 초기 층들은 거의 학습되지 않는 현상이 발생합니다.
예시: 56층 깊이의 신경망과 20층 신경망을 CIFAR-10 데이터셋으로 비교 실험한 결과, 놀랍게도 더 깊은 56층 모델이 20층 모델보다 훈련 오차와 테스트 오차 모두에서 더 나쁜 성능을 보였습니다. 이는 단순히 층을 더 쌓는다고 해서 항상 더 나은 결과를 얻을 수 있는 것이 아님을 보여주는 대표적인 사례입니다.
활성화 함수의 한계: 정보 손실의 주범
전통적인 활성화 함수들은 그래디언트 소실 문제를 악화시키는 주요 원인 중 하나였습니다. 특히 시그모이드 함수는 입력값이 매우 크거나 작을 때 출력이 포화 상태에 도달하여 미분값이 거의 0에 가까워집니다. 이는 마치 물이 흐르는 파이프가 막혀서 물의 흐름이 차단되는 것과 같은 현상입니다.
ReLU의 등장과 한계: ReLU(Rectified Linear Unit) 함수는 양수 영역에서는 기울기가 1로 일정하여 그래디언트 소실 문제를 어느 정도 완화했지만, 음수 영역에서는 완전히 0이 되어 'Dead Neuron' 문제를 야기했습니다.
현대적 활성화 함수들: Swish나 GELU와 같은 현대적 활성화 함수들은 음수 영역에서도 일부 정보를 보존하고, 더 부드러운 곡선을 가져 그래디언트 소실 문제를 완화하는 데 도움을 줍니다.
Residual Connection의 혁신: 잔차 학습이라는 패러다임 전환(차이를 학습하라)
Residual Connection의 핵심은 "전체 함수를 학습하는 대신 잔차(차이)를 학습하자"는 발상의 전환에 있습니다. 이는 마치 사진 편집에서 원본 이미지에 변화량만 더해서 새로운 이미지를 만드는 것과 유사합니다.

수학적 표현:
- 기존 방식: H(x) 함수를 직접 학습
- 잔차 방식: H(x)=F(x)+x 형태로 변경하여 F(x)=H(x)−x 잔차 함수를 학습
개념: 여기서 F(x)는 네트워크가 학습해야 할 잔차 함수이고, x는 입력 그대로를 의미합니다. 네트워크는 입력을 완전히 새로운 출력으로 변환하는 대신, 입력에서 얼마나 변화시켜야 하는지만 학습하면 됩니다.
비유: 이는 마치 길 안내를 할 때 "서울역에서 강남역까지 가는 전체 경로"를 외우는 대신, "현재 위치에서 다음 목적지까지의 방향과 거리"만 알려주는 것과 같습니다. 각 단계에서 필요한 최소한의 정보만 학습하면 되므로 훨씬 효율적입니다.
Skip Connection: 정보의 고속도로
Residual Connection은 구조적으로 Skip Connection이라고도 불립니다. 이는 입력 x가 중간 층들을 "건너뛰어" 직접 상위 층으로 전달되는 것처럼 보이기 때문입니다.
정보 보존의 메커니즘: 순전파(Feedforward)와 역전파(Backpropagation) 과정에서 일부 정보는 소실될 수 있지만, x에 대한 정보는 그대로 유지되어 상위 층으로 전달됩니다. 이는 마치 고속도로의 우회로처럼, 교통 체증이 발생해도 중요한 정보는 빠른 경로를 통해 목적지에 도달할 수 있게 해줍니다.
그래디언트 흐름 개선: 역전파 시에도 그래디언트가 Skip Connection을 통해 직접 하위 층으로 전달되어, 깊은 네트워크에서도 효과적인 학습이 가능해집니다.
실험으로 입증된 놀라운 효과: ResNet의 성공(이론에서 실제까지)
ResNet(Residual Network)은 Residual Connection의 효과를 명확하게 입증한 대표적인 사례입니다. ImageNet 데이터셋에서 Residual Connection을 적용한 34층 네트워크가 18층 네트워크보다 더 우수한 성능을 보였으며, 이는 깊은 네트워크의 효과적인 훈련이 가능함을 증명했습니다.

역사적 성과: ResNet은 2015년 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)에서 우승을 차지했으며, 152층이라는 당시로서는 상상하기 어려운 깊이의 네트워크를 성공적으로 훈련시켰습니다. 이는 VGG 네트워크보다 8배 더 깊으면서도 더 낮은 복잡도를 가졌습니다.
활성화 함수와의 시너지 효과
Residual Connection은 현대적 활성화 함수와 결합할 때 더욱 강력한 효과를 발휘합니다. Swish 활성화 함수와 Residual Connection을 함께 적용한 모델은 그래디언트 노름이 약 0.08 수준까지 증가하여, 두 기법의 조합이 그래디언트 소실 문제 완화에 시너지 효과를 발휘함을 보여줍니다.
단독 적용 vs 조합 적용:
- 활성화 함수만 변경: 미미한 개선 효과
- Residual Connection만 적용: 중간 정도의 개선 효과
- 두 기법 조합: 극적인 개선 효과
현대 AI 모델의 핵심 기술로 자리잡다: Transformer와 대규모 언어 모델에서의 활용
Residual Connection은 2017년 등장한 Transformer 아키텍처에서도 핵심적인 역할을 담당하고 있습니다. Multi-Head Attention 블록과 Feed-Forward 블록 사이사이에 배치되어, 깊은 Transformer 모델의 안정적인 학습을 가능하게 합니다.

현대 언어 모델들의 공통 요소: GPT, BERT, LLaMA와 같은 현대적 언어 모델들은 모두 Residual Connection을 광범위하게 활용하고 있습니다. 이들 모델이 수십억 개의 파라미터와 수백 개의 층을 가질 수 있게 된 것도 Residual Connection 덕분입니다.
마무리하며: 단순함 속에 숨겨진 깊은 통찰
Residual Connection은 "입력에 변화량을 더한다"는 매우 단순한 아이디어에서 출발했지만, 딥러닝 분야에 혁명적인 변화를 가져왔습니다. 이 기술의 진정한 가치는 그래디언트 소실 문제의 근본적 해결을 통해 깊은 네트워크에서도 효과적인 학습을 가능하게 했다는 점에 있습니다. 전체 함수를 학습하는 대신 잔차를 학습함으로써 더 효율적인 최적화를 실현했으며, 다양한 아키텍처와 도메인에서 일관되게 성능 향상을 보여주는 강건한 기술임을 입증했습니다. 오늘날 우리가 ChatGPT와 자연스럽게 대화하고, 이미지 생성 AI로 창작 활동을 하며, 다양한 AI 서비스를 일상에서 활용할 수 있게 된 것도 결국 Residual Connection과 같은 기초 기술들의 축적 덕분입니다.
[1512.03385] Deep Residual Learning for Image Recognition
Deep Residual Learning for Image Recognition
Deeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. We explicitly reformulate the layers as learning residual functions with
arxiv.org
'Theory > LLM Architectures' 카테고리의 다른 글
트랜스포머 안정성의 비밀: Pre-LN과 Post-LN, 레이어 정규화의 위치가 중요한 이유 (0) | 2025.07.01 |
---|---|
마스킹(Masking): 트랜스포머 어텐션 메커니즘을 완성하는 핵심 기술 (0) | 2025.06.20 |
LLaMA의 지능을 깨우는 문지기: 게이팅(Gating) 메커니즘 완전 정복 (0) | 2025.06.18 |
LLaMA 성능의 비밀: 왜 FeedForward(피드포워드)는 차원을 늘렸다 줄일까? (0) | 2025.06.13 |
GQA (Grouped Query Attention): 성능과 속도의 절묘한 줄타기, MHA와 MQA를 넘어서 (0) | 2025.06.11 |