AI Engineer의 '사부작' 공간

LLaMA 성능의 비밀: 왜 FeedForward(피드포워드)는 차원을 늘렸다 줄일까? 본문

Theory/LLM Architectures

LLaMA 성능의 비밀: 왜 FeedForward(피드포워드)는 차원을 늘렸다 줄일까?

ChoYongHo 2025. 6. 13. 08:25
728x90

LLaMA 성능의 비밀: Up & Down Projection의 원리와 두 가지 효과

거대 언어 모델(LLM)의 세계는 마치 수많은 부품이 정교하게 맞물려 돌아가는 복잡한 기계 장치와 같습니다. LLaMA와 같은 최신 모델의 놀라운 성능을 제대로 이해하려면 그 내부 부품, 특히 피드포워드 네트워크(Feed-Forward Network, FFN)의 작동 방식을 깊이 들여다볼 필요가 있습니다. 오리지널 트랜스포머 아키텍처의 FFN은 LLaMA에서 한 단계 더 발전했는데, 그 핵심적인 변화 중 하나가 바로 Up & Down Projection 기법입니다. "정보의 차원을 늘렸다가 다시 줄인다"는 단순해 보이는 이 과정에는 사실 모델의 성능을 극대화하는 두 가지 강력한 비밀이 숨어있습니다. 이번 글에서는 Up & Down Projection이 무엇인지, 그리고 어떻게 모델을 더 똑똑하게 만드는지 쉽게 파헤쳐 보겠습니다.


Up & Down Projection: 정보의 차원을 넓혔다 좁히는 기술

트랜스포머 아키텍처의 심장부라 할 수 있는 트랜스포머 블록의 마지막 단에는 피드포워드 모듈이 자리 잡고 있습니다. 이 모듈의 역할은 셀프 어텐션(Self-Attention)을 거쳐 나온 정보를 한 번 더 가공하여 모델의 표현력을 풍부하게 만드는 것입니다.

개념: Up & Down Projection
입력된 정보의 차원을 일시적으로 크게 확장(Up-Projection)하고, 비선형 활성화 함수(예: ReLU, SiLU)를 적용한 뒤, 다시 원래의 차원으로 축소(Down-Projection)하는 과정을 거칩니다. 예를 들어, 오리지널 트랜스포머나 BERT 모델에서는 768차원의 입력 정보를 4배인 3,072차원으로 확장했다가 다시 768차원으로 되돌립니다.

비유: 좁은 데이터 도로를 8차선 고속도로로 확장하기
Up & Down Projection은 마치 좁고 구불구불한 2차선 국도를 잠시 넓고 뻥 뚫린 8차선 고속도로로 바꾸는 것과 같습니다. 좁은 길에서는 다양한 종류의 차(정보)들이 서로 얽히고설켜 복잡한 관계를 파악하기 어렵습니다. 하지만 넓은 고속도로에서는 각 차들이 충분한 공간을 갖고 자유롭게 상호작용하며 숨겨져 있던 다양한 패턴과 관계를 드러낼 수 있습니다. 이후 목적지(다음 레이어)에 도달하기 전, 다시 원래의 차선으로 돌아오면서 고속도로에서 파악된 핵심 정보들만 압축하여 가져가는 것이죠.

이러한 구조는 모델에 두 가지 중요한 이점을 제공합니다. 모델 표현력 증가정보 병목 현상을 이용한 핵심 정보 추출입니다.


효과 1: 모델의 표현력을 극대화하다

차원을 확장하는 Up-Projection과 비선형 활성화 함수의 조합은 모델이 데이터의 복잡한 패턴을 학습하는 능력을 비약적으로 향상시킵니다.

고차원 공간에서 풍부한 특징 표현
입력 차원을 확장하면 모델이 더 많은 특징(feature)을 학습하고 표현할 수 있는 여유 공간이 생깁니다.

  • 비유: 2차원 평면에 얽혀 있어 직선 하나로 구분할 수 없던 점들을 3차원 공간으로 옮기면, 새로운 축(차원)을 기준으로 쉽게 분리할 수 있는 평면을 찾을 수 있게 되는 것과 같습니다. 이와 같이 차원 확장은 저차원에서는 보이지 않던 데이터의 복잡한 관계를 모델이 파악할 수 있게 돕습니다.
  • 예시: 복잡한 비선형 함수를 학습시키는 실험에서, 중간 차원이 작은 모델(8차원)은 데이터의 전체적인 추세만 겨우 따라가는 반면, 중간 차원을 크게 확장한 모델(64차원)은 데이터의 미묘한 굴곡까지 훨씬 정확하게 예측해내는 것을 볼 수 있습니다. 이는 확장된 차원 덕분에 모델이 더 풍부한 표현력을 갖게 되었기 때문입니다.

강화된 비선형 변환 능력
더 넓은 차원에서 비선형 활성화 함수를 적용하면 모델은 훨씬 더 복잡한 현상을 모델링할 수 있습니다. 10개의 뉴런에 활성화 함수를 적용하는 것보다, 128개의 뉴런에 적용할 때 훨씬 더 다양한 비선형 관계를 포착할 수 있는 것과 같은 원리입니다.

  • 예시: 초승달 모양으로 얽힌 데이터를 분류하는 문제에서, 중간 차원이 작은 모델(4차원)은 두 초승달을 구분하는 경계선을 제대로 찾지 못해 정확도가 84.2%에 그쳤습니다. 반면, 중간 차원을 128차원으로 크게 확장한 모델은 매우 정교하고 구불구불한 결정 경계를 만들어내며 99.6%의 높은 정확도로 데이터를 거의 완벽하게 분류해냈습니다. 이는 확장된 차원이 모델의 비선형 모델링 능력을 강화했음을 명확히 보여줍니다.

효과 2: 정보의 병목에서 핵심만 추출하다

정보를 확장했다가 다시 축소하는 구조는 '정보 병목(Information Bottleneck)'이라는 흥미로운 효과를 만들어냅니다. 이는 불필요한 정보를 걸러내고 데이터의 본질만 남기는 정제 과정과 같습니다.

개념
Up/Down Projection 구조는 정보가 넓은 공간에서 상호작용하며 풍부해졌다가, 좁은 통로를 지나면서 핵심만 응축되는 과정을 거칩니다. 이 과정에서 중요하지 않은 노이즈는 자연스럽게 걸러지고, 가장 중요한 특징만 다음 단계로 전달됩니다. 이는 과적합을 막는 일종의 정규화(Regularization) 효과도 가져와 모델의 일반화 성능을 높여줍니다.

  • 비유: 이 과정은 모래시계에 비유할 수 있습니다. 위쪽의 넓은 공간에 담긴 수많은 모래알(방대한 초기 정보)이 좁은 허리를 통과하면서 일정한 흐름(정제된 핵심 정보)으로 걸러져 아래로 떨어지는 모습과 같습니다.
  • 예시 1: 노이즈 제거: 오토인코더 모델에 정보 병목 구조를 적용하면 노이즈가 섞인 신호에서 원래의 깨끗한 신호를 복원하는 능력이 탁월해집니다. 노이즈가 심하게 낀 사인파 데이터를 병목 구조를 가진 오토인코더에 통과시키면, 출력 결과에서는 노이즈가 상당 부분 제거되고 원래의 매끄러운 사인파 형태가 복원됩니다. 이는 병목 구조가 신호의 핵심 패턴만 선택적으로 통과시키고 노이즈는 걸러냈다는 증거입니다.
  • 예시 2: 병목의 함정: 물론 병목이 항상 좋은 것만은 아닙니다. 병목 구간이 지나치게 좁으면 오히려 중요한 정보까지 손실될 수 있습니다. 예를 들어, XOR와 같은 비선형 분류 문제를 푸는 모델에서 중간 차원을 너무 작게(2차원) 설정하면, 정보 흐름이 제한되어 모델이 제대로 학습하지 못하고 손실 값이 불안정하게 튀는 현상을 보입니다. 반면, 충분한 크기(8차원)의 중간 차원을 확보해주면 정보가 원활히 흘러 안정적으로 학습하고 높은 성능을 보입니다. 따라서 병목의 강도를 적절히 조절하는 것이 중요합니다.

마무리하며

트랜스포머 아키텍처의 피드포워드 모듈에 사용되는 Up & Down Projection은 단순히 차원을 바꾸는 기술이 아닙니다. 이는 모델의 표현력을 극대화하는 동시에, 정보 병목 효과를 통해 데이터의 핵심 정수만을 효율적으로 추출하는 매우 정교한 설계입니다차원을 확장하여 복잡한 비선형 패턴을 학습할 수 있는 능력을 부여하고, 다시 차원을 축소하며 불필요한 노이즈를 걸러내고 일반화 성능을 높이는 이 두 가지 효과는 서로 맞물려 모델의 전반적인 성능을 끌어올립니다.


https://arxiv.org/abs/2302.13971

 

LLaMA: Open and Efficient Foundation Language Models

We introduce LLaMA, a collection of foundation language models ranging from 7B to 65B parameters. We train our models on trillions of tokens, and show that it is possible to train state-of-the-art models using publicly available datasets exclusively, witho

arxiv.org

https://arxiv.org/abs/2305.11627

 

LLM-Pruner: On the Structural Pruning of Large Language Models

Large language models (LLMs) have shown remarkable capabilities in language understanding and generation. However, such impressive capability typically comes with a substantial model size, which presents significant challenges in both the deployment, infer

arxiv.org

 

728x90