AI Engineer 공간 "사부작 사부작"

스케일링 법칙(Scaling Laws) 본문

Theory/LLM Architectures

스케일링 법칙(Scaling Laws)

ChoYongHo 2025. 5. 17. 12:40
728x90

스케일링 법칙(Scaling Laws): AI 성장의 수학적 공식, Kaplan에서 Chinchilla까지

인공지능 분야에서는 수십억 달러의 컴퓨팅 자원이 투입되는 대규모 언어 모델(LLM)을 개발할 때, 주어진 자원을 어떻게 배분해야 최상의 성능을 얻을 수 있을까요? 더 큰 모델을 만들어야 할까요, 아니면 더 많은 데이터로 훈련해야 할까요? 이러한 질문에 경험적 근거를 제공하는 것이 바로 '스케일링 법칙(Scaling Laws)'입니다. 스케일링 법칙은 AI 모델의 성능이 모델 크기, 데이터 양, 계산 자원과 같은 요소에 따라 어떻게 변화하는지를 수학적으로 설명하는 관계식으로, 효율적인 AI 개발의 나침반 역할을 합니다.

스케일링 법칙: AI 성능 예측의 지도

스케일링 법칙은 언어 모델의 성능(주로 손실 값으로 측정)이 모델 크기(파라미터 수), 훈련 데이터 양(토큰 수), 그리고 계산량과 같은 요소에 따라 변화하는 관계를 설명합니다. 연구자들은 이러한 관계가 로그-로그 스케일에서 선형적으로 나타나는 경향, 즉 거듭제곱 법칙(power-law)을 따른다는 사실을 발견했습니다.

스케일링 법칙의 핵심 아이디어

  • AI 모델의 성능은 예측 가능한 수학적 패턴을 따라 향상됩니다.
  • 이러한 패턴을 이해하면 제한된 자원으로 최적의 성능을 얻기 위한 전략을 세울 수 있습니다.
  • 스케일링 법칙은 모델 크기, 데이터 양, 계산 자원 간의 최적 균형점을 찾는 데 도움을 줍니다.

비유하자면, 스케일링 법칙은 마치 건축가가 건물의 크기와 필요한 재료 간의 관계를 이해하는 것과 같습니다. 더 높은 건물을 지으려면 더 많은 콘크리트와 철근이 필요하지만, 이는 단순한 선형 관계가 아니라 복잡한 구조적 법칙을 따릅니다. AI에서도 마찬가지로, 더 좋은 모델을 만들기 위한 자원 분배는 단순히 '더 많이'가 아닌 '더 스마트하게'라는 전략이 필요합니다.

Kaplan 법칙: 모델 크기의 중요성을 강조하다

2020년 OpenAI의 Jared Kaplan과 동료들은 트랜스포머 기반 언어 모델에 대한 주요 스케일링 법칙을 발표했습니다. 이 연구는 모델 성능에 대한 경험적 분석을 통해 획기적인 통찰을 제공했습니다.

Kaplan 법칙의 핵심 발견

  1. 최적 모델 크기는 계산 예산(C)의 함수로 표현됩니다: N_optimal ∝ C^0.73
  2. 고정된 계산 예산에서는 데이터보다 모델 크기를 늘리는 것이 더 효과적입니다.
  3. 큰 모델은 작은 모델보다 훨씬 더 샘플 효율적입니다.

비유: Kaplan 법칙은 마치 '뇌 용량 확장 이론'과 같습니다. 더 큰 뇌(모델)를 가진 학생이 같은 양의 책(데이터)을 읽어도 더 많은 것을 배울 수 있듯이, 더 큰 모델은 동일한 데이터에서도 더 많은 패턴을 포착할 수 있다는 것입니다.

예를 들어, 1B(10억) 파라미터 모델과 10B 파라미터 모델이 있다고 가정해봅시다. Kaplan 법칙에 따르면, 10B 모델은 1B 모델이 필요로 하는 데이터의 일부만으로도 동일한 성능에 도달할 수 있습니다. 이는 마치 천재 학생이 평범한 학생보다 훨씬 적은 반복으로도 개념을 습득하는 것과 유사합니다.

Chinchilla 법칙: 균형의 미학

2022년 DeepMind의 Hoffmann과 동료들은 "Chinchilla" 모델을 통해 기존의 스케일링 법칙에 중요한 수정을 가져왔습니다. 그들의 연구는 모델 크기와 데이터 양 사이의 균형에 새로운 관점을 제시했습니다.

Chinchilla 법칙의 핵심 발견

  1. 최적 모델 크기는 계산 예산의 함수로: N_optimal ∝ C^0.50
  2. 주어진 계산 예산에서 모델 크기와 데이터 크기는 거의 동등한 중요성을 갖습니다.
  3. 최적의 토큰 대 파라미터 비율은 약 20:1입니다.
  4. 많은 대형 모델들은 '과대 매개변수화'되고 '과소 훈련'되었을 가능성이 있습니다.

비유: Chinchilla 법칙은 '균형 잡힌 식단 이론'과 같습니다. 단순히 몸집(모델 크기)을 키우는 것보다 적절한 양의 다양한 영양소(데이터)를 균형 있게 섭취하는 것이 건강(모델 성능)에 더 중요하다는 것입니다.

실제 예시로, Chinchilla 연구에서는 70B 파라미터 모델인 Gopher와 동일한 계산 예산으로 훈련된 7B 파라미터 모델인 Chinchilla가 10배 더 많은 데이터로 훈련되어 더 나은 성능을 보였습니다. 이는 마치 무작정 근육량(모델 크기)을 늘리는 것보다 적절한 근육량과 함께 체계적인 훈련(더 많은 데이터)을 병행하는 것이 더 효과적인 것과 유사합니다.

두 법칙의 불일치: 과학적 발견의 여정

Kaplan과 Chinchilla 법칙 간의 불일치는 AI 연구 커뮤니티에 중요한 의문을 제기했습니다. 왜 두 연구는 서로 다른 최적 스케일링 계수를 제안했을까요?

최근 연구들은 이 불일치의 주요 원인을 밝혀냈습니다.

  1. 파라미터 계산 방식: Kaplan은 임베딩이 아닌 비임베딩 파라미터만 계산했습니다.
  2. 연구 규모: Kaplan은 상대적으로 작은 모델(최대 1B 파라미터)로 연구했지만, Chinchilla는 더 큰 모델(최대 16B 파라미터)을 사용했습니다.
  3. 훈련 방법론: 마지막 레이어 계산 비용, 워밍업 기간, 스케일에 따른 옵티마이저 튜닝과 같은 차이점들이 결과에 영향을 미쳤습니다.

이러한 차이점들을 고려하면, 현재 연구 커뮤니티는 Chinchilla 법칙이 더 정확한 것으로 판단하고 있습니다. 이는 과학의 발전 과정을 잘 보여주는 사례로, 초기 이론(Kaplan)이 더 포괄적인 데이터와 방법론으로 개선(Chinchilla)되는 과정입니다.

친칠라의 함정(Chinchilla Trap)과 추론 비용의 중요성

최근 연구는 기존의 스케일링 법칙이 간과했던 중요한 요소인 '추론 비용'을 고려한 새로운 관점을 제시했습니다. 이른바 '친칠라의 함정(Chinchilla Trap)'이라 불리는 이 개념은, 단순히 훈련 효율만 최적화한 모델이 실제 배포 시에는 비효율적일 수 있다는 것을 의미합니다.

친칠라의 함정의 핵심 통찰

  1. 만약 모델이 많은 추론 요청(inference requests)을 처리해야 한다면, Chinchilla 최적보다 더 작은 모델을 더 오래 훈련하는 것이 전체 비용 면에서 유리할 수 있습니다.
  2. 추론 수요가 높은 경우, 최적의 토큰 대 파라미터 비율은 20:1에서 최대 150:1까지 증가할 수 있습니다.
  3. 훈련 비용이 더 높더라도, 추론 비용을 줄이는 전략이 장기적으로 더 경제적일 수 있습니다.

비유: 이는 '고성능 자동차 vs 경제적 자동차' 선택과 유사합니다. 매일 장거리 통근을 해야 하는 사람이라면, 초기 구매 비용(훈련 비용)이 더 높더라도 연비가 좋은 경제적 자동차(작은 모델)가 장기적으로 더 경제적인 선택일 수 있습니다.

스케일링 법칙의 실용적 응용

스케일링 법칙은 단순한 이론적 관심사를 넘어, AI 모델 개발의 전략적 의사 결정에 실질적인 지침을 제공합니다.

리소스 할당 최적화

  • 주어진 계산 예산으로 최적의 모델 크기와 훈련 데이터 양 결정
  • 추가 GPU를 구매할지 vs 더 많은 데이터를 수집할지 결정

모델 아키텍처 선택

  • 다양한 아키텍처의 스케일링 경향을 분석하여 대규모에서 더 나은 성능을 보일 아키텍처 선택
  • 예: 트랜스포머와 LSTM 모델을 다양한 규모로 훈련하고 성능 추세를 비교

효율적인 하이퍼파라미터 튜닝

  • 이전 방식: 큰 모델로 많은 하이퍼파라미터 조합 시도 (~30개 모델)
  • 새로운 방식: 작은 모델로 하이퍼파라미터 튜닝 (~3일) + 스케일링 법칙으로 성능 외삽 + 최종 대형 모델 훈련 (~27일)

예시를 들어보겠습니다. 만약 10,000개의 GPU를 한 달 동안 사용할 수 있다면, 어떤 크기의 모델을 얼마나 많은 데이터로 훈련해야 최적일까요? Chinchilla 법칙을 적용하면, 계산 예산의 제곱근에 비례하는 크기의 모델을 선택하고, 파라미터당 약 20개의 토큰으로 훈련하는 것이 최적이라는 답을 얻을 수 있습니다.

스케일링 법칙의 미래: 더 넓은 지평을 향해

스케일링 법칙은 AI 발전의 로드맵을 제공하는 중요한 도구가 되었습니다. Kaplan에서 Chinchilla로, 그리고 이제는 추론 비용까지 고려한 더 포괄적인 법칙으로 발전해 나가고 있습니다. AI 연구는 "더 크다고 항상 더 좋은 것은 아니다"라는 교훈을 깨닫게 되었습니다. 스케일링 법칙은 이제 더 넓은 범위의 AI 모델 개발에 영향을 미치고 있습니다. 텍스트뿐만 아니라 이미지, 비디오, 오디오를 포함한 다양한 모달리티의 모델에 대한 스케일링 법칙도 연구되고 있습니다. 결국 스케일링 법칙의 가치는 '더 큰 것이 항상 더 좋다'는 직관을 넘어, '어떻게 더 스마트하게 확장할 것인가'에 대한 과학적 접근법을 제공하는 데 있습니다. 이는 AI의 미래가 무작정 계산 자원을 투입하는 것이 아니라, 자원의 현명한 분배와 활용에 달려 있음을 시사합니다.


https://arxiv.org/abs/2001.08361

 

Scaling Laws for Neural Language Models

We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitu

arxiv.org

https://arxiv.org/abs/2203.15556

 

Training Compute-Optimal Large Language Models

We investigate the optimal model size and number of tokens for training a transformer language model under a given compute budget. We find that current large language models are significantly undertrained, a consequence of the recent focus on scaling langu

arxiv.org

 

728x90