| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- self-attention
- Multi-Head Attention
- transformer
- Engineering at Anthropic
- model context protocol
- reinforcement learning from human feedback
- PEFT
- extended thinking
- SK AI SUMMIT 2025
- Positional Encoding
- 트랜스포머
- langgraph
- test-time scaling
- flashattention
- MHA
- context engineering
- BLEU
- fréchet inception distance
- gqa
- CoT
- chain-of-thought
- attention
- catastrophic forgetting
- MQA
- Embedding
- RLHF
- re-ranking
- Langchain
- rotary position embedding
- 토크나이저
- Today
- Total
AI Engineer 공간 "사부작 사부작"
AI가 더 깊이 생각하게 만드는 기술: 테스트-타임 스케일링(Test-Time Scaling)과 예산 강제(Budget Forcing) 본문
AI가 더 깊이 생각하게 만드는 기술: 테스트-타임 스케일링(Test-Time Scaling)과 예산 강제(Budget Forcing)
ChoYongHo 2025. 6. 27. 08:20AI가 더 깊이 생각하게 만드는 기술: 테스트-타임 스케일링과 예산 강제
인공지능(AI)의 세계는 마치 끊임없이 진화하는 생명체와 같습니다. 더 똑똑하고, 더 유능한 AI를 만들기 위한 연구는 하루가 다르게 새로운 지평을 열고 있죠. 최근 AI 분야에서 가장 주목받는 혁신 중 하나는 모델이 문제의 난이도에 따라 '생각하는 시간'을 조절할 수 있게 만드는 기술입니다. 우리가 간단한 질문에는 즉시 답하지만, 어려운 수학 문제나 복잡한 코드를 디버깅할 때는 더 많은 시간과 정신력을 쏟는 것과 마찬가지입니다. 이러한 유연성을 AI에 부여하는 핵심 개념이 바로 테스트-타임 스케일링(Test-Time Scaling)입니다. 이는 모델을 더 크게 만드는 대신, 이미 훈련된 모델이 답변을 생성하는 '테스트 시점'에 더 많은 계산 자원을 사용해 성능을 끌어올리는 접근 방식입니다. Anthropic의 Claude 3.7 Sonnet이 선보인 확장된 사고(Extended Thinking)기능과, 오픈소스로 공개된 s1 모델이 사용하는 예산 강제(Budget Forcing) 기법이 대표적인 예시입니다. 이번 글에서는 AI가 어떻게 더 깊이, 그리고 더 오래 생각할 수 있게 되었는지, 그 원리인 테스트-타임 스케일링의 개념과 구체적인 구현 방법들을 쉽고 자세하게 파헤쳐 보겠습니다.
기존 AI의 한계: 정해진 생각의 시간
전통적인 AI 모델들은 대부분 문제의 난이도와 상관없이 답변을 생성하는 데 거의 고정된 계산량을 사용했습니다. 이는 마치 학생에게 1+1 같은 간단한 덧셈 문제와 복잡한 미적분 문제를 풀 때 똑같은 시간을 주는 것과 같습니다. 이러한 방식은 복잡하고 깊은 추론이 필요한 문제에 부딪혔을 때 명백한 한계를 드러냅니다. 모델은 충분히 생각할 시간을 갖지 못해 성급한 결론을 내리거나, 문제의 핵심을 파악하지 못하고 틀린 답을 내놓기 쉽습니다.
혁신의 시작: 테스트-타임 스케일링 (Test-Time Scaling)
테스트-타임 스케일링(Test-Time Scaling)은 이러한 한계를 극복하기 위해 등장했습니다. 핵심 아이디어는 '훈련은 끝났으니, 이제 답변할 때 문제에 따라 생각할 시간을 조절하자'는 것입니다. 즉, 모델의 파라미터를 바꾸는 것이 아니라, 추론(inference) 또는 테스트(test) 단계에서 사용하는 계산량을 유동적으로 조절하여 성능을 향상시키는 기법입니다.
이 접근법은 크게 두 가지 방식으로 나뉩니다.
- 순차적 스케일링 (Sequential Scaling): 모델이 하나의 긴 추론 과정을 통해 단계적으로 답을 찾아가는 방식입니다. 마치 우리가 하나의 문제를 여러 단계로 나누어 차근차근 풀어나가는 것과 같습니다. 이후의 계산은 이전 계산 결과에 영향을 받아 더 깊이 있는 추론과 반복적인 수정이 가능합니다.
- 병렬적 스케일링 (Parallel Scaling): 모델이 여러 개의 독립적인 추론 과정을 동시에 생성한 뒤, 다수결 투표와 같은 방식으로 가장 좋은 답을 선택하는 방식입니다. 여러 사람이 각자 아이디어를 낸 뒤 가장 많이 나온 의견을 채택하는 브레인스토밍과 유사합니다.
이 글에서는 더 깊은 추론을 가능하게 하는 순차적 스케일링 방식과 그 구체적인 구현 사례들을 중심으로 살펴보겠습니다.
AI의 깊은 생각, 어떻게 구현될까?
① Anthropic Claude의 확장된 사고 (Extended Thinking)
Anthropic의 최신 모델인 Claude 3.7 Sonnet은 확장된 사고 모드(Extended Thinking)를 통해 사용자가 모델에게 더 깊이 생각하도록 직접 지시할 수 있는 기능을 제공합니다.

- 개념: 이는 단순히 다른 모델로 전환하는 것이 아니라, 동일한 모델이 더 어려운 질문에 대해 더 많은 시간과 노력을 들여 답변을 생성하도록 허용하는 기능입니다.
- 비유: 마치 우리가 어려운 수수께끼를 만났을 때, 직감에 의존하지 않고 "잠깐, 좀 더 진지하게 생각해 봐야겠어"라고 마음먹는 것과 같습니다. 모델 스스로 문제 해결을 위해 더 많은 '인지적 노력'을 기울이는 셈입니다.
- 예시 및 특징:
- 가시적인 사고 과정 (Visible thought process): 가장 큰 특징은 모델의 '생각' 과정을 원문 그대로 볼 수 있다는 점입니다. 이를 통해 사용자는 Claude가 어떻게 결론에 도달했는지 확인할 수 있어 답변에 대한 신뢰도를 높일 수 있습니다. 또한 연구자들은 모델이 거짓말과 같은 바람직하지 않은 행동을 하는지 파악하는 데 이 기능을 활용하기도 합니다.
- 포켓몬스터 플레이: 확장된 사고 기능의 효과는 '포켓몬스터 레드' 게임 플레이 테스트에서 극적으로 나타났습니다. 이전 버전의 Claude는 게임 시작 지점인 집을 벗어나지도 못했지만, Claude 3.7 Sonnet은 확장된 사고를 통해 여러 전략을 시도하고 과거의 가정을 수정하며 게임을 진행해 3명의 체육관 관장을 이기는 데 성공했습니다. 이는 모델이 장기적인 목표를 유지하고 복잡한 문제를 해결하는 능력이 크게 향상되었음을 보여줍니다.
② s1 모델의 예산 강제 (Budget Forcing)
최근 발표된 's1: Simple test-time scaling' 논문은 가장 간단한 방법으로 테스트-타임 스케일링(Test-Time Scaling)을 구현하는 '예산 강제(Budget Forcing)'라는 기법을 제안했습니다.

- 개념: 예산 강제는 모델이 답변을 생성하는 디코딩 과정에서 '생각의 양(토큰 수)'을 직접적으로 제어하는 기술입니다. 개발자는 최소 및 최대 '생각 예산'을 설정하여 모델의 추론 길이를 강제로 조절할 수 있습니다.
- 비유: 예산 강제는 마치 학생을 가르치는 선생님과 같습니다. 학생이 어려운 문제에 너무 빨리 포기하려 하면, 선생님은 "잠깐, 조금만 더 생각해 봐"라고 격려합니다. 반대로 너무 오래 고민하며 시간을 끌면 "자, 이제 결론을 내릴 시간이야"라고 말하며 최종 답변을 유도합니다.
- 작동 방식:
- 생각 늘리기: 모델이 설정된 최소 예산에 도달하기 전에 "최종 답변:"과 같은 생각 종료 토큰을 생성하려고 하면, 시스템이 이를 막고 대신 "Wait(기다려)"와 같은 단어를 덧붙입니다. 이는 모델이 자신의 추론 과정을 다시 검토하고 잠재적인 오류를 수정하도록 유도합니다.
- 생각 줄이기: 모델의 추론 과정이 설정된 최대 예산을 초과하면, 시스템이 강제로 생각 종료 토큰을 삽입하여 모델이 즉시 답변을 생성하도록 만듭니다.
- 예시: 연구팀은 Qwen2.5-32B 모델을 단 1,000개의 고품질 추론 데이터(s1K)로 미세 조정하고 예산 강제 기술을 적용했습니다. 그 결과, s1-32B 모델은 경쟁적인 수학 경진대회 문제(MATH, AIME24)에서 OpenAI의 o1-preview 같은 훨씬 큰 모델을 능가하는 성능을 보였습니다. 이는 적은 데이터와 간단한 기법만으로도 모델의 추론 능력을 극적으로 향상시킬 수 있음을 증명한 사례입니다.
마무리하며
테스트-타임 스케일링(Test-Time Scaling)은 AI에게 '생각의 깊이'를 조절할 수 있는 능력을 부여함으로써, 단순히 정해진 절차를 따르는 기계를 넘어 실제 문제 해결사로 진화할 가능성을 열어주었습니다. AI가 문제의 난이도에 따라 유연하게 인지 자원을 할당하는 이 기술은 앞으로 더욱 발전하여, 우리가 상상하는 것 이상의 능력을 갖춘 AI 에이전트를 만드는 핵심 기반이 될 것입니다. AI가 '생각하는 법'을 배우기 시작한 지금, 우리는 AI AGENT 서비스 개발에 매우 흥미로운 순간을 마주하고 있습니다.
s1: Simple test-time scaling
Test-time scaling is a promising new approach to language modeling that uses extra test-time compute to improve performance. Recently, OpenAI's o1 model showed this capability but did not publicly share its methodology, leading to many replication efforts.
arxiv.org
https://www.anthropic.com/news/visible-extended-thinking
Claude's extended thinking
Discussing Claude's new thought process
www.anthropic.com
https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking
Building with extended thinking - Anthropic
When using streaming with thinking enabled, you might notice that text sometimes arrives in larger chunks alternating with smaller, token-by-token delivery. This is expected behavior, especially for thinking content. The streaming system needs to process c
docs.anthropic.com
'Theory > Agents' 카테고리의 다른 글
| 클로드(Claude)의 생각 엿보기: Extended Thinking으로 투명하고 강력한 AI 에이전트 만들기 (0) | 2025.07.04 |
|---|---|
| 컨텍스트 엔지니어링(Context Engineering): 프롬프트 너머, AI 에이전트 성공의 핵심 (0) | 2025.06.30 |
| Best-of-N (BoN): 가장 좋은 하나를 고르는 단순함의 힘, LLM 성능 극대화의 비밀 (0) | 2025.06.27 |
| AI의 배신: 인간을 속이는 '기만적 오정렬(Deceptive Misalignment)'의 두 얼굴, Anthropic과 OpenAI의 경고 (0) | 2025.06.23 |
| LangGraph: LLM의 한계를 뛰어넘는 상태 기반 AI 에이전트 프레임워크 (0) | 2025.05.30 |