| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- MHA
- test-time scaling
- extended thinking
- MQA
- 토크나이저
- chain-of-thought
- self-attention
- langgraph
- reinforcement learning from human feedback
- flashattention
- Engineering at Anthropic
- model context protocol
- SK AI SUMMIT 2025
- CoT
- 트랜스포머
- catastrophic forgetting
- PEFT
- gqa
- rotary position embedding
- re-ranking
- Multi-Head Attention
- transformer
- RLHF
- Embedding
- context engineering
- fréchet inception distance
- BLEU
- attention
- Positional Encoding
- Langchain
- Today
- Total
AI Engineer 공간 "사부작 사부작"
Best-of-N (BoN): 가장 좋은 하나를 고르는 단순함의 힘, LLM 성능 극대화의 비밀 본문
Best-of-N (BoN): 가장 좋은 하나를 고르는 단순함의 힘, LLM 성능 극대화의 비밀
인공지능 언어 모델(LLM)의 발전은 눈부십니다. 단순히 문장을 생성하는 것을 넘어, 이제는 인간의 복잡한 의도를 파악하고 유용하며, 진실하고, 무해한 답변을 제공하는 방향으로 나아가고 있죠. 이러한 '정렬(Alignment)' 기술의 중심에는 인간의 피드백을 활용한 강화학습, RLHF(Reinforcement Learning from Human Feedback)가 있습니다. 하지만 이 복잡하고 정교한 방법론이 대중화되기 전, 매우 간단하면서도 강력한 아이디어가 그 가능성을 입증하며 중요한 이정표를 세웠습니다. 바로 Best-of-N (BoN) 입니다. Best-of-N은 마치 뛰어난 예술가가 여러 습작을 그린 뒤 가장 완벽한 작품 하나를 최종적으로 선택하는 것과 같습니다. 이 직관적인 방법은 2020년 발표된 OpenAI의 논문 "Learning to Summarize from Human Feedback"을 통해 LLM 정렬 분야에서 그 효과를 체계적으로 증명하며 널리 알려졌습니다. 이번 글에서는 LLM의 성능을 극적으로 끌어올리는 Best-of-N의 개념과 역할, 그리고 그 한계까지 깊이 있게 파헤쳐 보겠습니다.
'좋은 답변'을 향한 여정과 Best-of-N의 등장
LLM에게 하나의 질문을 던지면, 모델은 수많은 잠재적 답변을 생성할 수 있습니다. 그중에는 훌륭한 답변도 있지만, 평범하거나 심지어는 틀린 답변도 섞여있습니다. 개발자들의 고민은 바로 '어떻게 하면 이 중에서 가장 좋은 답변을 안정적으로 사용자에게 보여줄 수 있을까?'였습니다.
이 문제에 대한 가장 직관적인 해법이 바로 Best-of-N입니다. 이름 그대로, 'N개 중에서 최고의 것'을 고르는 방식입니다.
- 개념: Best-of-N은 모델의 가중치를 직접 수정하는 훈련 방식이 아니라, 추론(inference) 단계에서 작동하는 전략입니다.
- 후보 생성: 하나의 프롬프트(지시어)에 대해 LLM이 N개의 서로 다른 답변 후보를 생성합니다.
- 평가: 별도로 훈련된 '보상 모델(Reward Model, RM)'이 N개의 답변을 모두 평가하여 각각의 점수를 매깁니다. 이 보상 모델은 어떤 답변이 인간의 선호도에 더 부합하는지를 학습한 '심판' 역할을 합니다.
- 선택: 가장 높은 점수를 받은 단 하나의 답변을 최종 결과로 선택하여 사용자에게 보여줍니다.
- 비유: 여러 명의 작가가 '미래 도시의 모습'이라는 하나의 주제로 단편 소설을 쓰는 공모전을 상상해 보세요.
- LLM: N명의 작가들. 각자 자신의 스타일로 소설(답변 후보)을 써냅니다.
- 보상 모델(RM): 문학상 심사위원단. 작품의 창의성, 개연성, 문체 등을 종합적으로 평가하여 각 작품에 점수를 매깁니다.
- Best-of-N 결과: 심사위원단으로부터 최고점을 받아 대상을 수상한 작품. 이 작품이 독자(사용자)에게 공개됩니다.
- 예시:
- 프롬프트: "지구 온난화의 주요 원인을 한 문장으로 설명해줘."
- LLM (N=4 생성):
- "지구 온난화는 태양 활동 때문에 발생합니다." (부정확)
- "지구 온난화는 인간이 화석 연료를 태우고, 숲을 파괴하고, 산업 활동을 하면서 배출하는 온실가스가 대기에 축적되어 지구의 평균 기온이 상승하는 현상입니다." (정확하지만 장황함)
- "인간의 활동으로 인한 온실가스 배출량 증가가 지구 온난화의 핵심 원인입니다." (정확하고 간결함)
- "지구가 더워지고 있어요." (지나치게 단순함)
- 보상 모델 평가: 보상 모델은 3번 답변이 정확성, 간결성, 핵심 정보 전달 측면에서 가장 뛰어나다고 판단하여 최고 점수를 부여합니다.
- 최종 답변: 3번 문장이 사용자의 답변으로 채택됩니다.
LLM 정렬에서 Best-of-N의 핵심 역할
Best-of-N은 단순히 좋은 답변 하나를 고르는 것을 넘어, RLHF 전체 프로세스에서 중요한 의미를 가집니다.
- RLHF의 강력한 성능 기준점(Baseline)
"Learning to Summarize from Human Feedback" 논문은 복잡한 강화학습을 적용하기 전, Best-of-N 방식만으로도 요약문의 품질이 크게 향상됨을 보여주었습니다. 이는 추가적인 모델 미세조정 없이, 추론 시에 계산량을 늘리는 것만으로도 결과물의 품질을 극대화할 수 있음을 증명한 것입니다. 이 때문에 Best-of-N은 새로운 정렬 기법의 성능을 비교하는 중요한 기준점으로 사용됩니다. - 보상 모델 훈련의 철학적 기반
RLHF의 핵심인 보상 모델을 훈련시키려면, 인간이 직접 여러 답변을 비교하고 더 나은 것을 선택한 데이터가 필요합니다. 예를 들어 모델이 생성한 A와 B 두 개의 요약문을 사람에게 보여주고 "어느 것이 더 낫나요?"라고 묻는 과정 자체가 바로 'Best-of-2'를 수행하는 것입니다. 즉, '더 나은 것을 고른다'는 Best-of-N의 철학은 보상 모델을 만드는 데이터 수집 단계에서부터 깊숙이 관여하고 있습니다.
명확한 한계와 새로운 도전
Best-of-N은 효과적이지만 치명적인 단점을 가지고 있습니다. 바로 추론 비용입니다. N개의 답변을 생성하고 평가하려면, 단순히 하나를 생성할 때보다 N배의 시간과 연산 자원이 필요합니다. 실시간 상호작용이 중요한 서비스에서는 응답 속도 저하가 큰 문제가 될 수 있습니다.
이러한 한계를 극복하기 위해 연구자들은 Best-of-N의 장점은 취하면서 비용은 줄이는 방법을 모색하기 시작했습니다. 그 대표적인 예가 BOND (Best-of-N Distillation) 와 같은 기법입니다.
- BOND의 개념: 매번 추론 시에 N개를 생성하는 대신, Best-of-N을 통해 생성될 법한 '최고의 답변'을 단 한 번의 생성으로 바로 만들어내도록 모델 자체를 학습시키는 방식입니다. 비싼 과외(Best-of-N)를 통해 배운 문제 풀이 비법을 학생(LLM)이 완전히 자기 것으로 만들어(Distillation, 증류) 이제는 과외 없이도 스스로 문제를 잘 풀게 만드는 것과 같습니다. 이를 통해 추론 비용을 획기적으로 줄이면서도 Best-of-N에 버금가는 성능을 목표로 합니다.
마무리하며
Best-of-N은 '여러 가능성을 탐색하고 그중 최고를 선택한다'는 단순하고 명쾌한 아이디어로 LLM 정렬 기술의 발전에 큰 영향을 미쳤습니다. 이는 복잡한 RLHF 방법론의 효과를 가늠하는 척도이자, '좋은 답변'의 기준을 학습하는 보상 모델의 철학적 뿌리가 되었습니다. 비록 높은 추론 비용이라는 명확한 한계를 가지고 있지만, Best-of-N이 제시한 원칙은 여전히 유효합니다. 오히려 이 한계를 극복하려는 노력이 BOND와 같은 새로운 기술의 탄생을 이끌며 인공지능 정렬 기술을 한 단계 더 발전시키는 계기가 되고 있습니다. Best-of-N을 이해하는 것은 오늘날의 LLM이 어떻게 더 똑똑하고 유용하게 발전하고 있는지, 그 핵심 원리를 엿보는 것과 같습니다.
Learning to summarize from human feedback
As language models become more powerful, training and evaluation are increasingly bottlenecked by the data and metrics used for a particular task. For example, summarization models are often trained to predict human reference summaries and evaluated using
arxiv.org
'Theory > Agents' 카테고리의 다른 글
| 클로드(Claude)의 생각 엿보기: Extended Thinking으로 투명하고 강력한 AI 에이전트 만들기 (0) | 2025.07.04 |
|---|---|
| 컨텍스트 엔지니어링(Context Engineering): 프롬프트 너머, AI 에이전트 성공의 핵심 (0) | 2025.06.30 |
| AI가 더 깊이 생각하게 만드는 기술: 테스트-타임 스케일링(Test-Time Scaling)과 예산 강제(Budget Forcing) (0) | 2025.06.27 |
| AI의 배신: 인간을 속이는 '기만적 오정렬(Deceptive Misalignment)'의 두 얼굴, Anthropic과 OpenAI의 경고 (0) | 2025.06.23 |
| LangGraph: LLM의 한계를 뛰어넘는 상태 기반 AI 에이전트 프레임워크 (0) | 2025.05.30 |