일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- extended thinking
- MQA
- catastrophic forgetting
- attention
- re-ranking
- reinforcement learning from human feedback
- MHA
- chain-of-thought
- BLEU
- RLHF
- Multi-Head Attention
- flashattention
- gqa
- 토크나이저
- self-attention
- CoT
- Rag
- model context protocol
- Positional Encoding
- Lora
- tokenizer
- reasoning
- fréchet inception distance
- rotary position embedding
- transformer
- Langchain
- langgraph
- Embedding
- PEFT
- 트랜스포머
- Today
- Total
AI Engineer의 '사부작' 공간
AI 추론 능력의 비밀, RLHF와 RLVR: DeepSeek-R1은 어떻게 '생각'을 배웠나? 본문
AI 추론 능력의 비밀, RLHF와 RLVR: DeepSeek-R1은 어떻게 '생각'을 배웠나?
ChoYongHo 2025. 5. 17. 16:48RLHF vs RLVR: AI 추론 능력, 어떻게 학습시킬까?
인공지능(AI) 분야, 특히 대규모 언어 모델(LLM)의 발전은 눈부십니다. 단순히 문장을 생성하는 것을 넘어, 복잡한 질문에 답하고 논리적인 추론을 수행하는 능력까지 갖추게 되었죠. 이러한 LLM의 추론 능력을 한 단계 더 끌어올리기 위해 다양한 학습 방법이 연구되고 있으며, 그중에서도 강화학습(Reinforcement Learning, RL)은 핵심적인 역할을 담당하고 있습니다.
강화학습을 통해 LLM을 개선하는 두 가지 주요 접근 방식인 RLHF(인간 피드백 기반 강화학습, Reinforcement Learning from Human Feedback)와 RLVR(검증 가능한 보상 기반 강화학습, Reinforcement Learning from Verifiable Rewards)의 차이점을 알아보고, 최근 주목받는 추론 모델인 DeepSeek-R1 개발에는 어떤 방식이 주로 사용되었는지 자세히 살펴보겠습니다.
보상 시스템의 두 갈래: RLHF와 RLVR
강화학습은 에이전트(여기서는 LLM)가 특정 환경에서 행동하고, 그 결과로 받는 '보상'을 통해 더 나은 행동을 학습하는 방식입니다. 여기서 '보상'을 어떻게 정의하고 제공하느냐가 LLM의 학습 방향과 성능을 결정짓는 중요한 요소가 됩니다.
RLHF (인간 피드백 기반 강화학습): 주관적이지만 섬세한 평가자
RLHF는 이름에서 알 수 있듯이, 인간의 주관적인 선호도를 보상의 기준으로 삼습니다.
- 개념: 인간 평가자가 여러 모델 응답 중 어떤 것이 더 유용하고, 안전하며, 사용자의 의도에 부합하는지를 판단합니다. 이러한 인간의 피드백(선호도 데이터)을 바탕으로 별도의 '보상 모델'을 학습시키고, 이 보상 모델이 강화학습 과정에서 LLM에게 보상 신호를 제공합니다.
- 비유: 마치 요리 경연 대회에서 여러 심사위원(인간 평가자)들이 출품된 요리(모델 응답)들의 맛, 창의성, 플레이팅 등 다소 주관적일 수 있는 기준들을 종합적으로 평가하여 최고의 요리를 선정하고, 그 평가 결과를 바탕으로 셰프(LLM)가 다음번에는 어떤 점을 개선해야 할지 방향을 잡아주는 것과 비슷합니다. "이 요리는 재료의 조화가 훌륭하네요!" 또는 "저 요리는 설명이 좀 더 친절했으면 좋겠어요." 와 같은 피드백을 주는 것이죠.
- 주요 특징:
- 모델의 대화 능력, 문체, 안전성, 윤리적 가이드라인 준수 등 복잡하고 주관적인 품질을 개선하는 데 효과적입니다.
- 인간의 다양한 선호도를 반영하여 보다 자연스럽고 사용자 친화적인 응답을 생성하도록 유도할 수 있습니다.
- 하지만, 많은 수의 인간 평가자가 필요하므로 시간과 비용이 많이 소요될 수 있으며, 평가자의 주관성으로 인해 편향이 발생할 가능성도 있습니다.
RLVR (검증 가능한 보상 기반 강화학습): 객관적이고 명확한 심판관
RLVR은 객관적으로 검증 가능한 외부 규칙이나 도구를 보상의 기준으로 사용합니다.
- 개념: 모델의 응답이 미리 정의된 명확한 기준이나 외부 도구(예: 계산기, 컴파일러)를 통해 올바른지 아닌지를 판단하여 보상을 제공합니다. 예를 들어, 수학 문제 해결 시에는 외부 계산기를 통해 정답 여부를 확인하고, 코드 생성 시에는 컴파일러로 실행 가능 여부 및 테스트 케이스 통과 여부를 확인하여 보상을 줄 수 있습니다.
- 비유: 학교 수학 시험에서 학생(LLM)이 제출한 답안지(모델 응답)를 선생님이 정답지(검증 가능한 규칙/도구)를 기준으로 채점하는 상황을 떠올려 보세요. "이 문제는 정답! 10점.", "저 문제는 풀이 과정은 좋았지만 답이 틀렸네. 0점."처럼 객관적이고 명확한 기준에 따라 점수(보상)가 주어집니다. 모델이 얼마나 '창의적으로' 풀었는지보다는 '정확하게' 풀었는지가 중요합니다.
- 주요 특징:
- 보상 기준이 명확하고 객관적이어서 편향이 적으며, 보상 신호가 직접적입니다.
- 별도의 복잡한 보상 모델 학습이 필요 없는 경우가 많아 과정이 더 단순하고, 자동화된 평가가 가능하여 효율적이고 확장성이 뛰어납니다.
- 모델이 피상적으로만 기준을 충족시켜 보상을 얻으려는 '보상 해킹(reward hacking)'의 가능성이 낮습니다.
- 주로 수학 문제 해결, 코드 생성, 사실 기반 질의응답 등 정답이 명확한 특정 작업의 정확성이나 규칙 준수 능력을 향상시키는 데 매우 효과적입니다.
- 다만, 객관적인 평가 기준을 설정하기 어려운 영역에는 적용이 제한될 수 있습니다.
DeepSeek-R1, 추론 능력 강화를 위한 RLVR의 선택
최근 DeepSeek-AI에서 공개한 DeepSeek-R1은 LLM의 추론 능력을 강화하는 데 중점을 둔 모델로, 특히 강화학습을 통해 이러한 목표를 달성하고자 했습니다.
DeepSeek-R1-Zero: 순수 강화학습으로 추론 능력 발현
DeepSeek-R1의 초기 버전인 DeepSeek-R1-Zero는 기존의 일반적인 LLM 학습 방식과 달리, 지도 학습 기반 미세조정(Supervised Fine-Tuning, SFT) 단계를 거치지 않고, 사전 학습된 기본 모델에 바로 대규모 강화학습을 적용하여 개발되었습니다.
- 핵심 학습 방식: 이때 주로 사용된 것이 바로 규칙(정답) 기반의 보상, 즉 RLVR 방식입니다. 예를 들어, 수학 문제에 대한 모델의 답변이 정답이면 높은 보상을, 오답이면 낮은 보상을 받는 식으로 학습이 진행되었습니다. 또한, 모델이 추론 과정을 특정 형식(예: <think>, </think> 태그 사용)으로 생성하도록 유도하는 '형식 보상(format rewards)' 역시 RLVR의 일종으로 활용되었습니다.
- 결과: 이러한 RLVR 기반 학습을 통해 DeepSeek-R1-Zero는 복잡한 추론 과정을 스스로 생성하고, 자신의 생각에 대해 재검토하는 등의 새로운 능력을 자연스럽게 발현하는 모습을 보여주었다고 합니다. 이는 마치 학생이 정답을 맞히기 위해 다양한 풀이 전략을 시도하고 스스로 검토하는 과정을 통해 문제 해결 능력을 키워나가는 것과 유사합니다.
DeepSeek-R1: 정제된 추론 능력으로의 발전
DeepSeek-R1-Zero는 순수 강화학습(RL)만으로 학습되어 주목할 만한 추론 능력을 보여주었지만, 때때로 출력 결과의 가독성이 떨어지거나 여러 언어가 혼재되어 나타나는 등의 문제점이 있었습니다. 이러한 문제를 해결하고 추론 성능을 더욱 향상시키기 위해 DeepSeek-R1에서는 다음과 같은 다단계 학습 파이프라인을 도입했습니다.
개선 과정
초기 강화학습(RL) 단계의 불안정성을 줄이고 모델 출력의 품질과 학습 안정성을 높이기 위해, 강화학습 적용 이전에 소규모의 '콜드 스타트 데이터(cold-start data)'를 활용한 지도 학습(Supervised Fine-Tuning, SFT) 단계를 거쳤습니다. 이 데이터는 주로 사람이 읽기 쉬운 긴 연쇄 사고(Chain-of-Thought, CoT) 예제들로 구성되었으며, 경우에 따라 DeepSeek-R1-Zero의 출력물을 정제하거나 사람이 직접 후처리하여 질을 높였습니다. 이러한 콜드 스타트 SFT 이후, 정교한 다단계 강화학습 파이프라인이 적용되었습니다.
추론 능력의 핵심, RLVR
DeepSeek-R1의 핵심적인 추론 능력 향상은 주로 '추론 중심 강화학습(Reasoning-oriented RL 또는 RL Stage 1)' 단계를 통해 이루어졌습니다. 이 단계에서는 수학, 코딩, 과학, 논리 추론과 같이 명확한 정답이나 규칙 기반으로 보상을 정의할 수 있는 작업들에 대해 대규모 강화학습을 적용했습니다. 객관적인 기준에 따른 명확한 보상 신호(RLVR 방식)는 모델이 정확하고 논리적인 추론 과정을 학습하는 데 핵심 동력이 되었습니다. 이 과정에서 의도치 않게 여러 언어가 혼합되는 문제를 해결하기 위해, 응답이 특정 언어(프롬프트와 동일하거나 명시된 언어)로 일관되게 유지되도록 하는 '언어 일관성 보상'도 함께 적용되었습니다.
보완적인 역할의 RLHF 및 추가 정제
강력한 추론 능력을 확보한 후, 모델의 전반적인 응답 품질, 대화 능력, 유용성, 무해성 등을 개선하고 인간의 기대에 더 잘 부합하도록 조정하기 위한 추가 단계들이 이어졌습니다.
- 거부 샘플링 및 추가 지도 학습 (Rejection Sampling & SFT Stage 2): 추론 중심 RL 단계에서 생성된 많은 응답들 중, 정확하고 가독성이 좋은 고품질 샘플만을 선별(거부 샘플링)하고, 경우에 따라 생성적 보상 모델(예: DeepSeek-V3)을 활용하여 유지할 샘플을 결정했습니다. 이렇게 정제된 데이터와 함께 추론 지향 질문 외의 더 넓은 도메인의 데이터를 포함하여 추가적인 지도 학습 미세조정을 진행했습니다. 이는 모델이 잘못되거나 편향된 패턴을 조기에 학습하는 것을 방지하고, 다음 RL 단계를 위해 모델을 준비시키는 역할을 했습니다.
- 다양한 시나리오를 위한 강화학습 (Diverse RL / RL Stage 2): 최종 강화학습 단계에서는 다양한 유형의 작업들을 다루었습니다. 수학 문제처럼 규칙 기반 보상이 가능한 작업에는 계속해서 RLVR 방식을 활용하고, 다른 일반적인 대화나 지시 사항에 대해서는 인간 선호도를 반영하는 RLHF(Reinforcement Learning from Human Feedback) 방식 또는 다른 LLM의 피드백을 통해 모델을 정렬(align)시켰습니다. 이 단계는 DeepSeek-V3의 RLHF 학습 파이프라인을 활용하여 응답의 명확성, 유용성, 안전성을 확보하고, 사용자와의 자연스러운 상호작용을 목표로 했습니다.
결론적으로, DeepSeek-R1은 DeepSeek-R1-Zero의 순수 RL 접근 방식에서 더 나아가, 콜드 스타트 데이터 활용, 다단계 지도 학습 및 강화학습 파이프라인을 체계적으로 도입하여 추론 능력을 정교하게 발전시켰습니다. 특히, 규칙 기반 보상을 활용하는 RLVR 방식이 핵심적인 추론 능력 강화에 중추적인 역할을 수행했으며, 이후 거부 샘플링을 통한 데이터 정제 및 인간 선호도를 반영한 RLHF 단계를 통해 모델의 전반적인 품질, 가독성, 안전성 및 사용자 정렬을 효과적으로 개선했습니다.
마무리하며
RLHF와 RLVR은 LLM을 더욱 똑똑하고 유용하게 만들기 위한 각기 다른 매력을 지닌 강화학습 방법론입니다. RLHF가 인간과의 섬세한 상호작용을 통해 모델의 다채로운 품질을 향상시킨다면, RLVR은 명확하고 객관적인 기준을 통해 특정 작업의 정확성과 논리성을 극대화합니다. DeepSeek-R1의 사례는 특히 복잡한 추론 능력을 객관적인 기준으로 강화하는 데 있어 RLVR이 얼마나 강력한 도구가 될 수 있는지를 명확히 보여줍니다.
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasonin
arxiv.org
https://arxiv.org/abs/2504.07128
DeepSeek-R1 Thoughtology: Let's think about LLM Reasoning
Large Reasoning Models like DeepSeek-R1 mark a fundamental shift in how LLMs approach complex problems. Instead of directly producing an answer for a given input, DeepSeek-R1 creates detailed multi-step reasoning chains, seemingly "thinking" about a proble
arxiv.org
'Theory > Training & Fine-Tuning' 카테고리의 다른 글
모델 병합(Model Merging): 여러 두뇌를 하나로 합치는 AI 연금술 (0) | 2025.05.19 |
---|---|
LoRA와 QLoRA: 거대 언어 모델을 내 손안에 맞추는 마법, PEFT 파헤치기 (0) | 2025.05.18 |
RLHF 보상 모델 설계의 비밀: 인간 선호를 정확히 읽는 AI의 나침반 (0) | 2025.05.17 |
AI 조율의 미학: RLHF부터 GRPO까지, LLM 정렬 기법 별 핵심과 선택 전략 (0) | 2025.05.17 |
명령어 튜닝(Instruction Tuning)'과 '거부 샘플링(Rejection Sampling): LLM을 더 똑똑하게 만드는 비법 (0) | 2025.05.17 |