| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- transformer
- Positional Encoding
- chain-of-thought
- Embedding
- 트랜스포머
- Multi-Head Attention
- Engineering at Anthropic
- BLEU
- re-ranking
- test-time scaling
- RLHF
- fréchet inception distance
- MHA
- model context protocol
- gqa
- PEFT
- 토크나이저
- flashattention
- SK AI SUMMIT 2025
- MQA
- attention
- catastrophic forgetting
- context engineering
- self-attention
- langgraph
- reinforcement learning from human feedback
- rotary position embedding
- Langchain
- extended thinking
- CoT
- Today
- Total
목록RLHF (3)
AI Engineer 공간 "사부작 사부작"
RLHF vs RLVR: AI 추론 능력, 어떻게 학습시킬까?인공지능(AI) 분야, 특히 대규모 언어 모델(LLM)의 발전은 눈부십니다. 단순히 문장을 생성하는 것을 넘어, 복잡한 질문에 답하고 논리적인 추론을 수행하는 능력까지 갖추게 되었죠. 이러한 LLM의 추론 능력을 한 단계 더 끌어올리기 위해 다양한 학습 방법이 연구되고 있으며, 그중에서도 강화학습(Reinforcement Learning, RL)은 핵심적인 역할을 담당하고 있습니다.강화학습을 통해 LLM을 개선하는 두 가지 주요 접근 방식인 RLHF(인간 피드백 기반 강화학습, Reinforcement Learning from Human Feedback)와 RLVR(검증 가능한 보상 기반 강화학습, Reinforcement Learning fr..
RLHF의 심장, 보상 모델: 성공적인 설계를 위한 핵심 가이드인공지능(AI)이 우리 삶 깊숙이 들어오면서, 특히 대형 언어 모델(LLM)은 인간과 자연스럽게 소통하고 복잡한 작업을 수행하는 능력으로 주목받고 있습니다. 이러한 LLM이 더욱 안전하고 유용하게 발전하는 데 핵심적인 역할을 하는 기술이 바로 인간 피드백 기반 강화학습(Reinforcement Learning from Human Feedback, RLHF)입니다. RLHF의 성공은 LLM 파인튜닝 과정에서 마치 '인간의 판단을 대신하는 대리인'과 같은 보상 모델(Reward Model, RM)의 품질에 크게 좌우됩니다.보상 모델은 인간이 어떤 응답을 더 선호하는지를 학습하여, LLM이 생성하는 결과물의 품질을 평가하고 더 나은 방향으로引导합니..
LLM 정렬 기법 전격 비교: RLHF, RLAIF, DPO, GRPO 파헤치기대규모 언어 모델(LLM)이 우리 삶에 깊숙이 들어오면서, 이 AI가 인간의 의도와 가치에 부합하도록 만드는 '정렬(alignment)' 과정이 무엇보다 중요해졌습니다. 정렬이란 LLM이 단순히 똑똑한 것을 넘어, 우리에게 유용하고(helpful), 정직하며(honest), 무해하도록(harmless) 만드는 핵심 과정입니다. 마치 잘 훈련된 충견처럼, 강력한 능력을 올바른 방향으로 사용하도록 길들이는 것이죠.이를 위해 다양한 정렬 기법들이 연구되고 적용되고 있습니다. 마치 각기 다른 훈련법을 가진 조련사들처럼, 각 기법은 고유한 방식으로 LLM을 다듬어 나갑니다. 이번 글에서는 대표적인 정렬 기법인 RLHF, RLAIF, D..