'deepseek' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록deepseek (1)

AI Engineer 공간 "사부작 사부작"

AI 추론 능력의 비밀, RLHF와 RLVR: DeepSeek-R1은 어떻게 '생각'을 배웠나?

RLHF vs RLVR: AI 추론 능력, 어떻게 학습시킬까?인공지능(AI) 분야, 특히 대규모 언어 모델(LLM)의 발전은 눈부십니다. 단순히 문장을 생성하는 것을 넘어, 복잡한 질문에 답하고 논리적인 추론을 수행하는 능력까지 갖추게 되었죠. 이러한 LLM의 추론 능력을 한 단계 더 끌어올리기 위해 다양한 학습 방법이 연구되고 있으며, 그중에서도 강화학습(Reinforcement Learning, RL)은 핵심적인 역할을 담당하고 있습니다.강화학습을 통해 LLM을 개선하는 두 가지 주요 접근 방식인 RLHF(인간 피드백 기반 강화학습, Reinforcement Learning from Human Feedback)와 RLVR(검증 가능한 보상 기반 강화학습, Reinforcement Learning fr..

Theory/Training & Fine-Tuning 2025. 5. 17. 16:48

이전 Prev 1 Next 다음

목록deepseek (1)

AI Engineer 공간 "사부작 사부작"

티스토리툴바