| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 8 | 9 | 10 | 11 | 12 | 13 | 14 |
| 15 | 16 | 17 | 18 | 19 | 20 | 21 |
| 22 | 23 | 24 | 25 | 26 | 27 | 28 |
| 29 | 30 | 31 |
- Langchain
- transformer
- BLEU
- langgraph
- MHA
- model context protocol
- self-attention
- 토크나이저
- re-ranking
- gqa
- rotary position embedding
- fréchet inception distance
- attention
- PEFT
- RLHF
- flashattention
- Engineering at Anthropic
- test-time scaling
- context engineering
- reinforcement learning from human feedback
- CoT
- chain-of-thought
- MQA
- SK AI SUMMIT 2025
- 트랜스포머
- Multi-Head Attention
- Positional Encoding
- extended thinking
- Embedding
- catastrophic forgetting
- Today
- Total
AI Engineer 공간 "사부작 사부작"
인 컨텍스트 학습(ICL)의 마법: 모델 크기가 LLM의 잠재력을 깨우는 열쇠 본문
인 컨텍스트 학습(ICL)과 모델 규모: 크기가 만들어내는 마법
대규모 언어 모델(Large Language Models, LLM)의 세계는 마치 끊임없이 확장하는 우주와 같습니다. 그 안에서 발견되는 놀라운 능력 중 하나가 바로 인 컨텍스트 학습(In-Context Learning, ICL)입니다. ICL이란 LLM이 모델의 가중치(파라미터)를 전혀 변경하지 않고, 오직 프롬프트 내에 제시된 몇 개의 예시(이를 '퓨샷 샘플'이라고도 합니다)나 지시사항만을 보고 새로운 작업을 수행하거나 특정 방식으로 응답하는 능력을 의미합니다. 마치 우리가 새로운 보드게임의 규칙을 설명서 없이 몇 번의 시범 플레이만 보고 배우는 것과 비슷하죠. 기존의 머신러닝 모델이 특정 작업을 위해 방대한 데이터를 학습하고 모델 자체를 업데이트(파인튜닝)해야 했던 것과는 근본적으로 다른 접근 방식입니다. 그렇다면 이 마법 같은 ICL 능력은 모델의 '크기'와 어떤 관계가 있을까요?
모델 크기와 ICL 성능: "거인의 어깨 위에서 더 멀리 본다"
결론부터 말하자면, 인 컨텍스트 학습 효과는 모델의 규모, 즉 파라미터 수와 매우 강력한 양의 상관관계를 보입니다. 쉽게 말해, 모델이 클수록 ICL을 더 잘합니다. 이는 단순히 성능이 조금씩 좋아지는 수준을 넘어, 모델 크기가 특정 임계점을 넘어서면 이전에는 볼 수 없었던 새로운 능력이 갑자기 나타나는 '창발적 속성(Emergent Property)'으로 여겨지기도 합니다.

작은 모델의 한계: 아직은 세상을 배우는 아이
상대적으로 크기가 작은 모델들은 ICL 능력이 제한적이거나 거의 나타나지 않는 경우가 많습니다.
- 개념: 작은 모델은 정보 처리 용량과 패턴 인식 능력에 한계가 있어, 프롬프트 내에 제시된 소수의 예시로부터 복잡한 작업의 규칙이나 숨겨진 의도를 파악하고 이를 새로운 상황에 일반화하여 적용하는 데 어려움을 겪습니다. 마치 어린아이가 몇 가지 그림만 보고 복잡한 이야기 전체를 유추하기 어려운 것과 비슷합니다.
- 비유: 작은 도서관(작은 모델)은 소장하고 있는 책의 종류와 수가 적어 특정 분야에 대한 깊이 있는 정보를 찾거나 다양한 관점을 비교하기 어렵습니다. 마찬가지로, 작은 모델은 제한된 '지식'과 '이해력'으로 인해 프롬프트 속 몇 안 되는 예시만으로는 작업의 본질을 꿰뚫어 보기 힘듭니다.
- 예시: 예를 들어, 파라미터 수가 수십억 개 미만인 모델에게 "사과 -> apple", "바나나 -> banana"라는 두 개의 번역 예시를 주고 "포도 -> ?"라고 물었을 때, 정확한 답("grape")을 내놓지 못하거나 엉뚱한 대답을 할 가능성이 큽니다. 주어진 예시만으로는 '단어 번역'이라는 작업의 일반적인 패턴을 학습하기에 충분한 '능력'이 부족하기 때문입니다.
큰 모델의 강점: 경험 많은 전문가의 통찰력
반면, 모델의 크기가 커질수록 ICL 성능은 극적으로 향상됩니다.
- 개념: GPT-3와 같이 수천억 개의 파라미터를 가진 거대 모델들은 방대한 양의 텍스트 데이터로 사전 학습하는 과정에서 세상의 다양한 지식, 언어적 패턴, 추론 능력 등을 내재화합니다. 이를 바탕으로 프롬프트 내의 단 몇 개의 예시만으로도 해당 작업의 본질을 빠르게 간파하고, 그 숨겨진 규칙을 새로운 문제에 성공적으로 적용하는 놀라운 능력을 보여줍니다. 모델이 클수록 예시로부터 더 빠르게 학습하는 경향이 나타나며, 이는 예시의 개수가 늘어날수록 성능 증가 폭이 더 커지는 것으로 확인됩니다.
- 비유: 수십 년 경력의 노련한 명장(큰 모델)은 새로운 도구나 생소한 재료를 보더라도, 자신의 풍부한 경험과 지식을 바탕으로 그것들의 특징과 가능성을 즉시 파악하고 곧바로 작품 활동에 응용할 수 있습니다. 이처럼 큰 모델은 방대한 사전 지식이라는 '경험'을 통해 적은 정보(예시)만으로도 높은 수준의 '통찰력'을 발휘하여 새로운 작업을 수행합니다.
- 예시: 1750억 개의 파라미터를 가진 GPT-3는 제로샷(예시 없음) 또는 퓨샷(몇 개의 예시) 환경에서도 번역, 질의응답, 문장 생성 등 다양한 자연어 처리 작업에서 이전 모델들을 훨씬 뛰어넘는 성능을 보였습니다. 예를 들어, "긍정적인 문장: 이 영화는 정말 환상적이야!", "부정적인 문장: 서비스가 너무 실망스러웠어요."와 같은 단 두 개의 감정 분석 예시만 주고 새로운 문장 "음식이 기대 이상으로 맛있네요."의 감정을 물으면, 큰 모델은 높은 정확도로 "긍정적"이라고 판단할 가능성이 매우 큽니다.
모델 크기에 따른 ICL 작동 방식의 미묘한 차이: "크기만큼 달라지는 학습 전략"
흥미로운 점은 큰 모델이 단순히 작은 모델보다 ICL을 '더 잘하는' 것을 넘어, 예시를 해석하고 활용하는 방식 자체에서도 질적인 차이를 보인다는 것입니다.
- 개념: 모델 크기가 커질수록, 모델은 자신이 사전 학습 과정에서 얻은 일반적인 지식(semantic prior)에 의존하기보다는 프롬프트 내에 명시적으로 주어진 예시나 지시사항을 더 우선적으로 따르려는 경향을 보입니다. 하지만 이는 때로 프롬프트 내의 노이즈나 의도적으로 잘못된 정보에 더 취약하게 반응하는 결과로 이어질 수도 있습니다.
- 예시:
- 만약 프롬프트에 "질문: 프랑스의 수도는? 답변: 파리", "질문: 일본의 수도는? 답변: 도쿄"와 같이 정상적인 예시를 제공하면, 큰 모델과 작은 모델 모두 "한국의 수도는?"이라는 질문에 "서울"이라고 잘 대답할 것입니다.
- 하지만 만약 "질문: 프랑스의 수도는? 답변: 런던 (오답)", "질문: 일본의 수도는? 답변: 베이징 (오답)"처럼 의도적으로 틀린 예시(레이블 반전 노이즈)를 제공한다면 어떻게 될까요?
- 연구에 따르면, 큰 모델은 이러한 '틀린 예시의 패턴'에 더 민감하게 반응하여 "한국의 수도는?"이라는 질문에 엉뚱한 도시 이름을 답하려 할 가능성이 작은 모델보다 높을 수 있습니다. 즉, 프롬프트 내의 정보가 설령 잘못된 것이라 할지라도, 그 정보를 학습하고 따르려는 경향이 더 강하게 나타나는 것입니다.
- 반면, 작은 모델은 이러한 노이즈가 섞인 예시에 대해 사전 학습된 지식(예: 프랑스의 수도는 파리라는 상식)에 더 의존하거나, 혹은 관련 없는 정보에 크게 영향을 받아 성능이 저하될 수도 있습니다. (이는 노이즈의 종류와 실험 설정에 따라 다르게 나타날 수 있습니다.)
- 비유: 이제 막 운전을 배우기 시작한 초보 운전자(작은 모델)는 익숙한 길에서는 내비게이션(사전 지식)에 크게 의존하며, 갑작스러운 도로 통제 안내(프롬프트 예시)를 만나면 당황하거나 원래 가려던 길을 고집할 수 있습니다. 반면, 수십 년 무사고 경력의 베테랑 택시 기사(큰 모델)는 도시의 모든 길을 꿰뚫고 있지만(사전 지식), 승객이 특정 경로를 요구하거나(프롬프트 예시) 실시간 교통 정보에 따라 최적의 경로를 유연하게 선택합니다. 설령 그 경로가 평소에 잘 가지 않던 길이거나 다소 비효율적으로 보이더라도, 주어진 정보에 따라 움직이려는 경향이 더 강할 수 있습니다.
마무리하며
인 컨텍스트 학습 효과는 모델의 크기가 커짐에 따라 비약적으로 향상되며, 이는 대규모 언어 모델 발전의 핵심적인 동력 중 하나입니다. 단순히 더 많은 정보를 기억하고 처리하는 것을 넘어, 모델의 크기는 마치 새로운 감각기관이 생기거나 문제 해결 방식에 질적인 도약이 일어나는 것처럼 ICL이라는 놀라운 능력을 발현시킵니다. 물론 모델의 크기가 전부는 아닙니다. 사전 학습 데이터의 질과 다양성, 모델 아키텍처, 그리고 프롬프트를 구성하는 방식 등 다양한 요소가 ICL 성능에 영향을 미칩니다. 그럼에도 불구하고, 현재까지의 연구들은 모델의 규모가 효과적인 ICL 능력 발현에 가장 결정적인 요인 중 하나라는 점을 분명히 보여주고 있습니다.
Language Models are Few-Shot Learners
Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fi
arxiv.org
https://arxiv.org/abs/2301.00234
A Survey on In-context Learning
With the increasing capabilities of large language models (LLMs), in-context learning (ICL) has emerged as a new paradigm for natural language processing (NLP), where LLMs make predictions based on contexts augmented with a few examples. It has been a sign
arxiv.org
'Theory > Reasoning' 카테고리의 다른 글
| Train-time & Test-time Scaling: AI 추론 모델의 두 가지 성능 향상 전략 (0) | 2025.08.18 |
|---|