AI Engineer 공간 "사부작 사부작"

LLM 추론 능력 평가: 인공지능 사고력의 현재와 미래를 가늠하는 주요 벤치마크 본문

Theory/Evaluation-Benchmarking

LLM 추론 능력 평가: 인공지능 사고력의 현재와 미래를 가늠하는 주요 벤치마크

ChoYongHo 2025. 6. 4. 22:40
728x90

LLM 추론 능력, 어떻게 평가하고 어떤 기준으로 판단할까? 주요 벤치마크 완전 정복

인공지능(AI) 분야, 특히 대규모 언어 모델(LLM)의 눈부신 발전은 이제 우리 일상 깊숙이 들어와 있습니다. 단순히 정보를 검색하고 요약하는 것을 넘어, LLM이 마치 인간처럼 생각하고 문제를 해결하는 능력, 즉 '추론 능력'을 선보이기 시작했습니다. 하지만 이러한 추론 능력을 어떻게 객관적으로 평가하고, 어떤 기준으로 그 수준을 가늠할 수 있을까요? 이 글에서는 LLM의 추론 능력이란 무엇이며, 이를 평가하는 주요 벤치마크에는 어떤 것들이 있는지 쉽고 자세하게 살펴보겠습니다.


LLM의 추론 능력이란 무엇일까요?

LLM의 추론 능력이란, 단순히 저장된 정보를 꺼내는 것을 넘어, 주어진 정보를 바탕으로 논리적인 단계를 거쳐 새로운 결론이나 해결책을 도출해내는 고차원적인 인지 능력을 의미합니다.

  • 개념: LLM이 텍스트를 이해하고, 그 안에 담긴 의미를 파악하며, 정보들 사이의 관계를 분석하여 논리적인 결론에 도달하는 과정 전반을 포함합니다. 여기에는 상식에 기반한 추론, 수학적 문제 해결, 다단계 추론, 인과관계 파악 등 다양한 사고 과정이 포함됩니다.
  • 비유: 마치 명탐정 셜록 홈즈가 사건 현장의 여러 단서(정보)들을 모으고, 각 단서들 간의 연관성을 분석하여 범인을 찾아내는 과정을 상상해 보세요. LLM의 추론 과정도 이와 비슷합니다. 주어진 문제(사건)를 이해하고, 관련된 지식(단서)을 모아 논리적인 연결고리(추리)를 통해 해결책(결론)을 찾아내는 것이죠.
  • 예시: "모든 포유류는 폐로 숨을 쉰다. 고래는 포유류이다. 그렇다면 고래는 무엇으로 숨을 쉴까?" 라는 질문에 대해, LLM은 "고래는 폐로 숨을 쉰다"고 답할 수 있습니다. 이는 주어진 두 가지 전제로부터 논리적인 결론을 도출한 추론의 결과입니다.

LLM 추론 능력, 왜 중요하고 어떻게 평가할까요?

LLM의 추론 능력은 AI가 단순한 정보 전달 도구를 넘어, 복잡한 문제를 해결하고 인간과 지적으로 협력하는 파트너로 발전하기 위한 핵심 역량입니다. 그렇기 때문에 LLM의 추론 능력을 정확하게 평가하고 개선하는 것은 매우 중요합니다. LLM의 추론 능력은 주로 '벤치마크(Benchmark)'라는, 마치 LLM을 위한 '표준화된 시험지'와 같은 테스트 세트를 통해 평가됩니다. 이 벤치마크들은 LLM이 단순히 정보를 암기해서는 풀 수 없고, 반드시 논리적인 추론 과정을 거쳐야만 정답을 찾을 수 있도록 설계된 다양한 유형의 문제들로 구성되어 있습니다. 개발자들은 이러한 벤치마크를 통해 모델의 강점과 약점을 파악하고, 개선 방향을 설정하며, 서로 다른 모델들의 성능을 객관적으로 비교할 수 있습니다.


LLM 추론 능력 평가의 주요 벤치마크 탐구

LLM의 다양한 추론 능력을 평가하기 위해 여러 종류의 벤치마크가 개발되어 활용되고 있습니다. 각 벤치마크는 특정 유형의 추론 능력에 초점을 맞추고 있습니다.

1. MMLU (Massive Multitask Language Understanding)

  • 개념: 이름에서 알 수 있듯이, 매우 방대한 규모의 다중 작업 언어 이해 능력을 평가하는 벤치마크입니다.
  • 평가 항목: 과학, 기술, 공학, 수학(STEM) 분야부터 인문학, 사회과학, 법률, 역사 등 총 57개의 다양한 주제를 포괄하는 객관식 질문으로 구성되어, 모델의 광범위한 지식과 이를 바탕으로 한 문제 해결 능력을 종합적으로 평가합니다.
  • 비유: 여러 분야를 섭렵한 팔방미인 전문가가 다양한 주제의 퀴즈 대회에서 실력을 뽐내는 모습과 같아요. 각 분야의 문제를 해결하기 위해서는 해당 분야의 지식뿐만 아니라, 그 지식을 응용하여 답을 추론하는 능력이 필요합니다.
  • 예시: "미국의 제16대 대통령은 누구인가?" (역사 지식) 또는 "만약 X=5이고 Y=2X+3이라면, Y의 값은 얼마인가?" (수학적 추론) 와 같은 다양한 유형의 질문이 포함됩니다.

2. GSM8K (Grade School Math 8K)

  • 개념: 초등학교 수준의 수학 응용 문제(8,000개)로 구성된 벤치마크입니다.
  • 평가 항목: 단순 계산 능력을 넘어, 문제의 의미를 이해하고 여러 단계의 산술 연산을 논리적으로 수행하여 답을 도출하는 수학적 추론 및 단계적 문제 해결 능력을 측정합니다. 특히 '연쇄적 사고(Chain-of-Thought, CoT)' 프롬프팅과 함께 평가되어, 모델이 문제 해결 과정을 단계별로 제시하도록 유도합니다.
  • 비유: 마치 복잡한 레고 모델을 조립 설명서를 보며 단계별로 차근차근 완성해나가는 과정과 같아요. 각 단계를 건너뛰거나 순서를 틀리면 원하는 결과물을 얻을 수 없듯이, GSM8K 문제도 각 계산 단계를 정확하게 밟아나가야 정답에 도달할 수 있습니다.
  • 예시: "철수는 사탕 10개를 가지고 있었습니다. 친구에게 3개를 주고, 동생에게 2개를 더 받았습니다. 지금 철수가 가진 사탕은 몇 개일까요?" 와 같이 여러 단계의 덧셈과 뺄셈이 필요한 문제입니.

3. BIG-Bench (Beyond the Imitation Game Benchmark) / BIG-Bench Hard

  • 개념: 구글을 중심으로 다수의 연구기관이 협력하여 개발한 대규모 벤치마크로, LLM의 한계를 테스트하기 위한 매우 다양하고 도전적인 과제들을 포함합니다. BIG-Bench Hard는 이 중에서도 특히 더 어려운 고급 추론 능력을 요구하는 문제들로 구성됩니다.
  • 평가 항목: 복잡한 논리 퍼즐, 다단계 추론이 필요한 질문, 창의성이 요구되는 문제 등 기존 벤치마크에서 다루기 어려웠던 고차원적인 인지 능력을 평가합니다.
  • 비유: 마치 세계 최고 수준의 체스 마스터와 한판 승부를 벌이는 것과 같아요. 단순히 다음 수를 예측하는 것을 넘어, 여러 수 앞을 내다보는 깊이 있는 전략과 다양한 상황에 대한 유연한 대처 능력이 필요합니다.
  • 예시: "세 명의 용의자 A, B, C가 있고, 각 용의자는 한 번의 진실 혹은 거짓 진술을 한다. A는 'B가 범인이다'라고 말하고, B는 'C가 범인이다'라고 말하고, C는 '나는 범인이 아니다'라고 말했다. 만약 범인이 한 명이고, 진실을 말한 사람도 한 명이라면 범인은 누구인가?"와 같이 여러 조건을 고려해야 하는 논리 문제가 출제될 수 있습니다.

4. HellaSwag

  • 개념: 주어진 문맥 다음에 이어질 가장 자연스럽고 논리적인 문장을 여러 선택지 중에서 고르는 방식으로 모델의 상식 추론 능력을 평가합니다.
  • 평가 항목: 일상적인 상황에 대한 이해, 사건의 전후 관계 파악, 인과관계 추론 등 상식에 기반한 예측 능력을 중점적으로 봅니다.
  • 비유: 드라마나 영화의 다음 장면을 예측하는 것과 비슷해요. 가장 그럴듯한 다음 상황을 이해하려면 배경 지식과 상식이 중요하죠.
  • 예시: "남자가 부엌으로 걸어 들어가더니 냉장고 문을 열었다. 그는 냉장고 안을 살펴보더니..." 다음에 이어질 문장으로 "A) 우유 한 팩을 꺼냈다." 와 "B) 갑자기 춤을 추기 시작했다." 중 A를 선택하는 것이 상식적인 추론입니다.

5. ARC (AI2 Reasoning Challenge)

  • 개념: AI 연구소 Allen Institute for AI(AI2)에서 개발한 벤치마크로, 추론이 필요한 까다로운 과학 질문들로 구성되어 있습니다. 주로 초등 및 중학교 수준의 과학 지식을 바탕으로 합니다.
  • 평가 항목: 과학적 사실과 원리에 대한 이해를 바탕으로 논리적인 추론을 통해 질문에 답하는 능력을 평가합니다. Challenge set은 검색 기반 알고리즘이나 단어 동시 발생 알고리즘으로 풀기 어려운 문제들을 포함합니다.
  • 비유: 마치 과학 수업 시간에 실험 결과를 보고 그 원리를 설명하거나, 특정 현상에 대한 가설을 세우고 검증하는 과정과 같아요. 단순히 지식을 암기하는 것을 넘어, 그 지식을 활용하여 새로운 상황에 적용하고 설명할 수 있어야 합니다.
  • 예시: "물에 얼음을 넣으면 왜 얼음이 물 위에 뜰까요?" 라는 질문에 대해, 밀도 차이라는 과학적 원리를 설명하며 답하는 능력을 평가합니다.

6. DROP (Discrete Reasoning Over Paragraphs)

  • 개념: 주어진 지문을 읽고 질문에 답하는 독해력 기반의 벤치마크이지만, 정답을 찾기 위해 단순 정보 검색을 넘어 덧셈, 개수 세기, 비교, 정렬 등 추가적인 '불연속적 추론(discrete reasoning)' 단계가 필요하도록 설계되었습니다.
  • 평가 항목: 지문 속 여러 부분에 흩어져 있는 정보를 종합하고, 이를 바탕으로 간단한 연산이나 비교를 수행하여 답을 추론하는 능력을 측정합니다.
  • 비유: 마치 탐정 소설을 읽으며 여러 단서를 조합해 범인을 찾아내듯, 흩어진 정보 조각들을 논리적으로 연결하고 처리하는 능력이 중요합니다.
  • 예시: "A는 5개의 사과를, B는 3개의 오렌지를, C는 A보다 2개 더 많은 사과를 가지고 있다. A와 C가 가진 사과의 총 개수는?" 과 같은 질문에 답하기 위해서는 지문에서 각 인물이 가진 과일의 종류와 개수를 파악하고, 추가적인 계산을 수행해야 합니다.

7. MATH

  • 개념: 대수학, 기하학, 정수론, 조합론 등 다양한 수학 분야의 어려운 문제들로 구성된 벤치마크입니다. 주로 수학 경시대회 수준의 문제들이 포함되어 고급 수학적 추론 능력을 평가합니다.
  • 평가 항목: 복잡한 수학 개념에 대한 이해, 고도의 논리적 사고력, 창의적인 문제 해결 전략 수립 능력 등을 측정합니다.
  • 비유: 마치 수학 올림피아드에 참가한 영재가 복잡하고 어려운 문제에 도전하는 모습과 같아요. 교과서적인 지식을 넘어, 여러 개념을 융합하고 새로운 접근법을 시도해야만 풀 수 있는 문제들이 많습니다.
  • 예시: 복잡한 다항식의 해를 구하거나, 특정 조건을 만족하는 기하학적 도형의 성질을 증명하는 문제 등이 출제될 수 있습니다.

8. HumanEval

  • 개념: 프로그래밍 문제 해결 능력을 평가하는 벤치마크로, 주로 파이썬(Python) 언어로 된 함수 설명을 보고 해당 기능을 수행하는 코드를 생성하도록 합니다.
  • 평가 항목: 문제 설명(docstring)을 정확히 이해하고, 그에 맞는 알고리즘을 설계하며, 문법적으로 옳고 논리적으로 정확하게 작동하는 코드를 작성하는 능력을 간접적으로 측정합니다. 이를 통해 LLM의 논리적 추론 및 계획 수립 능력을 엿볼 수 있습니다.
  • 비유: 마치 건축가가 설계도(문제 설명)를 보고 실제로 건물을 짓는(코드 작성) 과정과 비슷해요. 설계도의 요구사항을 정확히 반영하여 튼튼하고 기능적인 건물을 완성해야 하듯, LLM도 문제 명세를 충족하는 효율적이고 정확한 코드를 만들어내야 합니다.
  • 예시: "주어진 정수 리스트에서 짝수만 골라내어 새로운 리스트로 반환하는 함수를 작성하시오." 와 같은 프로그래밍 과제가 주어집니다.

9. SuperGLUE (Winograd Schema Challenge 포함)

  • 개념: 기존 GLUE 벤치마크보다 더 어렵고 다양한 자연어 이해(NLU) 작업으로 구성된 벤치마크 모음입니다.
  • 평가 항목: 특히 '위노그라드 스키마 챌린지'는 문장 속 애매한 대명사가 무엇을 가리키는지 정확히 파악하는 능력을 평가해요. 아주 미묘한 문맥 차이로 의미가 달라지는 상황에서 정확한 추론이 필요하죠.
  • 비유: 소설 속 복잡한 대화에서 대명사가 누구를 지칭하는지, 또는 숨겨진 의도가 무엇인지 알아내는 과정과 같아요. 문맥을 깊이 있게 이해하고, 단어와 단어 사이의 관계를 정확히 추론해야 합니다.
  • 예시: "트로피가 여행 가방에 들어가지 않았다. 왜냐하면 그것(it)이 너무 컸기 때문이다." 라는 문장에서 '그것'이 '트로피'를 지칭하는지, '여행 가방'을 지칭하는지를 판단하는 문제입니다. 정답은 '트로피'입니다.

10. MuSR (Multi-Step Reasoning)

  • 개념: 여러 단계의 추론 과정을 거쳐야만 해결할 수 있는 문제들로 구성된 벤치마크입니다.
  • 평가 항목: 긴 텍스트를 읽고 여러 부분에 흩어져 있는 정보를 종합하거나, 여러 개의 논리적 단계를 순차적으로 혹은 복합적으로 적용하여 결론에 도달하는 능력을 평가합니다.
  • 비유: 마치 여러 단서가 얽힌 복잡한 사건 파일을 검토하며, 각 정보를 종합 분석해 결론을 도출하거나 새로운 가설을 세우는 수사 과정과 비슷해요. 하나의 단서만으로는 해결할 수 없고, 여러 정보를 연결하고 다단계로 사고해야 하는 문제입니다.
  • 예시: 예를 들어, 긴 역사 기록을 읽고 여러 부분에 흩어진 정보를 모아 특정 사건의 원인과 결과를 설명하거나, 여러 규칙이 얽힌 보드게임에서 최적의 다음 수를 찾기 위해 여러 경우의 수를 따져보는 문제 등이 있을 수 있습니다.

마무리하며

MMLU, GSM8K, BIG-Bench Hard 등의 벤치마크는 LLM이 단순 정보 검색을 넘어 논리적 사고, 수학적 문제 해결, 상식 이해 등 고차원적 인지 능력을 어느 수준까지 갖추었는지 객관적으로 측정하는 기준을 제공합니다. 이러한 평가는 LLM의 현재 역량을 진단하고 향후 개발 방향을 설정하는 데 핵심적인 역할을 수행하며, 궁극적으로는 더욱 발전된 AI 시스템 구축에 기여합니다. LLM 추론 능력 평가는 지속적으로 발전하는 분야입니다. 현재의 벤치마크가 모든 측면의 추론 능력을 완벽히 반영하지는 못할 수 있으나, 새로운 평가 방법론과 더욱 도전적인 과제들이 등장함에 따라 LLM은 점차 인간의 복잡한 추론 과정에 근접하고, 특정 영역에서는 이를 능가할 잠재력을 보이고 있습니다.


https://arxiv.org/abs/2009.03300

 

Measuring Massive Multitask Language Understanding

We propose a new test to measure a text model's multitask accuracy. The test covers 57 tasks including elementary mathematics, US history, computer science, law, and more. To attain high accuracy on this test, models must possess extensive world knowledge

arxiv.org

https://arxiv.org/abs/2110.14168

 

Training Verifiers to Solve Math Word Problems

State-of-the-art language models can match human performance on many tasks, but they still struggle to robustly perform multi-step mathematical reasoning. To diagnose the failures of current models and support research, we introduce GSM8K, a dataset of 8.5

arxiv.org

https://arxiv.org/abs/2206.04615

 

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Language models demonstrate both quantitative improvement and new qualitative capabilities with increasing scale. Despite their potentially transformative impact, these new capabilities are as yet poorly characterized. In order to inform future research, p

arxiv.org

https://arxiv.org/abs/1905.07830

 

HellaSwag: Can a Machine Really Finish Your Sentence?

Recent work by Zellers et al. (2018) introduced a new task of commonsense natural language inference: given an event description such as "A woman sits at a piano," a machine must select the most likely followup: "She sets her fingers on the keys." With the

arxiv.org

https://arxiv.org/abs/1803.05457

 

Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge

We present a new question set, text corpus, and baselines assembled to encourage AI research in advanced question answering. Together, these constitute the AI2 Reasoning Challenge (ARC), which requires far more powerful knowledge and reasoning than previou

arxiv.org

https://arxiv.org/abs/1903.00161

 

DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs

Reading comprehension has recently seen rapid progress, with systems matching humans on the most popular datasets for the task. However, a large body of work has highlighted the brittleness of these systems, showing that there is much work left to be done.

arxiv.org

https://arxiv.org/abs/2103.03874

 

Measuring Mathematical Problem Solving With the MATH Dataset

Many intellectual endeavors require mathematical problem solving, but this skill remains beyond the capabilities of computers. To measure this ability in machine learning models, we introduce MATH, a new dataset of 12,500 challenging competition mathematic

arxiv.org

https://arxiv.org/abs/2107.03374

 

Evaluating Large Language Models Trained on Code

We introduce Codex, a GPT language model fine-tuned on publicly available code from GitHub, and study its Python code-writing capabilities. A distinct production version of Codex powers GitHub Copilot. On HumanEval, a new evaluation set we release to measu

arxiv.org

 

728x90