| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- self-attention
- attention
- BLEU
- Langchain
- Embedding
- extended thinking
- catastrophic forgetting
- SK AI SUMMIT 2025
- 트랜스포머
- flashattention
- CoT
- 토크나이저
- context engineering
- rotary position embedding
- Multi-Head Attention
- Positional Encoding
- RLHF
- re-ranking
- fréchet inception distance
- test-time scaling
- reinforcement learning from human feedback
- transformer
- Engineering at Anthropic
- model context protocol
- MQA
- gqa
- langgraph
- PEFT
- chain-of-thought
- MHA
- Today
- Total
목록Theory/Evaluation-Benchmarking (7)
AI Engineer 공간 "사부작 사부작"
멀티모달 모델 평가의 복잡성: 여러 감각을 통합하는 AI의 진정한 실력 측정하기현대 인공지능의 발전은 마치 인간의 감각 기관이 진화하는 과정과 닮아 있습니다. 과거 AI가 단일한 감각, 즉 텍스트나 이미지 중 하나만을 처리했다면, 이제는 인간처럼 시각, 청각, 언어를 동시에 이해하고 통합하는 멀티모달 AI의 시대가 열렸습니다. 하지만 이러한 복합적 능력을 가진 AI를 평가하는 것은 마치 오케스트라의 연주를 평가하는 것처럼 복잡하고 정교한 과정을 요구합니다. 각 악기의 개별 연주 실력뿐만 아니라 전체적인 조화와 협연 능력까지 종합적으로 판단해야 하기 때문입니다. 멀티모달 모델 평가는 단순히 정답률을 측정하는 것을 넘어서, 모델이 서로 다른 유형의 정보를 얼마나 효과적으로 통합하고 추론할 수 있는지를 종합적..
트랜스포머 모델 해석 기법: 모델 속내를 들여다보는 방법들인공지능 분야에서 혁신적인 발전을 이끌고 있는 트랜스포머 모델은 그 뛰어난 성능만큼이나 복잡한 내부 작동 방식으로 인해 '블랙 박스'라는 별명을 가지고 있습니다. 트랜스포머 모델이 특정 예측이나 출력을 생성하는 이유를 이해하는 것은 모델의 디버깅, 신뢰도 향상, 성능 개선, 그리고 안전성 확보에 매우 중요합니다. 마치 복잡한 기계의 작동 원리를 파악하기 위해 다양한 도구를 사용하는 것처럼, 트랜스포머 모델의 속내를 들여다보기 위한 다양한 해석 기법들을 살펴보도록 하겠습니다.트랜스포머 모델, 왜 해석해야 할까요?트랜스포머 모델은 자연어 처리(NLP) 분야에서 괄목할 만한 성과를 거두며 다양한 분야에 적용되고 있지만, 모델의 의사 결정 과정을 이해하는..
생성 모델 벤치마크의 그림자: 알려진 한계와 '게임화' 문제 파헤치기생성 모델 연구가 눈부시게 발전하면서, 모델의 성능을 측정하고 서로 비교하는 기준점의 중요성은 더욱 커지고 있습니다. 바로 '벤치마크'가 그 역할을 수행하며, 연구 개발의 나침반이 되어줍니다. 하지만 이 편리한 도구 이면에는 우리가 반드시 인지해야 할 몇 가지 잘 알려진 한계점과 문제들이 도사리고 있습니다. 때로는 이러한 문제들이 '게임화(Gaming)'이라는 현상으로 이어져, 벤치마크 점수가 모델의 실제 능력을 제대로 반영하지 못하는 상황을 만들기도 합니다. 이번 글에서는 생성 모델 벤치마크가 가진 주요 한계점들을 살펴보고, 이것이 왜 중요한 문제인지 자세히 알아보겠습니다.벤치마크의 주요 한계점과 '게임화' 문제벤치마크는 분명 유용한 ..
텍스트-이미지 모델, 얼마나 잘 그리고 있을까? CLIP, FID, 다양성으로 평가하기마법처럼 텍스트만 입력하면 뚝딱 이미지를 만들어내는 텍스트-이미지 모델! "푸른 초원에서 책을 읽는 고양이"라고 말하면 상상 속 장면이 눈앞에 펼쳐지니, 정말 놀라운 기술이죠. 하지만 이 모델들이 얼마나 '잘' 그리고 있는지, 우리가 원하는 바를 정확히 표현해 내는지는 어떻게 알 수 있을까요? 마치 화가의 그림을 감상하듯, 모델이 생성한 이미지도 다양한 기준으로 평가받습니다. 이 글에서는 텍스트-이미지 모델의 성능을 평가하는 주요 잣대인 프롬프트 정렬(CLIP 점수), 이미지 품질/사실성(FID), 그리고 다양성에 대해 쉽고 자세하게 알아보겠습니다.프롬프트 정렬 및 충실성: CLIP 점수 – "내 말을 얼마나 잘 알아들..
LLM 추론 능력, 어떻게 평가하고 어떤 기준으로 판단할까? 주요 벤치마크 완전 정복인공지능(AI) 분야, 특히 대규모 언어 모델(LLM)의 눈부신 발전은 이제 우리 일상 깊숙이 들어와 있습니다. 단순히 정보를 검색하고 요약하는 것을 넘어, LLM이 마치 인간처럼 생각하고 문제를 해결하는 능력, 즉 '추론 능력'을 선보이기 시작했습니다. 하지만 이러한 추론 능력을 어떻게 객관적으로 평가하고, 어떤 기준으로 그 수준을 가늠할 수 있을까요? 이 글에서는 LLM의 추론 능력이란 무엇이며, 이를 평가하는 주요 벤치마크에는 어떤 것들이 있는지 쉽고 자세하게 살펴보겠습니다.LLM의 추론 능력이란 무엇일까요?LLM의 추론 능력이란, 단순히 저장된 정보를 꺼내는 것을 넘어, 주어진 정보를 바탕으로 논리적인 단계를 거쳐..
LLM이 진실을 말하고 있을까? TruthfulQA와 LLM 신뢰도 검증 방법론대규모 언어 모델(LLM)이 우리 일상과 업무에 깊숙이 스며들면서, 이 똑똑한 인공지능이 제공하는 정보가 과연 믿을 만한 것인지에 대한 관심이 뜨겁습니다. LLM이 때때로 그럴듯하게 꾸며낸 이야기, 즉 '환각(Hallucination)'을 만들어내는 경우가 있기 때문입니다. 이는 LLM의 신뢰도와 직결되는 문제로, 단순한 정답률 측정만으로는 그 진실성을 파악하기 어렵습니다. 마치 사람의 지식을 평가할 때 단순히 암기력만 보는 것이 아니라, 정보의 출처를 따져보고 논리적인 오류는 없는지 살피는 것과 같습니다. 그렇다면 LLM이 생성하는 정보가 사실에 기반하는지, 아니면 그저 환각에 불과한지를 어떻게 체계적으로 평가할 수 있을까요..
생성 AI 평가의 딜레마: 자동화 지표 vs 인간 평가, 무엇이 더 정확할까?인공지능(AI)이 만들어내는 글과 그림, 음악은 날이 갈수록 정교해지고 있습니다. SF 영화에서나 보던 일들이 현실이 되는 것을 보며 감탄하면서도, 한편으로는 이런 질문이 떠오릅니다. "이 AI가 얼마나 잘 만들었는지는 어떻게 알 수 있을까?" 마치 미슐랭 스타 셰프가 새로운 요리를 선보였을 때, 그 맛과 창의성을 평가하는 것처럼 생성 모델의 결과물을 평가하는 것은 생각보다 복잡하고 어려운 문제입니다. 정해진 답이 있는 시험 문제와는 달리, 생성 모델의 평가는 다각적이고 때로는 주관적인 판단이 필요하기 때문입니다. 이번 글에서는 생성 모델 평가가 왜 까다로운지, 그리고 현재 주로 사용되는 평가 방법인 '자동화된 지표'와 '인간 ..