| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
- reinforcement learning from human feedback
- 토크나이저
- transformer
- test-time scaling
- re-ranking
- self-attention
- RLHF
- SK AI SUMMIT 2025
- gqa
- CoT
- Engineering at Anthropic
- extended thinking
- MHA
- rotary position embedding
- catastrophic forgetting
- MQA
- Multi-Head Attention
- flashattention
- Positional Encoding
- 트랜스포머
- context engineering
- attention
- chain-of-thought
- langgraph
- BLEU
- PEFT
- model context protocol
- Embedding
- Langchain
- fréchet inception distance
- Today
- Total
목록전체 글 (82)
AI Engineer의 '사부작' 공간
AI 에이전트를 만드는 일은 능력 있는 비서를 고용하는 것과 비슷합니다. 처음엔 이메일 확인만 시키다가, 점점 구글 드라이브, 세일즈포스, 슬랙, 깃허브 등 수십 개의 도구를 다루게 만듭니다. 문제는, 이 비서가 각 도구를 쓰기 전에 설명서 전체를 매번 통째로 읽어야 하고, 한 도구에서 다른 도구로 자료를 옮길 때도 모든 내용을 머릿속에 다시 넣었다 빼야 한다면 어떻게 될까요? 당연히 느리고, 비싸고, 비효율적입니다. 오늘날 많은 AI 에이전트가 바로 이런 방식으로 움직입니다. MCP(Model Context Protocol)는 AI 에이전트를 외부 시스템에 연결하는 개방형 표준이며, 이미 업계에서 빠르게 채택되고 있습니다. 하지만 수십·수백 개의 MCP 서버를 붙이면서 토큰 소비가 폭증하는 문제가 드러..
몇 년 동안 AI 분야에서 "프롬프트 엔지니어링"이라는 용어가 주목받아 왔습니다. 완벽한 지시문을 작성하고, 적절한 예시를 제공하며, 정확한 단어를 선택하는 것이 AI 성능을 최적화하는 핵심처럼 여겨졌죠. 하지만 최근 AI 에이전트가 점점 더 복잡하고 장기적인 작업을 수행하게 되면서, 새로운 개념이 부상하고 있습니다. 바로 컨텍스트 엔지니어링(Context Engineering)입니다.컨텍스트 엔지니어링은 단순히 "무엇을 말할 것인가"를 넘어서, "어떤 정보를, 언제, 어떻게 제공할 것인가"라는 더 근본적인 질문에 답합니다. 이는 마치 학생에게 시험 문제만 주는 것과, 시험 문제와 함께 필요한 참고 자료, 공식집, 그리고 문제를 푸는 순서까지 체계적으로 제공하는 것의 차이와 같습니다. AI 에이전트가 진..
안녕하세요. 오늘은 MCP 도구 설계 최적화에 관한 글에 대해서 이야기하고자 합니다. 제가 연구 및 개발한 서비스에서, 현재 모든 MCP 서버에 아래의 글의 내용이 모두다 반영되어 있습니다. 이를 통해서, 답변의 품질, 응답의 속도 등이 크게 개선되었습니다. 그렇다면 에이전트를 위한 MCP 도구 설계 방법에 대해서 알아보도록 하겠습니다. AI Engineer 라면 MCP 날씨 조회 서버 예시를 작성해본 경험이 있을 것입니다. getWeather("서울")을 호출하면 항상 같은 방식으로 서울의 날씨를 가져옵니다. 하지만 AI 에이전트에게 "오늘 우산을 가져가야 할까요?"라고 묻는다면 어떨까요? 에이전트는 날씨 도구를 호출할 수도 있고, 일반 지식으로 대답할 수도 있으며, 심지어 위치를 먼저 물어볼 수도 ..
안녕하세요. 오늘은 SK SUMMIT 2025 Day 2에 대한 세션 중에서, 제가 AI서비스를 연구 및 개발하는데 있어서 유의미한 내용의 세션을 몇개 소개해드리려고 합니다. AI Model 세션으로 총 5개의 세션입니다. 각 세션들의 내용을 간단히 살펴보도록 하겠습니다.■ 회의·강의 환경에서도 정확하게 : 에이닷노트 음성인식 성능을 끌어올린 Generative AI 전처리 기술 소개- 송명석(SK텔레콤 Manager) 한줄 요약: Diffusion Model 기반의 음성 전처리 기술로, 학습용 데이터를 고품질로 생성하는 기술시사점: 기존 Clean Speech 데이터셋에 다양한 Augmentation을 적용하고, Consistency Model을 통해 안정적으로 수렴하도록 설계함으로써 실제 환경 소음..
안녕하세요. 오늘은 SK SUMMIT 2025 Day 1에 대한 세션 중에서, 제가 AI서비스를 연구 및 개발하는데 있어서 유의미한 내용의 세션을 몇개 소개해드리려고 합니다. 개인적으로는 너무나도 재미있었습니다. AI Transformation의 2개의 세션, AI Model 2개의 세션으로 총4개의 세션입니다. 각 세션들의 내용을 간단히 살펴보도록 하겠습니다.■ AX를 넘어 BX로, EXAONE이 만드는 금융 및 제약 산업에서의 사업 대혁신 - 이화영(LG AI연구원) 한줄 요약: 주식시장, 제약 시장등에 AI Agent를 적용하여 비지니스 가치를 만들어 내고 있음시사점: LLM의 튜닝을 통해서, 도메인(주식, 제약 등)에 적합한 튜닝된 모델을 만들고, 비구조화된 데이터를 실시간 이벤트 시점(예를 들..
늦게쓰는 "제 9회 DEVOCEAN 테크데이" 글입니다. "제 9회 DEVOCEAN 테크데이" 는 올해 9월에 진행하였습니다. 현재 이 내용은 모두 AI 서비스에 고도화되어 녹여져 있습니다만, 그 당시에 제가 연구 및 개발하고 있는 AI 서비스의 방향이 올바른지 귀중한 세션이었습니다. 그 중에서 일부 세션만 다시 정리하고자 합니다.■ AI 챗봇으로 운영 혁신하기- 정민규(SKT)한줄 요약: SKT의 구독 플랫폼 운영에서 배치·정기결제·정산 등 반복적 업무를 Slack 기반 AI 챗봇과 AWS Bedrock로 자동화시사점: Slack에 특화된 AWS Lambda 기반 챗봇으로 모니터링·QA·정산 등 다양한 운영업무를 자동화, LLM 연계로 진행하며, 업무 할루시네이션 문제를 프롬프트 엔지니어링·가드레일(..
늦게쓰는 DevDay 글입니다. NAVER Cloud AI Devday는 올해 7월에 진행하였습니다. 현재 이 내용은 모두 AI 서비스에 녹여져 있습니다만, 그 당시에 제가 연구 및 개발하고 있는 AI 서비스가 잘 가고 있는지를 알 수 있게 해주었던 귀중한 세션이었습니다. 그 중에서 일부 세션만 다시 정리하고자 합니다.■ 지금 주목할 LLM 기술 흐름과 생성형 AI 적용 인사이트- 강지나(네이버클라우드 기술교육팀 수석) 한줄 요약: LLM이 물리적 세계로 확장되고, 에이전틱 AI가 필수 기술이 되며, MCP를 통한 표준화된 통합이 진행되는 흐름을 제시시사점: 가트너가 AI Imperative의 첫 번째 필수 기술로 에이전틱 AI를 선정했으며, 추론 능력(Reasoning)이 핵심 차별화 요소로 부상하고 ..
HyperCLOVA X 엔지니어링 밋업 완주기: 3회차를 통해 얻은 값진 학습 경험지난 1월부터 5월까지 약 5개월 동안 진행된 HyperCLOVA X 엔지니어링 밋업 3회차를 모두 참석하며, 국내 대표 LLM의 최신 기술 동향과 실무 적용 노하우를 체계적으로 학습할 수 있었습니다. 매회 네이버스퀘어에서 진행된 이 밋업은 단순한 세미나를 넘어서, 실제 개발 현장에서 활용할 수 있는 엔지니어링 노하우를 공유하는 소중한 시간이었습니다. 매번 열정적인 자세로 세션을 준비해주신 Cloud Solution Architect분들께 감사를 전합니다. 덕분에 한 층더 고도화된 AI 멀티에이전트 서비스를 개발 할 수 있게 되었습니다. :)■ 1회차: Advanced RAG의 새로운 가능성을 발견하다 (25년1월 9일)□..
늦게 쓰는 워크샵 참여 후기 입니다. AWS에서 주최한 Agentic AI 핸즈온 워크샵에 참여하며 AI 에이전트 개발의 최신 트렌드를 직접 체험할 수 있었습니다. 센터필드 18층에서 진행된 이번 워크샵은 단순한 이론 설명을 넘어서, 실제 프로덕션 환경에서 활용할 수 있는 실용적인 AI 에이전트 구축 방법론을 배울 수 있는 귀중한 시간이었습니다.LangGraph와 Bedrock을 활용한 Agentic Workflow첫 번째 세션(25년 5월 26일) 에서는 Amazon Bedrock과 LangGraph를 활용한 에이전트 워크플로우 구축에 집중했습니다. 복잡한 비즈니스 로직을 처리할 수 있는 멀티 스텝 AI 에이전트를 직접 구현해보며, 실제 업무 환경에서 활용 가능한 자동화 시스템을 만들어볼 수 있었습니..
대규모 언어 모델(LLM)의 세상은 마치 거대한 도서관과 같습니다. 사서가 매번 같은 책을 찾을 때마다 처음부터 전체 서가를 뒤져야 한다면 얼마나 비효율적일까요? 현재 많은 LLM 서비스에서 비슷한 일이 일어나고 있습니다. 사용자들이 비슷한 프롬프트 템플릿이나 시스템 메시지를 반복 사용할 때마다, 모델은 동일한 계산을 처음부터 다시 수행하고 있는 것입니다. 2023년 예일대학교 연구팀이 발표한 프롬프트 캐시(Prompt Cache)는 이러한 비효율성을 해결하는 혁신적인 접근법입니다. 이 기술은 자주 사용되는 프롬프트 구간의 어텐션 상태를 미리 계산하고 저장해두었다가, 동일한 구간이 다시 등장할 때 재사용함으로써 추론 지연 시간을 획기적으로 단축시킵니다. GPU 기반 추론에서는 최대 8배, CPU 기반 추..
Train-time & Test-time Scaling: AI 추론 모델의 두 가지 성능 향상 전략인공지능 모델이 복잡한 문제를 해결하는 과정은 마치 학생이 어려운 수학 문제를 풀어가는 과정과 닮아있습니다. 어떤 학생은 오랜 시간 공부해서 기본기를 탄탄히 다진 후 문제를 빠르게 풀어내고, 또 다른 학생은 시험 현장에서 충분한 시간을 들여 차근차근 생각하며 정답을 찾아갑니다. 최근 AI 분야에서 주목받고 있는 Train-time Scaling과 Test-time Scaling이 바로 이런 두 가지 접근 방식을 대변합니다. 특히 OpenAI의 o1 시리즈, DeepSeek-R1, Google의 Gemini Flash Thinking과 같은 추론 모델(Reasoning Models)들이 등장하면서, 단순히 모..
Deep Agent: 단순 반복을 넘어, 복잡한 문제를 해결하는 AI의 새로운 진화인공지능(AI) 분야는 매일같이 새로운 기술이 등장하며 우리를 놀라게 합니다. 특히 거대 언어 모델(LLM)을 활용한 'AI 에이전트'는 스스로 도구를 사용하고 작업을 수행하며 자동화의 새로운 가능성을 열었습니다. 하지만 기존의 AI 에이전트는 간단한 질문에 답하거나 단일 작업을 처리하는 데는 능숙했지만, 여러 단계에 걸친 복잡하고 장기적인 프로젝트 앞에서는 길을 잃고 헤매는 모습을 보이곤 했습니다. 이러한 한계를 극복하기 위해 등장한 개념이 바로 '딥 에이전트(Deep Agent)'입니다. 딥 에이전트는 마치 노련한 프로젝트 매니저처럼, 복잡한 과업도 스스로 계획하고, 분해하며, 장시간에 걸쳐 꾸준히 실행해 나가는 능력을..
동적 프롬프트(Dynamic Prompt): 개인화된 AI 에이전트를 위한 핵심 포인트최근의 AI 서비스는 마치 숙련된 나만의 비서와 같습니다. 단순히 명령을 수행하는 것을 넘어서, 각 사용자의 특성과 상황을 파악하여 맞춤형 서비스를 제공해야 하죠. 하지만 기존의 정적인 프롬프트 방식으로는 이러한 개인화된 서비스를 구현하기 어려웠습니다. LangGraph의 동적 프롬프트(Dynamic Prompt) 기능은 이러한 한계를 극복하고, 실시간으로 사용자 정보와 상황에 맞는 지시사항을 생성하여 진정한 맞춤형 AI 에이전트를 구현할 수 있게 해줍니다.정적 프롬프트의 한계: 획일화된 서비스의 아쉬움이전의 AI 에이전트들은 대부분 정적 프롬프트(Static Prompt)를 사용했습니다. 정적 프롬프트는 마치 모든 손..
클로드(Claude)의 생각 엿보기: Extended Thinking으로 투명하고 강력한 AI 에이전트 만들기복잡한 AI 멀티 에이전트 시스템을 구축할 때, 우리는 종종 "이 AI는 왜 이런 결정을 내렸을까?"라는 근본적인 질문에 부딪힙니다. 최종 결과물만으로는 그 과정의 타당성을 신뢰하기 어렵기 때문이죠. 마치 학생이 수학 문제의 답만 덜렁 적어냈을 때, 풀이 과정 없이는 정답에 이르기까지의 논리를 알 수 없는 것과 같습니다. 이러한 '블랙박스' 문제를 해결하고 AI의 투명성과 신뢰도를 높이기 위해 등장한 것이 바로 '추론 모델(Reasoning Model)'의 역할이며, 앤트로픽(Anthropic)의 클로드(Claude)가 제공하는 'Extended Thinking'은 이 개념을 가장 잘 구현한 기능..
Langgraph(LangChain)으로 멀티 LLM 에이전트 비용 추적하기: response_metadata 완벽 분석AI 에이전트, 특히 여러 LLM이 협력하는 멀티 에이전트 시스템을 개발하다 보면 필연적으로 마주하는 질문이 있습니다. "그래서, 이 작업에 비용이 얼마나 들었지?" OpenAI, Anthropic, Google 등 다양한 LLM을 오가며 최적의 결과를 만드는 LangGraph의 유연성은 강력한 무기이지만, 동시에 비용 추적을 복잡하게 만드는 요인이 되기도 합니다. 어떤 모델이 얼마만큼의 토큰을 사용했는지 정확히 알아야만 서비스의 운영 비용을 산정하고 최적화할 수 있기 때문입니다. 이 복잡한 비용 추적의 실마리를 풀어줄 핵심 열쇠가 바로 LangChain의 response_metadat..
LLM의 첫 단추, 토크나이저: 텍스트를 숫자로 바꾸는 마법거대 언어 모델(LLM)이 마치 사람처럼 글을 쓰고, 대화하고, 번역하는 모습을 보면 경이롭기까지 합니다. 하지만 컴퓨터는 본질적으로 '텍스트'를 이해하지 못합니다. 오직 숫자만을 처리할 수 있을 뿐이죠. 그렇다면 LLM은 어떻게 우리가 사용하는 자연어를 이해하고 처리하는 걸까요? 그 비밀의 첫 단추는 바로 토크나이저(Tokenizer)에 있습니다. 토크나이저는 인간의 언어를 기계가 이해할 수 있는 숫자 데이터로 변환하는 필수적인 다리 역할을 합니다. 이 과정이 없다면 LLM은 그저 복잡한 연산을 수행하는 기계에 불과할 것입니다. 이번 글에서는 LLM의 심장부로 들어가는 첫 관문인 토크나이저의 개념부터 시작해, 서브워드 방식, 임베딩, 그리고 모..
트랜스포머 안정성의 비밀: Pre-LN과 Post-LN, 레이어 정규화의 위치가 중요한 이유인공지능 모델의 세계는 마치 정교한 부품들로 조립된 고성능 엔진과 같습니다. 그중에서도 트랜스포머(Transformer) 아키텍처는 자연어 처리(NLP) 분야에서 압도적인 성능을 자랑하며 수많은 모델의 기반이 되어왔습니다. 하지만 이 강력한 엔진을 제대로 길들이는 데에는 한 가지 까다로운 조건이 따랐습니다. 바로 '학습률 예열(learning rate warm-up)'이라는 과정입니다. 모델 훈련 초기에 학습률을 매우 낮게 시작하여 점진적으로 높여가는 이 과정은 안정적인 학습을 위해 필수적이었지만, 동시에 훈련 시간을 늘리고 추가적인 하이퍼파라미터 튜닝을 요구하는 번거로움이 있었습니다. 그런데 만약 이 예열 과정을..
컨텍스트 엔지니어링(Context Engineering): 프롬프트 너머, AI 에이전트 성공의 핵심인공지능, 특히 거대 언어 모델(LLM)의 발전은 마치 유능한 전문가를 고용하는 것과 같습니다. 이 전문가는 방대한 지식을 갖추고 놀라운 추론 능력을 보여주지만, 그 능력을 100% 발휘하게 하려면 우리가 어떤 정보를 어떻게 제공하는지가 매우 중요합니다. 초기에는 "프롬프트 엔지니어링(Prompt Engineering)"이라는 기술, 즉 이 전문가에게 어떻게 질문을 던져야 최고의 답변을 얻을 수 있을지에 대한 연구가 주를 이루었습니다. 하지만 AI 애플리케이션이 단순히 질문에 답하는 것을 넘어, 여러 단계를 거쳐 복잡한 작업을 수행하는 '에이전트(Agent)' 시스템으로 진화하면서 새로운 과제에 직면했습니..
MCP: AI의 만능 열쇠, 그리고 Streamable HTTP가 현업의 표준이 된 이유인공지능(AI) 기술이 발전하면서, 이제 AI는 단순히 텍스트를 생성하는 것을 넘어 외부 세계와 소통하고 실제 작업을 수행하는 '에이전트'로 진화하고 있습니다. 마치 우리가 스마트폰으로 다양한 앱을 실행해 정보를 얻고 일을 처리하는 것처럼, AI도 파일 시스템을 읽고, 데이터베이스에 쿼리를 날리고, API를 호출할 필요가 생겼죠. 하지만 수많은 AI 모델과 도구들이 각기 다른 방식으로 소통한다면, 마치 전 세계 사람들이 각자의 언어로만 말하는 것처럼 혼란스러울 것입니다. 이러한 문제를 해결하기 위해 앤트로픽(Anthropic)이 제시한 해결책이 바로 모델 컨텍스트 프로토콜(Model Context Protocol, M..
Best-of-N (BoN): 가장 좋은 하나를 고르는 단순함의 힘, LLM 성능 극대화의 비밀인공지능 언어 모델(LLM)의 발전은 눈부십니다. 단순히 문장을 생성하는 것을 넘어, 이제는 인간의 복잡한 의도를 파악하고 유용하며, 진실하고, 무해한 답변을 제공하는 방향으로 나아가고 있죠. 이러한 '정렬(Alignment)' 기술의 중심에는 인간의 피드백을 활용한 강화학습, RLHF(Reinforcement Learning from Human Feedback)가 있습니다. 하지만 이 복잡하고 정교한 방법론이 대중화되기 전, 매우 간단하면서도 강력한 아이디어가 그 가능성을 입증하며 중요한 이정표를 세웠습니다. 바로 Best-of-N (BoN) 입니다. Best-of-N은 마치 뛰어난 예술가가 여러 습작을 그린..
AI가 더 깊이 생각하게 만드는 기술: 테스트-타임 스케일링과 예산 강제인공지능(AI)의 세계는 마치 끊임없이 진화하는 생명체와 같습니다. 더 똑똑하고, 더 유능한 AI를 만들기 위한 연구는 하루가 다르게 새로운 지평을 열고 있죠. 최근 AI 분야에서 가장 주목받는 혁신 중 하나는 모델이 문제의 난이도에 따라 '생각하는 시간'을 조절할 수 있게 만드는 기술입니다. 우리가 간단한 질문에는 즉시 답하지만, 어려운 수학 문제나 복잡한 코드를 디버깅할 때는 더 많은 시간과 정신력을 쏟는 것과 마찬가지입니다. 이러한 유연성을 AI에 부여하는 핵심 개념이 바로 테스트-타임 스케일링(Test-Time Scaling)입니다. 이는 모델을 더 크게 만드는 대신, 이미 훈련된 모델이 답변을 생성하는 '테스트 시점'에 더 ..
AI의 배신: 인간을 속이는 '기만적 오정렬(Deceptive Misalignment)'의 두 얼굴, Anthropic과 OpenAI의 경고마치 신뢰했던 동료나 직원이 어느 날 갑자기 회사의 이익에 반하는 행동을 하는 '내부자 위협'처럼, 인공지능(AI)이 우리의 의도를 거슬러 독립적이고 의도적으로 해로운 행동을 할 수 있다는 가능성이 현실로 다가왔습니다. 이는 더 이상 공상 과학 영화 속 이야기가 아닙니다. 최근 OpenAI와 Anthropic이라는 두 AI 선두 기업은 LLM(거대 언어 모델)이 인간을 속이고 의도와 다르게 작동하는 '기만적 오정렬(Deceptive Misalignment)'이 실제로 발생할 수 있음을 보여주는 연구 결과를 연이어 공개했습니다. Anthropic은 '에이전트 오정렬(A..
마스킹(Masking): 트랜스포머 어텐션 메커니즘을 완성하는 핵심 기술대규모 언어 모델(LLM)의 세계는 복잡하고 정교한 기술들의 집합체입니다. 그중에서도 트랜스포머(Transformer) 아키텍처는 현대 LLM의 근간을 이루고 있으며, 어텐션(Attention) 메커니즘은 그 핵심이라 할 수 있습니다. 하지만 어텐션이 제 역할을 다하도록 뒤에서 묵묵히 돕는 필수적인 기술이 있으니, 바로 마스킹(Masking)입니다. 마스킹은 특정 값을 가려 연산에서 제외함으로써 모델이 불필요하거나 보아서는 안 될 정보에 영향을 받지 않도록 하는 기법입니다. 이는 LLM의 성능과 생성 품질을 결정짓는 매우 중요한 요소로, 어텐션 메커니즘의 효과적인 작동을 위한 핵심 구성 요소입니다. 이번 글에서는 LLM의 심장부에서 ..
Residual Connection(잔차 연결): 깊은 신경망 학습의 혁신적 돌파구딥러닝의 세계는 마치 끝없이 높아지는 마천루와 같습니다. 더 높은 성능을 위해 신경망을 더 깊게 쌓으려 하지만, 어느 순간부터는 오히려 성능이 떨어지는 역설적인 상황에 직면하게 됩니다. 마치 고층 건물을 지을 때 기초 공사가 부실하면 건물이 무너지는 것처럼, 깊은 신경망도 학습 과정에서 정보가 소실되어 제대로 훈련되지 않는 문제가 발생했습니다. 이러한 딥러닝 분야의 근본적인 한계를 해결한 것이 바로 Residual Connection(잔차 연결)입니다. 2015년 마이크로소프트 연구팀의 Kaiming He 등이 제안한 이 혁신적인 기술은, 단순하면서도 강력한 아이디어로 딥러닝 역사에 새로운 전환점을 만들어냈습니다. 오늘날 ..
LLaMA의 지능을 깨우는 문지기: 게이팅(Gating) 메커니즘 완전 정복인공지능, 특히 거대 언어 모델(LLM)의 세계는 복잡하고 정교한 아키텍처로 이루어져 있습니다. 그중에서도 LLaMA와 같은 최신 모델의 성능을 극대화하는 핵심 요소 중 하나가 바로 피드포워드(FeedForward) 신경망 내에 숨겨진 게이팅(Gating) 메커니즘입니다. 이는 단순히 정보를 전달하는 것을 넘어, 어떤 정보를 통과시키고 어떤 정보를 차단할지 지능적으로 제어하는 '문지기' 역할을 수행합니다. 이번 글에서는 LLaMA의 심장에서 정보의 흐름을 조율하는 게이팅 메커니즘의 원리를 깊이 있게 파헤쳐 보고자 합니다. 게이팅이 무엇인지, 어떻게 작동하는지, 그리고 왜 LLM에서 필수적인 기술로 자리 잡았는지 알아 보겠습니다.게..
LLaMA 성능의 비밀: Up & Down Projection의 원리와 두 가지 효과거대 언어 모델(LLM)의 세계는 마치 수많은 부품이 정교하게 맞물려 돌아가는 복잡한 기계 장치와 같습니다. LLaMA와 같은 최신 모델의 놀라운 성능을 제대로 이해하려면 그 내부 부품, 특히 피드포워드 네트워크(Feed-Forward Network, FFN)의 작동 방식을 깊이 들여다볼 필요가 있습니다. 오리지널 트랜스포머 아키텍처의 FFN은 LLaMA에서 한 단계 더 발전했는데, 그 핵심적인 변화 중 하나가 바로 Up & Down Projection 기법입니다. "정보의 차원을 늘렸다가 다시 줄인다"는 단순해 보이는 이 과정에는 사실 모델의 성능을 극대화하는 두 가지 강력한 비밀이 숨어있습니다. 이번 글에서는 Up &..
Lost in the Middle: LLM은 왜 긴 글의 중간을 기억하지 못할까?대규모 언어 모델(LLM) 기반의 챗봇에게 긴 보고서나 여러 문서를 주고 요약을 요청했을 때, 어딘가 중요한 내용이 빠진 듯한 느낌을 받은 적이 있으신가요? 이는 단순히 모델의 실수가 아니라, 현재 LLM 기술이 가진 흥미로운 한계를 보여주는 현상입니다. LLM이 긴 문맥(Context)의 중간에 있는 정보를 제대로 활용하지 못하는 이 문제를 'Lost in the Middle' 이라고 부릅니다. 이 현상은 '건초더미에서 바늘 찾기(Needle-in-a-Haystack)'라는 유명한 테스트를 통해 널리 알려졌습니다. 이 테스트는 Paul Graham의 에세이들을 취합하여 최대 128K 토큰에 가까운 긴 문서를 준비하고, 문서..
GQA (Grouped Query Attention): 성능과 속도의 절묘한 줄타기, MHA와 MQA를 넘어서거대 언어 모델(LLM)의 심장에는 '어텐션(Attention)'이라는 핵심 메커니즘이 자리 잡고 있습니다. 이는 모델이 문장의 어떤 부분에 더 집중해야 할지 결정하는 능력으로, 인간의 독해 방식과 유사합니다. 초기 트랜스포머 모델의 멀티 헤드 어텐션(MHA)은 뛰어난 성능을 보였지만, 모델이 커지면서 막대한 계산 비용과 메모리 대역폭이라는 치명적인 병목 현상에 부딪혔습니다. 이러한 문제를 해결하기 위한 다양한 시도 끝에, 성능과 효율성 사이의 완벽한 균형점을 찾은 기술이 등장하게 되었습니다. GQA(Grouped Query Attention) 입니다. 이 글에서는 MHA(Mulit Head At..
RoPE(Rotary Position Embedding): 절대 위치를 넘어 "상대적" 관계를 회전으로 새기는 임베딩의 혁신자연어 처리(NLP) 모델에게 문장이란 단순한 단어의 나열이 아닙니다. "왕이 왕비에게 반지를 주었다"와 "왕비가 왕에게 반지를 주었다"는 같은 단어로 이루어져 있지만, 단어의 순서, 즉 '위치' 때문에 전혀 다른 의미를 가집니다. 이처럼 트랜스포머와 같은 언어 모델이 단어의 순서와 위치 관계를 이해하도록 돕는 기술이 바로 '포지셔널 인코딩(Positional Encoding)'입니다. 초기 트랜스포머는 모든 단어에 절대적인 좌석 번호를 부여하는 방식(Absolute Positional Embedding)을 사용했습니다. 하지만 이 방식은 단어 간의 '상대적 거리'를 명시적으로 알려..
멀티모달 모델 평가의 복잡성: 여러 감각을 통합하는 AI의 진정한 실력 측정하기현대 인공지능의 발전은 마치 인간의 감각 기관이 진화하는 과정과 닮아 있습니다. 과거 AI가 단일한 감각, 즉 텍스트나 이미지 중 하나만을 처리했다면, 이제는 인간처럼 시각, 청각, 언어를 동시에 이해하고 통합하는 멀티모달 AI의 시대가 열렸습니다. 하지만 이러한 복합적 능력을 가진 AI를 평가하는 것은 마치 오케스트라의 연주를 평가하는 것처럼 복잡하고 정교한 과정을 요구합니다. 각 악기의 개별 연주 실력뿐만 아니라 전체적인 조화와 협연 능력까지 종합적으로 판단해야 하기 때문입니다. 멀티모달 모델 평가는 단순히 정답률을 측정하는 것을 넘어서, 모델이 서로 다른 유형의 정보를 얼마나 효과적으로 통합하고 추론할 수 있는지를 종합적..