| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- reinforcement learning from human feedback
- MHA
- Multi-Head Attention
- langgraph
- Positional Encoding
- 토크나이저
- Engineering at Anthropic
- Langchain
- PEFT
- SK AI SUMMIT 2025
- catastrophic forgetting
- Embedding
- MQA
- gqa
- 트랜스포머
- chain-of-thought
- fréchet inception distance
- re-ranking
- extended thinking
- model context protocol
- flashattention
- context engineering
- attention
- self-attention
- rotary position embedding
- CoT
- transformer
- RLHF
- test-time scaling
- BLEU
- Today
- Total
목록Theory/FoundationModel Engineering (7)
AI Engineer 공간 "사부작 사부작"
LLM 추론 성능 극대화: 정적 배칭 vs 연속 배칭, 그리고 vLLM의 마법대규모 언어 모델(LLM)은 이제 우리 삶 깊숙이 들어와 다양한 분야에서 혁신을 이끌고 있습니다. 하지만 LLM을 실제 서비스에 적용하려면, 특히 여러 사용자의 요청을 동시에 처리해야 하는 상황에서는 '추론(inference)' 과정의 효율성이 매우 중요합니다. 마치 수많은 손님이 동시에 주문하는 인기 맛집처럼, LLM 서버도 밀려드는 요청들을 빠르고 정확하게 처리해야 사용자의 만족도를 높일 수 있습니다. 이를 위해 등장한 핵심 기술 중 하나가 바로 배칭(Batching)입니다.배칭은 여러 요청을 한데 묶어 GPU와 같은 병렬 처리 하드웨어에서 한 번에 연산함으로써 처리 효율을 높이는 기법입니다. 오늘은 LLM 추론 시 사용되는..
AI 모델 배포, ONNX와 TensorRT로 날개를 달다공들여 개발한 인공지능 모델, 이제 실제 서비스라는 무대에 오를 시간입니다. 하지만 훈련된 모델을 실제 서비스 환경에 성공적으로 배포하고 사용자에게 최상의 경험을 제공하기까지는 '최적화'라는 중요한 과정이 남아있습니다. 아무리 뛰어난 모델이라도 실제 환경에서 느리게 작동하거나 과도한 자원을 소모한다면 그 가치는 퇴색될 수밖에 없습니다. 마치 최고의 레시피로 만든 요리라도, 실제 손님에게 제공되기까지 시간이 너무 오래 걸린다면 만족도가 떨어지는 것과 같죠. 이러한 문제를 해결하고, 우리 모델이 실제 환경에서 빠르고 효율적으로 추론(inference)을 수행하도록 돕는 두 가지 강력한 도구가 바로 ONNX(Open Neural Network Excha..
FlashAttention: GPU 메모리 계층을 정복한 어텐션 효율의 혁신트랜스포머 모델이 인공지능, 특히 자연어 처리(NLP) 분야의 혁신을 이끌면서, 그 심장과도 같은 '어텐션(Attention)' 메커니즘의 중요성은 날로 커지고 있습니다. 어텐션은 모델이 입력 시퀀스 내 다양한 정보 조각들에 선택적으로 집중하여 정교한 문맥 이해를 가능하게 하는 핵심 기술입니다. 하지만 이 강력한 능력의 이면에는 시퀀스 길이가 길어질수록 계산량과 메모리 사용량이 눈덩이처럼 불어나는 문제가 숨어 있었습니다. 이는 모델 학습 및 추론 속도를 저해하고, 더 긴 문맥을 처리하는 데 있어 명확한 한계점으로 작용했습니다. 이러한 난제를 해결하기 위해 혜성처럼 등장한 'FlashAttention'은 마치 숙련된 외과 의사가 막..
추측 디코딩: 거대 언어 모델(LLM) 추론에 날개를 달아주는 기술거대 언어 모델(LLM)은 인간과 유사한 텍스트를 이해하고 생성하는 능력으로 자연어 처리 분야에 혁명을 일으켰습니다. 하지만 LLM이 점점 더 정교해짐에 따라 계산적인 문제, 특히 추론 과정에서의 속도 저하라는 큰 장벽에 직면하게 되었습니다. LLM은 일반적으로 한 번에 하나의 토큰을 순차적으로 생성하는 자기회귀적(autoregressive) 디코딩 방식을 사용하는데, 이로 인해 상당한 추론 지연 시간이 발생합니다. 이러한 문제를 해결하기 위해 등장한 혁신적인 기법이 바로 추측 디코딩(Speculative Decoding)입니다. 추측 디코딩은 마치 숙련된 작가와 빠른 초고 작가가 협업하듯, 더 빠르고 효율적인 텍스트 생성을 목표로 합니다..
모델 경량화의 핵심, 양자화: PTQ, QAT 심층 분석과 GPTQ/AWQ 최신 동향대규모 언어 모델(LLM)은 놀라운 가능성을 제시하지만, 그 거대한 크기와 막대한 연산량은 실제 서비스 환경에 부담을 줍니다. 마치 최첨단 기술이 집약된 거대한 엔진을 소형차에 탑재하려는 도전과 같습니다. 이 문제를 해결하는 핵심 기술 중 하나가 바로 양자화(Quantization)입니다. 양자화는 모델이 정보를 표현하고 계산하는 데 사용하는 숫자의 정밀도(비트 수)를 낮추는 기법입니다. 일반적으로 사용되는 32비트 부동소수점(FP32) 대신, 16비트 부동소수점(FP16, BF16)이나 8비트 정수(INT8) 등으로 변환하여 모델을 더 가볍고 빠르게 만듭니다. 고해상도 원본 이미지를 품질 손실은 최소화하면서 웹용으로 압..
초거대 AI 훈련, 메모리 병목 현상 돌파구: ZeRO 3단계 완전 정복AI 모델의 크기가 기하급수적으로 커지면서, 이를 훈련하기 위한 GPU 메모리 요구량 또한 천정부지로 치솟고 있습니다. 이는 마치 도시 전체를 레고로 만드는 초대형 프로젝트에서, 각 조립가(GPU)가 자신의 작은 작업대(GPU 메모리) 위에 도시 전체에 필요한 모든 종류의 블록(모델 상태 정보)을 전부 올려놓고 작업하려는 것과 같습니다. 당연히 작업 공간은 순식간에 가득 차 버리겠죠. 이러한 메모리 병목 현상을 해결하기 위해 ZeRO(Zero Redundancy Optimizer)라는 혁신적인 기술이 등장했습니다. ZeRO는 여러 GPU가 협력하여 모델을 훈련할 때, 각 GPU가 중복으로 가지고 있어야 했던 정보들을 효율적으로 나누어..
파운데이션 모델 훈련의 혁신: 병렬 처리로 한계를 넘어서다인공지능(AI) 분야, 특히 자연어 처리(NLP)와 컴퓨터 비전 영역에서 파운데이션 모델의 등장은 가히 혁명적이었습니다. GPT, BERT와 같은 거대 언어 모델(LLM)부터 시작해 이미지 생성 모델에 이르기까지, 이들 모델은 이전에는 상상하기 어려웠던 수준의 성능을 보여주며 다양한 산업에 큰 영향을 미치고 있습니다. 하지만 이러한 강력한 성능 뒤에는 엄청난 규모의 모델 크기와 방대한 학습 데이터라는 과제가 숨어있습니다. "4개의 GPU로 분산 훈련을 시행하면, 1개의 GPU로 훈련하는 것보다 4배로 성능이 빨라질까?"라는 질문에 대한 답은 놀랍게도 "그렇다"입니다. 실제 테스트 결과 GPU 증가에 따라 이미지 분류의 경우 선형적으로 초당 이미지 ..