| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- self-attention
- test-time scaling
- extended thinking
- catastrophic forgetting
- SK AI SUMMIT 2025
- MHA
- langgraph
- RLHF
- attention
- model context protocol
- BLEU
- 토크나이저
- transformer
- CoT
- Multi-Head Attention
- re-ranking
- context engineering
- reinforcement learning from human feedback
- PEFT
- MQA
- rotary position embedding
- Positional Encoding
- Engineering at Anthropic
- Langchain
- 트랜스포머
- fréchet inception distance
- chain-of-thought
- flashattention
- gqa
- Embedding
- Today
- Total
목록Theory/Image Generation-Diffusion (6)
AI Engineer 공간 "사부작 사부작"
AI 이미지 생성 모델 파인튜닝: 나만의 아티스트를 만드는 기술마치 숙련된 화가가 자신만의 독특한 화풍을 개발해 나가듯이, 사전 훈련된 AI 이미지 생성 모델도 특정 스타일이나 주제에 맞게 조정할 수 있습니다. 이러한 과정을 '파인튜닝(Fine-tuning)'이라고 하는데, 이는 마치 잘 훈련된 요리사에게 특정 지역의 전통 요리법을 추가로 가르쳐 그 분야의 전문가로 만드는 것과 같습니다. 하지만 모든 요리사가 같은 방식으로 새로운 레시피를 배우지 않듯이, AI 모델을 파인튜닝하는 방법도 여러 가지가 있습니다. 각 방법은 맞춤 설정의 깊이, 필요한 데이터 양, 계산 자원 요구량 등에서 서로 다른 특징을 가집니다. 이번 글에서는 이미지 생성 모델의 주요 파인튜닝 기법들과 각각의 특징, 그리고 적용 시 주의해..
ControlNet: AI 이미지 생성의 패러다임을 바꾼 혁신적 제어 아키텍처AI 이미지 생성 기술은 텍스트만으로도 놀라운 예술 작품을 창조해내는 경지에 도달했습니다. 하지만 창작자들이 정말로 원했던 것은 단순한 생성이 아니라 '정밀한 제어'였습니다. "왼손을 들고 미소 짓는 여성"이라고 텍스트로 요청해도 AI가 정확히 그 포즈를 구현해주지 못하거나, 특정 구도의 건축물을 그려달라고 해도 의도와 전혀 다른 결과물이 나오는 경우가 빈번했기 때문입니다. 근본적인 한계를 해결하기 위해 등장한 기술이 바로 ControlNet입니다. ControlNet은 단순히 새로운 모델을 만든 것이 아니라, 기존의 강력한 확산 모델들에 정교한 '조종 시스템'을 통합한 혁신적인 아키텍처입니다. 마치 숙련된 조종사가 비행기를 정..
확산 모델 샘플링 전략: 더 빠르고, 더 선명하게 이미지를 창조하는 마법인공지능(AI)이 빚어내는 경이로운 이미지 뒤에는 '확산 모델(Diffusion Model)'이라는 강력한 기술이 숨어있습니다. 이 기술은 마치 안갯속에서 서서히 풍경이 드러나듯, 순수한 노이즈로부터 시작해 점진적으로 디테일을 더해가며 이미지를 완성합니다. 하지만 이 창조의 여정에는 '시간'이라는 큰 숙제가 있었습니다. 초기 확산 모델인 DDPM(Denoising Diffusion Probabilistic Models)은 마치 한 땀 한 땀 정성 들여 수를 놓는 장인처럼 수백, 수천 번의 섬세한 단계를 거쳐야 했기에, 작품 하나를 세상에 내놓기까지 오랜 기다림이 필요했습니다. 이러한 속도의 장벽을 허물고, 예술가의 영감을 더 빠르게 ..
클래시파이어-프리 가이던스(CFG): 분류기 없이 더 똑똑해진 이미지 생성의 비밀인공지능(AI)이 만들어내는 이미지의 품질이 날로 발전하면서, 이제는 단순한 그림을 넘어 사용자의 복잡한 요구까지 반영하는 수준에 이르렀습니다. 이러한 발전의 중심에는 '클래시파이어-프리 가이던스(Classifier-Free Guidance, CFG)'라는 핵심 기술이 자리 잡고 있습니다. CFG는 마치 숙련된 예술가가 고객의 미묘한 요구사항까지 파악하여 작품에 반영하듯, AI가 사용자의 의도(예: 텍스트 프롬프트)를 더욱 깊이 이해하고 그에 부합하는 이미지를 생성하도록 유도하는 정교한 기법입니다. 이름에서 알 수 있듯이, 이 과정에서 별도의 이미지 분류기를 사용하지 않는다는 점이 가장 큰 특징입니다. 이번 글에서는 CFG가..
확산 트랜스포머(DiT): U-Net을 넘어선 이미지 생성의 새로운 지평인공지능 이미지 생성 기술은 마치 마법처럼 우리의 상상력을 시각적인 현실로 구현해내고 있습니다. 이러한 기술 발전의 핵심에는 '확산 모델(Diffusion Model)'이 있으며, 최근에는 이 확산 모델에 '트랜스포머(Transformer)' 아키텍처를 결합한 '확산 트랜스포머(Diffusion Transformer, DiT)'가 등장하여 이미지 생성 분야에 새로운 혁신의 바람을 불어넣고 있습니다. DiT는 기존 확산 모델에서 주로 사용되던 U-Net 아키텍처를 트랜스포머로 대체함으로써, 이전 모델들의 한계를 뛰어넘는 성능과 확장성을 보여주며 주목받고 있습니다. 그렇다면 확산 트랜스포머는 정확히 어떤 원리로 작동하며, 기존의 U-Ne..
확산 모델 마스터하기: 핵심 원리와 잠재 확산 모델의 혁신적 효율성이미지 생성 분야는 인공지능의 눈부신 발전 속에서 가장 뜨거운 영역 중 하나입니다. 그중에서도 확산 모델(Diffusion Models)은 마치 마법처럼 현실과 구분하기 어려운 고품질 이미지를 만들어내며 주목받고 있습니다. 하지만 이 놀라운 기술 뒤에는 어떤 원리가 숨어있을까요? 그리고 어떻게 하면 이 과정을 더욱 효율적으로 만들 수 있을까요? 이번 글에서는 확산 모델의 핵심 작동 방식과, 그 효율성을 한 차원 끌어올린 잠재 확산 모델(Latent Diffusion Models, LDM)의 비밀을 파헤쳐 보겠습니다.확산 과정의 두 얼굴: 노이즈 추가와 제거의 예술확산 모델의 작동 원리는 크게 두 가지 단계로 나눌 수 있습니다. 순방향 과정..