'vllm' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록vllm (1)

AI Engineer 공간 "사부작 사부작"

LLM 추론 효율의 비밀: 정적 배칭을 넘어 연속 배칭과 vLLM의 혁신으로

LLM 추론 성능 극대화: 정적 배칭 vs 연속 배칭, 그리고 vLLM의 마법대규모 언어 모델(LLM)은 이제 우리 삶 깊숙이 들어와 다양한 분야에서 혁신을 이끌고 있습니다. 하지만 LLM을 실제 서비스에 적용하려면, 특히 여러 사용자의 요청을 동시에 처리해야 하는 상황에서는 '추론(inference)' 과정의 효율성이 매우 중요합니다. 마치 수많은 손님이 동시에 주문하는 인기 맛집처럼, LLM 서버도 밀려드는 요청들을 빠르고 정확하게 처리해야 사용자의 만족도를 높일 수 있습니다. 이를 위해 등장한 핵심 기술 중 하나가 바로 배칭(Batching)입니다.배칭은 여러 요청을 한데 묶어 GPU와 같은 병렬 처리 하드웨어에서 한 번에 연산함으로써 처리 효율을 높이는 기법입니다. 오늘은 LLM 추론 시 사용되는..

Theory/FoundationModel Engineering 2025. 6. 3. 21:30

이전 Prev 1 Next 다음

목록vllm (1)

AI Engineer 공간 "사부작 사부작"

티스토리툴바