'kv cashing' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록kv cashing (1)

AI Engineer 공간 "사부작 사부작"

LLM 추론 효율성을 향샹 시키는 KV Caching, MQA,GQA

LLM 추론 효율성 극대화: KV 캐싱, MQA, GQA 심층 분석대규모 언어 모델(LLM)은 자연어 처리 분야에서 혁신적인 발전을 이끌고 있지만, 특히 텍스트를 순차적으로 생성하는 자기회귀(autoregressive) 방식의 디코더-온리 모델에서는 추론 과정에서의 엄청난 계산량과 메모리 사용량이라는 숙제를 안고 있습니다. 마치 긴 소설을 한 문장씩 이어서 쓰면서, 매번 새로운 문장을 쓸 때마다 앞서 쓴 모든 내용을 다시 검토해야 하는 작가의 고뇌와 비슷하다고 할 수 있습니다. 이러한 비효율성을 해결하고 LLM을 더 빠르고 경제적으로 활용하기 위해 다양한 최적화 기법들이 등장했는데, 그중에서도 KV 캐싱(KV Caching), 멀티-쿼리 어텐션(Multi-Query Attention, MQA), 그리고 ..

Theory/LLM Architectures 2025. 5. 17. 15:00

이전 Prev 1 Next 다음

목록kv cashing (1)

AI Engineer 공간 "사부작 사부작"

티스토리툴바