'thinking-mode' 태그의 글 목록

Qwen3.6 서빙, 생각 모드 켜두면 GPU가 죽는다? 비용 절감의 역설

이미지: lifehardmode 자체 제작Qwen3.6 vLLM 서빙, thinking 모드 비활성화 설정과 운영 가이드LLM을 실서비스에 올리면 사유 추론(thinking mode)이 골칫거리가 된다. 답의 정확도는 올라가지만 응답이 느려지고 GPU 메모리도 더 먹는다. Qwen/Qwen3.6-35B-A3B 같은 하이브리드 모델을 vLLM으로 띄울 때는 이 추론 단계를 기본적으로 꺼두는 쪽이 비용과 속도 면에서 유리하다. 이 글은 Docker GPU 런타임에서 chat_template_kwargs로 thinking 모드를 끄고, 여기에 LiteLLM 라우팅과 Cloudflare Tunnel을 붙여 운영하는 방식을 정리한 것이다.thinking 모드 끄기의 기술적 근거대상 모델은 Hugging Face ..

AI 2026.05.29

« 2026/06 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

lifehardmode | 한국 시장·AI·정책 분석

thinking-mode 1

티스토리툴바