이미지: lifehardmode 자체 제작Qwen3.6 vLLM 서빙, thinking 모드 비활성화 설정과 운영 가이드LLM을 실서비스에 올리면 사유 추론(thinking mode)이 골칫거리가 된다. 답의 정확도는 올라가지만 응답이 느려지고 GPU 메모리도 더 먹는다. Qwen/Qwen3.6-35B-A3B 같은 하이브리드 모델을 vLLM으로 띄울 때는 이 추론 단계를 기본적으로 꺼두는 쪽이 비용과 속도 면에서 유리하다. 이 글은 Docker GPU 런타임에서 chat_template_kwargs로 thinking 모드를 끄고, 여기에 LiteLLM 라우팅과 Cloudflare Tunnel을 붙여 운영하는 방식을 정리한 것이다.thinking 모드 끄기의 기술적 근거대상 모델은 Hugging Face ..