Only change cache manager for tp>1

Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>
vllm-project · Jul 4, 2024 · 4dd9367 · 4dd9367
1 parent b040645
commit 4dd9367
Showing 1 changed file with 2 additions and 1 deletion.
diff --git a/vllm/executor/multiproc_gpu_executor.py b/vllm/executor/multiproc_gpu_executor.py
@@ -44,7 +44,8 @@ def _init_executor(self) -> None:
             os.environ["OMP_NUM_THREADS"] = "1"
 
         # workaround for https://github.com/vllm-project/vllm/issues/6103
-        maybe_set_triton_cache_manager()
+        if world_size > 1:
+            maybe_set_triton_cache_manager()
 
         assert world_size <= cuda_device_count_stateless(), (
             "please set tensor_parallel_size to less than max local gpu count")