deepjavalibrary · sindhuvahinis · Jun 3, 2024 · Jun 3, 2024
@@ -47,6 +47,18 @@ translateTGIToLMI "SM_NUM_GPUS" "TENSOR_PARALLEL_DEGREE"
 translateTGIToLMI "MAX_CONCURRENT_REQUESTS" "SERVING_JOB_QUEUE_SIZE"
 translateTGIToLMI "MAX_BATCH_PREFILL_TOKENS" "OPTION_MAX_ROLLING_BATCH_PREFILL_TOKENS"
 translateTGIToLMI "MAX_BATCH_SIZE" "OPTION_MAX_ROLLING_BATCH_SIZE"
+if [[ -n "$ENABLE_CUDA_GRAPHS" && -z "$OPTION_ENFORCE_EAGER" ]]; then
+  if [[ "$ENABLE_CUDA_GRAPHS" = true ]]; then
+    export "OPTION_ENFORCE_EAGER"=false
+  else
+    export "OPTION_ENFORCE_EAGER"=true
+  fi
+fi
+if [[ "$SERVING_FEATURES" = "trtllm" ]]; then
+  translateTGIToLMI "CUDA_MEMORY_FRACTION" "OPTION_KV_CACHE_FREE_GPU_MEM_FRACTION"
+else
+  translateTGIToLMI "CUDA_MEMORY_FRACTION" "OPTION_GPU_MEMORY_UTILIZATION"
+fi
 
 if [[ "$1" = "serve" ]]; then
     shift 1