Dispersed dummy slots (HabanaAI#243)

Use all possible slot values for dummy blocks to avoid caching issues.
zhouyu5 · Sep 20, 2024 · eeb764c · eeb764c
1 parent a93d597
commit eeb764c
Showing 1 changed file with 12 additions and 1 deletion.
diff --git a/vllm/worker/habana_model_runner.py b/vllm/worker/habana_model_runner.py
@@ -48,7 +48,11 @@
 
 logger = init_logger(__name__)
 
+# These values are assumed to be zero in several places.
+# Use caution when updating them!
 _PAD_SLOT_ID = 0
+_PAD_BLOCK_ID = 0
+
 LORA_WARMUP_RANK = 8
 _TYPE_CACHE = {}
 
@@ -937,6 +941,13 @@ def _prepare_decode(
         input_positions = torch.tensor(input_positions,
                                        dtype=torch.long,
                                        device=self.device)
+
+        dummy_slots = itertools.cycle(
+            range(_PAD_SLOT_ID, _PAD_SLOT_ID + self.block_size))
+        slot_mapping = [[
+            s if s != _PAD_SLOT_ID else next(dummy_slots) for s in sl
+        ] for sl in slot_mapping]
+
         slot_mapping = torch.tensor(slot_mapping,
                                     dtype=torch.long,
                                     device=self.device)
@@ -1193,7 +1204,7 @@ def create_dummy_seq_group_metadata(self,
         else:
             input_len = seq_len - 1
             output_len = 1
-            block_tables = {group_id: [0] * num_blocks}
+            block_tables = {group_id: [_PAD_BLOCK_ID] * num_blocks}
         prompt_token_ids = [0] * input_len
         output_token_ids = [1] * output_len
         seq_data = SequenceData(prompt_token_ids)