neuralmagic · bfineran · Jun 17, 2024 · Jun 10, 2024 · Jun 10, 2024 · Jun 12, 2024
diff --git a/tests/sparseml/transformers/obcq/recipes/quant.yaml b/tests/sparseml/transformers/obcq/recipes/quant.yaml
@@ -6,32 +6,7 @@ test_stage:
         [["re:.*q_proj", "re:.*k_proj", "re:.*v_proj"], "re:.*input_layernorm"],
         [["re:.*gate_proj", "re:.*up_proj"], "re:.*post_attention_layernorm"]
       ]
-    LegacyQuantizationModifier:
-      ignore:
-        - LlamaRotaryEmbedding
-        - LlamaRMSNorm
-        - SiLU
-        - model.layers.0.mlp.down_proj
-        - model.layers.1.mlp.down_proj
-        - model.layers.2.mlp.down_proj
-        - model.layers.3.mlp.down_proj
-        - model.layers.4.mlp.down_proj
-        - model.layers.5.mlp.down_proj
-      scheme_overrides:
-        Embedding:
-          input_activations: null
-          weights:
-            num_bits: 8
-            symmetric: False
     GPTQModifier:
       block_size: 128
       sequential_update: False
-      percdamp: 0.01
-      targets: [
-        "model.layers.0",
-        "model.layers.1",
-        "model.layers.2",
-        "model.layers.3",
-        "model.layers.4",
-        "model.layers.5"
-      ]  
+      percdamp: 0.01
diff --git a/tests/sparseml/transformers/obcq/recipes/quant_and_sparse.yaml b/tests/sparseml/transformers/obcq/recipes/quant_and_sparse.yaml
@@ -1,5 +1,11 @@
 test_stage:
   obcq_modifiers:
+    SparseGPTModifier:
+      sparsity: 0.5
+      block_size: 128
+      sequential_update: False
+      percdamp: 0.01
+      mask_structure: "0:0"
     SmoothQuantModifier:
       smoothing_strength: 0.5
       mappings: [
@@ -11,13 +17,6 @@ test_stage:
         - LlamaRotaryEmbedding
         - LlamaRMSNorm
         - SiLU
-        - model.layers.0.mlp.down_proj
-        - model.layers.1.mlp.down_proj
-        - model.layers.2.mlp.down_proj
-        - model.layers.3.mlp.down_proj
-        - model.layers.4.mlp.down_proj
-        - model.layers.5.mlp.down_proj
-      post_oneshot_calibration: True
       scheme_overrides:
         Embedding:
           input_activations: null
@@ -27,26 +26,4 @@ test_stage:
     GPTQModifier:
       block_size: 128
       sequential_update: False
-      percdamp: 0.01
-      targets: [
-        "model.layers.0",
-        "model.layers.1",
-        "model.layers.2",
-        "model.layers.3",
-        "model.layers.4",
-        "model.layers.5"
-      ]
-    SparseGPTModifier:
-      sparsity: 0.5
-      block_size: 128
-      sequential_update: False
-      percdamp: 0.01
-      mask_structure: "0:0"
-      targets: [
-        "model.layers.0",
-        "model.layers.1",
-        "model.layers.2",
-        "model.layers.3",
-        "model.layers.4",
-        "model.layers.5"
-      ]
+      percdamp: 0.01
diff --git a/tests/sparseml/transformers/obcq/recipes/sparse.yaml b/tests/sparseml/transformers/obcq/recipes/sparse.yaml
@@ -5,9 +5,8 @@ test_stage:
       block_size: 128
       sequential_update: False
       percdamp: 0.01
-      mask_structure: "0:0"
       targets: [
         "model.layers.0",
         "model.layers.1",
-        "lm_head"
-      ]
+      ]
+      mask_structure: "0:0"
diff --git a/tests/sparseml/transformers/obcq/test_obcq_sparsity.py b/tests/sparseml/transformers/obcq/test_obcq_sparsity.py
@@ -60,8 +60,6 @@ def test_sparsities(self):
 
         model = get_session_model()
 
-        lm_head_sparsity = tensor_sparsity(model.lm_head.weight)
-        assert math.isclose(lm_head_sparsity.item(), self.sparsity, rel_tol=1e-4)
         layer_1_sparse = tensor_sparsity(model.model.layers[1].self_attn.k_proj.weight)
         assert math.isclose(layer_1_sparse.item(), self.sparsity, rel_tol=1e-4)
         layer_2_dense = tensor_sparsity(model.model.layers[2].self_attn.k_proj.weight)
@@ -118,8 +116,6 @@ def test_sparsities_gpu(self):
 
         model = get_session_model()
 
-        lm_head_sparsity = tensor_sparsity(model.lm_head.weight)
-        assert math.isclose(lm_head_sparsity.item(), self.sparsity, rel_tol=1e-4)
         layer_1_sparse = tensor_sparsity(model.model.layers[1].self_attn.k_proj.weight)
         assert math.isclose(layer_1_sparse.item(), self.sparsity, rel_tol=1e-4)
         layer_2_dense = tensor_sparsity(model.model.layers[2].self_attn.k_proj.weight)