Fix sft trainer when args is None (#1295)

younesbelkada · web-flow · commit 036213bd8522 · 2024-01-31T03:31:53.000+01:00
* fix sft trainer when args is None

* add test

* fix
diff --git a/tests/test_sft_trainer.py b/tests/test_sft_trainer.py
@@ -709,6 +709,25 @@ def test_sft_trainer_with_model_neftune(self):
             _ = trainer.model(torch.LongTensor([[1, 0, 1]]).to(device))
             self.assertTrue(len(trainer.model.get_input_embeddings()._forward_hooks) == 0)
 
+    @require_peft
+    def test_peft_sft_trainer_str(self):
+        peft_config = LoraConfig(
+            r=16,
+            lora_alpha=32,
+            lora_dropout=0.05,
+            bias="none",
+            task_type="CAUSAL_LM",
+        )
+
+        _ = SFTTrainer(
+            model=self.model_id,
+            args=None,
+            train_dataset=self.train_dataset,
+            eval_dataset=self.eval_dataset,
+            peft_config=peft_config,
+            packing=True,
+        )
+
     @require_peft
     def test_peft_sft_trainer(self):
         with tempfile.TemporaryDirectory() as tmp_dir:
diff --git a/trl/trainer/sft_trainer.py b/trl/trainer/sft_trainer.py
@@ -209,7 +209,7 @@ def make_inputs_require_grad(module, input, output):
                         model.get_input_embeddings().register_forward_hook(make_inputs_require_grad)
 
                 model = get_peft_model(model, peft_config)
-                if args.bf16 and getattr(model, "is_loaded_in_4bit", False):
+                if args is not None and args.bf16 and getattr(model, "is_loaded_in_4bit", False):
                     peft_module_casting_to_bf16(model)
 
         if tokenizer is None: