dpo metrics error #6050

yhhit · 2024-11-16T04:44:19Z

Reminder

I have read the README and searched the existing issues.

System Info

llamafactory version: 0.9.1.dev0
Platform: macOS-15.1-arm64-arm-64bit
Python version: 3.12.7
PyTorch version: 2.5.1
Transformers version: 4.46.1
Datasets version: 2.21.0
Accelerate version: 1.0.1
PEFT version: 0.12.0
TRL version: 0.9.6
Bitsandbytes version: 0.42.0

Reproduction

this problem in "LLaMA-Factory/src/llamafactory/train/dpo/trainer.py"
def get_batch_loss_metrics

# in def get_batch_loss_metrics
        metrics[f"{prefix}logps/rejected"] = policy_chosen_logps.mean().item()
        metrics[f"{prefix}logps/chosen"] = policy_rejected_logps.mean().item()
        metrics[f"{prefix}logits/rejected"] = policy_chosen_logits.mean().item()
        metrics[f"{prefix}logits/chosen"] = policy_rejected_logits.mean().item()

it should be

        metrics[f"{prefix}logps/rejected"] = policy_rejected_logps.mean().item()
        metrics[f"{prefix}logps/chosen"] = policy_chosen_logps.mean().item()
        metrics[f"{prefix}logits/rejected"] = policy_rejected_logits.mean().item()
        metrics[f"{prefix}logits/chosen"] = policy_chosen_logits.mean().item()

Expected behavior

No response

Others

No response

The text was updated successfully, but these errors were encountered:

hiyouga · 2024-11-16T08:20:26Z

thanks for your reporting

github-actions bot added the pending This problem is yet to be addressed label Nov 16, 2024

hiyouga added a commit that referenced this issue Nov 16, 2024

fix #6050

dc82821

hiyouga mentioned this issue Nov 16, 2024

[trainer] fix DPO metrics #6052

Merged

2 tasks

hiyouga closed this as completed in #6052 Nov 16, 2024

hiyouga added solved This problem has been already solved and removed pending This problem is yet to be addressed labels Nov 16, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

dpo metrics error #6050

dpo metrics error #6050

yhhit commented Nov 16, 2024

hiyouga commented Nov 16, 2024

dpo metrics error #6050

dpo metrics error #6050

Comments

yhhit commented Nov 16, 2024

Reminder

System Info

Reproduction

Expected behavior

Others

hiyouga commented Nov 16, 2024