-
Notifications
You must be signed in to change notification settings - Fork 420
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于训练中途意外停止的问题 #98
Comments
你之前好像问过类似的问题,当时说的情况你解决了吗。 |
你下次跑的时候可以在CUDA_VISIBLE_DEVICES 前面加一个TORCH_DISTRIBUTED_DEBUG=DETAIL,或者直接加在bash脚本前面,可以看到更详细一点的报错信息 |
@Facico 之前遇到了类似问题,但是最近在忙别的事。这两天在解决 |
我试试 |
@Facico 大神,我添加了 我就很纳闷了。不知道啥情况。 **另外!**我在启动训练的时候,会经常遇到这个问题:
遇到这个问题时,需要我反复启动训练,才能正常训练。这个就很奇怪。我的环境肯定没问题啊,要不然我不会训练起来的。但是每当启动运行的时候,就会经常遇到上面的这个问题。 这个是我的 conda 的环境列表: |
加那个东西只是让报错信息更详细一点。 |
@Facico
当前来看, |
@Facico |
@Facico 你好大神。我尝试了,还是不行: |
V100训练可能不能使用8bit,可以开fp16并把mirch_batch_size改小,不然容易炸loss,可以参考这个issue, 不知道有没有可能和这个问题有关。 |
我也遇到这个问题,请问有解决吗? |
@Tian14267 @nietzsche9088 我也是遇见了这个问题,虽然不是这个代码。我发现都是在我关掉Xshell后就自己停掉实验,我在退出XShell时,加一个exit,然后再关掉,这个问题就解决了,不会自己停掉了 |
换机器?我估计是硬件问题,我最近也遇到了。训练yolov8. |
@sakurarma 这对我有帮助,thinks |
这是来自QQ邮箱的假期自动回复邮件。您好,我最近正在休假中,无法亲自回复您的邮件。我将在假期结束后,尽快给您回复。
|
大神好,我又遇到
训练中途意外停止
的问题了,如下:使用的是双卡训练,但是训练到1000多步,又遇到突然停止的情况。下面是我finetune的代码:
finetune_fffan.zip
请问下大神,这是啥情况啊。总感觉分布式训练有问题
The text was updated successfully, but these errors were encountered: