AssertionError: Invalid device id 和RuntimeError: CUDA error: invalid device ordinal

我在使用torch多卡并行时出现了这个两个问题。

##问题一:AssertionError: Invalid device id,即无效的设备id

出现的原因:结合代码解释:

import ...

os.environ["CUDA_VISIBLE_DEVICES"] = "2,3"

model = model(...)

torch.cuda.set_device(2)
model = torch.nn.DataParrel(model, device_ids=[2,3])

错误原因:os.environ[“CUDA_VISIBLE_DEVICES”] = “2,3”这个语句将原本的divice:2和device:3的编号映射为device:0和device:1,因此在set_device时汇报错,无效的设备id

解决办法:方法一:将os.environ删除。 若是某些卡被占用不得不使用os.environ来设置可用设备,则使用方法二:按照重新映射的编号进行操作,例set_device(0)

##问题二:RuntimeError: CUDA error: invalid device ordinal

出现的原因:结合代码

import ...

os.environ["CUDA_VISIBLE_DEVICES"] = "2,3"

model = model(...)

model = torch.nn.DataParrel(model, device_ids=[2,3])

错误原因:与上文一致,os.environ[“CUDA_VISIBLE_DEVICES”] = “2,3”这个语句将原本的divice:2和device:3的编号映射为device:0和device:1,因此在执行torch.nn.DataParrel时会报错

解决办法:方法一:将os.environ删除。 若是某些卡被占用不得不使用os.environ来设置可用设备,则使用方法二:按照重新映射的编号进行操作,例:

model = torch.nn.DataParrel(model, device_ids=[0,1])

推荐一篇文章,简单实现多卡并行:

Original: https://blog.csdn.net/qq_41368074/article/details/122498467
Author: NuerNuer
Title: AssertionError: Invalid device id 和RuntimeError: CUDA error: invalid device ordinal

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/627159/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球