赞
踩
先来看最终效果

两块卡GPU的利用率都会占满,训练速度会肉眼可见的提升
在此之前使用python的os库自带的GPU分配,代码如下
- os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID" # 按照PCI_BUS_ID顺序从0开始排列GPU设备
- os.environ["CUDA_VISIBLE_DEVICES"] = "1,0" # 设置当前使用的GPU设备
如果只使用这两行代码会出现仍然是单块卡的占用率跑满,另一块卡占用率为0,这种情况并没有真正的将每一个batchsize的数据平分给两块卡,而是简简单单的占用了两个显存。由于深受batchsize过大导致的OOM痛苦,所以查了keras的官方文档发现了multi_gpu_model这个函数,当然还有多分支设备并行的方法,目前还没用到,用到之后再写。
keras官方给了分配多显卡的函数multi_gpu_model,简单来说就是一行代码
- from keras.utils import multi_gpu_model
- model = multi_gpu_model(ori_model, gpus=2)
针对keras不同的版本可能import的方式不相同,
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。