我正在寻找一种从Docker容器内部使用GPU的方法。
容器将执行任意代码,所以我不想使用特权模式。
有小费吗?
从以前的研究中,我了解到run -v
和/或LXC cgroup
是可行的方法,但我不确定如何准确地实现这一目标
我正在寻找一种从Docker容器内部使用GPU的方法。
容器将执行任意代码,所以我不想使用特权模式。
有小费吗?
从以前的研究中,我了解到run -v
和/或LXC cgroup
是可行的方法,但我不确定如何准确地实现这一目标
Answers:
Regan的答案很好,但是有点过时了,因为这样做的正确方法是避免使用lxc执行上下文,因为Docker从Docker 0.9 开始将LXC删除为默认执行上下文。
相反,最好通过--device标志告诉docker有关nvidia设备的信息,只使用本机执行上下文而不是lxc。
这些说明在以下环境中进行了测试:
请参阅运行Ubuntu 14.04的AWS GPU实例上的CUDA 6.5,以获取主机设置。
$ sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv-keys 36A1D7869245C8950F966E92D8576A8BA88D21E9
$ sudo sh -c "echo deb https://get.docker.com/ubuntu docker main > /etc/apt/sources.list.d/docker.list"
$ sudo apt-get update && sudo apt-get install lxc-docker
ls -la /dev | grep nvidia
crw-rw-rw- 1 root root 195, 0 Oct 25 19:37 nvidia0
crw-rw-rw- 1 root root 195, 255 Oct 25 19:37 nvidiactl
crw-rw-rw- 1 root root 251, 0 Oct 25 19:37 nvidia-uvm
我已经创建了一个预安装了cuda驱动程序的docker 镜像。该dockerfile,如果你想知道这个图片是如何构建的,请在dockerhub。
您需要自定义此命令以匹配您的nvidia设备。这对我有用:
$ sudo docker run -ti --device /dev/nvidia0:/dev/nvidia0 --device /dev/nvidiactl:/dev/nvidiactl --device /dev/nvidia-uvm:/dev/nvidia-uvm tleyden5iwx/ubuntu-cuda /bin/bash
这应该在刚启动的docker容器中运行。
安装CUDA示例:
$ cd /opt/nvidia_installers
$ ./cuda-samples-linux-6.5.14-18745345.run -noprompt -cudaprefix=/usr/local/cuda-6.5/
构建deviceQuery示例:
$ cd /usr/local/cuda/samples/1_Utilities/deviceQuery
$ make
$ ./deviceQuery
如果一切正常,您应该看到以下输出:
deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 6.5, CUDA Runtime Version = 6.5, NumDevs = 1, Device0 = GRID K520
Result = PASS
ls -la /dev | grep nvidia
但CUDA找不到任何支持CUDA的设备: ./deviceQuery
./deviceQuery Starting...
CUDA Device Query (Runtime API) version (CUDART static linking)
cudaGetDeviceCount returned 38
-> no CUDA-capable device is detected
Result = FAIL
是因为主机和容器中CUDA库不匹配吗?
编写更新后的答案,因为到目前为止,大多数已经存在的答案已经过时了。
早于Docker 19.03
要求nvidia-docker2
和--runtime=nvidia
标志的版本。
从开始Docker 19.03
,您需要安装nvidia-container-toolkit
软件包,然后使用该--gpus all
标志。
所以,这是基础
套件安装
nvidia-container-toolkit
根据Github上的官方文档安装软件包。
对于基于Redhat的操作系统,请执行以下命令集:
$ distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
$ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.repo
$ sudo yum install -y nvidia-container-toolkit
$ sudo systemctl restart docker
对于基于Debian的操作系统,请执行以下命令集:
# Add the package repositories
$ distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
$ curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
$ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
$ sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
$ sudo systemctl restart docker
在GPU支持下运行Docker
docker run --name my_all_gpu_container --gpus all -t nvidia/cuda
请注意,该标志--gpus all
用于将所有可用gpu分配给docker容器。
要将特定的GPU分配给Docker容器(如果您的计算机中有多个GPU)
docker run --name my_first_gpu_container --gpus device=0 nvidia/cuda
要么
docker run --name my_first_gpu_container --gpus '"device=0"' nvidia/cuda
好的,我终于设法不使用--privileged模式了。
我在ubuntu服务器14.04上运行,并且正在使用最新的cuda(对于Linux 13.04 64位为6.0.37)。
在主机上安装nvidia驱动程序和cuda。(这可能会有些棘手,因此我建议您遵循此指南/ubuntu/451672/installing-and-testing-cuda-in-ubuntu-14-04)
注意:保留用于主机cuda安装的文件非常重要
我们需要使用lxc驱动程序运行docker daemon,以便能够修改配置并赋予容器访问设备的权限。
一次利用率:
sudo service docker stop
sudo docker -d -e lxc
永久配置 修改/ etc / default / docker中的docker配置文件,通过添加'-e lxc'来更改DOCKER_OPTS行这是修改后的行
DOCKER_OPTS="--dns 8.8.8.8 --dns 8.8.4.4 -e lxc"
然后使用重新启动守护程序
sudo service docker restart
如何检查守护程序是否有效使用lxc驱动程序?
docker info
执行驱动程序行应如下所示:
Execution Driver: lxc-1.0.5
这是构建CUDA兼容映像的基本Dockerfile。
FROM ubuntu:14.04
MAINTAINER Regan <http://stackoverflow.com/questions/25185405/using-gpu-from-a-docker-container>
RUN apt-get update && apt-get install -y build-essential
RUN apt-get --purge remove -y nvidia*
ADD ./Downloads/nvidia_installers /tmp/nvidia > Get the install files you used to install CUDA and the NVIDIA drivers on your host
RUN /tmp/nvidia/NVIDIA-Linux-x86_64-331.62.run -s -N --no-kernel-module > Install the driver.
RUN rm -rf /tmp/selfgz7 > For some reason the driver installer left temp files when used during a docker build (i don't have any explanation why) and the CUDA installer will fail if there still there so we delete them.
RUN /tmp/nvidia/cuda-linux64-rel-6.0.37-18176142.run -noprompt > CUDA driver installer.
RUN /tmp/nvidia/cuda-samples-linux-6.0.37-18176142.run -noprompt -cudaprefix=/usr/local/cuda-6.0 > CUDA samples comment if you don't want them.
RUN export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64 > Add CUDA library into your PATH
RUN touch /etc/ld.so.conf.d/cuda.conf > Update the ld.so.conf.d directory
RUN rm -rf /temp/* > Delete installer files.
首先,您需要确定与设备关联的主号码。最简单的方法是执行以下命令:
ls -la /dev | grep nvidia
如果结果为空,请使用在主机上启动示例之一来解决问题。结果应该看起来像这样 。您可以看到,组和日期之间有一组2个数字。这两个数字分别称为大数和小数(按顺序写入)并设计一个设备。为了方便起见,我们将仅使用主要数字。
为什么我们激活lxc驱动程序?要使用允许我们允许容器访问那些设备的lxc conf选项。选项是:(我建议使用*作为次要数字,因为它会减少运行命令的长度)
--lxc-conf ='lxc.cgroup.devices.allow = c [主要号码]:[次要号码或*] rwm'
因此,如果我要启动一个容器(假设您的图像名称为cuda)。
docker run -ti --lxc-conf='lxc.cgroup.devices.allow = c 195:* rwm' --lxc-conf='lxc.cgroup.devices.allow = c 243:* rwm' cuda
--device
允许容器访问主机设备的选项。但是我试图用来--device=/dev/nvidia0
允许docker容器运行cuda并失败了。
/dev/nvidiao
,/dev/nvidia1
,/dev/nvidiactl
并/dev/nvidia-uvm
用--device
。虽然不知道为什么。
我们刚刚发布了一个实验性的GitHub存储库,它可以简化在Docker容器内使用NVIDIA GPU的过程。
NVIDIA最近的增强功能产生了一种更强大的方法。
从本质上讲,他们找到了一种避免在容器内安装CUDA / GPU驱动程序并使它与主机内核模块匹配的方法。
相反,驱动程序在主机上,容器不需要它们。现在需要修改后的docker-cli。
很好,因为现在容器更容易携带了。
在Ubuntu上的快速测试:
# Install nvidia-docker and nvidia-docker-plugin
wget -P /tmp https://github.com/NVIDIA/nvidia-docker/releases/download/v1.0.1/nvidia-docker_1.0.1-1_amd64.deb
sudo dpkg -i /tmp/nvidia-docker*.deb && rm /tmp/nvidia-docker*.deb
# Test nvidia-smi
nvidia-docker run --rm nvidia/cuda nvidia-smi
有关更多详细信息,请参阅: 启用GPU的Docker容器 和:https : //github.com/NVIDIA/nvidia-docker
安装docker https://www.digitalocean.com/community/tutorials/how-to-install-and-use-docker-on-ubuntu-16-04
构建以下图像,其中包括nvidia驱动程序和cuda工具包
Docker文件
FROM ubuntu:16.04
MAINTAINER Jonathan Kosgei <jonathan@saharacluster.com>
# A docker container with the Nvidia kernel module and CUDA drivers installed
ENV CUDA_RUN https://developer.nvidia.com/compute/cuda/8.0/prod/local_installers/cuda_8.0.44_linux-run
RUN apt-get update && apt-get install -q -y \
wget \
module-init-tools \
build-essential
RUN cd /opt && \
wget $CUDA_RUN && \
chmod +x cuda_8.0.44_linux-run && \
mkdir nvidia_installers && \
./cuda_8.0.44_linux-run -extract=`pwd`/nvidia_installers && \
cd nvidia_installers && \
./NVIDIA-Linux-x86_64-367.48.run -s -N --no-kernel-module
RUN cd /opt/nvidia_installers && \
./cuda-linux64-rel-8.0.44-21122537.run -noprompt
# Ensure the CUDA libs and binaries are in the correct environment variables
ENV LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-8.0/lib64
ENV PATH=$PATH:/usr/local/cuda-8.0/bin
RUN cd /opt/nvidia_installers &&\
./cuda-samples-linux-8.0.44-21122537.run -noprompt -cudaprefix=/usr/local/cuda-8.0 &&\
cd /usr/local/cuda/samples/1_Utilities/deviceQuery &&\
make
WORKDIR /usr/local/cuda/samples/1_Utilities/deviceQuery
sudo docker run -ti --device /dev/nvidia0:/dev/nvidia0 --device /dev/nvidiactl:/dev/nvidiactl --device /dev/nvidia-uvm:/dev/nvidia-uvm <built-image> ./deviceQuery
您应该看到类似于以下内容的输出:
deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 8.0, CUDA Runtime Version = 8.0, NumDevs = 1, Device0 = GRID K520
Result = PASS
要从Docker容器中使用GPU,而不是使用本机Docker,请使用Nvidia-docker。要安装Nvidia泊坞窗,请使用以下命令
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
curl -s -L https://nvidia.github.io/nvidia-docker/ubuntu16.04/amd64/nvidia-
docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update
sudo apt-get install -y nvidia-docker
sudo pkill -SIGHUP dockerd # Restart Docker Engine
sudo nvidia-docker run --rm nvidia/cuda nvidia-smi # finally run nvidia-smi in the same container
使用mviereck的x11docker:
https://github.com/mviereck/x11docker#hardware-acceleration说
硬件加速
OpenGL的硬件加速可以通过-g,--gpu选项实现。
在主机上使用开源驱动程序的大多数情况下,这是开箱即用的。否则,请查看Wiki:功能依赖性。开源NVIDIA驱动程序需要一些设置,并支持更少的x11docker X服务器选项。
该脚本非常方便,因为它可以处理所有配置和设置。使用gpu在X上运行docker镜像非常简单
x11docker --gpu imagename