深度学习服务器搭建笔记——从硬件选择到环境安装
阅读原文时间:2021年04月20日阅读:1

一、硬件选择

快速指南

参考文章:RTX 2080时代,如何打造属于自己的深度学习机器

GPU:

  • RTX 2070 、RTX 2080 Ti、GTX 1070、GTX 1080 和 GTX 1080 Ti。

CPU:

  • 每个 GPU 1-2 核,这取决于你的数据预处理;
  • 只要主频大于 2GHz,那 CPU 就应该支持我们想要运行的大量 GPU,PCIe 通道并不是太重要。

RAM:

  • 时钟频率无关紧要,买更便宜的 RAM;
  • 购入至少和你已有 GPU 内存大小相同的 CPU 内存;
  • 只有更需要时才买更多的 RAM;如果要使用超大规模的数据集,那么需要更多的内存。

硬盘/SSD:

  • 用于存储数据的硬盘驱动器至少需要 3TB;
  • 使用 SSD 预处理小数据集。

PSU:

  • GPU+CPU+10% 就是你必需的电源供应量,再将总电量乘以 110% 而获得最终所需要的电源功率;
  • 如果使用多块 GPU,还要增加一些额外的电源供应量;
  • 确保 PSU 有足够的 PCIe 连接器(6+8pins);
  • 附:PSU计算器

散热:

  • CPU,使用标准的 CPU 散热器或一体化的水冷解决方案;
  • GPU,使用空气散热、使用鼓风机式的散热器、配置风扇的速度。

主板:

  • 尽可能获得更多的 PCIe 插槽,为未来增加 GPU 做好准备。

参考配置

CPU:i7-9700k
GPU:RTX-2080ti
RAM:DDR4 3000MHz 16G * 4
SSD:SATA SSD 512G
PSU:1000w
散热:塔式散热
主板:Z390

二、系统安装及初始配置

安装Ubuntu18.04LTS

下载Ubuntu18.04LTS镜像,用UltraISO制作U盘启动盘,按照提示一步一步安装

更换apt源

备份配置文件:sudo mv /etc/apt/sources.list /etc/apt/sources.list.bak

将以下内容复制到/etc/apt/sources.list文件中

deb http://mirrors.aliyun.com/ubuntu/ bionic main restricted universe multiverse

deb-src http://mirrors.aliyun.com/ubuntu/ bionic main restricted universe multiverse

deb http://mirrors.aliyun.com/ubuntu/ bionic-security main restricted universe multiverse

deb-src http://mirrors.aliyun.com/ubuntu/ bionic-security main restricted universe multiverse

deb http://mirrors.aliyun.com/ubuntu/ bionic-updates main restricted universe multiverse

deb-src http://mirrors.aliyun.com/ubuntu/ bionic-updates main restricted universe multiverse

deb http://mirrors.aliyun.com/ubuntu/ bionic-backports main restricted universe multiverse

deb-src http://mirrors.aliyun.com/ubuntu/ bionic-backports main restricted universe multiverse

deb http://mirrors.aliyun.com/ubuntu/ bionic-proposed main restricted universe multiverse

deb-src http://mirrors.aliyun.com/ubuntu/ bionic-proposed main restricted universe multiverse

更新

sudo apt update
sudo apt upgrade

更换pip源

将以下内容复制到~/.pip/pip.conf文件中

[global]
index-url=http://mirrors.aliyun.com/pypi/simple/
trusted-host=mirrors.aliyun.com

安装常用软件

chrome

sogou-linux

wps-linux

三、NVIDIA环境安装

不需要先单独安装驱动

安装gcc和cmake

sudo apt install gcc
sudo apt install cmake

安装cuda(过程中安装驱动)

选择合适的cuda版本,tensorflow1.13不支持cuda10.1
选择合适的cuda版本,tensorflow1.13不支持cuda10.1
选择合适的cuda版本,tensorflow1.13不支持cuda10.1

从官网下载cuda安装脚本

Snipaste_2019-04-09_07-58-23.png

安装cuda的过程中会自动安装最新的驱动

安装完成后在.bashrc中设置环境变量

export PATH=/usr/local/cuda/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
export CUDA_HOME=/usr/local/cuda

运行source .bashrc使其生效

安装cudnn

从官网下载cudnn,需登录

Snipaste_2019-04-09_08-01-02.png

解压,复制文件到/usr/local/cuda相关文件夹内

sudo cp cuda/include/cudnn.h    /usr/local/cuda/include      
 sudo cp cuda/lib64/libcudnn*    /usr/local/cuda/lib64
 sudo chmod a+r /usr/local/cuda/include/cudnn.h  /usr/local/cuda/lib64/libcudnn*

四、深度学习开发环境安装(tensorflow/pytorch)

安装Python包管理工具

下载miniconda3并安装,安装完成后source ~/.bashrc

新建python虚拟环境

conda create -n <env-name> python=3.6

进入python虚拟环境

conda activate <env-name>

安装python包

conda install <package-name>

安装常用Python库

tensorflow/pytorch

conda install tensorflow-gpu

conda install pytorch

numpy

pandas

pillow

jupyter

IDE/编辑器选择

Pycharm

VS Code

Vim/Emacs/Sublime

五、CPU/GPU监控工具

htop

监控CPU和RAM

htop

nvidia-smi

监控GPU

watch -n 1 nvidia-smi