查看GPU信息,监控GPU状态

本文最后更新于:2022年11月7日 上午

查看GPU信息,监控GPU状态的方法

在进行深度学习的时候经常需要关注GPU的使用情况,尤其是在共用服务器的时候,本文介绍几个查看GPU信息,监控GPU状态的方法。

nvidia-smi

这可能是最常用的查看GPU信息的方法,在命令行敲下nvidia-smi就行了,如下图,可以看到GPU的显存占用情况、有几个GPU、负载情况、谁在用GPU等等

lspci

lspci是linux下查看PCI总线上的设备的命令,显卡自然也连在PCI总线上,可以查到信息

如下图,可以看到有几个GPU和GPU的全称(nvidia-smi可能看不到)

gpustat

这是一个基于nvidia-smi的工具,可以通过pip install gpustat直接安装,能够更直观显示GPU的信息,使用时gpustat可以查看当前状态,加上-i参数可以实时监测

显存被占用但是以上方法都找不到占用进程

输入fuser -v /dev/nvidia*可以查到占用显卡的进程ID,然后kill -9 <pid>来结束它。

fuser是一个由文件找出占用该文件的程序,linux下dev目录是存储硬件信息的目录,下面nvidia0、nvidia1等就是显卡。