调整 nvidia-smi 命令的采样时间

默认情况下,nvidia 驱动的 persistence mode 是关闭状态

pm disabled

这就使得对于显卡利用率以及显存占用率的刷新频率很低,单次调用指令查询需要等很久,配合 watch 进行监控更是难以忍受。因此,可以通过开启 persistence mode 使得缓存被保留,从而达到高采样的目的

1
sudo nvidia-smi -i <target gpu> -pm ENABLED

或者

1
sudo nvidia-smi -i <target gpu> -pm 1

通过以上两条命令,就能使得显卡信息的刷新率明显上升

outcome

Error Correcting Code (ECC) 开关

ECC

ECC (error correcting code, 错误检查和纠正) 功能,该功能可以提高数据的正确性,随之而来的是可用内存的减少和性能上的损失。

通过

1
nvidia-smi -i <target gpu>  -e 0/1

可关闭(0)/开启(1)第 <target gpu> 号GPU的ECC模式,重启后该设置生效。