GPU资源对深度神经网络的训练十分重要,在程序运行时可能会出现cuda runtime error(2): out of memory,显存不足。有时时因为网络结构太大造成的,而有些时候是因为处理复杂逻辑时,某个变量累加或者没有及时释放掉,占用了大量的显存空间,这时查找时非常费力的,那么如何快速查找到底那个变量占用过高的显存呢?
Pytorch-Memory-Utils是pytorch框架下用来监测显存的工具(),基于pynvml库来实现显卡信息的获取。通过定义两个标志位,把想要监测的代码块放入标志位中间,即可加入监测队列。
然后会在当前目录下自动生成检测日志