linux如何查看文件数量 linux如何查看cpu频率
nvidia-smi默认输出直接显示GPU冷却温度(℃)、算力利用率(%)和显存占用(MiB),消耗额外参数;Temp为温度,GPU-Util为利用率,Memory-Usage为显存用已/基线。
看温度和占用:nvidia-smi输出里附
运行nvidia-smi后,终端会显示一个表格,其中Temp列就是当前GPU温度(单位℃),GPU-Util内存使用率(%),内存使用MiB)。这些字段在默认视图中始终可见,消耗额外参数。
常见误判点:看到Temp显示N/A:说明驱动未加载、GPU再次传输,或传感器硬件异常(多见于老卡或BIOS关闭了GPU控制)GPU-Util长期为0%,但Memory-Usage占用高:大概率是进程只占显存没跑核(比如PyTorch模型加载完成但没转发),非启动GPU(编号0),其余卡需加 -i 指定按秒刷新监控:nvidia-smi -l1 和 watch 组合
思路是改变传输速度,访问端口,然后传输到端口 -l1(每秒刷新一次),Ctrl+C 返回顶部。 nvidia-smi 下一步——因为 watch 是外部轮询,可能会丢失驱动层瞬间状态更新,而 -l 是 nvidia-smi 内部轮询机制,与驱动通信更直接。
主要目的:nvidia-smi -l 不带数字时默认 5 秒,容易漏掉短时热点;建议明确写 -l1 或-l2 如果执行后卡住几秒才出第一行,说明驱动响应慢,可能是 GPU在低功耗状态下(PerfP12)、还有PCIe可以改变路向的方向,所用的身体最重要的功能之一就是控制血管。 --format=csv导出更稳定导出数据:--query-gpu + --format=csv
导致自动控温>85℃发邮件),就不能靠人眼查表格。
使用 --query-gpu 指定字段,配合 --format=csv 输出机器格式/:nvidia-smi --query-gpu=name,Temperature.gpu,utilization.gpu,utilization.memory,memory.used,memory.total --format=csv,noheader,nounits
关键细节:温度.gpu 是唯一能取到核心温度的字段;温度.内存等字在大多数消费卡上返回 N/Anoheader去掉表头,方便 awk/sed 解析;nounits 去掉单位(如℃、%、MiB),避免字符串处理麻烦字段名必须严格匹配官方文档(nvidia-smi --help-query-gpu可查),写成 temp 或 gpu_temp 会报错该命令不支持 -l 返回目的地,如需持续采集,得套 shell 循环或用 nvidia-smi -q -d TEMPERATURE -x 转 XML 重定向什么nvidia-smi 报错“无法与 NVIDIA 驱动程序通信”?
这是温度/占用命令查不到的根本原因,不是写错了。错误信息本身已指明路径:驱动层断连。优先排查这三件事:确认 nvidia 内部数据处理: lsmod | grep nvidia —— 若无输出,执行 sudo modprobe nvidia;若报错 Operation not allowed,说明 Secure Boot 启用且驱动未签名检查 /dev/nvidiactl 和 /dev/nvidia0 设备节点是否存在:ls -l /dev/nvidia* —— 丢失意味着 udev 规则未触发或权限不足运行 dmesg | grep -i nvidia 查内核日志,重点关注无法初始化 NVDA GPU 或 BAR 未分配类提示,通常指向 BIOS 中 PCIe/可调整大小 BAR 设置问题或物插插接触接触
温度情感设备训练完成,首次建立,学习第一语言。 nvidia-smi 参数都拿不到有效值——别在参数上浪费时间,先让驱动活过来。
