nagios通过扩展插件可以监控服务器硬件信息, 平时服务器出现最多的问题就是硬盘故障, 因为服务器硬盘一般都是每天24小时运行,所以出现故障的几率会大大增加,通过在Nagios中配置硬件监控可以随时了解服务器硬件运行状况,在服务器出现故障时第一时间通知到管理员。
在服务器领域有很多品牌,IBM,Dell,HP等, 我们就以Dell服务器为例来介绍一下服务器硬件的监控。
Dell服务器的硬件管理可以通过两种方式:
- 一是iDRAC(Integrated Dell Remote Access Controller)
iDRAC是一个集成式的远程控制卡,通过它即便服务器处于关机的状态,系统管理员也可以进行服务器的管理。
- 二是OMSA(OpenManage Server Administrator)。
OMSA是安装在需要被管理服务器的操作系统上,可以通过web方式进行服务器硬件信息的管理及监控。
使用Nagios监控Dell服务器需要在服务器上安装OMSA,OMSA支持windows、linux、vmware exsi等系统。
OMSA的安装过程请参考Dell网站:
OMSA安装完毕之后,我们就可以通过Nagios来进行服务器硬件的监控了
Windows系统:
Windows系统下的硬件监控使用check_openmanage插件,下载地址:,下载解压后存在很多文件,我们需要的是监控插件,如图所示:
将check_openmanage拷贝到nagios安装目录的libexec目录下
增加可执行权限:chmod 755 check_openmanage
运行check_openmanage需要安装perl的模块Net::SNMP,安装完毕后就可使用check_opemanage来检测服务器了。
check_openmanage常用选项:
-p: 输出性能数据
-t: 插件检测超时时间(秒)
-d: debug模式,显示详细输出
-V:显示版本信息
check_openmanage SNMP检测模式选项:
-H:主机名或IP
-C:SNMP团体名(默认public)
-P:SNMP协议版本(默认2c)
--port: SNMP端口号(默认161)
check_openmanage输出选项:
-i: 警报前缀带服务标识
-s: 警报前缀带警报状态
check_openmanage检测控制选项:
-a: 检测全部内容
-b: 检测黑名单
--only: 仅仅检测指定的内容
check_openmanage在nagios中的配置:
在etc/objec 中添加check_openmanage命令,如下图:
其中$HOSTADDRESS$是nagios内置宏, 会自动替换为ip地址。
在etc/objec中添加host
在etc/objec中添加service, 这里添加了storage、cpu、memory
使用/usr/local/nagios/bin/nagios –v /usr/local/nagios/etc检测配置是否有问题, 如果配置没有问题,使用systemctl restart nagios重启nagios服务。
重启之后nagios主页会显示出刚刚配置的检测项目,如下图所示:
Vmware Exsi:
vmware exsi使用的是c插件,相对应的dell也提供了exsi下的OMSA,Vmware Exsi的硬件监控会在之后的文章中继续介绍。