日常简易维护与报修指南
目 录
3一、系统命令
6二、备份与恢复
10
12四、错误日志查看
14五、Performance Tools
17
19附录一 硬件接线图
20附录二、IBM设备前后视图
一、系统命令
检查系统状态:
· 系统整体: prtconf
· 文件系统: df –k,df -g
设备: lsdev –C 获取设备名称、状态、位置和描述。
例:
查看硬盘: lsdev –Cc disk
查看磁带机: lsdev –Cc tape
查看适配卡: lsdev –Cc adapter
处理器个数 lsdev –C|grep proc
系统配置lscfg –vp 获取所有已配置硬件设备的详细信息。
例:
查看硬盘信息: lscfg –vl hdiskx x表示数字
查看网卡信息: lscfg –vl entx x表示数字
查看磁带机: lscfg –vl rmtx x表示数字
查看硬件属性: lsattr –El 获取已配置设备的属性信息。
例:
查看硬盘属性: lsattr –El hdiskx x表示数字
查看网卡属性: lsattr –El entx x表示数字
查看磁带机属性: lsattr –El rmtx x表示数字
内存大小: lsattr –El mem0
· 磁盘 lspv
· 交换分区 lsps –a
· 软件 lslpp –l 文件包名字
· 用户 who
关机命令:
–shutdown
一分钟后关机
–shutdown +2
二分钟后关机
–shutdown –Fr
关机重启(-r)
关机命令调用/etc关闭程序
可以在这个文件里加上你自己的脚本
其它基本命令
# passwd
passwd: —输入旧口令
new passwd: —输入新口令
re-enter new passwd: —重新输入新
•mkdir/rm/mv/cd -用于创建目录/删除文件或目录/更改文件或目录名/进入某一目录
•ls 显示目录中的内容(文件名)
#ls –a 列出当前目录中的所有文件
#ls –l 显示文件的详细信息
•ps / kill 显示后台进程的有关信息或杀死后台进程
#kill -9 253432
•find 在一个/多个目录中查找符合条件的文件
#find –name 't*' -print
•head/tail 显示文件头/尾声的内容
#tail +200 filename
•who/finger 列出系统注册/已登录的用户
#who am I
#finger user2
光驱cdrom
•加载cdrom
•使用: mount -rv cdrfs /dev/cd0 /cdrom
–或者创建一个CD-ROM文件系统并进行加载
•smit cdrfs
•mount /cdrom
•卸载cdrom
– unmount /cdrom
二、备份与恢复
rootvg备份 — mksysb
●只备份rootvg
●只备份已挂接的文件系统
●以备份格式创建可启动磁带
●保存rootvg中的换页空间设备定义
●保存逻辑卷策略
●备份时应使活动的用户和应用减至最少
注:mksysb创建操作系统备份,如果rootvg中有用户创建的文件系统,只要它已挂接,也被备份,用户创建的不含文件系统的逻辑卷内容及定义不备份。mksysb创建的备份磁带是可启动的,并可以进行BOS安装。
从磁带恢复rootvg备份时,所有文件系统被恢复,启动逻辑卷自动创建,文件系统日志设备按照默认大小(一个逻辑分区)创建,根据保存的换页空间设置生成同样大小的换页空间设备。
用户可以用一个系统上生成的rootvg备份恢复到另一系统上,前提是两个系统的结构相同,总线结构不同(MCA和PCI)或SMP(支持多CPU)与非SMP(只支持一个CPU)的系统间不能进行上述操作。
# smit mksysb
•Creation of a MAP file:是否为卷组中每个要备份的逻辑卷生成逻辑分区到物理分区的映像文件。这个映像文件可以使恢复时逻辑卷策略和逻辑分区到物理分区的映射关系保持相同。建议创建。
•EXCLUDE files:如果选择yes,将使得文件/etc文件中列出的文件和目录不被备份。
•Make BOOTABLE backup:是否生成可启动备份,一般取默认值——yes。
•EXPAND /tmp if needed:是否在需要时自动扩展/tmp文件系统。强烈建议选yes。
•Number of BLOCKS to write in a single output:选择每次写出的数据量,以512字节块为单位。
非rootvg的卷组备份
# smit savevg
恢复rootvg备份
●依照从磁带安装操作系统的步骤用mksysb磁带启动
Welcome to Base Operting System
Installation & Maintenance
1 Start Install Now With Default Settings
2 Change/Show Installation Settings and Install
>>> 3 Start Maintenance Mode for System Recovery
Maintenance
1 Access A Root Volume Group
2 Copy a System Dump to Removable Media
3 Access Advanced Maintenance Functions
>>> 4 Install from a System Backup
Choose Tape Drive
Tape Drive Path Name
>>> 1 tape/scsi/4mm/12GB /dev/rmt0
恢复非rootvg卷组备份
# smit restvg
依文件名备份-smit屏幕
# smit backfile
其他UNIX备份命令
●tar (tape archive)
◇适用范围广
◇非常适合在不同UNIX平台间传送文件
◇可恢复空目录(-d选项)
◇不支持AIX访问控制列表(ACL,属于扩展inode内容)
●cpio(copy input to output)
◇适用范围广
◇符号链接较多时可能不能正常工作
◇不支持AIX访问控制列表(ACL,属于扩展inode内容)
●dd(device to device)
◇创建精确相同的备份映像,可用于精确备份逻辑卷
◇可用于转换某些内容(例如大小写、ASCII与EBCDIC互转等)
三、AIX安全
控制增长迅速的文件
●/var/adm/wtmp
●/var/spool/*/*
●
●
●/etc/security/failedlogin
●/var/adm/sulog
显示文件和目录的空间占用量
du /home |sort –rn
安全性记录文件
●/var/adm/sulog
记录每次su命令的执行。这是个文本文件。使用任何观看文本文件的命令查看。
●/var/adm/wtmp和/etc/utmp
记录用户的成功登录。使用who命令查看。
●/etc/security/failedlogin
记录所有不成功的登录尝试。如果用户名不存在,记录为UNKNOWN项目。使用who命令查看。
安全性相关文件
●包含用户属性和访问控制的文件
●/etc/passwd 合法用户(无口令内容)
●/etc/group 合法用户组
●/etc/security/passwd 含有加密形式的用户口令
●/etc/security/user 用户属性,口令限制
●/etc/security/limits 对用户的限制
●/etc/security/environ 用户环境设定
●/etc/security 登录设置
●/etc/security/group 用户组属性
用户环境的合法性检查和修正
●检查/etc/passwd/与/etc/security/passwd的一致性,以及/etc/security和/etc/security/user,同时修正错误:
pwdck -y ALL
●检查//etc/security/user、/etc/security/limits、/etc/security/passwd,以及是否每个组在/etc/group和/etc/security/group中都有对应条目,并修正错误:
usrck -y ALL
●检查/etc/group、/etc/security/group、/etc/passwd和/etc/security/user中关于用户组的内容的一致性,并修正错误:
grpck -y ALL
四、错误日志查看
•所有AIX错误都记录在一个记录文件中/var/adm/ras/errlog
•显示错误
–errpt [-a] -a 为详细显示
可以输出到文件或用more、pg察看
•清空错误记录信息
–errclear 0
建立/修改口令
通过errpt产生错误报告
•显示所有的错误报告
–# errpt
•只报告硬件错误
–# errpt -d -H
•描述ID为F49E2A17的错误报告
–# errpt -a -j F49E2A17
例:
# errpt
•标识'C':错误归类
–H:硬件
–S:软件
–O:操作错误
–U:不能确定
•标识'T':错误类型
–PERM(并且C为H):显示系统遇到硬件问题并且无法自动修复
–PERD(并且C为H):系统硬件变为不可用并引起一系列错误系统
–PERM(并且C为S):显示系统遇到软件问题并且无法自动修复
–TEMP(并且C为S):显示系统遇到软件问题并且已经自动修复
•root用户通过手工命令errclear直接清除错误日志
–# errclear 10
•清除10天以前的所有日志
–# errclear -d H 0
•清除所有硬件的错误
–# errclear -N disk 0
•删除所有资源组为disk的记录
–# errclear -T UNKN 0
•删除所有类型为unknown的记录
–# errclear 0
•删除所有记录
•显示error log的特性
–# /usr/lib/errdemon -l
Error Log Attributes
--------------------------------------------
Log File /var/adm/ras/errlog
Log Size 1048576 bytes
Memory Buffer Size 8192 bytes
五、Performance Tools
常用命令
•# ps
•# sar
•# vmstat
•# iostat
•# tprof
•# svmon
•# filemon
例:
CPU的使用情况(sar –u)
这条命令的语法是:
# sar [options] interval number
例如:
# sar –u 60 3
AIX NODE 2 3 00000211 07/06/99
%usr %sys %wio %idle
08:25:11 48 52 0 0
08:26:10 63 37 0 0
08:27:12 59 41 0 0
.Average 56 44 0 0
当 %usr+%sys > 80% 时,CPU 紧张
查看运行队列(sar –q)
这条命令的语法是:
# sar [options] interval number
例如:
# sar –q 60 3
AIX NODE 2 3 00000211 07/06/99
08:41:21 runq-sz %runocc swap-sz %swpocc
08:42:21 1.2 100
08:43:21 1.0 100
08:44:21 1.1 100
.
.
Average 1.2 100
注:命令#sar –q的输出:
-runq-sz = 运行队列的平均长度。(运行队列的平均长度就是等待在队列中的进程数目)
-%runocc = 运行队列被占用的时间百分比。
-swap-sz = 等待被内存页交换的进程的平均数目。
-%swapocc = 内存页交换队列被占用的时间百分比。
这些数据会更有意义,如果收集一段时间并且研究它的趋势。在有些环境下可以接受庞大的运行队列,而另外的环境就不一定适用。例如,在一个传统的商业环境中,进程都是简单而运行快速的,这时系统性能还可以忍受大的运行队列。而在一个工程或者科学计算环境中,进程一般都是巨大且需要更密集的资源的,此时就不能忍受大的运行队列。
Paging 信息
# vmstat 1 3
注:
命令vmstat的输出:
-procs =(每秒)
r 在运行队列中的进程
b 在等待队列中的进程
-memory =( 那个时刻的统计数据)
avm 活动的虚拟页的数目
fre 在空闲列表中的物理内存槽数
-page =(每秒)
re 收回的页
pi/po 交换进内存的页/交换出内存的页
fr/sr 空闲的页/被时钟计算法则检测的页
cy 时钟循环(一般为0)
-faults =(每秒)
in 设备中断数
sy 系统调用数
cs 上下文交换数
-cpu =(就象命令sar –u,为百分比)
us 用户进程
sy 核心进程
id 空闲时间
wa I/O等待时间
这些信息是sar报告的补充。
wa如果超过25%,那么磁盘子系统可能没有平衡好。
与AIX存储相关的基本概念
PV:Physical Volume 物理卷
VG:Volume Group 卷组
PP: Physical Partition物理分区
LP:Logical Partition 逻辑分区
LV:Logical Volume 逻辑卷
LVM:Logical Volume Manager逻辑卷管理器
六、错误报告流程
常见错误代码
在上电的每一阶段,LCD面板都要显示一些数字信息:
它为您指示:
· 正在进行加载的设备
· 当前的工作状态
· 加载失败的原因
可以在诊断手册中查到数字信息的含义
主机启动时的常用LED错误代码
· 0223-0229: Invalid boot list.
· 0551,0555,0557: Corrupted file system, corrupted JFS log, and so on
· 0552,0554,0556: Super block corrupted and corrupted customized ODM
· 0553: Corrupted /etc/inittab file
硬件报错通常LED会显示8位代码,请将这8位号码记录下来
除了8位代码外,报修还需要记录故障服务器的型号和序列号,这些号码在服务器的前面板上,也可以通过prtconf命令来查看:
设备型号一览表:
550的型号为:9113-550
570的型号为:9117-570
DS4300的型号为:1722-60U
DS4500的型号为:控制柜:1742-90U
扩展柜:1740-1RU
3582的型号为:3582-L23
3583的型号为:3583-L36
光纤交换机的型号为:2026-E12
报修方法:
拨打IBM 24小时报修热线,8008101818-5100
附录一 硬件接线图
附录二、IBM设备前后视图
IBM eServer p550前视图
IBM eServer p550后视图
IBM eServer p570前视图
IBM eServer p570后视图
DS4300磁盘阵列前视图
DS4300磁盘阵列后视图
DS4500磁盘阵列前视图
DS4500磁盘阵列后视图
错误指示灯:
琥珀色:亮表示接口模块有错误
正常状态:灭
错误状态:灭
出口旁路指示灯:
琥珀色: l亮表示GBIC端口没有连接或连接断开。
正常状态:灭(当连接了光纤)
错误状态:亮(当连接了光纤)
IBM 3582磁带库前视图
IBM 3582磁带库后视图
IBM 3583磁带库前视图
IBM 3583磁带库后视图
� EMBED WordPad.Document.1 ���
� EMBED WordPad.Document.1 ���
1. 电源插孔 2. RMU 插槽
3. FC 接口 4. 串口
5. 驱动器 6. 驱动器舱
1. 电源开关 2. 门锁
3. 按钮 4. 操作员面板
5. I/O站 6. 介质存取门
7. 机器系列号
7
未来中长期看好半导体(AI芯片、功率器件、制造设备)
AI芯片:中科曙光(603019)、国科微(300672)、景嘉微(300474)、富瀚微(300613)
功率器件:杨杰科技(300737)
制造设备:晶盛机电(300316)、长川科技(300604)
5G网络催化剂频频(光纤光缆板块——传输设备板块——无线板块)
光纤光缆板块:亨通光电(600487)、中天科技(600522)
传输设备板块:烽火通信(600498)、光迅科技(002281)
无线板块:信维通信(300136)
2017年为光伏元年,明后年行业高增长确定
单晶硅龙头:隆基股份(601012)
多晶硅龙头:通威股份(600438)
户用分布式龙头:正泰电器(601877)
分布式运营龙头:林洋能源(601222)
(以上分析仅供参考,不构成操作建议。如自行操作,注意仓位控制和风险自负。)