自动杀死Unix僵死的进程

【自动杀死Unix僵死的进程】
人保系统的计算机应用 , 已从单机运行方式过渡到以市公司为中心的集中处理方式 , 各县级支公司通过广域网 , 远程Telnet登录到市公司主机 。由于网络的原因 , 有些进程会突然僵死 , 导致消耗系统大量的资源 , 直接影响机器的正常运行 。当用户发现系统速度慢得无法忍受时 , 请求系统管理员解决 , 系统管理员要手工查找僵死的进程 , 一一杀之 。为了实时地、自动地杀死这些僵死的进程 , 本人编写了 Shell程序Autokill , 以下是Autokill程序脚本:

# autokill

ps -ef | awk ‘{ print $1,$2,$7,$8 }" |
awk ‘/[0-9][0-9]:[0-9][0-9]:[1-9][0-9]/ { print $1,$2,$3,$4 }" |
awk ‘!/root/ { print “kill -9 ” $2}" > /tmp/k_kill
chmod 777 /tmp/k_kill
/tmp/k_kill
现在对Autokill程序加以解释 。
首先 , 用Unix 命令 ps -ef 查看进程状态 , 通过管道传送给 AWK 进行处理 。
在第一个 AWK 中 , 获取进程的用户标识(UID)、进程号(PID)、进程占用CPU时间(Time)、进程执行命令(CMD)四个字段的值 。
在第二个AWK 中 , 通过模式匹配 , 选取所有匹配模式的行 。在AWK 中 , [0-9]匹配0~9中任一个数字 , [1-9]匹配1~9中任何一个数字 , 连用两个[0-9][0-9]则匹配一个任意两位数 , 因此[0-9][0-9]:[0-9][0-9]:[1-9][0-9]则匹配 Time 时间字段值 , 查找占用 CPU 时间超过 10 秒的进程 , 如果要查找占用 CPU 时间超过半小时的进程 , 则把模式改成 [0-9][0-9]:[3-9][0-9]:[0-9][0-9] 。
在第三个 AWK 中 , 用 “!/root/ ”过滤掉由 root用户生成的进程 , 并进行Shell语言拼装 , 将最终结果定向到文件 /tmp/k_kill 。在 /tmp/k_kill 文件中 , 都是形如 kill -9123 的Shell命令 。
在Autokill程序的最后 , 执行 /tmp/k_kill 杀死进程 。
Autokill程序采用了管道处理方式 , 如要查看中间结果 , 则可以依次断开管道 。
第一步执行:
ps -ef
第二步执行:
ps -ef | AWK ‘{ print $1,$2,$7,$8 }"
第三步执行:
ps -ef | AWK ‘{ print $1,$2,$7,$8 }" |
AWK ‘/[0-9][0-9]:[0-9][0-9]:[1-9][0-9]/ { print $1,$2,$3,$4 }"
第四步执行:
ps -ef | AWK ‘{ print $1,$2,$7,$8 }" |
AWK ‘/[0-9][0-9]:[0-9][0-9]:[1-9][0-9]/ { print $1,$2,$3,$4 }" |
AWK ‘!/root/ { print “kill -9 ” $2}" > /tmp/k_kill
最终查看 /tmp/k_kill 文件 。
再有 , 如只想自动杀死由某一用户执行的进程(如jdc3206) , 只要将模式“!/root/”改成 “/jdc3206/”即可;如只想杀死执行某一命令的进程(如 xinmu ),只要将模式“!/root/” 改成“/xinmu/”即可 。
最后用 crontab -e 增加一个 cron 作业 。
0,30  /tmp/autokill
经过以上步骤 , 系统每隔半小时执行一次/tmp/autokill 。但在Unix系统中 , 有些僵死的进程会莫名其妙地不能用 kill 命令杀死 , 这就需要重新引导机器 , 一方面清除系统垃圾 , 另一方面需要对资源重新分配 。采用中心运行模式 , 机器不能随意开关机 , 总要等到夜晚没有用户使用机器时 , 才能重新开关机 , 为了一次开关机 , 都要加班 。为此编写一个Shell程序 , 让机器自动开关机 。以下是Autoreboot 程序脚本 。

# autoreboot

PATH=/bin:/etc:/usr/bin:/tcb/bin:/usr/informix/bin
INFORMIXDIR=/usr/informix
INFORMIXSERVER=da3206a
ONCONFIG=onconfig.yca
export PATH INFORMIXDIR INFORMIXSERVER ONCONFIG
onmode -ky
sync
sync
reboot
Autoreboot程序前 5 行 , 是设置Informix系统环境,命令onmode -ky是关闭Informix Online数据库,命令sync是Unix 文件系统超级块回写,命令 reboot 是Unix系统中的系统重新启动命令 。

推荐阅读