| Twitter | Del.icio.us | Comments (17) | | Edit

Comments Powered by Disqus

留言评论 | Comments (17)

靠,写完了提交丢失了。。。
服务器少的话就别买短信猫了,直接139.com的邮件到达提醒,免费的
服务器多的话短信条数记得多买点,每天下午下班前一条test短信测试正常,免得服务都瘫痪了运维人员还乐得清闲

某些软件的报警还有响铃

一直在用Nagios+cacti
其他的几个也看过不过都没有用过~

来发个消息。看Fenng的帖子好久了,这个系列对我们来说都相当实用,谢谢Fenng。

cacti的展现和配置要比nagios好
opennms的资产模块和事件处理记录个人觉得也很有意义
个人还是喜欢nagios的,很好很强大
我们公司就有些人喜欢自己发明轮子,这是人家的成绩,不过有些功能实现的方法实在很雷人

"每天下午下班前一条test短信测试正常,免得服务都瘫痪了运维人员还乐得清闲"

偶是每天早上 8:15 发一天test信息,不仅可以测试状态是否正常,还可以兼顾到叫早的效果,哈哈!

我们公司现在采用的是电话报警方式,插到tribox的数据库,由tribox的脚本拨打电话,Nagios灵活的插件机制让我们把UPS电源\主机\主机中的服务\网络设备统统纳入管理.Nagios真的很不错.

我觉得监控分为两类:
1. 基本的系统状态信息监控
2. 业务数据监控
对于业务数据监控我们还是喜欢自己操刀,这样比较方便,关键写起来也不难!

钱宏武老师正在创业一个项目,是用IM机器人和短信来做监控的。还不错。

hi, feng, 你好.
我经常看你的blog, 很厉害, 关于运维管理我感觉分几层, 特别对于bulk的linux环境.
1. syslog 原理, 专用的SYSLOG设备, 如loglogic appliance
2. snmp 原理, 网管系统, 如nagios, ...
3. 操作审计, 如palladium appliance
4. 数据库审计, 如palladium database appliance
我很想同你聊聊...
msn [email protected]
skype zhcharlie

对我有用,谢谢!

俺把你的帖子收了,另外监控这一块如果能抓几副支付宝在用的图就更有说服力了
http://blog.chinaunix.net/u/1110/showart_1672904.html

@jacky

同行 :)

在支付宝的截图不能拿出来的。图嘛,基本上都类似啦

hi fenng:
最近拜读你的《网站运维之道》系列文章,收获甚大。现在我有一事请教,还望不吝赐教。
我有一网站,现在一台服务器A。为避免单点增加了B,我想保持我的服务的高度可用性,在A出现问题时能够立马切换到B。但是切换DNS不可能即时生效,不知在这方面有没有什么好的解决方案。

那这么做的前提是Load Balancer100%可用啊,万一LB挂了,不久全挂了?
LB也要避免单点啊,这样还是没有完全解决问题。看来切换DNS记录要尽量避免,想办法更改机器的ip地址才可能是解决之道,但是一般去IDC租主机,不能很方便的更改ip地址,问题还是在...