民生银行的系统事故

| 18 Comments

虽说年底是 IT 事故多发的期间,不过这次民生银行系统瘫痪事故还是让人觉得有点严重。事发 2 月 3 号,从上午11:00到下午15:30,故障持续四个多小时,全行系统瘫痪。对外称是"核心系统维护"。

个人之所以比较关注这个事故,是因为新闻标题中的"数据库维护失误"。据说是"由于数据系统进行维护时出现了失误,造成宕机"。开始的时候,大家把关注的焦点放到灾备切换与否的问题上,据说是"没敢切换"。初看上去倒是有点像 DBA 误操作。有人说是和时间服务器有关,我错过了讨论现场。

也有朋友在 Twitter 上说:民生银行上周的系统宕机事故,源于IT部门某应用系统数据库(应该是 DB2 Informix,数据库版本老旧,且无正常维护服务),一个应该在夜间处理的长任务,运行到银行开门也未结束,该系统正常时的CPU使用率就已经到达70-80%,长任务从夜里一直跑到上午无法停止,把本来就不堪重负的业务系统拖慢到不能忍受,由于数据库版本 EOS (End of Service) ,无厂商实验室的工具支持无奈之下,要求重启相关系统,结果造成业务停止。事件的(后续)处理还在进行中。(via)

上述说法看起来比较可信,也足以解释为什么不切换到灾备上。如果因为计算能力的不足 (或是系统性能问题) 的话即使是切换也无济于事的。民生的旧系统是 SAP 核心,实施方是埃森哲(refer)。不过,"民生银行打造的新核心系统已经开发完毕,目前处于内部运用的阶段,今年上半年将会在全公司上线",估计到时候能稳定点?

另外看到有网友说,2008 年初,民生银行的的小额支付系统也出过严重问题,由于操作失误或是程序内部控制原因,造成了几百万的重帐。

涉及到钱的问题总是让人如履薄冰。根据我个人亲身经历过的一些事情来看,事故发生后,更多的时间都会花在决策上,而一旦选择错误或者不是做出最优的决定,灾难才刚刚开始。

--EOF--

有朋友后续补充到:2010 年 2 月 12 日上午 10:25,民生银行的信用卡网银不可用,返回 HTTP 500 服务器内部错误,网站上并没有相关的维护计划,咨询客服,说是系统维护升级。整个民生的 eBank.cmbc.com.cn 都是无法登陆的状态,看来"维护升级"的不只是信用卡网银,自2月3日以来,不到10天又发生状况。

18 Comments

民生的网银的确很慢
同时用招商的和民生的网银,都感觉民生的慢好多
有的时候还会出现莫名奇妙的错误

事故发生后,更多的时间都会花在决策上,而一旦选择错误或者不是做出最优的决定,灾难才刚刚开始。
赞同,我们搞证券的也最怕出事故。

请问下,您文里说的“数据库EOS”是指?

Informix,呵呵!

"长任务从夜里一直跑到上午无法停止"
难道kill进程,结果长事务回滚了?


dayday -> update statistics

民生银行的系统看来不咋地,我也亲眼看到过一次因为系统问题造成的错误。

银行业不切灾备这是行业惯例。

看来民生银行还是不行啊.

我一直蛮喜欢浦东发展银行的,

不知道这家银行技术实力怎么样?

银行也出这种问题

夜间batch一直运行到中午这种事情似乎已经发生了不止一次。去年元旦,日本乐天的证券交易系统夜间batch也发生这种状况。同样是在日本,新干线的调度系统在去年新年假期运输高峰期也瘫痪将近1天。人们似乎已经失去了对大型软件系统的控制能力,而IT行业的各种怪现状也是这种惨祸的直接原因。外行领导的开发体制,不负责任的外包公司,失去支持的商业软件,凡此种种都是灾难。

一直感觉工商银行的网银系统使用比较方便

民生新的核心业务系统是基于SAP的,还没上线呢

为什么“银行业不切灾备”?

不是民生银行有大名鼎鼎的牛新庄博士在那里坐阵吗,怎么会出问题?

是不是搞错了

看来你对金融系统的数据库和运作方式也挺熟悉嘛,国内银行系统最NB的还是工行,有一次海底光缆断了几根,虽然速度受影响,但是依然不会出错。
所以说,小银行不出错还好,出错再后悔怎么选择了它就麻烦了。
大机不行,清算能力有限,这也是国内除了工行,中行的信用卡还款日是固定的一天,其他信用卡还款日都是错开的原因,同时清算服务器受不了,哈哈。

浦发的系统其实是花旗银行的,当然好一些。

怎么银行系统也会发生这种情况