消除小型 Web 站点单点故障(Single Point of Failure)

| 19 Comments
针对小型站点的技术普及信息,中大型网站的牛人不用看,耽误您的时间我负不起这责任。
用 Windows 做网站的也别看了,不适合。

说起单点故障(Single Point of Failure,SPOF),倒是可以想起电影 《2012》中,一把焊枪把齿轮卡住,从而导致整个舱门无法关闭,进而整个引擎无法发动。这是个有点生动的例子--如此庞大的一个系统,居然因为一把小小的焊枪而险些毁于一旦。投入巨大人力物力生产的救命方舟居然做不到高可用(High availability),这是致命的事情。

大脑对与人来说,就是一个单点,大脑损坏,人也完蛋;手是不是单点? 一只没了,另一只还能日常生活,从这个角度来说,不是单点。消除单点的最常见的做法:增加冗余。比如,人有两只手。其次,层次化。当然,分层的目的是便于隔离问题。电影 《2012》 中的这个问题,不知道谁是总架构师,看起来,隔离做得不太够 :)

一般来说,只要系统能够比较清楚的分出层次来,要消除单点故障还是有章可循的事情。比如,一个网站,从基础的硬件层,到操作系统层,到数据库层,到应用程序层,再到网络层,都有可能产生单点故障。如果要有效的消除单点故障,最重要的一点是设计的时候要尽量避免引入单点,而随着架构的变化,定期审查系统潜在单点也是有必要的。

有人或许会问,假设一个起步中的站点,只有一台服务器,什么东西都在一个盒子里,到底要怎么做呢? 这里的建议是先抛开主板、CPU 、内存这些,首先必须考虑硬盘(存储层)的问题,如果机器只有一块硬盘,即使你备份计划再完善(不要说你的备份也是备份在这块硬盘上的),还是建议你起码再弄一块。做镜像,让出错的概率降低,这是划算的投入,当然消除单点,成本几乎不可避免的要增加。如果硬盘多,或者有其他备份机制,可选的方法就更多,别刻舟求剑。

第二个要考虑网卡与网线的单点问题。先说网线,如果要问一个系统里面最容易物理损坏的是哪个组件,答案恐怕非网线莫属,对于网线这样多数时候因为距离需要定制的东西,总是购买成品还是有成本的,从我观察到的情况来看,各个 IDC 的网线使用手工制作的比例不小,这个质量几乎很难控制,一根线,两个水晶头,哪一个出问题都不能正常传输。怎么办? 想办法提升网线整体质量还是弄两根网线放在那里? 解决办法早都有了,网卡绑定 (NIC bonding)一个很简单很通用的办法(refer),但是问题是并非很多人在用。多数 PC 服务器应该都是配置了多块网卡,如果是自己攒服务器,记得网卡多一块成本没多大,但是用处会有很多。如果耐着性子看到这里,先别急着去 Google,还有问题呢,两根网线如何接到上行交换机,什么样的交换机支持绑定,如何确定绑定是真正生效的? 答案是,尝试一下。

然后是什么? 是跑多个数据库,还是跑两个 Web 服务器,一个不行用另一个顶? 对于单台服务器,其它能消除单点的地方恐怕收效也不会特别大,现在少做无用功,或许要重点考虑如何备份,如何优化,以及出现问题的时候如何做到快速恢复。有一个或许会引起争议的建议是,除了 SSH 登录之外,要不要留一个 Telnet 登录的服务呢? 毕竟 SSH 服务器端守护进程不是百分百靠谱的事儿,如果 IDC 距离较远,需要斟酌一下。好吧,网站有了一点发展,用户量也增加了,感觉需要增加服务器了。再增加一台服务器,抗风险能力一下子加强了许多,毕竟一台机器质量再好,也有出错的时候。现在,Web 服务器、DB 服务器可以考虑引入 HA 的方案,如果单台服务能力够,主备模式也不错。随着网站的发展,服务器数量继续增加...

随着服务器数量的增加,到了必须要自己购买网络设备的时候了。同样的设备,一买恐怕就要买双份,原因无它--一台总要出错,哪怕是电源被拔错--而这样的情况实际上并不少见。如果预算不够,那就再等等,但是要记住,定期审查,有可能的话,进行弥补总不会错。

到现在,所有的服务器都还在一个 IDC 呢,IDC 本身也是个单点啊,服务器被黑怎么办? 机房光线被施工工人挖断怎么办? 机房停电怎么办? 找第二个机房吧。现在选 IDC 首先要考虑什么? 中国特色的互联网问题总要考虑吧,"南北互通"怎么样...或许在选择第一个机房的时候已经遇到了类似的问题,或许现在正在受到这个问题的困扰。选好 IDC 之后,首先计划一下数据如何备份过来,然后,网站的配置信息如何同步或备份过来(这是保证第一个 IDC 出了致命问题之后的最基本的恢复要求)。多个 IDC 之后不得不提上议程的要算 DNS 这个事儿了。你的 DNS 解析商靠谱么? 如果域名提供商遭受攻击,对自己的网站影响能承受么?

更多的服务器,提供更多的应用,更多的用户,更多的收入... 接下来该怎么办呢? 现在,您所面对的已经不是一个小型 Web 站点了,可以不用看这篇文章了。

到现在,我还没说人的问题,如果这些信息只有一个人知道,万一这个人出了点事情怎么办? 作为老板,还要考虑人的单点问题。

--EOF--

Updated: DNS 的健康程度检查重要性应该提升一些。如何检查?有很多在线的工具可供使用,简单直接。

19 Comments

谴责严重剧透的行为~~

难得在这里看到比较水的文章。继续支持继续关注……

莫非是代笔??!!
与过往的文章差距非常大。继续关注~~

可否再说说使用 VPS 或购买云服务的情况呀,谢谢

自己就是IDC,也代人维护若干中小网站,对这篇看似入门的文章心有戚戚。
所谓入门的东西,看起来简单。任何一个网站要做到尽可能的高可用,在发展过程中几乎都是这样慢慢起来的。哪怕是有钱人上来就砸一笔钱,发展模式和路线基本也还是这样。虽说这些东西道理简单,可我还是觉得提一提很有必要。
大型网站看似遇不到这样的问题,那也是因为有可靠的人的管理和人的架构保障的。但也不能做到100%的可用吧。几乎任何问题,都可以在上面正文里找到时哪一步出现的。
其实希望以后多出现一些这样的文章,挺有用的。道理看起来简单,做起来——

哼哼。

非常喜欢这篇文章!除了对做网站有实际指导意义,另外还有哲学意义,可以当成一个寓言故事来看。

为什么用Windows做网站不适合看本文 :) 世界上最大的在线拍卖网站用的就是Windows服务器嘛,虽然本人也不喜欢Windows,但是不容忽视 :P

@wenhui 我也是这么想的, 或者说这也是管理学中的一个问题。

大道至简,国内这样的技术文章太少了。赞一个。。
能将复杂问题简单化讲解出来,还要让没有背景的人能理解,才是最能体现功底的。

可靠性越高,需要支付的成本越高,所得的收益越小,应该取付出与收益之间一个交叉点,才是最合算,这本身就是个很难评估的工作,有时候觉得就是马马虎虎,老天眷顾,RP好一点更靠谱。

用 Windows 做网站的也别看了,不适合。

看了这句话,真的想k你。 csdn,msdn不都是。net吗.
难道又是java或者php的?我也会java。我告诉你。net不是那么垃圾的。认为。net就是简单拖下控件,那只能说明你门都还没入,曾经用java的我就是这样认为。

test哥,咱是脑残吧?

他这不是脑残,是脑缺
这都哪跟哪啊

说到网线的问题,当初刚进公司的时候,曾经在机房一个一个得测试patch panel的联通性,实际证明还是自己用网线拉的好,配线架不太靠谱,出了问题都找不到的。

我也琢磨呢,一个舱门,差点让一船人都挂掉。

细节决定成败啊。

楼主的跳跃性思维很强哈

用人上确实也要避免单点故障。技术理论和人生哲学真的是共通的~