March 2010 Archives

PC 服务器的 RAS 能力

| 11 Comments

曾经被问过很多次这样的问题:PC 服务器的可靠性到底是怎样的? 能否给出一个可用率数值?

这问题说来话长,而且也算不上是什么好问题,当然这里面有非常值得琢磨的地方,那就是 PC 服务器的 RAS 能力到底如何? 只有弄清楚这一点,才会明白在 PC 服务器计算能力已经如此强大的今天,为什么昂贵的小型机依然有市场。在服务器选型的时候才不会拍脑袋做决策。

我们说到 RAS ,也就是 Reliability 、Availability 以及 Serviceability,实际上很多人会认为前两者是一回事,至少提问的时候可能同时说的是这两者。对于多数 PC 服务器厂商来说,宣传页面上也只会写 Availability 的一些指标,对另外两点则选择性的回避? 为什么? 因为做不到高端服务器的 RAS 能力,而 RAS 能力实际上是需要成本的(硬件冗余成本、专有技术的成本),但这个问题似乎是很多用户选型的时候忽略的一点,很多人更愿意看重性能、性价比之类的指标,当然这也没错。

现在 PC 服务器宣称的卖点主要集中在内存上,比如内存的 ECC 特性(最基本的),Spare Row、ChipKill、Single Device Data Correction (SDDC)等,其中 ChipKill 是 IBM 的专利技术,主要用在高端服务器上。根据 Google 与一些机构的合作研究表明,内存错误率其实比想象中的要高(refer),这是个很有参考价值的信息。实际上,尽管有的 PC 服务器可能提供了很多内存相关的特性,但默认未必是激活的,这一点要注意。

高端设备的 RAS 能力比较,至少要看看 System 级别的 RAS 特性、CPU RAS 特性、内存 RAS 特性、I/O RAS 特性 等方面,如果有虚拟化的需求,还要关注一下 Application/Partition RAS 特性(refer)。这些都是卖点,当然,很少有销售人员懂得如何向用户宣传这一点。

即使是有了最好的设备,如果不能充分利用,其实也和普通 PC 服务器没啥区别。而对于绝大多数互联网应用来说,高端服务器也是高射炮打蚊子。

最后补充一点,充分利用带外管理能力是运维人员应该具备的基本意识。什么是"带外管理"请使用避难到香港的 Google 来搜索。

--EOF--

附:Dell PowerEdge 服务器激活内存 RAS 特性的指导文档

昨天出差回来,发现家里的宽带因为欠费被停了。浏览器提示页面说宽带服务已经到期,可以在线付费或者到营业厅缴费云云。

初探

印象中电信宽带在服务到期之前会提示,这次什么提示都没有,所以就拨 10000 号客服电话询问,拨通后等了很久,人工服务才接通,客服告知,因为到期转成包月的服务了,就不提示,而且已经欠费。如果续费的话,必须先付清欠费才能续下一年的年费。

考虑到自己也算是做互联网的,而且人家居然还提供在线付费的功能。那就尝试一下吧,也省得跑营业厅了,没想到这是噩梦的开始。点击在线充值,选择地区,输入自己的号码,这地方没有别的提示,我只好认为就是我的宽带账户,填好,然后跳到新的页面,首选是工行网银,因为自己只有招行的网银,所以点击"其它网银/百事通卡支付",弹出页面提示:

不支持的产品类型:99,请确认你输入的号码(包括地区)

这个提示我猜测了半天没明白到底要说什么,只好重新回到开始的页面,反复数次,还是如此,难道是浏览器的问题?换成 IE,我用的是 IE8,依然是这样的错误。莫非是 IE6 才能兼容? 我特地下载了一个 IETester,折腾了一下还是不行。

再探

又拨了一次 10000 号,这次等了六分钟终于接通了,我假装成不懂网络的用户,客服一步一步教我怎么做。首先要登录到网上营业厅(不登录还没有用? 我心里暗想,果然刚才没这么做,笨啊),然后选择"我要支付",然后选择地区,再选择号码。我在这里问,这个号码到底要我输入什么号码? 客服告诉我,就是你宽带帐户的号码。可是我刚才用了很多次也不行啊。客服又改口,不对,应该是你绑定的座机电话的号码,我当时晕倒。心想,这次估计不会出问题了。遂挂断电话,继续折腾。

这次果然,用我家绑定的座机的号码--这个宽带办理的时候是和家里的电话一起办的套餐。终于提示选择使用哪家银行了,好,用招行,发现无法登录,莫非是网络不通? 没办法,只好把自己的无线网卡插上,续费,完毕(后来证实服务停掉也是可以使用指定网银的)。

然后回到网上营业厅首页,一刷新,账户欠费为0了,去办理"宽带续费"。提示"如果你未办理宽带续包业务,请先点击业务办理","如果你已经完成业务办理,则请选择在线支付"。点击"立即办理",出现"中国电信股份公司浙江分公司业务申请协议"页面,确认同意,然后选择定制套餐,选好,确认。然后? 发现不能在线支付。而且发现似乎要等一个"受理结果"才可以。天啊,这大半夜的,难道还要拨打 10000 号找客服? 这次倒好,不管怎么等,客服人工服务就是接不通。

沟通

这时候我已经忍无可忍了,在我的 Twitter微博 上各自发了数条信息声讨这这糟糕的网上营业厅,发现这事情很多朋友都有同感,大家都对电信营业厅的用户体验相当有怨言。

有点累,休息了一会儿回来继续折腾。重新登录到网上营业厅,一看,差点晕倒,刚才显示欠费 329.68 元,付费之后,现在显示欠费 322.95 元。这到底怎么回事呢? 莫名其妙。想了半天,或许是因为内部数据同步问题吧(后来有该项目的承包商公司的人回复说:真正的原因是:实际欠费322.95,欠利息 6.73元,合计329.68。当你付款进入系统时,先扣利息,再扣欠费,有两次余额。天啦,这样的解释给用户意义在哪里? 即使是内部人员也未必有多少人理解是怎么回事吧?)。我在 Twitter 上的抱怨有朋友看到,给我发消息告诉我这是因为"百事通平台和CRM对接兼容导致",预计要等到 4 月份会解决。我最关心的还是怎么能最快开通我的宽带,这位朋友说看看能否直接帮我处理一下。过了一会儿,一个网上营业厅的小伙子用自己的电话打过来,和我说了半天,最后告诉我,要等10000号处理了我的业务申请之后,才能生成一个工单,有了这个工单,我才能缴费。正常时间要 1-2 个工作日,他明天会帮我催。

新浪围脖上有人告诉我中国电信客户服务部总监张女士也在,直接发了条私信过去,接着通过私信沟通了一下,张女士也相当的坦诚,"服务方面要改进的很多。包括网厅的优化、宽带续费问题等等",最后我留了电话愿意提供进一步的反馈。

这时我在微博质疑 10000 号到底是怎么回事,为什么到了晚上拨打不进去? 到底有没有人值班? 过了一会儿,张女士给我打来电话,说是可以拨进去的,要我再试试。本来想休息去了,既然这样,我就再测试一次,再拨,过了7分钟,依然告诉我"人工繁忙,继续等待请按2"...

看了一会儿Twitter和新浪围脖上网上网友的评论和反馈,不乏精辟论断,比如"要是有他们推广业务的那个劲头,这种事就会少很多"。也通过反馈信息进一步了解了电信网上营业厅现状的由来。只是,网厅的确有很多地方要改进才是。

结局

今天早晨,还在睡梦中的我接到 10000 号客服电话,直接给了我一个 18 位的工单号,终于付款成功了。过了 10分钟,路由器重新拨号,宽带恢复。

今天晚上九点半,接到浙江电信 10000 号客服经理的电话,向我表达了歉意,我对昨天的使用感受做了反馈,当然是不怎么留情面的批评了一下垃圾的网站功能。

后记

这次的事情,反映出来的中国电信内部信息各个子系统环节衔接的混乱令人发指,网站基本谈不上什么用户体验,当然网友也告诉我,这还不算是最差的。就事论事,一系列的接触的过程中,电信人的态度都还是不错的,对待批评倒是有则改之(只是不知道这样的声音是否能传递给公司管理层)。此外,能够通过微博听取反馈相当令人赞赏

有些地方,可能仅仅是一行文字就可以描述的更加准确,为什么就不从使用者的角度考虑一下呢? 用户体验,不需要高深的东西,只需要常识就够了。

Twitter 、新浪微博发挥了起到了很重要的传播和反馈作用,进而促进平等对话

如果有其他的选择的话,我当然不想用现在任何一家宽带公司的服务,但是,没得选择,所以我们只好忍受莫名其妙的提价,只好忍受 DNS 劫持... 不过,既然我是你的用户,"你不给我一个说法,我就给你一个说法",作为用户,我们理应对服务提供商提出一些最基本的要求。这就是我这次较劲的目的。

--EOF--

后记:今天和电信的有关人员做了进一步沟通,得知电信内部对此类事件也比较重视,当然,类似电信这样的企业全面转向互联网思维可能也需要时间。期待未来的服务能更好一点吧。

杭州五年

| 33 Comments

今天到医院拔掉了一颗让我困扰已久的智齿,现在还有点迷迷糊糊的发烧。整个过程比我想象的顺利得多,一下子如释重负的感觉。有朋友说,拔牙会影响记忆力,如果真是这样,那现在应该多写一些东西,以便在遗忘后还能让我回忆起往事。

时间真的是快,2005 年的今天,我来杭工作。那时候牙齿应该都还好好的,最起码第一年体检的时候没什么毛病,经过五年的爬摸滚打,没想到事业不立,这追随我的牙齿兄弟就已经开始掉队了。我要把我的牙扔到楼下去(这是我们老家的风俗,上牙往下扔),老婆对我说,你以为还能象小孩子那样再长出来一颗啊? 是啊,我再不可能长"智慧"了啊。

我以前从没想过会在这个城市生活这么久,杭州"离天堂太近",仍旧无法让我喜欢。这城市不停的有人来,不停的有人走。最近就有一个朋友要离开杭州去创业了,,不知道什么时候开始,"创业"这个词对年轻人有挥之不去的吸引力,我认识的一些朋友,不在创业,就是在准备去创业的路上。可看看这整个商业环境,还是挺令人寒心的。不过,千军万马,总有人杀出血路。

再过几天,我在阿里巴巴集团旗下支付宝的工作就满五周年了。在阿里巴巴,五年陈员工,会有一枚定制的戒指。五年,就这样告一段落。或许,我该记录一下过去的那些痛并快乐的日子作为纪念.....

--EOF--

2010. 11.16 拔掉了另外一颗。

暂缓迷恋 Cassandra

| 12 Comments

最近 Twitter 和 Digg 的技术团队都放出话来说要从 Mysql + Memcached 的组合迁移到 Cassandra 环境(Refer 12),这些消息又会让不少人跃跃欲试,恨不得也把自家网站迁移到 Cassandra 下面过把瘾,我相信有些公司的团队又要言必称 Cassandra 了。

Twitter 和 Digg 对数据存储引擎的需求相当独特:写操作密集,基本无修改需求,读操作则多数是分散多次读取汇总展示(想象一下你 Twitter页面上同时显示好友们的 Tweet 内容)。对 MySQL 来说,Sharding 后几乎是被当作简单的存储引擎来用的,即使是加上 Memcached ,对数据读取开销相当大(Refer),因为这时候即使是最合理用索引,I/O开销也不是最优的--走的是索引范围扫描嘛。Cassandra 则相当于预存了计算结果,这要得益于其 Flexible schema 特性,按照既定规则写入,读取直接取预排序的范围键值结果(这其实是偏 OLAP 的应用,而非 OLTP)。

Twitter 和 Digg 这两家网站的数据结构其实并不复杂,尤其是 Twitter ,相当的简约(当然并不简单)。或许有人说,把 Cassandra 开源的 Facebook 不也在用呢吗 ? Facebook 数据结构不复杂么?没错,Facebook 数据结构很复杂,不过使用 Cassandra 的场景其实和 Twitter / Digg 几乎一致的---只是用在 inbox 这个地方的数据处理而已。

不要迷恋 Cassandra ,如果应用场景不合适,那么对你来说永远都只是个传说。。

--EOF--

关于这篇归档

This page is an archive of entries from March 2010 listed from newest to oldest.

February 2010 is the previous archive.

April 2010 is the next archive.

Find recent content on the main index or look in the archives to find all content.