Web 类别下的文章

Google Adsense 在前不久推出了一个新功能:在自己的网站中显示搜索结果。这样在用户进行搜索的时候就不会转跳到站外的页面了。对投放 Adsense 的站点来说,是一个很好的功能。用这个功能几乎可以替代 MT 的站内搜索了(MT 的搜索实在是消耗资源)。

我尝试在站点上把这个功能启用。参见单篇归档下面的"类似主题搜索"栏目。如果在当前页面显示,有一个小技巧,把代码中的 action 目标参数换成如下 MT 的标记:

<$MTEntryPermalink$> 

这样搜索结果就会在当前的页面上显示了。但是有个非常非常不爽的问题,搜索结果的最下方会出现大面积的空白。我不确定这是不是 Google 修复上一个 关于页面高度的 Bug 后带来的新问题。

那位知道,请通知我一下,多谢!

Updated: 与 Tinyfool 交流了一下,他也认为是 Google 修复 Bug 带来的新问题。我给 Google 去了邮件,期待能够得到回复.

Updated 2: Google Adsense 小组回信:

首先,我们发现您的AFS修改了我们的代码,请注意,计划政策禁止发布商修改广告或搜索代码。

另外,我们的 AdSense for Search 代码利用 HTML FORM 提交搜索查询。为了使 AdSense for Search 代码正常运行,请不要将其嵌套进网页的另一组 < FORM> 标记中。如果您希望在自己的网页中执行 AdSense for Search 功能,请将其粘贴到网页中所有现有 <FORM> 标记之外的部分。


晕,赶紧按照人家说的作罢

--EOF--

一直误以为 Google 的 URL 地址是大小写不敏感的。偶然间发现:

https://www.google.com/adsense (可以访问)
https://www.google.com/adSense (http 404 错误)

看来不是。继续测试一下其他地址:

http://www.google.com/intl/zh-CN/options/ (可以访问, 中文)
http://www.google.com/intl/zh-cn/options/ (可以访问, 英文)
http://www.google.com/intl/ZH-CN/options/ (可以访问, 英文)
http://www.google.com/iNtl/zh-CN/options/ (不可访问, 404 错误)

Apache 的 mod_speling 如果启用的话,并且 httpd.conf 文件 配置了

CheckSpelling on 
的话,Apache 则大小写不敏感。但这样性能会很差。

也或许,Google 这样做就是为了追求更好的性能而没有使用类似的模块(Google 当然没那么简单)或者其他处理,毕竟 Google 整个站点的入口页面并不是那么多。

Updated: 雅虎的站内地址几乎都是大小写不敏感的. 下面两个地址等价:
http://sports.yahoo.com/MLB/scoreboard
http://sports.yahoo.com/mlb/scoreboard

Yapache 还是有技术含量地。

--EOF--

Google 9 岁了

看到有人在问今天是什么节日,怎么 Google.cn 的首页 Logo 换掉了?

到 Google 上看了一下,原来 Google 都过第八个生日了,用咱们的说法,9 岁了, 生日快乐, Google!

Google 9 岁了

--EOF--

Updated: 看到GOogle 黑板报也发了一则庆生的网志,并暗示蜡烛的个数是个 Bug.

Feedburner 的统计中可以看到,大约有 100 个朋友使用 GreatNews 订阅本 Blog,这个数字很久没有发生太大变化了。这可能是因为 GreatNews 的一个 Bug 造成的。

GreatNews 目前正式发布的版本是 1.0 Beta (Build 370)。这个版本订阅 FeedBurner 烧录的 RSS 有一个比较恼人的问题: 点击单篇 Blog 的 链接,总会提示你:

链接可能是个新闻频道,要尝试订阅吗?

根据 GreatNews 官方论坛上对该问题的解释,最好升级到 Build 371 (或者更高)。在 Build 371 的 ChangeLog 可以看到:

-Fixed: GreatNews treats FeedBurner modified article urls as rss feeds

不知道为什么官方站点不正式放出来新的版本。

现在论坛上已经看到 1.0 Build 373 发布了。推荐下载使用这个版本。

1.0 Build 373 地址

GreatNews 是我首选的 RSS 阅读工具,可能也是目前最好的桌面客户端 RSS 工具。我向大家推荐它。

--EOF--

Blog 剽窃是我最反感的事情

剽窃者
剽窃者
Originally uploaded by Fenng.

写Blog 本来是挺美好的一事儿。可每次看到那些剽窃我 Blog 内容的时候都感觉很恶心。这是我最反感的事情。

我以前写过《这些大网站都用什么操作系统与Web 服务器?》,偶然搜索一下,很多所谓的“博客”,直接一字不差的贴在自己的“博客”上(见图),继续搜索一下,会发现非常多类似的帖子被别人冒名顶替,就是不标记出处。这不是剽窃是什么? 我的 Blog 版权不够明显么?

我为什么火大? 这和老罗反感新东方的有些无耻年轻老师抄袭老教师不但抄袭老教师的讲课内容还把老教师讲述的人生经历也套在自己身上一样。造成的后果是学生认为老教师在抄袭那个无耻的年轻教师。看看那些"博客",一个字不改,就好比有个人模仿你的一言一行去博取别人的好感,能不恶心么?

虽然我说过《转载技术文章是对互联网的一种伤害》,现在也只能把标准继续降低:转贴我的 Blog 内容无所谓,必须注明出处。否则我向这类人比出中指!

借《疯狂的石头》的道哥之口送这类人一句话:素质,注意素质!

Yapache-Yahoo! Apache 的秘密

作为世界上 NO.1 的 Web 站点,Yahoo!Web 服务器定有独到之处. 这也应该是很多 Web 技术人员关心的一个问题。

前一段时间, Yahoo! 架构软件组的技术经理 Michael J. Radwin 在 OSCON 2006 上作了一个题目为 Hacking Apache HTTP Server at Yahoo! 的报告,透露了很多关于 Yahoo! Apache 的技术信息。

Yahoo! Apache = Yapache , 这是雅虎内部使用的名字吧。发音是(why·apache)(注:根据下面的留言,读音应为[ya`pache])。 YApache 是基于 Apache 1.3 进行 hack 的,目前在向 Apache 2.2 迁移(Prefork Multi-Processing Module ?)。 Michael 介绍说构建 YApache 的原因有三个:

1) 安全性;
2) 节省带宽;
3) NETSCAPE GUIDE BY YAHOO--这是 97 年的时候 Yahoo! 与 Netscape 联合推出的 一个互联网信息与导航服务,需要用到富媒体内容,当时的 Apache 对这样的内容支持较弱,所以雅虎不得不动手改造 Apache (要知道97 年的时候 Netscape 就好比现在的 Google 啊)。据说这才是主要原因。

Apache 1.3 的功能对雅虎来说已经够用 (在 98 年对 yapache 添加了 gzip 的支持),所以这个版本一致用到现在。YApache 的一个倾向性的原则是用进程而不用线程,相对比较保守,不过这样选择的原因也是很明显的:进程更加稳定,线程对与程序员来说,更容易引入新的问题。

接下来 PPT 描述了一些关于 LOG 格式的内容,继续看下去,我感兴趣的是关于配置参数 StartServers / MaxSpareServers / MinSpareServers / MaxClients 的问题。很多 Web 技术人员往往要在这个地方反复推敲。YApache 一般只设置 MaxClients,这个值一般小于 100, 对于 99% 的站点是足够用了。尽量让系统(Yahoo! BSD) Kernel 来处理 Buffer, 在这个地方关于 几个 kernel 参数的设置很有讲究。

关于SSL 的部分我不太感兴趣,倒是最后的 ysar (Yahoo! sar) 看起来是一个有趣的工具.

这样的定制对于 Yahoo! 这样需要大量 Web 服务器的站点来说(现在平均每天接近 40 亿 的 PV),得到的收益无疑是巨大的。对于规模相对较小的 Web 2.0 站点,类似 LightTPD 这样的轻量级 Web 服务器更为适合(比如豆瓣):

$ curl -I www.douban.com
HTTP/1.1 200 OK
Connection: close
Status: 200 OK
Content-Length: 13213
Content-Type: text/html; charset=utf-8
Set-Cookie: dbcl2="MPmAySb0OYE::"; path=/; domain=douban.com; \
expires=Thu, 01-Jan-2009 00:00:00 GMT
Date: Fri, 22 Sep 2006 12:34:16 GMT
Expires: -1
Server: lighttpd/1.4.11

(那些盯着豆瓣页面看的模仿者,很少有人留心豆瓣的运维技术吧)

在线查看这个PPT: Hacking Apache HTTP Server at Yahoo! (PDF Version) (其实这个文档和 05 年的内容基本上是一致的)。

今天雅虎中国开始了"搜虫大行动", 其中一个目的就是为了对付 SPAM,说起 SPAM ,估计很多 Blogger 都恨的牙根痒。

最近我把Blog 的验证字插件 Scode 关掉了。一个原因是为了方便留言的读者,另一个原因是为了减少压力。反正用 Scode 的时候 Spam 留言是狂多的,对 Spam 机器人来说, Scode 验证字没什么用,直接找到留言的脚本发过来信息就成了,这些垃圾留言在后台一样需要手工清理。"死猪不怕开水烫"。

没有想到,我把 Scode 关掉之后,Spam 留言反而少了很多,怪哉。不过有了新变化:HTTP HERD REFER SPAM 多了起来。这一类的 SPAM 的目的就是为了通过 AWstats 的统计结果页面的 Refer 来提高自己页面的 PageRank, 我的 AWstats 统计入口登陆是需要验证的,坚决不让他们得逞。

中外 SPAM 的异同
总体来讲,国内的 SPAM 基本上还属于手工作业的阶段(虽然偶尔也会看到 SPAM 机器人). 而国外的 SPAM 机器人就灵活许多了,很多 SPAM 能够识别我改名后的 mt-comment.cgi 脚本,虽然不需要啥高深的技术含量,但起码能看到人家在改进。国外的 SPAM 机器人试图宣传的站点基本上都是与"赌博,色情"沾边。URL 都是巨长的那种。留言内容的形式风格都很相似,第一句话都是称赞你的 Blog 的,"Great Site", "Good Blog", 套套近乎,接下来就是大堆的垃圾信息了.

不知道这些专门开发 SPAM 的家伙都来自哪个国家,但肯定来自中国的非常少,所以说该给咱们的 "chongqed" 摘帽了吧? 现在中国天才们都集中精神研究流氓软件呢,那有时间搞 SPAM 啊。

现在使用的抵挡 Spam 的办法罗列一下:

*) 使用 Movable Type 的 插件 nofollow ;
*) 重命名 mt-comment.cgi 脚本 ;
*) 修改 AWstats 的脚本 awstats.pl, 把 HEAD 过滤条件($field[$pos_method] eq 'HEAD')去掉.

Trackback 的 SPAM 不用担心了--我已经关闭了 Trackback 的 Ping.

现在比较烦的另一个问题是经常有人在我的站点上找一些"dvbbs7.mdb","s8qq.txt","s8dvbbs6.mdb" 或者类似的文件,估计是用一些"黑客"工具在扫描有漏洞的论坛程序,我通过 URL rewrite 制定了几个规则。谁有其他什么好办法么?

--EOF--

我订阅了几百个 Feed,即使这样,也经常去一些 Blogger 的站点逛逛. 从个人的感受出发,说说一些关于 Blog 站点设计的几个不好的习惯。

1) 在 Blog 页面上设置背景音乐. 这是会令人非常反感的一个 Blog "功能". 很多时候这个音乐是冷不丁的响起来,吓人一跳(比如这个 百度掌门的空间). 如果是在夜里或者是办公环境,别提有多糟糕了。牛博网最近就在用户须知第六项条款说明"严禁用户在博客内设置歌曲或其他声音文件的自动播放", 我是举双手赞同的. MSN Space/Live Space 或许是始作俑者(即使不是也有很大的责任: MSN 提供一个模块并鼓励用户这样设置),国内那些模仿 MSN Space 的 BSP 也把这一招原封不动的搬来。

2) 保护过度的图片盗链接. 通过 Apache 中简单的设置可以保护图片盗链接. 这一点本来倒也无可厚非. 可是如果读者是通过 FeedBurner 等服务读取内容的话,看到的都是一些禁止盗链的图示。感觉就不那么舒服。我个人建议,如果怕盗链接,完全可以把图片放到 Flickr/Yupoo 等站点上么。

3) 使用站外的 API/Script 等要注意"内容的可靠性" 有一天在一个朋友的 Blog 首页上看到一个链接 "我成功的秘密" , 红红的字体看起来很醒目,点击过去却链接到 HP 站点...我这才醒过味来原来不过是个广告,那个位置如果正常显示的话是 Donews Inout 交换链接的脚本输出,却临时被混水摸鱼变成了广告。

4) 图片显示不正常: 拉伸. 自己的个人照片显示居然是不是按比例的--图片显示的不是把脑袋压扁了,就是把脸拉的好长。难道 Blogger 自己每天看着就不难受么?

当然,这也都是我个人的感受。就好比第一条,或许有的人就喜欢自己每次访问听着背景音乐也说不定;也或许有人会问我:你的 Blog 上访问过的链接为什么不变个颜色呢? 这不也是一个不良设计习惯么 ?

--EOF--

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

关于归档

本页包含 Web 类别下的所有文章.

上一类别为 Tech.Memo.

回到 首页 查看最近发表的文章或者查看所有 归档文章.