Web 类别下的文章

Web Clickstream 分析

点击流(用户访问路径分析) 似乎是互联网站必须要做的一件事情(我是 UE 门外汉)。如何从千差万别的用户访问行为发现共性,是个很有趣的可研究的东西。不知道这个地方是属于 BI 的活儿还是属于 UE 的(我是门外汉,只是对这个话题好奇罢了)。

类似的话题其实以前车东写过,几年过去了,用于进行 ClickStream 分析的开源工具真的不是很多(这或许也反应了业界对其需求吧)。常见的有 StatVizPathalizer ,还有 Visitors

辅助工具有 ZGRViewerGraphviz等。

php statviz.php --config dbanotes.conf 
dot -Gsize="4096" -Tpdf -o mysite_clickstream.pdf "pairs.dot"

第二行即为 Graphviz 在 Unix 下的基本使用。Ubuntu 系统上可以直接用 apt-get 安装 Graphviz 。

对于 StatViz 的聚合分析模式,觉得对站点分析价值不大。倒是 Individual Session Tracks (现在很多公司可能都自己开发类似的模块了)这个功能值得搞一下,可惜很多人都是集中于前者。对于中大型的站点,可以选择少数服务器激活 mod_usertrack ,收集有代表性的数据进行下一步分析。

Clickstream 这玩意儿是不是必须的? 前一段时间看云风的回忆,对"引擎加入录象" 这个细节印象很深刻。一个很复杂的系统如果缺乏缺陷捕捉能力,那么无疑不是很完美的系统。对于复杂得如迷宫一样的互联网站点,其实也是这样,你知道你的用户怎么访问自己的站点么?

--EOF--

根据 Session ID 跟踪输出的一份样例图:

ClickStream 样例

最近 PHP-FPM (PHP FastCGI Process Manager) 这个话题在讨论组里很受关注。使用 PHP 的朋友对于 FastCGI 进程的管理估计都很头疼,比如 Nginx 下的 FastCGI 就有不少人用的 Lighttpd 的 spawn-fcgi 来对进程进行管理。但这样存在不少缺点(中文版本)。

PHP-FPM 配置起来很简单,但有一点比较有意思的是如何确定 Worker 的数量。PHP-FPM 作者 Andrei Nigmatulin 在新闻组里提到的小技巧如下:

1) 用 Linux top 命令观察 (这个方式比较土)
2) 用 'netstat -np | grep 127.0.0.1:9000' 收集数据。
设置 php-fpm.conf 中的 max_children 的数值使 等待的数量变为最小。

目前使用 PHP-FPM 还只是通过 Patch 方式,然后编译,期待能够早点并入正式的 PHP 代码中。当然,PHP 核心开发的那些大爷们也不知都在忙什么呢,莫非还在为 Unicode 较劲呢?

--EOF--

Tips : PHP-FPM on highload tips

侠客行恭候网络侠客

后天,第二届中国网络工程师侠客行大会就召开了。届时,会有来自 Google、微软、雅虎的顶级专家进行技术分享。

Web 2.0 元素

和上次预告除了与会嘉宾稍稍有点出入的是,Yahoo! 旗下的 Flickr 这次会派出 John Thrall 进行题为 Flickr Architecture 的技术演讲。MySQL AB 公司创始人与 CTO David Axmark 将在上午有 Keynote。另外,下午还有 David Recordon 带来的 OpenID 话题。应该说这次会议也充满了 Web 2.0 技术元素的(其实个人觉得开放平台/SaaS 才是重点)。

关于门票

准备参加的朋友如果没有在网络报名打印报名表,我这里还有几张空余门票。给我留言,注明下午参加那个场次。我会回邮件告知电话,到时候在会场找我即可。

大侠风尚、Single Party

下午听完讲座后,可以用门票换取晚上的 大侠风尚和 Single Party 的门票。或许有朋友能结成良缘也说不定的:)

小广告: 支付宝招聘

支付宝技术部近期在招聘。网站上有相对具体的 招聘要求,我们这边目前对架构师和 DBA 还是比较缺的。感兴趣的,联系我。

--EOF--

Nginx 的推广问题

偶然发现 Nginx 稳定版本更新到了 0.6.31,这个版本修正的第一个 Bug 值得注意:

Nginx did not process FastCGI response if header was at the end of FastCGI record 

现在国内 Nginx 的用户越来越多了,多数拥抱 Nginx 的网站都钟意其优异的性能表现,如果是相对比较大的网站,节约下来的服务器成本无疑是客观的。而有些小型网站往往服务器不多,如果采用 Apache 这类传统 Web 服务器,似乎也还能撑过去。但个人觉得有其很明显的弊端: Apache 在处理流量爆发的时候(比如爬虫或者是 Digg 效应) 很容易过载,这样的情况下采用 Nginx 不失为大胆而有效的尝试。

当前 Ngnix 美中不足之处是相关的文档和用户经验都还是很欠缺,用户之间还很难做到可借鉴性的交流。

最近因为朋友遇到一些技术问题,我也翻阅了不少 Nginx 的邮件列表内容,发现大量的技术细节仍然在频繁变化中,可是中文社区内相关的记录和讨论太少了。相信国内这些 Nginx 用户积攒的经验肯定是不少的,但可能是因为某些其它因素考虑而看不到相关的技术分享。

当期待大家都做某件事情的时候,最好从自己做起。现在开始尝试收集 Nginx 的相关技术细节......

--EOF--

小发现,网易新闻用的是 nginx/0.5.36

在修改后的 《闲谈 Web 图片服务器》 一文中也提及了"IE 浏览器的连接数问题",这也是个有趣的话题。值得补充记录一下。

Browser_connections.png

这个数据来自 Roundup on Parallel Connections ,这是一篇好贴,里面的每个线索几乎都值得一读(Opera 9 的连接数我做了修改)。以前经常看到某些优化 IE 或者优化 Firefox 的插件或工具,其工作原理也不过是针对这些相关的网络参数合理组合罢了。 好多朋友说 Opera 快,其实可能就是压缩和连接数两个做的更适合现在的网络吧。我不太相信内置解析器什么的真能比其它浏览器有什么质的领先。

其中 Firefox 3 的连接数目前还处于不确定中。对于网站维护人员,这是个非常值得重视的信息,我们总说蝴蝶效应,这恐怕就是最直接的例子了。一旦 IE 8 确定了新的默认连接数,并且短期内大量用户下载,有些网站如果不做调整的话,很可能会被击垮。

--EOF--

对这篇《闲谈 Web 图片服务器》做了补充修正之后,在本期的《程序员》杂志上发表了。不过有朋友提出了一个问题:为什么说 Squid 不适合用 RAID 5 ?

大家都知道 RAID 在写性能上因为存在校验,这句话的主要意思还是 Squid Cache 盘/ Cache 目录的问题(而不是放置图片的 RAID 5 磁盘),在 Squid 满了的情况下,如果占用 Cache 盘,这个盘如果是 RAID 5 ,那肯定性能糟糕的一塌糊涂。另外一个原因是这部分其实不需要 RAID 来提高可靠性的,坏了完全可以 重新构建即可。

可惜我手边没有 Squid 服务器,要不倒是可以用数据来说话的。

参考文档: ()、 (),这两个参考信息其实比较旧的了

--EOF--

支付宝主办的阿里巴巴集团 2008 年度 "D4" 设计论坛将于 5 月 8 日举行。大家比较熟悉的刚刚落幕的 D2 技术论坛 是面向 Web 前端技术的,而 D4 则是面向设计(Design)的。

Alibaba_d4.png

本届"D4" 设两个分论坛:

  • 论坛一:交互设计的流程探讨
  • 论坛二:如何通过用户研究来提升产品设计

每个分论坛将有阿里巴巴集团各子公司的嘉宾与大家共同探讨各自的主题。

分论坛一:交互设计的流程探讨

时间:2008年5月8日 19:00 -21:00
地点:华星时代广场 5F 天沐阁
嘉宾:李坏(淘宝)、蚂蚁(口碑)、方一鸣(阿里巴巴国际站)、陈晓华(阿里软件)

分论坛二:如何通过用户研究来提升产品设计

时间:2008年 5 月 8 日 19:00 -21:00
地点:华星时代广场 21F 应天书院
嘉宾:轻候(淘宝)、 杨昌源(阿里巴巴国际站)、刘昊(阿里巴巴中文站)

主办方:支付宝
协办方:阿里巴巴B2B淘宝阿里软件阿里妈妈口碑中国雅虎

感兴趣的朋友请提前联系一下我,因为场地的确有限制。会议是免费的,华星时代广场就在西湖区文三路和万塘路交汇处。

--EOF--

报名需要的信息:请邮件给我([email protected]) 写一下您的姓名,公司,联系电话,想参加的场次。建议光临的时候有名片的不妨带上,便于交流。

Updated 请注意:名额已满,不接受报名了。敬请见谅!

AWstats 新版小记

刚在邮件列表里看到通知,AWstats 发布了 6.8 Beta 版。

上一次更新相比,新版本增加了特性不多:

Added OnlyUsers option.
Can show a full list for extrasection.
Can track RPC request.

如果要定制跟踪额外的访问信息,Extrasection 总是绕不过去的。还没测试这个版本,倒是希望这部分内容的配置能更清晰容易一些。

值得一提的是浏览器数据库的更新与 Patch 几乎都是中文搜索引擎与 Web 应用的爬虫相关,据我所知车东同学做了不少这方面的工作。

BTW: AWstats 堪称中小站点分析日志的不二之选。尽管这样,前段时间还是看到有些公司居然不了解这个好用的工具,嗯,推广之。

--EOF--

关于归档

本页包含 Web 类别下的所有文章.

上一类别为 Tech.Memo.

回到 首页 查看最近发表的文章或者查看所有 归档文章.