Nutch 目前已被 Apache 基金会接受并放到了Apache Incubator. 项目状态在这里查看:
http://incubator.apache.org/projects/nutch.html项目内容还在迁移过程中.目前状态是初始的“none yet”
Nutch 目前已被 Apache 基金会接受并放到了Apache Incubator. 项目状态在这里查看:
http://incubator.apache.org/projects/nutch.html项目内容还在迁移过程中.目前状态是初始的“none yet”
1月18日,Movable Type 发布了一个新的插件:'nofollow' 。因为是 Google、Yahoo、MSN 这三个搜索引擎巨头联手抵制 SPAM,估计总能对Blogger们深恶痛绝的SPAM留言起到一定的打击作用。通过对来访者添加的超级链接中自动添加 rel="nofollow" 属性,搜索引擎能够有判断那些是 SPAM 留言,那些试图在 Comments 上获得更好的 Pagerank 的站点要白费气力了。
最开始看到车东站点上的关联文章的显示,查找了一下,看到有 BlogFireFox 站介绍的这个Tip,决定使用这个 Related Entries Plugin.配置好之后,重建“单篇文档”的时候报告错误:
Use of uninitialized value in length at ....../plugins/RelatedEntries.pl line 19.
splice() offset past end of array at ....../plugins/RelatedEntries.pl line 77
2005 Jan 14 ,Nutch.org 发布了 Nutch 0.6 版本。和早前那篇概述中的描述变化不大。我感兴趣的但上次没介绍的内容有:
在 Linuxtea 上看到一个贴子: 大量图片如何保存到数据库?自己也加了一点错误的讨论。之后和 Piner 聊天的时候,由此他提到China Cache ,找了一下,了解一点 CDN 的概念:
CDN 的英文全称是 Content Delivery Network,即互联网内容发布网络,它是一个建立并覆盖在互联网(Internet)之上、由分布在不同区域的节点服务器群组成的虚拟网络,CDN可以实现把网站的内容高效、稳定地[注:不存在单点故障]发布到离网民最近的地方。这里还有点信息。
以前曾经考虑过下一波互联网的一个重要应用或许是如何快速分发大数据量的媒体内容。比如网络游戏的快速传播、网络直播等。当时考虑到 BT 等工具为代表的 P2P 技术或许能起到一定作用。但现在想起来,P2P 技术很难做到实时的分发。在媒体直播的时候就有些力不从心。
添加了一个自己的 Lilina: http://www.dbanotes.net/lilina/index.php,联机的 RSS Reader! 主要订阅和Oracle与安全有关的几个 blog。在性能问题解决之后再添加新的吧。性能是个问题,参考了 Kreny 的关于加快 Lilina 显示速度的一些设置,现在好了很多。
车东可能是比较早使用 Lilina 的。我安装使用的是 lilina 的 0.6.1-pre3 版本。因为要测试一下,就用了预览版吧。 Lilina 真的是个很有趣的工具。刚刚用起来,觉得还存在的问题有:
但愿这个工具越来越棒!