DBA Notes: Web 文章列表

Heritrix Crawler vs. Nutch Crawler

By Fenng on January 14, 2005

在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下，该项目的领导者是 Gordon Mohr ，Heritrix 主要用在 http://www.archive.org 。基本定义描述：

Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.

没想到过了一会儿，在邮件列表中居然看到了 Gordon Mohr 的发言。看来他也比较关心 Nutch 的发展。

Continue reading Heritrix Crawler vs. Nutch Crawler.

Nutch 也将并入 Apache 项目？

By Fenng on January 13, 2005

Doug Cutting 在邮件列表中提及新版本 0.6 的发布情况：

I plan to make a 0.6 release before anything is moved to Apache

移到 Apache 之前会发布 0.6 版本，现在 CVS 中的版本已经比较稳定。

Doug Cutting 开发的另一个项目已经贡献到 Apache 项目中，相信 Nutch 的并入会吸引更多优秀程序员投入到开发队伍中来。也相信，不久的将来，有 Nutch 支持的个人搜索引擎或是主题搜索引擎会大行其道。到了那个时候，或许 Google 这种垄断式搜索巨头的影响力已经不再！

Continue reading Nutch 也将并入 Apache 项目？.

在 Plog 中可以显示 Backslash 么？

By Fenng on January 6, 2005

ITPub 的 Blog　是使用 Plog 搭建的。在发帖的时候如果是 '\'(backslash)则会被程序吃掉。

如果是多加一个反斜线，如引号中的样子: '\\'。可以在预览中显示出来，但是正式更新之后就不行了。在 HTML 模式下用　来代替，更新文档，OK！应该可以了。(一定注意不要预览)。看来是 Plog 的 Bug 了。

Continue reading 在 Plog 中可以显示 Backslash 么？.

Nutch 0.6 中新的改进

By Fenng on January 5, 2005

虽然 Nutch 新的版本(0.6)还没有正式发布。但是已经从 CVS 上看到相关的信息了。从Nutch官方站点也可以得到最新的 nightly 构建版本。0.6 相比 0.5 来说，添加了不少新功能，当然代码量也有很大的扩充--压缩包有 35M 之多。

Continue reading Nutch 0.6 中新的改进.

Nutch 初体验之二

By Fenng on January 4, 2005

前几天介绍了 Nutch 的基本信息以及如何使用 Nutch 进行 Intranet crawling。下面进行一下全网的爬行(Whole-web Crawling) 的操作测试。

Nutch 的数据包括两种类型:

Web 数据库。包含所有Nutch可以辨别的页面，以及这些页面间的链接信息。
段(segment)集合. 每个 segment 是作为一个单元(unit)被获取并索引的页面集合。Segment 数据包括如下类型：
- fetchlist：指定待获取的一个页面集合的文件
- fetcher output：包含获取到的页面的文件集合
- index：fetcher 输出的 Lucene 格式的索引

注：如果发现有解释不清的地方，请参考这里，不过说实话，Nutch的文档远远不够完善，还存在很多语焉不详的地方。

Continue reading Nutch 初体验之二.

Nutch 初体验

By Fenng on January 2, 2005

前几天看到卢亮的 Larbin 一种高效的搜索引擎爬虫工具一文提到 Nutch，很是感兴趣，但一直没有时间进行测试研究。趁着假期，先测试一下看看。用搜索引擎查找了一下，发现中文技术社区对 Larbin 的关注要远远大于 Nutch 。只有一年多前何东在他的竹笋炒肉中对 Nutch 进行了一下介绍。

Continue reading Nutch 初体验.

ITPub Search Plugin for Firefox and Mozilla

By Fenng on January 1, 2005

先前在一篇帖子中描述了一下 AskTom Search Plugin for Firefox and Mozilla ，看了一下别的同类插件的代码，不是很复杂，顺便写了几个类似的小插件。其实可以针对一些特定的站点开发有特色的搜索插件。闲来无事，以 ITpub 为例，做个插件测试一下。

Continue reading ITPub Search Plugin for Firefox and Mozilla.

2004 IT 技术年终盘点--个人篇

By Fenng on December 26, 2004

早晨起来看 BLOG ，发现不少人已经开始年终盘点了。这一年太多的风花雪月的事情，太多的花边、八卦新闻，以至于我看到朋友推荐我看的一个 BLOG 上写着：小道消息，只有小道消息，才能救中国。我不由得笑出声来。Kamus 说，2004，开始融入你的互联网 Horse 说，从blog开始，享受我的互联网，我该怎么说呢？似乎是沉溺其中了......

Continue reading 2004 IT 技术年终盘点--个人篇.

在 Web 类别下的文章