Web 类别下的文章

Heritrix Crawler vs. Nutch Crawler

在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是 Gordon Mohr ,Heritrix 主要用在 http://www.archive.org 。基本定义描述:

Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.

没想到过了一会儿,在邮件列表中居然看到了 Gordon Mohr 的发言。看来他也比较关心 Nutch 的发展。

Doug Cutting 在邮件列表中提及新版本 0.6 的发布情况:

I plan to make a 0.6 release before anything is moved to Apache

移到 Apache 之前会发布 0.6 版本,现在 CVS 中的版本已经比较稳定。

Doug Cutting 开发的另一个项目已经贡献到 Apache 项目中,相信 Nutch 的并入会吸引更多优秀程序员投入到开发队伍中来。也相信,不久的将来,有 Nutch 支持的个人搜索引擎或是主题搜索引擎会大行其道。到了那个时候,或许 Google 这种垄断式搜索巨头的影响力已经不再!

ITPub 的 Blog 是使用 Plog 搭建的。在发帖的时候如果是 '\'(backslash)则会被程序吃掉。

如果是多加一个反斜线,如引号中的样子: '\\'。可以在预览中显示出来,但是正式更新之后就不行了。HTML 模式下用 BackSlash Eating.png 来代替,更新文档,OK!应该可以了。(一定注意不要预览)。看来是 Plog 的 Bug 了。

Nutch 0.6 中新的改进

虽然 Nutch 新的版本(0.6)还没有正式发布。但是已经从 CVS 上看到相关的信息了。从Nutch官方站点也可以得到最新的 nightly 构建版本。0.6 相比 0.5 来说,添加了不少新功能,当然代码量也有很大的扩充--压缩包有 35M 之多。

Nutch 初体验之二

前几天介绍了 Nutch 的基本信息 以及 如何使用 Nutch 进行 Intranet crawling。下面进行一下全网的爬行(Whole-web Crawling) 的操作测试。

Nutch 的数据包括两种类型:

  • Web 数据库。包含所有Nutch可以辨别的页面,以及这些页面间的链接信息。
  • 段(segment)集合. 每个 segment 是作为一个单元(unit)被获取并索引的页面集合。Segment 数据包括如下类型:
    • fetchlist:指定待获取的一个页面集合的文件
    • fetcher output:包含获取到的页面的文件集合
    • index:fetcher 输出的 Lucene 格式的索引

注:如果发现有解释不清的地方,请参考这里,不过说实话,Nutch的文档远远不够完善,还存在很多语焉不详的地方。

Nutch 初体验

前几天看到卢亮的 Larbin 一种高效的搜索引擎爬虫工具 一文提到 Nutch,很是感兴趣,但一直没有时间进行测试研究。趁着假期,先测试一下看看。用搜索引擎查找了一下,发现中文技术社区对 Larbin 的关注要远远大于 Nutch 。只有一年多前何东在他的竹笋炒肉中对 Nutch 进行了一下介绍

先前在一篇帖子中描述了一下 AskTom Search Plugin for Firefox and Mozilla ,看了一下别的同类插件的代码,不是很复杂,顺便写了几个类似的小插件。其实可以针对一些特定的站点开发有特色的搜索插件。闲来无事,以 ITpub 为例,做个插件测试一下。

早晨起来看 BLOG ,发现不少人已经开始年终盘点了。这一年太多的风花雪月的事情,太多的花边、八卦新闻,以至于我看到朋友推荐我看的一个 BLOG 上写着:小道消息,只有小道消息,才能救中国。我不由得笑出声来。Kamus 说,2004,开始融入你的互联网 Horse 说,从blog开始,享受我的互联网 ,我该怎么说呢?似乎是沉溺其中了......

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

关于归档

本页包含 Web 类别下的所有文章.

上一类别为 Tech.Memo.

回到 首页 查看最近发表的文章或者查看所有 归档文章.