January 2005 Archives

尝试改变

| 4 Comments

最近这段时间事情不少,也似乎突然间多出来很多机会,可是如果不尝试改变一下自己,那么机会肯定也就抓不住。很高兴能够得到几位大哥大姐的指点,受益匪浅。《易经》上说,潜龙勿用。有人这样解释:

当个人势力不足、时机未到的时候,应该努力学习,应该加强自己各种各样的技能,而不是到处抛头露脸、到处宣扬。如果过于宣扬和嚣张,被扼杀的机会就会比较大......才能要内敛,不可外显。如果到处显示你的才华就有麻烦......潜龙不能够大用,所以,做人不可自恃身份,要从低姿态做起......个人在潜龙状态,应该制订生涯规划,定下未来五年、十年的发展步骤,千万不要强出头,也千万不要太过于嚣张。

Nutch 开始被 Apache "孵化"

Nutch 目前已被 Apache 基金会接受并放到了Apache Incubator. 项目状态在这里查看:

http://incubator.apache.org/projects/nutch.html
项目内容还在迁移过程中.目前状态是初始的“none yet”

安装SQL Server 遇到错误提示:

以前的某个程序安装已在安装计算机上创建挂起的文件操作。运行安装程序之前必须重新启动计算机!。

找了半天,没发现什么一场程序,该机器上以前没安装过SQL Server。看看系统安装了什么软件? 3721 上网助手什么的赫然在目!删掉!

Singletask exp imp ? Still There ?

玉面飞龙在一则BLOG的评注中提起

imp exp sqlldr 有个叫做 singletask 模式 relink的方式据说可以增加执行速度。

上去是某种特定平台才有.据说会消耗更多内存.在IxORA 上有一则信息

To perform a single-task export, you must use the expst executable instead of just exp. You will probably need to create the executable first, as follows.
cd $ORACLE_HOME/rdbms/lib
make -f ins_rdbms.mk singletask
If you are intending the single-task executables to be used by a user other than oracle, then you will need to set the setuid bits as follows.
chmod 4511 $ORACLE_HOME/bin/*st

我在 Linux 下和 HP-UX 下测试了一下,现在的版本似乎都不支持了.得到的错误信息如下:

Metalink 也 Copy,Paste ?

Metalink 上看到一篇技术文档,Unix Commands on Different OS's(Note:293561.1).乍一看,非常眼熟,这不是http://www.unixguide.net/上的文档么? 怎么连一点声明都没有,直接粘贴过来了? 看看 Metalink 上该文日期:Creation Date: 09-DEC-2004 Last Revision Date: 14-DEC-2004 ,Unixguide.net 上可是至少两年前就有了.天下文章一大抄 :)

消磨了一天

不是自己职责的事情也不得不做,折腾来折腾去又是一天。有些无聊,发发牢骚。

要安装服务器居然介质也不准备,大老远的还要我去给找。找来了之后,那老兄闷声不响的就开始折腾,搞不定也不说一声,就在那里憋着,要不是多问了几句,还不知道怎么回事。不弄也不行--大家都回不去家,到头来还是要我动手,唉,这可咋办?!自打和韩国技术人员合作从来没有痛快过。

Oracle 10g Data Warehousing (外一本)

第一本是Oracle 10g Data Warehousing。作者是Lilian Hobbs, Susan Hillson, Shilpa Lawande, Pete Smith。浏览了一下第五章,Loading Data into the Warehouse,可圈可点,第九章的 Query Rewrite 有些参考价值。翻译过来的图书似乎讲 Query rewrite 的不多。这本书以前的版本也看过电子版的。当时看得还算比较细致,现在只能浏览了,另一个原因是电子书太多,只能挑着看了。OTN 上可以下载第九章样章

Oracle 10g Data Warehousing

OpenSolaris Dtrace Open Source !

| 1 TrackBack

Sun 日前宣布Solaris 10 的Dynamic Tracing (DTrace)将开源,该软件的版权协议采用的是 Community Development and Distribution License (CDDL),基于 Mozilla Public License 1.1

同时,Sun还将启动一个新的站点OpenSolaris.org,用以开源爱好者之间进行交流。

新闻来源:http://trends.newsforge.com

此前我对Dtrace的介绍:DTrace(Dynamic Tracing):Solaris 10 的新特性

--EOF--

回顾一下。上周数据库有关的最主要新闻是Oracle发布了新的CPU(Critical Patch Update)公告:cpu-jan-2005_advisory。这是个累积更新,包括著名的安全更高 #68 的所有内容。公告中还提到了 Pete Finnigan,他发现了一个关于数据库Directory对象的安全问题:DIRECTORY OBJECT – Reading outside of the directory object,此外,他的BLOG站点专门针对Oracle安全,信息翔实,而且更新比较迅速。

关于 Dibian 的两幅图表

| 1 Comment

在一份调查报告上看到了两份图表。第一个图表是 Most Used languages in Debian 3.0 。让我感兴趣的是LISP这样的“化石”语言仍然占到一个比较高的分额。而Python这样的新型动态语言在系统软件中应用还不够广泛。其中的 SLOC 代表 Source Lines Of Code.

Most Used languages in Debian 3.0

Red Hat 电子杂志第三期

红帽子第三期电子杂志发布了。这一期最让我感兴趣的是 Coming soon to Enterprise Linux,有什么新功能会加入到 RHEL 中? D-Bus 将引入到企业版中.

What is D-BUS?
D-BUS is an IPC mechanism for sending and receiving messages across a common communications channel. At the protocol level D-BUS can be used as a peer-to-peer message transport for applications to communicate directly with each other. The real power of D-BUS comes from the bus daemons which act as routers for messages. There are two standard buses that a developer can rely on always being around. These are the system bus and the session bus. The system bus is a global daemon that any application running in any context can use as a transport. It is a single point where applications can export services that anyone can use. Only one system bus daemon can be run at a time. The session bus is a bus local to the current user's session. It is used for communication between applications running within the same X session. For every login to X, a session bus daemon is started.
dbus-nm-hal.png

用户要求对一个目录下的大量图片进行文件名修改。并给了一个对照文件:

4930503541,2019030524
4932503521,2089031230
4932503800,2389031456
4900003521,2019031211
.....

对照文件中前面的是就名字,后面的是新名字。可实际一看真正的文件名字,就傻了眼:文件名字都是类似:4930503541_1.png、4932503521_2.png 之类的,本来想用个Shell脚本来做,现在看起来,不好实现呀!

《探讨 ORACLE 数据库的数据导入方法》

讨论了不同情况下数据装载的性能问题。“针对 Oracle 数据库所提供的加速数据导入的各种特性和技术进行探讨,其中的一些方法也可以转化应用于其他数据库。”[作者:万波]
因为该页面的交互性不强,如果有疑问,可以在这里留言并进行讨论。

What's New in PostgreSQL 8.0

| 2 Comments

PostgreSQL 8.0 向前迈进了一大步。最引人注意的是 Win32 Native Server 。以前如果在Windows上用,居然要用 Cygwin 来模拟?! 唉呀,真是土阿!现在看起来改进了好多,安装上以后也会方便了,installer 项目会使安装越来越人性化。

MT 'nofollow' plugin ,联手抵制SPAM留言

1月18日,Movable Type 发布了一个新的插件:'nofollow' 。因为是 GoogleYahooMSN 这三个搜索引擎巨头联手抵制 SPAM,估计总能对Blogger们深恶痛绝的SPAM留言起到一定的打击作用。通过对来访者添加的超级链接中自动添加 rel="nofollow" 属性,搜索引擎能够有判断那些是 SPAM 留言,那些试图在 Comments 上获得更好的 Pagerank 的站点要白费气力了。

Related Entries Plugin too!

| 1 Comment

最开始看到车东站点上的关联文章的显示,查找了一下,看到有 BlogFireFox 站介绍的这个Tip,决定使用这个 Related Entries Plugin.配置好之后,重建“单篇文档”的时候报告错误:

Use of uninitialized value in length at ....../plugins/RelatedEntries.pl line 19.
splice() offset past end of array at ....../plugins/RelatedEntries.pl line 77

RMAN Tuning checklist (Quick & Dirty version)

RMAN 调整 Checklist:

  • 合适的Large_Pool_Size .需要给 RMAN 的 Large_Pool_Size 计算公式(9i):
    LARGE_POOL_SIZE = number_of_allocated_channels * 
                       (16MB+( 4 * size_of_tape_buffer))
  • 如果直接备份到磁带上,增加BLKSIZE到合适大小;尝试使用 BACKUP_TAPE_IO_SLAVES 初始化参数
  • 若系统不支持异步 I/O(asynchronous I/O) ,需要备份到磁盘上考虑使用 DBWR_IO_SLAVES 初始化参数模拟异步 I/O 。系统支持异步 I/O,则可忽略此步骤。要小心涉及到异步 I/O 的 Bug。
  • 考虑使用RMAN的 multiplexing 特性。
  • 通过动态视图 V$BACKUP_ASYNC_IO 调查有关备份异步 IO 性能的问题。激活DBWR_IO_SLAVES参数后相关信息也会在该视图有所体现。

这个问题很多DBA可能都碰到过吧:比如刚接手一个旧有系统,原来的厂商不允许对代码修改,或者是系统应用比较关键。不允许作修改,或者是源代码出于商业目的,进行了一定程度的加密,还有的时候可能是行政因素--领导为了避免责任,不允许你这样做,但这个时候,系统的性能上的问题还比较严重,还有其他办法怎么对系统进行优化么?

在这里我尝试总结一下可能有的途径。

针对特定的SQL进行"外科手术" (Metalink 122812.1),改进执行计划

  • 更新统计信息 (调整采样率/柱状图统计)
  • 调整索引 (添加或调整合适的索引,删除不必要的索引)
  • 创建物化试图(用空间开销来换取时间收益)

Nutch 0.6 is out !

2005 Jan 14 ,Nutch.org 发布了 Nutch 0.6 版本。和早前那篇概述中的描述变化不大。我感兴趣的但上次没介绍的内容有:

  • HTML 中添加了 BASE 标记的支持
  • 添加了插件 index-more 和 more.jsp
  • Fetcher.java 新添加了一个选项:-noParsing
  • 添加了 ontology 插件

图片存储-CDN-数字图书馆-P2P-BT......

Linuxtea 上看到一个贴子: 大量图片如何保存到数据库?自己也加了一点错误的讨论。之后和 Piner 聊天的时候,由此他提到China Cache ,找了一下,了解一点 CDN 的概念:

CDN 的英文全称是 Content Delivery Network,即互联网内容发布网络,它是一个建立并覆盖在互联网(Internet)之上、由分布在不同区域的节点服务器群组成的虚拟网络,CDN可以实现把网站的内容高效、稳定地[注:不存在单点故障]发布到离网民最近的地方。这里还有点信息。

以前曾经考虑过下一波互联网的一个重要应用或许是如何快速分发大数据量的媒体内容。比如网络游戏的快速传播、网络直播等。当时考虑到 BT 等工具为代表的 P2P 技术或许能起到一定作用。但现在想起来,P2P 技术很难做到实时的分发。在媒体直播的时候就有些力不从心。

Bootchart 的新变化

前一段时间介绍了Bootchart。最近注意到该工具有了不少新变化。首先是官方站点迁移到http://www.bootchart.org 了;其次是2005-01-10 发布了新的版本 0.7,可以在这里下载。看了一下 TODO 列表中的内容:

  • Add additional performance layers: number of open files, disk write throughput
  • Include kernel boot profiling
  • Add an option to explicitly enable bootchart logging using a kernel command line option (and disable logging by default)
  • Prepare RPM package

哪一个计划更好?

邮件列表中有人问:如果有两个执行计划,如何判定哪一个更好?COST 能作为判断的依据么?

Lilina 调整

昨天配置了Lilina,把Feed Reader 移到了浏览器中。今天用了一下,还有好多不太完美的地方,动手调整了一下。先调整了favicon 图标,个别站点的图标比较大,但 index.php 页面对图标的大小没有控制这样格式不太整齐。在代码中加入 width 和 height 属性,值都为 16 。调整了item 的默认颜色,原来的暗红色太刺眼。

个别站点的RSS 抓取到的内容总会跑到最前面,不知是 lilina 的问题,还是源 RSS 的问题。忍痛割爱,去掉。

配置 lilina

| 6 Comments | 1 TrackBack

添加了一个自己的 Lilina: http://www.dbanotes.net/lilina/index.php,联机的 RSS Reader! 主要订阅和Oracle与安全有关的几个 blog。在性能问题解决之后再添加新的吧。性能是个问题,参考了 Kreny关于加快 Lilina 显示速度的一些设置,现在好了很多。

车东可能是比较早使用 Lilina 的。我安装使用的是 lilina 的 0.6.1-pre3 版本。因为要测试一下,就用了预览版吧。 Lilina 真的是个很有趣的工具。刚刚用起来,觉得还存在的问题有:

  • 现在可定制的地方太少;
  • 性能不够好,订阅的 RSS 多了之后速度有些无法忍受;
  • 没有可选的 CSS

但愿这个工具越来越棒!

Heritrix Crawler vs. Nutch Crawler

在邮件列表中看到有人问 Heritrix 爬虫与 Nutch 爬虫的不同。搜索了一下,该项目的领导者是 Gordon Mohr ,Heritrix 主要用在 http://www.archive.org 。基本定义描述:

Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project.

没想到过了一会儿,在邮件列表中居然看到了 Gordon Mohr 的发言。看来他也比较关心 Nutch 的发展。

通过 apt 安装 SuSE 9.2 上的 Nessus.运行 nessusd -D 的时候提示:

'ca_file' is not set - did you run nessus-mkcert ?

运行 nessus-mkcert 之后提示:trap: usage: trap [-lp] [[arg] signal_spec ...]

国内的 Linux 厂商似乎很久没什么动静了,不知道他们过得好不好?! 前不久,Linux巨头红帽子也杀进中国了,不知道 RedFlag 和 xteam 还能支持多久?

尽管政府一再提出各种政策扶植 Linux 为代表的开源软件,但是这群扶不起来的阿斗的表现总是让人感觉味道不对。为啥我们的 Linux 就发展不起来?

Nutch 也将并入 Apache 项目?

| 1 Comment

Doug Cutting 在邮件列表中提及新版本 0.6 的发布情况:

I plan to make a 0.6 release before anything is moved to Apache

移到 Apache 之前会发布 0.6 版本,现在 CVS 中的版本已经比较稳定。

Doug Cutting 开发的另一个项目已经贡献到 Apache 项目中,相信 Nutch 的并入会吸引更多优秀程序员投入到开发队伍中来。也相信,不久的将来,有 Nutch 支持的个人搜索引擎或是主题搜索引擎会大行其道。到了那个时候,或许 Google 这种垄断式搜索巨头的影响力已经不再!

有朋友问:

RHEL AS 3.0 上,df -k发现 /opt 在不断增长,而在 /home 里面 du -sh 却发现空间大小没有变化, /opt 下面是一个网站,把 tomcat 停了就不会增长了。这是怎么回事?

Another tool for 'Command Line History'

| 1 Comment

看到 Tom 在介绍 rlwrap --另一个可以用来在 Linux 上回调命令行的工具。

rlwrap is a 'readline wrapper' that uses the GNU readline library to allow the editing of keyboard input for any other command. Input history is remembered across invocations, separately for each command; history completion and search work as in bash and completion word lists can be specified on the command line.

Howard J.Rogers 写了一篇介绍文档,并把该工具打包为 RPM 文件。

netstat on HP-UX 11.0

可能很多人都看过类似这样一段话 :

netstat -in 显示每块网卡的工作负载情况。Ipkts/Opkts发送包和接受包的情况。Ierrs/oerrs,collis 表示发生的错误和冲突。Ierrs/Ipkts或Oerrs/Opkts >2%,则表示网络冲突严重。

在 HP-UX 11.0 上是显示不出来 Ierrs、Ipkts、collis 这些信息的。

在Yukon之前,Oracle的多版本读一致性的出色实现使得并发性比 SQL Server 好得多。SQL Server 以前的版本没有版本读一致性的特性,全部是“悲观”(pessimistic)锁的方式:所有的事务都需要锁。Yukon 中最大的一个特色是实现了快照隔离机制。所以发布的白皮书也为此浓墨重彩。快照隔离总是从已提交的数据快照读取数据。允许数据被只读事务读取。所以 SI 对只读事务的并发控制效果是很好的,但是对更新事务是否也这样不得而知。对长时间运行的更新事务来说更为不利于与短期的高竞争性事务。相比之下,Oracle提供了事务更新功能,但是不提供First-committer-wins 保护。二者现在都是行级锁。

对 VLDB 来说,表和索引等对象的分区(partition)能力无疑是非常重要的特性。分区实现的好坏关系到超大数据库的扩展能力。

同 Oracle 9i 数据库一样,10g 在分区上依旧是只有四种类型,分别是:范围(Range)分区、列表(List)分区、Hash 分区以及复合分区(包含 range-hash 和 range-list 这两种方式)。10g 中只是做了一些改进。在 10g 中,你可以在索引组织表中应用分区特性。此外,对分区上的索引功能进行了改进。

Yukon 现在的分区方式相比 Oracle 的来说要灵活一点。在新版本中,分区可以通过Transact-SQL(或者其他的.NET语言)中用户定义的函数来实现,通过以下三步来做到:

Google 这把双刃剑快让人害怕了!Kamus 向我说起了一个网站Google Hacking Database (GHDB),用 Google 来查找"肉鸡"[我还学会了一个英文词:dork :-)]。通过 GHDB 提供的方法,定制一些特定的搜索字符串,利用 Google 就可以得到 Advisories and Vulnerabilities 、Files containing passwords 、Pages containing login portals 等涉及到网站安全的关键信息。是绝佳的渗透手段。加上前一段时间那个利用 Google 查找相关 phpBB 论坛进而攻击的"蠕虫",看来网络安全人员还要应付一下Google才是。

偶尔去 Linuxforum 看了看,一片荒凉。想想前几年,Linuxforum 可以说是一些 Linux 爱好者相当喜欢的站点阿。可是几年过去了,不进则退。作为早期的论坛+门户齐全的技术站,在Linux刚在中国引起人注意的时候,的确引起很多人的注意。但是眼看着别的技术站点都在做着“丰富门户,加强论坛功能”这样的动作的时候,Linuxforum 居然无动于衷。看看那个论坛,还是几年前的那个样子,功能和亲和力与现在的一些成熟的论坛软件(比如phpbb,VBB等)相去甚远,用户界面也不够友好,甚至对用户不够友好--注册之后居然不可以立刻发帖。这无疑给那些急于提问题的 Linux 爱好者一个闭门羹。

在卢亮的站点上看到这样一段话:

前天和昨天一共花了半天时间对博客中国的公社进行了静态化设计编码,使得原来的动态生成网页的Plog改变成为静态网页,系统的负载能力大大提高,经过调整后的博客中国blog托管服务,容量大约提高了6倍。

全文见:博客中国blog 服务完成静态化。哦,也是用著名的 pLog 架设的?一时好奇,去看了看"博客中国的公社",发现并没有什么地方注明 "Powered by pLog" 之类的字样。

很多人都在用 del.icio.us 提供的书签功能,也可能很多 Firefox 用户都在用 delicious for Firefox 这个插件。比如这里:Blogfirefox。该插件的确很方便使用。但是注意该有个严重的安全问题:密码居然是明文存放的!

ITPub 的 Blog 是使用 Plog 搭建的。在发帖的时候如果是 '\'(backslash)则会被程序吃掉。

如果是多加一个反斜线,如引号中的样子: '\\'。可以在预览中显示出来,但是正式更新之后就不行了。在 HTML 模式下用 BackSlash Eating.png 来代替,更新文档,OK!应该可以了。(一定注意不要预览)。看来是 Plog 的 Bug 了。

Job Number 最大为多少?(FAQ)

| 2 Comments

有朋友问:我的 Oracle 据库每周要重建很多 JOB,导致 JOB 的编号不断增大。Oracle的数据库 JOB 编号的上限是多少?会不会哪一天数据库的 JOB 编号到了最大值,而无法新建JOB?

Nutch 0.6 中新的改进

虽然 Nutch 新的版本(0.6)还没有正式发布。但是已经从 CVS 上看到相关的信息了。从Nutch官方站点也可以得到最新的 nightly 构建版本。0.6 相比 0.5 来说,添加了不少新功能,当然代码量也有很大的扩充--压缩包有 35M 之多。

Hint does NOT work , New myth ?

Kamus 在 论坛中说了一个问题:分析数据会影响Oracle使用RBO的判断?在讨论的最后,说到诊断事件 10053(cost-based optimizer tracing) 的 Trace 有的时候可能会忽略 Hint (?)

Nutch 初体验之二

| 10 Comments | 1 TrackBack

前几天介绍了 Nutch 的基本信息 以及 如何使用 Nutch 进行 Intranet crawling。下面进行一下全网的爬行(Whole-web Crawling) 的操作测试。

Nutch 的数据包括两种类型:

  • Web 数据库。包含所有Nutch可以辨别的页面,以及这些页面间的链接信息。
  • 段(segment)集合. 每个 segment 是作为一个单元(unit)被获取并索引的页面集合。Segment 数据包括如下类型:
    • fetchlist:指定待获取的一个页面集合的文件
    • fetcher output:包含获取到的页面的文件集合
    • index:fetcher 输出的 Lucene 格式的索引

注:如果发现有解释不清的地方,请参考这里,不过说实话,Nutch的文档远远不够完善,还存在很多语焉不详的地方。

Google PR 更新以及其他

| 2 Comments

不期然感冒了,睡得昏昏沉沉,起来又是中午了。发现 Google 工具条的 PR 更新了。我的首页和 BLOG 都变成了 4 。虽然没啥大用处,还是很高兴!查了一下,居然是 1 日更新的(这里)。看看常去的几个 BLOG, Mark Rittman 的 PR 变成了6 。最近大家都在回顾2004,Rittman的 Review Of 2004, Part OneReview Of 2004, Part Two 这两篇 BLOG 非常值得一看。相比之下,《程序员》杂志1月份的回顾数据库的这一年那篇文章有些儿戏了,大部分内容都是关于 MySQL 的。

Nutch 初体验

| 13 Comments | 4 TrackBacks

前几天看到卢亮的 Larbin 一种高效的搜索引擎爬虫工具 一文提到 Nutch,很是感兴趣,但一直没有时间进行测试研究。趁着假期,先测试一下看看。用搜索引擎查找了一下,发现中文技术社区对 Larbin 的关注要远远大于 Nutch 。只有一年多前何东在他的竹笋炒肉中对 Nutch 进行了一下介绍

先前在一篇帖子中描述了一下 AskTom Search Plugin for Firefox and Mozilla ,看了一下别的同类插件的代码,不是很复杂,顺便写了几个类似的小插件。其实可以针对一些特定的站点开发有特色的搜索插件。闲来无事,以 ITpub 为例,做个插件测试一下。

AskTom Search Plugin for Firefox and Mozilla

前几天还看到有人在邮件列表里讨论给 Firefox 加上一个 Metalink 的插件 ,前几天访问 AskTom ,发现这里也支持插件了。

12.31 崔健在旅游卫视的演唱会

崔健,演唱会,12月31日,旅游卫视

2004 年12月31日20:00,崔健为旅游卫视录制的长达两个小时的节目开始播出。多年来,由于某种因素的制约,老崔没有机会在北京举办自己的大型个人演唱会,只能见缝插针的抓住各种演出的机会。同样的原因,一直以来,他的音乐也根本不可能在电视上播出,这次似乎出现了很大的转机--首次在电视上完整地播出他的演出。

关于这篇归档

This page is an archive of entries from January 2005 listed from newest to oldest.

December 2004 is the previous archive.

February 2005 is the next archive.

Find recent content on the main index or look in the archives to find all content.