今天偶然注意到 Google 对我的站内搜索数量锐减,从前一段时间的将近 1 万 变成现在的不到 1 千了.稍加分析了一下,原来在每篇文章的页面最上方也加了站点的描述内容,最初的目的完全是为了美观,没想到搜索引擎把这些页面都当作相似页面成处理了.雅虎和百度的站内搜索结果也是类似的.
不由得想起另一个问题: Google 的爬虫到底能不能遍历我的站内所有页面 ? 似乎不太可能.回想起 Google 的 Sitemap 也发布很久了, 并且不提供联机创建 Sitemap 的功能, 已经能够说明对很多比较复杂的站点 Google 仍有不足之处. Google 推这个工具的功能恐怕也是为了用户能从客户端把信息推到搜索引擎这一端(Google 用意).
此前我的站点 Sitemap 采用的是 MT 模板的方式 ,参考 Google Sitemaps using Movable Type , 这样我的旧站的内容就忽略掉了. 我现在使用的 Dreamhost 的服务,是支持 Python 的 ,并且可以 Shell 登陆, 准备用 Google 推荐的 sitemap-generator 来"帮助Google一下". 具体的操作在 Google 的帮助页面有很详细的说明. 需要注意的是,该工具要通过代理才可以下载,不知道其他人是不是也和我一样.
我的操作结果:
$ python sitemap_gen.py --config=dbanotes_config.xml Reading configuration file: dbanotes_config.xml Opened URLLIST file: example_urllist.txt Walking DIRECTORY "/home/fenng/dbanotes.net/" Opened ACCESSLOG file: /home/fenng/logs/dbanotes.net/http/access.log Opened ACCESSLOG file: /home/fenng/logs/dbanotes.net/http/access.log.0 Sorting and normalizing collected URLs. Writing Sitemap file "/home/fenng/dbanotes.net/sitemap.xml.gz" with 10855 URLs Notifying search engines. Notifying: www.google.com Count of file extensions on URLs: 421 (no extension) 1 .avi 6 .back 1 .cert 2 .cfg 238 .cgi 2 .cgi-original 1 .chm 13 .conf 89 .css 9 .ctl 13 .dat 27 .db 7 .doc 12 .dump 1090 .gif 4 .gif0000644 8 .gz 261 .htm 2 .htm0000644 2244 .html 60 .ico 82 .idx 6 .inc 1 .ini 219 .jpg 382 .js 1 .lang 5 .lib 118 .lock 1 .log 1 .lst 2 .mysql 15 .pdf 1643 .php 62 .pl 1093 .pm 547 .png 9 .pod 2 .postgres 3 .py 6 .rar 6 .rdf 4 .readme 1 .rss 1 .sh 10 .sql 2 .sqlite 2 .src 1 .svg 2 .swf 1 .template 560 .tmpl 53 .tpl 59 .txt 4 .types 4 .wsdl 179 .xml 1 .xsl 15 .zip 1241 / Number of errors: 0 Number of warnings: 0
之后更新 Google Sitemap 的配置信息,会立刻得到Google确认. 但是最后在搜索引擎中的表现,还要拭目以待.
更多阅读:Apache Cocoon sitemap concept
Updated: 2006-01-29 观察到搜索结果数量已经得到更新. 当日是 1800 多
我是用的wp自带的sitemap生成插件做的 效果很不错!最近也换了D的主机感觉确实方便 改天也试下Python
如果站点只有一个WP,没有其他零碎的文件,那么用WP的插件或者MT的解决方案都是不错的
我现在用 crontab 调度,一天跑一次
我也是Dreamhost用戶,在進行驗證時,遇到底下的問題:
"我們偵測到您的 404 錯誤 (找不到檔案) 網頁傳回標題 200 (正常) 的狀態。"
一直顯示無法驗證
請問你使用時,有遇到類似問題嗎?
Hi
GG sitemap 有些软件可以帮你完成的,可以到这里去看看:Creating sitemaps for Google MSN and Yahoo
毫毫毫毫毫毫毫毫毫毫毫毫毫毫毫毫毫
我也按照google sitemap的介绍搞了一个.
但是有个问题想知道, 能不能规定google每天都来访一次, 这样我的blog里的内容就能天天和google搜出来的同步了.
Google 自然会定期搜索的
不过你的"规定"似乎很难
Hello, there was some interesting site with nice design
Hello, there was some interesting site with nice design
你好,请问用日志来自动生成sitemap文件,如果日志很大的话,处理起来要很久的
是需要很久的。所以我后台Crontab来做,定提高这个Job 的优先级
这个sitemap内容是不是只能包含*,html?xml是否也可以包含?另外,MT插件做的似乎只有文章页面而没有索引页。
文件类型在上面的Log里已经列出来了
但是看 http://www.dbanotes.net/sitemap.xml 里面的类型全部是html啊:)
我提交的不是那个 xml 文件
我的网站刚建不知道如何被google收录,所以求教具体步骤.
模型展览网网址:http://www.model-shows.com
科技论坛:http://www.model-shows.com/bbs
很想学习如何创建GOOGLE SITEMAP
不错