分享、学习、提高
2008/02/27 22:27
在网站日志里看到大量的Sosospider,出现的频率不低于那三家搜索引擎。

soso现在还是使用gg的搜索,但自己也很早就在研发自己的搜索引擎了,所以有了Sosospider(官方说明:http://help.soso.com/webspider.htm
),以及搜索图片的一个Spider,叫Sosoimagespider(官方说明:http://help.soso.com/soso-image-spider.htm)

但是,从本Blog的日志来看,Sosospider还不大智能。

以下是一些日志:
124.115.0.15 - - [27/Feb/2008:22:17:12 +0800] "GET /read.php/category/3/feed.php HTTP/1.1" 200 7755 "http://www.9enjoy.com/read.php/category/3/feed.php" "Sosospider+(+http://help.soso.com/webspider.htm)"

124.115.0.142 - - [27/Feb/2008:22:17:49 +0800] "GET /tags/alimama/tag.php HTTP/1.1" 404 470 "http://www.9enjoy.com/tags/alimama/tag.php" "Sosospider+(+http://help.soso.com/webspider.htm)"

124.115.0.141 - - [27/Feb/2008:22:20:05 +0800] "GET /read.php/category/4/post/236/guestbook.php HTTP/1.1" 200 7782 "http://www.9enjoy.com/read.php/category/4/post/236/guestbook.php" "Sosospider+(+http://help.soso.com/webspider.htm)"

等等,总是抓取一些不对的URL。

比如它浏览了这页后http://www.9enjoy.com/post/256/,页面中有个tag是webalta的链接,源代码上是<a href="tags/webalta/" title="Tags:  webalta" rel="tag">webalta</a>,于是它就去http://www.9enjoy.com/post/256/tags/webalta/了,而实际上应该抓取的也是用户访问到的是http://www.9enjoy.com/tags/webalta/这页。
那页面的源代码中为什么是这样的呢?可能是因为实际的页面是read.php,相对于read.php的路径来说就是正确的。

虽然确实难以理解,但Baidu和Google都能正确辨认,所以只能说Sosospider还不大智能。
发表评论
表情
emotemotemotemotemot
打开HTML
打开UBB
打开表情
隐藏
昵称   密码   游客无需密码
网址   电邮   [注册]