2010/07/19 21:14
文章作者:Enjoy 转载请注明原文链接。
最近使用一个新的子域名做了一个项目,这个项目原来也是使用一个子域名做的。顺便观察了一下Sosospider的情况。
项目上线后,原域名301跳转到新域名。
等了好几天,不见Sosospider来,而这几天,Baidu和Google都已经收录了这个新的子域名!
查看旧子域名的log时,发现有大量的Sosospider爬行记录,每条记录都有对应的301跳转,然而Sosospider居然视而不见,一次都不去新的域名上?
在7.16日,终于看到Sosospider的影子了:
124.115.6.10 - - [16/Jul/2010:16:41:15 +0800] "GET /robots.txt HTTP/1.1" 404 169 "-" "Sosospider+(+http://help.soso.com/webspider.htm)" -
然后就消失了,一直到今天:
124.115.6.10 - - [19/Jul/2010:05:06:36 +0800] "GET /robots.txt HTTP/1.1" 200 0 "-" "Sosospider+(+http://help.soso.com/webspider.htm)" -
又是这只蜘蛛来了一次,但还没开始爬行实际页面。
近中午12点,cat logs/hx.log | grep Soso,很惊喜的看到一条:
124.115.0.100 - - [19/Jul/2010:11:32:31 +0800] "GET /wangcang HTTP/1.1" 200 5253 "-" "Sosospider+(+http://help.soso.com/webspider.htm)" -
怎么爬了这个页面。。。,去搜搜搜索了下,发现这个页面已经收录了!!!也和gg一样,爬行一次就收录?
但是问题来了,soso是怎么知道这页的?
猜测1,Soso蜘蛛刚好爬行旧子域名的页面,然后被301跳转到这,于是爬了一下。
猜测2,有人在qq里发了这个链接,并且接收人在TT(腾讯的浏览器)里打开了这个链接。
查看了旧子域名的log,在11:32前有一些Sosospider的记录,但没有和这个页面相关的,排除猜测1。
猜测2,自己特意装了下TT浏览器,打开页面,发现并无蜘蛛前来。又发给用TT的朋友看了下,也没有。也排除。
原因不明了。。。
fline
2011/05/14 14:58
我也遇到只好样的情况
SASDFE
2011/01/16 11:21
昨日刚刚在我的网站上写了一个测试程序用来记录IP,并没有链接,只有自己知道,主机目录也未公开,但spider还是爬了上去,那时我的QQ在线,据推测QQ是否在收集用户访问的网址以便扩大搜索范围?那这样是否涉隐私???
enjoy 回复于 2011/01/17 15:35
有可能哦,当时忘了考虑有在QQ里贴过。
永生
2010/08/26 14:07
确实挺奥妙的
分页: 1/1
1
1

安装最新版CoreSeek3.2.13杂记
ping IP遭遇TTL expired in transit.

