分享、学习、提高
Thank you for reading...
2008/02/27 22:27
Tags: ,
在网站日志里看到大量的Sosospider,出现的频率不低于那三家搜索引擎。

soso现在还是使用gg的搜索,但自己也很早就在研发自己的搜索引擎了,所以有了Sosospider(官方说明:http://help.soso.com/webspider.htm
),以及搜索图片的一个Spider,叫Sosoimagespider(官方说明:http://help.soso.com/soso-image-spider.htm)

但是,从本Blog的日志来看,Sosospider还不大智能。
2007/03/20 14:56
Tags: ,
2007-03-20 06:38:03 58.213.112.172 - GET /show.asp id=915 200 0 HTTP/1.0 TMCrawler -
2007-03-20 06:38:11 58.213.112.172 - GET /show.asp id=5565 200 0 HTTP/1.0 TMCrawler -
2007-03-20 06:38:13 58.213.112.172 - GET /show.asp id=4916 200 0 HTTP/1.0 TMCrawler -2007-03-20 06:39:03 58.213.112.172 - GET /show.asp id=5637 200 0 HTTP/1.0 TMCrawler -

这个TMCrawler大量出现在了日志中,搜索一下,还没找到是哪里的。。。

查了下此IP,发现是江苏省的。http://tools.hxstat.com/ip/?ip=58.213.112.172

就是不知道是谁的,暂且记录一下,等找到答案再贴上。
2006/12/01 08:42
1.apache下多域名绑定同一空间,使用ServerAlias。
如:ServerName dengju.com
ServerAlias www.dengju.com
多个用空格隔开
如果是泛域名解析,经常只要用:*.dengju.com
就OK了

3.linux下的tail -f真好用,可以用来查看最新的日志。
一个新站,有几条比较特殊,列举一下。

::1 - - [01/Dec/2006:16:19:41 +0800] "GET / HTTP/1.0" 200 263 "-" "Apache/2.2.3 (Unix) DAV/2 PHP/5.1.6 (internal dummy connection)"
网上搜索了下,没找到是什么原因,好像是Apache2.2以上的版本才会出现。

218.20.224.117 - - [01/Dec/2006:16:38:30 +0800] "GET /wpad.dat HTTP/1.1" 404 206 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Win32)"
wpad.dat不知道是什么东东,估计也是程序或软件来读的。SE一下:http://www.microsoft.com/china/community/Column/71.mspx,不大明白,好像是什么ISA Server的“自动发现”功能,另有一篇:http://kouzi.ls0578.net/glrblognew/showlog.asp?cat_id=42&log_id=340

sogou的spider一直在抓,大约每12秒读取一下。
220.181.19.184 - - [01/Dec/2006:16:43:08 +0800] "GET /product_4050.htm HTTP/1.1" 200 3421 "-" "sogou spider"
220.181.19.184 - - [01/Dec/2006:16:43:20 +0800] "GET /product_4049.htm HTTP/1.1" 200 3337 "-" "sogou spider"
分页: 1/1 第一页 1 最后页 [ 显示模式: 摘要 | 列表 ]