Thank you for reading...
2008/11/09 16:37
Apache默认的日志记录方式:
LogFormat "%h %l %u %t \"%r\" %>s %b" common
记录到的如下:
61.135.168.14 - - [22/Oct/2008:22:13:11 +0800] "GET / HTTP/1.1" 200 8427
Apache还有个较复杂的combined的日志记录方式,如下:
LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined
其记录到的类似:
61.135.168.14 - - [22/Oct/2008:22:13:31 +0800] "GET / HTTP/1.1" 200 8427 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
为了能更方便的了解Baidu蜘蛛来访的情况,索性单独写了个只记录Baidu蜘蛛来访记录。common中的%l和%u好像都记录不到东西的,所以也去掉。
SetEnvIfNoCase User-Agent Baiduspider baidu_robot
LogFormat "%h %t \"%r\" %>s %b" robot
CustomLog "|/usr/local/apache2.2.0/bin/rotatelogs /usr/local/apache2.2.0/logs/baidu_%Y%m%d.txt 86400 480" robot env=baidu_robot
这样在logs目录下,就会每天产生baidu_年月日.txt的日志了,每条的记录和下面的类似:
61.135.168.14 [22/Oct/2008:22:21:26 +0800] "GET / HTTP/1.1" 200 8427
LogFormat "%h %l %u %t \"%r\" %>s %b" common
记录到的如下:
61.135.168.14 - - [22/Oct/2008:22:13:11 +0800] "GET / HTTP/1.1" 200 8427
Apache还有个较复杂的combined的日志记录方式,如下:
LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined
其记录到的类似:
61.135.168.14 - - [22/Oct/2008:22:13:31 +0800] "GET / HTTP/1.1" 200 8427 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
为了能更方便的了解Baidu蜘蛛来访的情况,索性单独写了个只记录Baidu蜘蛛来访记录。common中的%l和%u好像都记录不到东西的,所以也去掉。
SetEnvIfNoCase User-Agent Baiduspider baidu_robot
LogFormat "%h %t \"%r\" %>s %b" robot
CustomLog "|/usr/local/apache2.2.0/bin/rotatelogs /usr/local/apache2.2.0/logs/baidu_%Y%m%d.txt 86400 480" robot env=baidu_robot
这样在logs目录下,就会每天产生baidu_年月日.txt的日志了,每条的记录和下面的类似:
61.135.168.14 [22/Oct/2008:22:21:26 +0800] "GET / HTTP/1.1" 200 8427
2008/03/06 10:52
有时主域名被Baidu封了后,启用新域名来让Baidu收录是一个很好的办法,但是,这样也会让新域名在Google和Yahoo中收录。
虽然有人说这样挺好,但我觉得主站被收录就好了,辅助域名没必要收录,收录了反而影响主域名,因为是一样的内容。于是,就想设置除主域名外不让google等收录。
由于放在同一个目录下,robots.txt只能是一个,查了下robots的方法,禁止搜索引擎收录的方法,没发现可以根据域名来disallow的。
今天想到了一个办法,通过Rewrite来实现。
先建了一个空的robots.txt放在根目录,即允许所有搜索引擎收录。
再建了一个用于辅助域名的robots_2.txt,不想让Google和Yahoo的蜘蛛访问。
内容如下:
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent:Googlebot
Disallow:/
然后在站点.htaccess中设置:
RewriteEngine On
RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{HTTP_HOST} [www\.]?domain2.com$ [NC]
RewriteRule ^robots.txt$ robots_2.txt [L]
在浏览器里访问www.domain2.com/robots.txt,成功访问到robots_2.txt的内容,测试成功:)
虽然有人说这样挺好,但我觉得主站被收录就好了,辅助域名没必要收录,收录了反而影响主域名,因为是一样的内容。于是,就想设置除主域名外不让google等收录。
由于放在同一个目录下,robots.txt只能是一个,查了下robots的方法,禁止搜索引擎收录的方法,没发现可以根据域名来disallow的。
今天想到了一个办法,通过Rewrite来实现。
先建了一个空的robots.txt放在根目录,即允许所有搜索引擎收录。
再建了一个用于辅助域名的robots_2.txt,不想让Google和Yahoo的蜘蛛访问。
内容如下:
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent:Googlebot
Disallow:/
然后在站点.htaccess中设置:
RewriteEngine On
RewriteCond %{REQUEST_FILENAME} !-d
RewriteCond %{HTTP_HOST} [www\.]?domain2.com$ [NC]
RewriteRule ^robots.txt$ robots_2.txt [L]
在浏览器里访问www.domain2.com/robots.txt,成功访问到robots_2.txt的内容,测试成功:)
2008/02/20 19:40
在一个新站上看到如下日志:
77.91.224.23 - - [20/Feb/2008:07:59:07 +0800] "GET /robots.txt HTTP/1.1" 404 408 "-" "WebAlta Crawler/2.0 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)"
77.91.224.23 - - [20/Feb/2008:07:59:08 +0800] "GET / HTTP/1.1" 200 2074 "-" "WebAlta Crawler/2.0 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)"
......
77.91.224.23 - - [20/Feb/2008:16:28:49 +0800] "GET /robots.txt HTTP/1.1" 404 408 "-" "WebAlta Crawler/2.0 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)"
77.91.224.23 - - [20/Feb/2008:16:28:51 +0800] "GET /B.htm HTTP/1.1" 200 2395 "-" "WebAlta Crawler/2.0 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)"
好像挺正规,先读robots.txt,再扫描页面。访问了一下http://www.webalta.net/ru/about_webmaster.html,找不到页面,估计被封了。
查了一下,从一大堆网页日志的搜索记录中,找出它原来是俄罗斯的搜索引擎。俄罗斯的搜索引擎跑来中国抓网页,呵呵。估计没什么用,如果扫描的量很大的话,可以考虑把它的IP屏蔽。
77.91.224.23 - - [20/Feb/2008:07:59:07 +0800] "GET /robots.txt HTTP/1.1" 404 408 "-" "WebAlta Crawler/2.0 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)"
77.91.224.23 - - [20/Feb/2008:07:59:08 +0800] "GET / HTTP/1.1" 200 2074 "-" "WebAlta Crawler/2.0 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)"
......
77.91.224.23 - - [20/Feb/2008:16:28:49 +0800] "GET /robots.txt HTTP/1.1" 404 408 "-" "WebAlta Crawler/2.0 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)"
77.91.224.23 - - [20/Feb/2008:16:28:51 +0800] "GET /B.htm HTTP/1.1" 200 2395 "-" "WebAlta Crawler/2.0 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)"
好像挺正规,先读robots.txt,再扫描页面。访问了一下http://www.webalta.net/ru/about_webmaster.html,找不到页面,估计被封了。
查了一下,从一大堆网页日志的搜索记录中,找出它原来是俄罗斯的搜索引擎。俄罗斯的搜索引擎跑来中国抓网页,呵呵。估计没什么用,如果扫描的量很大的话,可以考虑把它的IP屏蔽。
2007/03/19 10:32
Baidu: Baiduspider+(+http://www.baidu.com/search/spider.htm)
Yahoo: Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
Google: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Yahoo: Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
Sogou: sogou spider
Msn: msnbot/1.0 (+http://search.msn.com/msnbot.htm)
----------------------------------------------
序号 IP 注释
1 202.106.186 163 修改 删除
2 202.108.36 163 修改 删除
3 202.108.44 163 修改 删除
4 202.108.45 163 修改 删除
5 202.108.5 163 修改 删除
6 202.108.9 163 修改 删除
7 220.181.12 163 修改 删除
8 220.181.13 163 修改 删除
9 220.181.14 163 修改 删除
10 220.181.15 163 修改 删除
11 220.181.28 163 修改 删除
12 220.181.31 163 修改 删除
13 222.185.245 163 修改 删除
14 202.165.100 3721 修改 删除
15 220.181.19 baidu 修改 删除
16 159.226.50 baidu 修改 删除
17 202.108.11 baidu 修改 删除
18 202.108.22 baidu 修改 删除
19 202.108.23 baidu 修改 删除
20 202.108.249 baidu 修改 删除
21 202.108.250 baidu 修改 删除
22 61.135.145 baidu 修改 删除
23 61.135.146 baidu 修改 删除
24 64.124.85 become.com 修改 删除
25 61.151.243 china 修改 删除
26 202.165.96 gais.cs.ccu.edu.tw 修改 删除
27 216.239.33 google 修改 删除
28 216.239.35 google 修改 删除
29 216.239.37 google 修改 删除
30 216.239.39 google 修改 删除
31 216.239.51 google 修改 删除
32 216.239.53 google 修改 删除
33 216.239.55 google 修改 删除
34 216.239.57 google 修改 删除
35 216.239.59 google 修改 删除
36 64.233.161 google 修改 删除
37 64.233.189 google 修改 删除
38 66.102.11 google 修改 删除
39 66.102.7 google 修改 删除
40 66.102.9 google 修改 删除
41 66.249.64 google 修改 删除
42 66.249.65 google 修改 删除
43 66.249.66 google 修改 删除
44 66.249.71 google 修改 删除
45 66.249.72 google 修改 删除
46 72.14.207 google 修改 删除
47 61.135.152 iask 修改 删除
48 65.54.188 msn 修改 删除
49 65.54.225 msn 修改 删除
50 65.54.226 msn 修改 删除
51 65.54.228 msn 修改 删除
52 65.54.229 msn 修改 删除
53 207.46.98 msn 修改 删除
54 207.68.157 msn 修改 删除
55 194.224.199 noxtrumbot 修改 删除
56 220.181.8 Outfox 修改 删除
57 221.239.209 Outfox 修改 删除
58 217.212.224 psbot 修改 删除
59 219.133.40 QQ 修改 删除
60 202.96.170 QQ 修改 删除
61 202.104.129 QQ 修改 删除
62 61.135.157 QQ 修改 删除
63 219.142.118 sina 修改 删除
64 219.142.78 sina 修改 删除
65 61.135.132 sohu 修改 删除
66 220.181.26 sohu 修改 删除
67 61.135.158 tom 修改 删除
68 66.196.90 yahoo 修改 删除
69 66.196.91 yahoo 修改 删除
70 68.142.249 yahoo 修改 删除
71 68.142.250 yahoo 修改 删除
72 68.142.251 yahoo 修改 删除
73 202.165.102 yahoo 修改 删除
74 202.160.178 yahoo 修改 删除
75 202.160.179 yahoo 修改 删除
76 202.160.180 yahoo 修改 删除
77 202.160.181 yahoo 修改 删除
78 202.160.183 yahoo 修改 删除
79 72.30.101 yahoo 修改 删除
80 72.30.102 yahoo 修改 删除
81 72.30.103 yahoo 修改 删除
82 72.30.104 yahoo 修改 删除
83 72.30.107 yahoo 修改 删除
84 72.30.110 yahoo 修改 删除
85 72.30.111 yahoo 修改 删除
86 72.30.128 yahoo 修改 删除
87 72.30.129 yahoo 修改 删除
88 72.30.131 yahoo 修改 删除
89 72.30.133 yahoo 修改 删除
90 72.30.134 yahoo 修改 删除
91 72.30.135 Yahoo 修改 删除
92 72.30.216 yahoo 修改 删除
93 72.30.226 yahoo 修改 删除
94 72.30.252 yahoo 修改 删除
95 72.30.97 yahoo 修改 删除
96 72.30.98 yahoo 修改 删除
97 72.30.99 yahoo 修改 删除
98 74.6.74 yahoo 修改 删除
99 202.108.4 zhongsou 修改 删除
100 202.108.33 zhongsou 修改 删除
101 202.96.51 zhongsou 修改 删除
102 219.142.53 zhongsou 修改 删除
原文:http://hi.baidu.com/npzw/blog/item/c439b938c5d60ac2d56225fa.html
Yahoo: Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
Google: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Yahoo: Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
Sogou: sogou spider
Msn: msnbot/1.0 (+http://search.msn.com/msnbot.htm)
----------------------------------------------
序号 IP 注释
1 202.106.186 163 修改 删除
2 202.108.36 163 修改 删除
3 202.108.44 163 修改 删除
4 202.108.45 163 修改 删除
5 202.108.5 163 修改 删除
6 202.108.9 163 修改 删除
7 220.181.12 163 修改 删除
8 220.181.13 163 修改 删除
9 220.181.14 163 修改 删除
10 220.181.15 163 修改 删除
11 220.181.28 163 修改 删除
12 220.181.31 163 修改 删除
13 222.185.245 163 修改 删除
14 202.165.100 3721 修改 删除
15 220.181.19 baidu 修改 删除
16 159.226.50 baidu 修改 删除
17 202.108.11 baidu 修改 删除
18 202.108.22 baidu 修改 删除
19 202.108.23 baidu 修改 删除
20 202.108.249 baidu 修改 删除
21 202.108.250 baidu 修改 删除
22 61.135.145 baidu 修改 删除
23 61.135.146 baidu 修改 删除
24 64.124.85 become.com 修改 删除
25 61.151.243 china 修改 删除
26 202.165.96 gais.cs.ccu.edu.tw 修改 删除
27 216.239.33 google 修改 删除
28 216.239.35 google 修改 删除
29 216.239.37 google 修改 删除
30 216.239.39 google 修改 删除
31 216.239.51 google 修改 删除
32 216.239.53 google 修改 删除
33 216.239.55 google 修改 删除
34 216.239.57 google 修改 删除
35 216.239.59 google 修改 删除
36 64.233.161 google 修改 删除
37 64.233.189 google 修改 删除
38 66.102.11 google 修改 删除
39 66.102.7 google 修改 删除
40 66.102.9 google 修改 删除
41 66.249.64 google 修改 删除
42 66.249.65 google 修改 删除
43 66.249.66 google 修改 删除
44 66.249.71 google 修改 删除
45 66.249.72 google 修改 删除
46 72.14.207 google 修改 删除
47 61.135.152 iask 修改 删除
48 65.54.188 msn 修改 删除
49 65.54.225 msn 修改 删除
50 65.54.226 msn 修改 删除
51 65.54.228 msn 修改 删除
52 65.54.229 msn 修改 删除
53 207.46.98 msn 修改 删除
54 207.68.157 msn 修改 删除
55 194.224.199 noxtrumbot 修改 删除
56 220.181.8 Outfox 修改 删除
57 221.239.209 Outfox 修改 删除
58 217.212.224 psbot 修改 删除
59 219.133.40 QQ 修改 删除
60 202.96.170 QQ 修改 删除
61 202.104.129 QQ 修改 删除
62 61.135.157 QQ 修改 删除
63 219.142.118 sina 修改 删除
64 219.142.78 sina 修改 删除
65 61.135.132 sohu 修改 删除
66 220.181.26 sohu 修改 删除
67 61.135.158 tom 修改 删除
68 66.196.90 yahoo 修改 删除
69 66.196.91 yahoo 修改 删除
70 68.142.249 yahoo 修改 删除
71 68.142.250 yahoo 修改 删除
72 68.142.251 yahoo 修改 删除
73 202.165.102 yahoo 修改 删除
74 202.160.178 yahoo 修改 删除
75 202.160.179 yahoo 修改 删除
76 202.160.180 yahoo 修改 删除
77 202.160.181 yahoo 修改 删除
78 202.160.183 yahoo 修改 删除
79 72.30.101 yahoo 修改 删除
80 72.30.102 yahoo 修改 删除
81 72.30.103 yahoo 修改 删除
82 72.30.104 yahoo 修改 删除
83 72.30.107 yahoo 修改 删除
84 72.30.110 yahoo 修改 删除
85 72.30.111 yahoo 修改 删除
86 72.30.128 yahoo 修改 删除
87 72.30.129 yahoo 修改 删除
88 72.30.131 yahoo 修改 删除
89 72.30.133 yahoo 修改 删除
90 72.30.134 yahoo 修改 删除
91 72.30.135 Yahoo 修改 删除
92 72.30.216 yahoo 修改 删除
93 72.30.226 yahoo 修改 删除
94 72.30.252 yahoo 修改 删除
95 72.30.97 yahoo 修改 删除
96 72.30.98 yahoo 修改 删除
97 72.30.99 yahoo 修改 删除
98 74.6.74 yahoo 修改 删除
99 202.108.4 zhongsou 修改 删除
100 202.108.33 zhongsou 修改 删除
101 202.96.51 zhongsou 修改 删除
102 219.142.53 zhongsou 修改 删除
原文:http://hi.baidu.com/npzw/blog/item/c439b938c5d60ac2d56225fa.html





