分享、学习、提高
2008/02/20 19:40
Tags: ,
在一个新站上看到如下日志:
77.91.224.23 - - [20/Feb/2008:07:59:07 +0800] "GET /robots.txt HTTP/1.1" 404 408 "-" "WebAlta Crawler/2.0 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)"
77.91.224.23 - - [20/Feb/2008:07:59:08 +0800] "GET / HTTP/1.1" 200 2074 "-" "WebAlta Crawler/2.0 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)"
......
77.91.224.23 - - [20/Feb/2008:16:28:49 +0800] "GET /robots.txt HTTP/1.1" 404 408 "-" "WebAlta Crawler/2.0 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)"
77.91.224.23 - - [20/Feb/2008:16:28:51 +0800] "GET /B.htm HTTP/1.1" 200 2395 "-" "WebAlta Crawler/2.0 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)"

好像挺正规,先读robots.txt,再扫描页面。访问了一下http://www.webalta.net/ru/about_webmaster.html,找不到页面,估计被封了。

查了一下,从一大堆网页日志的搜索记录中,找出它原来是俄罗斯的搜索引擎。俄罗斯的搜索引擎跑来中国抓网页,呵呵。估计没什么用,如果扫描的量很大的话,可以考虑把它的IP屏蔽。
分页: 1/1 第一页 1 最后页 [ 显示模式: 摘要 | 列表 ]