分享、学习、提高
2007/01/11 14:22
文章作者:Enjoy 转载请注明原文链接。
看了下日志,发现有几条类似这样的:
66.249.72.34 - - [11/Jan/2007:14:03:57 +0800] "GET /News_3_1.htm HTTP/1.1" 200 8812 "-" "Mediapartners-Google/2.1"

Mediapartners-Google,搜索一下,原来是Google Adsense的漫游器。




以下内容来自 网站管理员支持中心

我希望网站的某些网页不被编入索引,但要在这些页上显示 AdSense 广告。能否满足我的这一要求?

可以。您可以在这些网页上禁用 (Disallow) 除 Mediapartners-Google 之外的所有漫游器。这样可确保不将网页编入索引,但可让 Googlebot-MediaPartners 漫游器分析这些网页,以确定是否显示广告。Googlebot-MediaPartners 漫游器不与其他 Google 用户代理共享网页。例如,您可以使用下列条目:

User-Agent:*
Disallow:/folder1/
User-Agent:MediaPartners-Google
Allow:/folder1/

如何拦截 Googlebot?

拦截 Googlebot
Google 使用多个 user-agent。您可以在条目的 User-Agent 行中包含漫游器名称来拦截对网页的访问。拦截 Googlebot 将会拦截所有以"Googlebot"开头的漫游器。

Googlebot:从我们的网站索引和新闻索引中抓取网页
Googlebot-Mobile:针对我们的移动索引抓取网页
Googlebot-Image:针对我们的图片索引抓取网页
Mediapartners-Google:抓取网页确定 AdSense 的内容。只有在您的网站上展示 AdSense 广告的情况下,我们才会使用此漫游器来抓取您的网站。
Adsbot-Google:抓取网页来衡量 AdWords 目标网页的质量。只有在您使用 AdWords 为您的网站做广告的情况下,我们才会使用此漫游器。参阅关于此漫游器的更多信息以及如何在您的网站上执行部分拦截。
例如,要完全拦截 Googlebot,您可以使用下列语法:

User-agent:Googlebot Disallow:/
允许 Googlebot
如果您要拦截除 Googlebot 以外的所有漫游器访问您的网页,可以使用下列语法:

User-agent:Disallow:/
User-agent:Googlebot
Disallow:
Googlebot 跟随指向它自己的行,而不是指向所有漫游器的行。

"Allow"扩展名
Googlebot 可识别称为"Allow"的 robots.txt 标准扩展名。其他搜索引擎的漫游器可能无法识别此扩展名,因此请使用您感兴趣的其他搜索引擎进行查找。"Allow"行的作用原理完全与"Disallow"行一样。只需列出您要允许的目录或页面即可。

您也可以同时使用"Disallow"和"Allow"。例如,要拦截子目录中某个页面之外的其他所有页面,可以使用下列条目:

User-Agent:Googlebot
Disallow:/folder1/
Allow:/folder1/myfile.html
这些条目将拦截 folder1 目录内除 myfile.html 之外的所有页面。

如果您要拦截 Googlebot 并允许 Google 的另一个漫游器(如 Googlebot-Mobile),可使用"Allow"规则允许该漫游器的访问。例如:

User-agent:Googlebot
Disallow:/
User-agent:Googlebot-Mobile
Allow:



以下文章来自123cha论坛

在线广告的系统需求最主要有一点:

1] 能够快速识别新网页的类别。

如何针对网页分类一直是一个困惑搜索引擎的问题,即便现有的方法有很多,例如:
LR,NNet(Neural network), Knn K-nearest neighbor, SVM 。

前面我讲述信息的分类的方法基本上按照线性的SVM方法进行分类,但是信息空间一旦加大到几十万维,要计算一个网页的类别是很困难的。

针对在线广告google的Mediapartners爬虫有一些比较好的特征,能够满足在线广告的需要。这里阐述一下Mediapartners的工作原理:

1] 当我们打开一个网页的时候,这个网页:
<1> 已经被Mediapartners 爬过并分类处理了,那么广告的相关性就有了。
<2>是一个新网页,我们主要讲述新网页。
2] Mediapartners 爬虫在这个网页被load的同时发现了这是一个新网页,那么
进行最简单的判断:
<1> Url 的标记是否有关键词,例如:
http://www.9enjoy.com/football.html
这里的football 马上就作为一个临时的分类的类别。
<2> 如果没有的话这个网页上一级的分类继承为这个网页的临时分类。

如果以上<1> <2> 都没有,那么刊登公益广告。

3] 然后Mediapartners 进行离线的分析,这里就没有太多的悬念了。Booso.com 最近也做了可以对网页进行分类的计算,例如Mediapartners-Google/2.1 爬虫对Adsense的分析可以在Booso.com 里计算各种类别的权重。

4] 然后下次当网页被浏览时就可以根据权重随机的抽取适合的广告了。

5] 改进
针对更加准确的离线分类,除了Hilltop的方法外,可以增加以下的规则:
<1> 根据网页被搜索到的关键词分类,在线,超强,超准确。
<2> 根据网页的 http_referral 的上一个网页的分类的继承到这个网页。
<3> 根据这个网页里联接出去的 link out 的网页的分类进行反向推导。
发表评论
表情
emotemotemotemotemot
打开HTML
打开UBB
打开表情
隐藏
昵称   密码   游客无需密码
网址   电邮   [注册]
               

验证码 不区分大小写