通过查看IIS日志,我们可以知道有哪些蜘蛛爬行了我们的网站以及访问了哪些页面等等,下面介绍一下常见的一些主流的蜘蛛的名称和标志,并详细介绍不同的状态码代表什么。
常见网络蜘蛛名称和标志:
1. 谷歌Google蜘蛛
1) Googlebot:从Google的网站索引和新闻索引中抓取网页
2) Googlebot-Mobile:针对Google的移动索引抓取网页
3) Googlebot-Image:针对Google的图片索引抓取网页
4) Mediapartners-Google:抓取网页确定 AdSense 的内容。只有在你的网站上展示 AdSense 广告的情况下,Google才会使用此漫游器来抓取您的网站。
5) Adsbot-Google:抓取网页来衡量 AdWords 目标网页的质量。只有在你使用 Google AdWords 为你的网站做广告的情况下,Google才会使用此漫游器。
2. 百度(Baidu)蜘蛛
名称:Baiduspider
3. 雅虎(Yahoo)蜘蛛
1) Yahoo!+Slurp:雅虎总站蜘蛛
2) Yahoo!+Slurp+China:雅虎中国蜘蛛
4. 有道(Yodao)蜘蛛
1) YodaoBot:有道蜘蛛
2) YoudaoBot:有道蜘蛛
3) YodaoBot-Image:有道图片蜘蛛
5. 搜搜(Soso)蜘蛛
1) Sosospider:搜搜蜘蛛
2) Sosoimagespider:搜搜图片蜘蛛
6. 微软(Bing和MSN)蜘蛛
1) bingbot:必应蜘蛛
2) msnbot:MSN蜘蛛,这个蜘蛛只在我的网站爬行了robots.txt
3) msnbot-media:MSN蜘蛛
7.搜狗(Sogou)蜘蛛
1) Sogou Web Sprider:搜狗网页蜘蛛
2) Sogou Orion spider:搜狗蜘蛛
3) Sogou-Test-Spider:这个搜狗蜘蛛不知道是干什么的?不过我的站被搜狗降权了,所以只有这个蜘蛛爬行过,也就是说检测是否作弊的蜘蛛?
更多搜索引擎蜘蛛见这里:搜索引擎蜘蛛大全 https://ie.icoa.cn/bot
上面是主流的常见的一些蜘蛛,下面看一条蜘蛛爬行的记录吧:
2010-10-27 16:03:09 123.125.71.41 - GET /web/ 200 0 HTTP/1.1 Baiduspider+(+http://www.baidu.com/search/spider.htm) -
爬行记录是用空格来隔开每个参数的,它们分别代表:日期 时间 来访IP 用户 方式 受访地址 状态 字节数 HTTP版本 客户端 来访地址。
上面这条蜘蛛访问记录指的是:在2010-10-27日16:03:09时间访问了/web/ 页面,来访的客户端是百度蜘蛛(Baiduspider+(+http://www.baidu.com/search/spider.htm)),状态是请求已完成(200)。
下面解释一下状态代码比如200等分别代表什么意思:
2xx 表示请求成功
200 正常;代表请求已完成。
201 正常;紧接 POST 命令。
202 正常;已接受用于处理,但处理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;无响应 — 已接收请求,但不存在要回送的信息。
3xx 重定向
301 已移动 — 请求的数据具有新的位置且更改是永久的。
302 已找到 — 请求的数据临时具有不同 URI。
303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
304 未修改 — 未按预期修改文档。
305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不再使用;保留此代码以便将来使用。
4xx 客户机中出现的错误
400 错误请求 — 请求中有语法问题,或不能满足请求。
401 未授权 — 未授权客户机访问数据。
402 需要付款 — 表示计费系统已有效。
403 禁止 — 即使有授权也不需要访问。
404 找不到 — 服务器找不到给定的资源;文档不存在。
407 代理认证请求 — 客户机首先必须使用代理认证自身。
410 请求的网页不存在(永久);
415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。
5xx 服务器中出现的错误
500 内部错误 — 因为意外情况,服务器不能完成请求。
501 未执行 — 服务器不支持请求的工具。
502 错误网关 — 服务器接收到来自上游服务器的无效响应。
503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。
下一篇:百度收录为零,www.cocold.com百度收录消失实录
上一篇:iis日志分析工具下载
- 相关文章 -
搜狗Sogou终于“出狱”…… - 2010-12-24
SEO领航者ZAC竟然是“半路出家” - 2011-07-18
SEO实践证明site首页不在第一个并不是降权 - 2011-07-11
关于百度搜索的区域化对SEO的启示 - 2011-07-08
如何判断百度蜘蛛(Baiduspider)是否是假冒的,真伪判断 - 2010-12-18
搜狗蜘蛛(Sogou web spider)难道恢复对本站的抓取吗? - 2010-12-16
百度官方推出SEO建议 - 2011-06-30
IIS7 的 HTTP 状态代码列表 - 2011-06-23
- 文章评论 -
- 最新评论[0条评论] -
版权所有©逍遥峡谷 - 星际中心超自然局 · 地球总部 |
逍遥峡谷 ·
酷品优选
Copyright©Interstellar Central Occult Agency (I.C.O.A)
本局纯属虚构,如有雷同,纯属巧合