随便撸(www.suibianlu.com)精品网站源码,织梦建站模版,游戏源代码分享平台
当前位置:网站首页 文章资讯 移动搜索 正文

网页蜘蛛是什么,如何控制蜘蛛?

时间:2015-12-13 [移动搜索]作者:随便撸 浏览:

蜘蛛是什么?

搜索引擎的基本工作原理:爬行和抓取网页数据——对页面数据进行文字提取,分词,索引以备使用——根据用户查询调用索引数据生成搜索结果页面。爬行和抓取是搜索引擎工作的第一个步骤。那么搜索引擎是靠什么去抓取网页数据的呢?答案是:网络爬虫。网站每一个页面就像一个节点,那么整个互联网有数以亿计的页面,也就是数以亿计的节点,这些节点相互连接,组成一个网,就像蜘蛛网一样。而网络爬虫就是为了抓取这些节点,从一个节点到另一个节点,像蜘蛛爬行一样,所以网络爬虫又被称为网页蜘蛛。

搜索引擎蜘蛛访问网站页面,类似于我们使用浏览器,我们打开一个网址,像服务器请求数据,服务器HTML代码并且按照相应的格式和排版给我们反馈一个网页,网页蜘蛛向网页发起请求,服务器同样发回HTML,蜘蛛把这些代码存入数据库。和浏览器一样,搜索引擎蜘蛛有自己独立的标识,不同搜索引擎是不一样的!

常见的搜索引擎蜘蛛名称和标识:

1. 谷歌Google蜘蛛

1) Googlebot:从Google的网站索引和新闻索引中抓取网页

2) Googlebot-Mobile:针对Google的移动索引抓取网页

3) Googlebot-Image:针对Google的图片索引抓取网页

4) Mediapartners-Google:抓取网页确定 AdSense 的内容。

5) Adsbot-Google:抓取网页来衡量 AdWords 目标网页的质量。

2. 百度(Baidu)蜘蛛名称:Baiduspider

3. 雅虎(Yahoo)蜘蛛

1) Yahoo!+Slurp:雅虎总站蜘蛛

2) Yahoo!+Slurp+China:雅虎中国蜘蛛

4. 有道(Yodao)蜘蛛

1) YodaoBot:有道蜘蛛

2) YoudaoBot:有道蜘蛛

3) YodaoBot-Image:有道图片蜘蛛

5. 搜搜(Soso)蜘蛛

1) Sosospider:搜搜蜘蛛

2) Sosoimagespider:搜搜图片蜘蛛

6. 微软(Bing和MSN)蜘蛛

1) bingbot:必应蜘蛛

2) msnbot:MSN蜘蛛

3) msnbot-media:MSN蜘蛛

7.搜狗(Sogou)蜘蛛

1) Sogou Web Sprider:搜狗网页蜘蛛

2) Sogou Orion spider:搜狗蜘蛛

如何控制蜘蛛?

robots.txt文件是每一个搜索引擎蜘蛛到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过该文件,搜索引擎就可以知道在你的网站中哪些文件是可以被索引的,哪些文件是被拒绝索引的,我们可以利用它屏蔽网站内的死链接,屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面,阻止搜索引擎索引网站隐私性的内容。robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

robots.txt文件的基本语法只有两条,第一条是:User-agent,即搜索引擎蜘蛛的名称;第二条是:Disallow,即要拦截的部分。

下面列举一些基本的robots.txt文件所需要知道的一些语法和作用。

(1)允许所有的搜索引擎访问网站的所有部分或者建立一个空白的文本文档,命名为robots.txt。

User-agent:*Disallow:或者User-agent:*Allow:/

(2)禁止所有搜索引擎访问网站的所有部分。

User-agent:*Disallow:/

(3)禁止百度索引你的网站。

User-agent:BaiduspiderDisallow:/

(4)禁止Google索引你的网站。

User-agent:GooglebotDisallow:/

(5)禁止除百度以外的一切搜索引擎索引你的网站。

User-agent:BaiduspiderDisallow:User-agent:*Disallow:/

(6)禁止除Google以外的一切搜索引擎索引你的网站。

User-agent:GooglebotDisallow:User-agent:*Disallow:/

(7)禁止和允许搜索引擎访问某个目录,如:禁止访问admin目录;允许访问images目录。

User-agent:*Disallow:/admin/Allow:/images/

(8)禁止和允许搜索引擎访问某个后缀,如:禁止访问admin目录下所有php文件;允许访问asp文件。

User-agent:*Disallow:/admin/*.php$Allow:/admin/*.asp$

(9)禁止索引网站中所有的动态页面(这里限制的是有“?”的域名,如:index.php?id=8)。

User-agent:*Disallow:/*?*

(10)指出网站XML地图的位置:Sitemap:http://www.suibianlu.com/sitemap.xml

转载请注明来源:网页蜘蛛是什么,如何控制蜘蛛?

本文永久链接地址:http://www.suibianlu.com/post/1244.html

郑重声明:
本站所有内容均由互联网收集整理、网友上传,并且以计算机技术研究交流为目的,仅供大家参考、学习,不存在任何商业目的与商业用途。
若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。 我们不承担任何技术及版权问题,且不对任何资源负法律责任。
如无法链接失效或侵犯版权,请给我们来信:admin@suibianlu.com

Top