欢迎光临连云港网站建设公司上云网络,公司业务涵盖网站建设、网站制作、网站设计、网站推广,致力于为中小型企业提供一站式网络服务!
TEL: 0518-85010018
当前位置首页 > 案例展示 > 


首先列出世界各大搜索引擎蜘蛛名字,方便大家查看网站日志时查找:


  google蜘蛛: googlebot 

  百度蜘蛛:baiduspider 

  yahoo蜘蛛:slurp

  alexa蜘蛛:ia_archiver

  bing蜘蛛:bingbot

  msn蜘蛛:msnbot 

  altavista蜘蛛:scooter 

  lycos蜘蛛: lycos_spider_(t-rex)

  alltheweb蜘蛛: fast-webcrawler/ 

  inktomi蜘蛛: slurp 

  有道蜘蛛:YodaoBot和OutfoxBot


在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。


现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。


网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。


蜘蛛工作原理


对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。


搜索引擎抓取策略


在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。


由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。


网页权限



网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。


连云港网站建设告诉你 什么是网络蜘蛛?


浏览次数:3392

对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右



最新案例>>更多
爱多福高端校服  [ 2021-11-22 ]
金茂源房地产  [ 2018-7-17 ]
灌云普天玻璃机械  [ 2018-7-17 ]
江苏万防防水公司  [ 2019-3-25 ]
连云港八极拳网站  [ 2018-7-17 ]
网站欣赏
联系我们
扫一扫关注微信公众号 连云港网站建设_网站设计_网站制作公司
电 话:0518-85010018 (工作日9:00~18:00)
24小时咨询:153-66666-591
E-mail:admin@lygwzjs.com   Q Q:24628045
地址:连云港市连云区中山西路12号五楼大厦606
客服QQ
获取报价
联系电话
153-66666-591
扫一扫
扫一扫关注微信公众号

微信公众号

扫一扫访问手机版

手机版

返回顶部