欢迎光临连云港网站建设公司上云网络,公司业务涵盖网站建设、网站制作、网站设计、网站推广,致力于为中小型企业提供一站式网络服务!
TEL: 0518-85010018
当前位置首页 > 新闻中心
连云港网站建设

连云港网站建设告诉你 什么是网络蜘蛛?

发表日期:2018-1-24文章编辑:浏览次数:3385    

对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右


首先列出世界各大搜索引擎蜘蛛名字,方便大家查看网站日志时查找:


  google蜘蛛: googlebot 

  百度蜘蛛:baiduspider 

  yahoo蜘蛛:slurp

  alexa蜘蛛:ia_archiver

  bing蜘蛛:bingbot

  msn蜘蛛:msnbot 

  altavista蜘蛛:scooter 

  lycos蜘蛛: lycos_spider_(t-rex)

  alltheweb蜘蛛: fast-webcrawler/ 

  inktomi蜘蛛: slurp 

  有道蜘蛛:YodaoBot和OutfoxBot


在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。


现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。


网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。


蜘蛛工作原理


对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。


搜索引擎抓取策略


在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。


由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。


网页权限



网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。


专业服务:连云港网站建设,连云港网站设计,连云港网站建设公司,连云港网站制作,连云港做网站,连云港做网络公司

咨询电话:153-66666-591(7*24小时在线服务)

咨询QQ:24628045

公司网址:www.lygwzjs.com

相关新闻

如何通过依靠网站来赚钱呢?分析一下

据最新统计数据显示,中国网民规模已达8.8亿,并且在未来几年中仍有扩大趋势。中国作为一个拥有...

日期:2019-5-21 浏览次数:5038

连云港企业网站的首页没有被收录这是什么原因呢?

很多做网站优化的都遇到过这些问题,网站上线很久了连首页还没有收录,这些是为什么呢,哪些原因导...

日期:2019-4-3 浏览次数:5131

想要学习连云港网站SEO优化需要掌握的那些技巧?

当前大到500人以上的集团公司,小到10人以下的夫妻店。都会或多或少的接触SEO优化行业,对...

日期:2019-4-3 浏览次数:5349

连云港建网站公司站外优化推广的方法有哪些?有什么好的...

网站SEO优化是利于搜索引擎来提高网站的排名,而站外SEO优化推广他的排名来源于站外的排名影...

日期:2019-3-20 浏览次数:5888

连云港网站建设中,如何提升网站排名?

众所周知,权重越高的网站,排名越靠前。然而,很多人发现网站建设中做了很长时间的网站优化,关键...

日期:2018-9-12 浏览次数:5810

连云港企业网站建设的最关键一环是:突企业品牌实力!

要做好网站的主题的定位,确定好网站的名称。网站的主题其实就是网站的题材,核心是什么,这是连云...

日期:2018-7-31 浏览次数:5428

网站欣赏
联系我们
扫一扫关注微信公众号 连云港网站建设_网站设计_网站制作公司
电 话:0518-85010018 (工作日9:00~18:00)
24小时咨询:153-66666-591
E-mail:admin@lygwzjs.com   Q Q:24628045
地址:连云港市连云区中山西路12号五楼大厦606
客服QQ
获取报价
联系电话
153-66666-591
扫一扫
扫一扫关注微信公众号

微信公众号

扫一扫访问手机版

手机版

返回顶部