学做网站培训课程介绍

当前位置:

网站怎么彻底屏蔽拦截搜索引擎蜘蛛爬虫抓取

做网站优化的站长都知道,网站上线后,网络上会有很多的搜索引擎蜘蛛爬虫会访问我们的网站。这些搜索引擎蜘蛛爬虫中既包括了百度、360、谷歌等主流搜索引擎的蜘蛛,也会有大量垃圾搜索引擎蜘蛛爬虫。

这些垃圾搜索引擎蜘蛛爬虫不但不会给我们网站带来任何流量,而且还会严重增加网站服务器的压力,造成服务器CPU使用率超高,降低网站的打开速度。这时我们需要屏蔽某些搜索引擎蜘蛛爬虫访问。

常用的屏蔽搜索搜索引擎的方法是通过ROBOTS文件来屏蔽。如下:


User-agent: SemrushBot
Disallow: /

这种屏蔽方法只能屏蔽那些遵守协议的搜索引擎,有些是不遵守就对它们无效了。下面介绍一种彻底屏蔽某些搜索引擎蜘蛛爬虫访问的方法。

找到自己主机根目录下的规则文件.htaccess(如果没有,可以手工创建.htaccess文件到站点根目录)


<IfModule mod_rewrite.c>
RewriteEngine On
#Block spider
RewriteCond %{HTTP_USER_AGENT} "SemrushBot|Webdup|AcoonBot|AhrefsBot|Ezooms|EdisterBot|EC2LinkFinder|jikespider|Purebot|MJ12bot|WangIDSpider|WBSearchBot|Wotbox|xbfMozilla|Yottaa|YandexBot|Jorgee|SWEBot|spbot|TurnitinBot-Agent|mail.RU|curl|perl|Python|Wget|Xenu|ZmEu" [NC]
RewriteRule !(^robots\.txt$) - [F]
</IfModule>

如果不想某些蜘蛛抓取就将这些蜘蛛名称写进去即可。

注:规则中默认屏蔽部分不明蜘蛛,要屏蔽其他蜘蛛按规则添加即可

附各大蜘蛛名字:

  • google蜘蛛:googlebot
  • 百度蜘蛛:baiduspider
  • 百度手机蜘蛛:baiduboxapp
  • yahoo蜘蛛:slurp
  • alexa蜘蛛:ia_archiver
  • msn蜘蛛:msnbot
  • bing蜘蛛:bingbot
  • altavista蜘蛛:scooter
  • lycos蜘蛛:lycos_spider_(t-rex)
  • alltheweb蜘蛛:fast-webcrawler
  • inktomi蜘蛛:slurp
  • 有道蜘蛛:YodaoBot和OutfoxBot
  • 热土蜘蛛:Adminrtspider
  • 搜狗蜘蛛:sogou spider
  • SOSO蜘蛛:sosospider
  • 360搜蜘蛛:360spider

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

相关教程

  • 现在很多网站都安装了SSL证书来实现加密访问,SSL证书一般是申请后可以使用一年,一年到期后再次申请重新布署。但有些站长会遇到这样的情况,网站旧
  • WordPress程序里的某个PHP文件,如果想连接数据库,一般需要填写数据库名、数据库用户、密码等信息,如下:<?php$conn=mysqli_connect(&qu
  • 我们做网站一般都是做自适应结构,不同用户使用不同的浏览设备可以浏览不同的版面的网站。但有时为了特殊的要求,我们不希望自己的网站手机端自适应,
  • 我们制作网站前台提交发布界面时,富文本编辑器常常使用kindeditor 编辑器,kindeditor 编辑器支持用户上传图片和附件,通常情况下编辑器是不限制附件
  • notepad是一款比较好用的网页编辑软件,学建站网张启亚老师也一直在用notepad。notepad有一个比较实用的功能就是它会自动保存之前打开的文件列表,但
  • 在PHP中,数组是一种非常常见且重要的数据类型。在使用数组时,通常需要不断地向数组中添加新的元素,以满足我们的需求。那么,在PHP中,如何向已有数
  • 网站中的滑动选择开关是比较常见的开关选择器,方便用户可以打开或者关闭某个参数。效果如下图:下面分享一下网站中的滑动选择开关的制作代码:HTM
  • 我们有些同学做的是下载类网站,如果使用普通的A标签来下载,很容易被别采集,这样会严重影响网站的运营。那么怎么隐藏下载地址呢?让资源的下载地址
  • 在https页面中,如果调用了http资源,那么浏览器就会抛出一些错误。我们可以通过一个meta 标签来限制网站调用http资源,自动将http替换成https资源。
  • 我们做网站时,往往需要制作图片列表,但有时每个图片宽度设置一样后,高度会不一样,这就导致了网站版面排序混乱。如下图:怎么解决这种排序混乱的