首页 » Web前端 » php屏障爬虫技巧_若何樊篱爬虫yisouspider一搜蜘蛛访问站点

php屏障爬虫技巧_若何樊篱爬虫yisouspider一搜蜘蛛访问站点

访客 2024-12-04 0

扫一扫用手机浏览

文章目录 [+]

yisouspider爬行robots文件禁止的路径

UC社区神马搜索中给出的阐明:

php屏障爬虫技巧_若何樊篱爬虫yisouspider一搜蜘蛛访问站点

robots.txt是搜索引擎访问网站时要访问的第一个文件,以确定哪些网页是许可或禁止抓取的。
yisouspider遵守robots.txt协议。
如您希望完备禁止神马访问或对部分目录禁止访问,您可以通过robots.txt文件来设置内容,限定yisouspider的访问权限。

php屏障爬虫技巧_若何樊篱爬虫yisouspider一搜蜘蛛访问站点
(图片来自网络侵删)

如果您开通了CNZZ云推举行事,协议中默认支持yisouspider抓取,会忽略robots.tx文件协议的限定。

限定Yisouspider访问权限的robots协议写法

robots.txt必须放在网站根目录下,且文件名要小写。

详细写法:

1) 完备禁止yisouspider抓取:

User-agent: yisouspider

Disallow: /

2) 禁止yisouspider抓取指定目录

User-agent: yisouspider

Disallow: /update

Disallow: /history

禁止抓取update、history目录下网页

疑问

我们平时写robots协议的时候都是直接写User-agent: ,跟神马搜索给出的User-agent: yisouspider有点不一样,不知道是不是这个问题导致我们的robots协议对yisouspider毫无浸染。

不过我也

Nginx屏蔽爬虫yisouspider访问站点方法:

进入到nginx安装目录下的conf目录,将如下代码保存为 agent_deny.conf

#禁止Scrapy等工具的抓取

if ($http_user_agent ~ (Scrapy|Curl|HttpClient)) {

return 403;

}

#禁止指定UA及UA为空的访问

if ($http_user_agent ~ \"大众yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$\公众 ) {

return 403;

}

#禁止非GET|HEAD|POST办法的抓取

if ($request_method !~ ^(GET|HEAD|POST)$) {

return 403;

}

然后,在网站干系配置中的

location / {

try_files $uri $uri/ /index.php?$args;

下方插入如下代码:

include agent_deny.conf;

保存后,实行如下命令,平滑重启nginx即可:

/usr/local/nginx/sbin/nginx -s reload

懿古今和boke112导航站点便是利用这个方法成功屏蔽爬虫yisouspider访问。
设置好之后,我的ECS做事器CPU的利用率立马就降下来了。

根据百度统计给出的数据,我的站点来自神马搜索的不多,以是权衡之下只能禁止yisouspider蜘蛛爬行了,要不然我的站点常常被它搞瘫了就得不偿失落了。
如果你的做事器比较给力,不会被搞瘫的话,就没必要禁止它了。

PS:请许可我用小心之心揣测,以前利用阿里云免费虚拟主机每个月都会涌现资源耗尽,最大的问题很有可能就会被yisouspider蜘蛛爬行导致的。

Apache屏蔽爬虫yisouspider访问站点方法:

1、通过修正 .htaccess文件

修正网站目录下的.htaccess,添加如下代码即可(2种代码任选):

可用代码 (1):

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} (^$|yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC]

RewriteRule ^(.)$ - [F]

可用代码 (2):

SetEnvIfNoCase ^User-Agent$ .(yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOT

Order Allow,Deny

Allow from all

Deny from env=BADBOT

2、通过修正httpd.conf配置文件

找到如下类似位置,根据以下代码 新增 / 修正,然后重启Apache即可:

DocumentRoot /home/wwwroot/xxx

<Directory \"大众/home/wwwroot/xxx\"大众>

SetEnvIfNoCase User-Agent \"大众.(yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms)\公众 BADBOT

Order allow,deny

Allow from all

deny from env=BADBOT

</Directory>

PHP代码屏蔽爬虫yisouspider访问站点方法:

将如下方法放到贴到网站入口文件index.php中的第一个 <?php 之后即可:

//获取UA信息

$ua = $_SERVER['HTTP_USER_AGENT'];

//将恶意USER_AGENT存入数组

$now_ua = array('yisouspider','FeedDemon ','BOT/0.1 (BOT for JCE)','CrawlDaddy ','Java','Feedly','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','Indy Library','oBot','jaunty','YandexBot','AhrefsBot','MJ12bot','WinHttp','EasouSpider','HttpClient','Microsoft URL Control','YYSpider','jaunty','Python-urllib','lightDeckReports Bot');

//禁止空USER_AGENT,dedecms等主流采集程序都是空USER_AGENT,部分sql注入工具也是空USER_AGENT

if(!$ua) {

header(\公众Content-type: text/html; charset=utf-8\"大众);

die('请勿采集本站,由于采集的站长木有小JJ!
');

}else{

foreach($now_ua as $value )

//判断是否是数组中存在的UA

if(eregi($value,$ua)) {

header(\"大众Content-type: text/html; charset=utf-8\"大众);

die('请勿采集本站,由于采集的站长木有小JJ!
');

}

}

温馨提示

本文三种方法及代码均来自张戈博主分享的《做事器反爬虫攻略:Apache/Nginx/PHP禁止某些User Agent抓取网站》。
对付Apache和PHP代码屏蔽yisouspider的办法懿古今没有亲自测试,本站只采取了Nginx屏蔽yisouspider的办法,以是如果采取其他方法碰着问题的请前往张戈博客留言乞助。

附录:UA网络

下面是网络上常见的垃圾UA列表,仅供参考,同时也欢迎你来补充。

yisouspider 一搜蜘蛛

FeedDemon 内容采集

BOT/0.1 (BOT for JCE) sql注入

CrawlDaddy sql注入

Java 内容采集

Jullo 内容采集

Feedly 内容采集

UniversalFeedParser 内容采集

ApacheBench cc攻击器

Swiftbot 无用爬虫

YandexBot 无用爬虫

AhrefsBot 无用爬虫

YisouSpider 无用爬虫(已被UC神马搜索收购,此蜘蛛可以放开!

MJ12bot 无用爬虫

ZmEu phpmyadmin 漏洞扫描

WinHttp 采集cc攻击

EasouSpider 无用爬虫

HttpClient tcp攻击

Microsoft URL Control 扫描

YYSpider 无用爬虫

jaunty wordpress爆破扫描器

oBot 无用爬虫

Python-urllib 内容采集

Indy Library 扫描

FlightDeckReports Bot 无用爬虫

Linguee Bot 无用爬虫

原文地址:http://yigujin.cn/1026.html

相关文章

今日头条算法如何实现个化推荐与精准传播

信息传播方式发生了翻天覆地的变化。今日头条作为国内领先的信息分发平台,凭借其强大的算法推荐系统,吸引了海量用户。今日头条的算法究竟...

Web前端 2025-01-31 阅读1 评论0

今日头条算法关闭之谜内容分发新格局

今日头条作为一款备受瞩目的新闻资讯平台,凭借其独特的算法推荐机制,吸引了大量用户。近期有关今日头条算法关闭的消息引发了广泛关注。本...

Web前端 2025-01-31 阅读1 评论0

今日头条算法智能推荐背后的科技魅力

信息爆炸的时代已经到来。人们每天在互联网上接触到海量的信息,如何从中筛选出有价值的内容,成为了人们关注的焦点。今日头条作为一款智能...

Web前端 2025-01-31 阅读1 评论0

今日头条算法专利申请个化推荐的秘密武器

信息爆炸的时代已经来临。在众多信息中,如何快速找到自己感兴趣的内容成为了一个难题。今日头条作为中国领先的资讯平台,凭借其独特的算法...

Web前端 2025-01-31 阅读1 评论0

今日头条算法机器推荐模式的秘密与挑战

大数据、人工智能等新兴技术的应用已经渗透到我们生活的方方面面。在信息爆炸的时代,人们获取信息的渠道越来越丰富,如何在海量信息中找到...

Web前端 2025-01-31 阅读1 评论0