仅仅通过UA来判断来访者是不是蜘蛛肯定是不行的,那只是请求中的一个字段而已,想填写什么都行,从国内的几个搜索引擎来说,只有360把自家蜘蛛服务器的ip地址段公布了出来,其他并不提供自家服务器的IP,不过都提供了另一个方法,那就是用rDNS来验证。 PHP有个函数,可以通过IP来反查域名,gethostbyaddr($ip) ,如果没有查到对应的域名就会返回输入的参数,也就是我们提供的IP; 并且,蜘蛛IP的rDNS都是有规则的,所以可以有以下代码:

2018年11月29日 9条评论 11235点热度 18人点赞 jlqwer 阅读全文

最近发现日志里有很多没见过的蜘蛛UA,基本上都是国外的一些搜索引擎,或者很本不是搜索引擎,有的抓取频率很高,刚开始设置了下robots.txt,因为他们首先都抓取了robots.txt,应该是遵守规则的,没想到人家只是走个过场,并没有把robot.txt放在眼里。 记得Apache可以用.htaccess文件来通过useragent来屏蔽一些访问,搜了一下,大概可以这么做:

2018年4月6日 0条评论 6578点热度 2人点赞 jlqwer 阅读全文