如题,其实也没特别严重,谈不上被黑,就是前些天网站被机器采集了,搞得主机那边只能把saintsky给关闭了,因为被采集强度太大,一时间主机负荷太高,如果不关闭,整个服务器会被拖垮。
事情是这样的,在一个风和日丽的早上,我跟往常一样打开我心爱的博客saintsky,结果居然没跟往常一样打开,结果居然跳到主机商的暂停页面。我心想,这个月带宽就没了?明明之前查还有几G来着,这么快就完了?结果进主机后台,居然进不去。我勒个去,主机商该不是跑路了吧,这种事情居然能碰上,完蛋了,这才用多久啊,网站没备份啊,泪奔。
然后联系了主机的客服,幸亏在线,于是就问了一下网站怎么关闭了。客服小哥(这么可爱,一定是男孩子)说我网站导致负荷太高了,主机承受不住,就临时关闭,让我去查一下原因。我就纳闷了,好端端我网站怎么就导致负荷高了,难道这几天我火了,然后网站访问量爆棚?这也不可能啊,要是我火了,我微博粉丝早就上去了,要是我火了,肯定有傻逼打电话告诉我说,傻逼,你出名!!但是这些都没有发生。而其他的,最近我也没对网站做什么改动,也就是调整了一下广告位,难不成广告位能拖垮累主机?这不科学啊!!
客服小哥建议我安装WP Super Cache,这是wordpress的一个缓存插件,装上之后会减少对主机的数据库的读取,可以减少主机负荷,但是这插件变态之处就是必须得用伪静态的固定链接,而saintsky一直采用的是默认的动态固定链接格式,我不太愿意修改链接格式,因为作为个老站点,改固定链接影响还是比较大的,而且曾经很多人建议我伪静态,我都没改,我觉得干嘛要伪静态,真静态就真静态,干嘛要假装,于是拒绝了客服小哥的这个提议。
客服小哥帮我解封了之后,于是我就关闭了几个插件,说先观察一天,看看第二天还会不会这样,但是并没有起到什么效果,网站再次被临时关闭。客服小哥说还是不行,说还是负荷很高,让我查一下后台的日志,囧,没看过日志,不会看啊,我勒个去。
然后大致研究了一下后台日志,发现有个代号为bot*的蜘蛛抓取十分频繁,以至于一个小时消耗了1.7G的带宽,到访次数一天搞到二十万次,这主机负荷不高才怪了,由此看来,应该是被采集了,正规的蜘蛛不可能抓取这么频繁,像谷歌和百度的蜘蛛,一天消耗带宽加起来也就几百M不到一G的样子。
总之呢,这个情况以前是没有出现过的,作为一个用于写些琐碎外加吐槽的博客,不知道采集的意义是什么,听说如果一个博客被黑,那么就证明你博客有价值了,不知道saintsky是不是价值凸显才会这样,如果是的,那我是不是应该暗爽一把。爽归爽,但是问题还是得解决,不解决,主机商就不解除锁定,所以我就寻找解决办法。
对于网站被采集,基本上方法就只有几种,一是在正文中混入版权和干扰字符,让采集者失去采集意义,这治标不治本,要是他继续采集,你也没辙。二是限制单个访客单位时间内访问的页面数量,这个太高级,wordpress貌似又没这样的插件,只能作罢。三是对采集者的IP进行屏蔽,这个有一定效果,但是不能完全杜绝,毕竟对方可以换IP。我只能选择第三种,但是从后台数据里推测不出到底是哪个IP,因为并没有哪个特别突出,一百M以上的有五六个,万一不小心把百度和谷歌的蜘蛛屏蔽了,那就亏大了。
在我还在研究的时候,客服小哥始终强烈建议我启用WP Super Cache,,我心想,算了,还是用吧,不要给别人主机商填麻烦,反正最近PR和收录都掉得七七八八了,于是就启用了WP Super Cache这个插件。同时我还安装了wp ban 这个插件,这个是一个屏蔽指定IP访问的插件,装上之后可以设置禁止哪些IP访问。我把访问量比较多的几个IP都添加进去了,所以估计会误伤部分访客,除此之外,这个插件不太稳定,有时候会把列表之外的IP也屏蔽了,所以有时候会导致有些访客访问出现“you are banded”的字样。
从wp ban的数据来看,有一个ip确实访问量巨大,一次几千页,看来这个ip就是蜘蛛的ip了,但是wp ban又不太稳定,会误伤其他访客,所以我正在研究其他替代方案,在此期间对各位造成的不便深感歉意,希望各位见谅。
被黑的博客都是好博客。
黑客眼里绝得好的,群众不一定觉得啊
你火了
= = 应该不是吧,我可不想火啊