想爬虫的进, 不遵守robots协议的程序员, 一定会被 “监狱化” ??
阅读原文时间:2021年04月20日阅读:1

讲个笑话,听说最优秀的爬虫工程师都在局子里面呆着呢!😂😂😂
这些优秀的爬虫工程师一定知道我所讲的内容,如果你进来了,看完你就也知道了,那么就有这样的等式:优秀爬虫工程师==看过: 你==看过: 你==爬虫工程师 😊


声明: 下面是我根据一些圈内好友的博客被其他平台恶意爬取,所做出的观点阐述,有不足的地方,欢迎评论区指出,我会及时更正!


当网页出来的哪个时刻,我想爬虫也已经悄然生息的孕育了,就像正邪不两立一样,爬虫和反爬虫亦是如此,但是这场比赛的胜利者一定是爬虫,原因很简单,爬虫可以获得利益,也可以获得源代码中的一切,而反爬虫只是针对爬虫来的一个手段而已,并不能获得什么,但是倔强的网页也有倔强的做法,拟下来一个协议,这个协议就叫做robots协议,也叫做机器人协议,而爬虫界的“盗亦有道”,君子之约,也就是基于这个协议下面做你能该做的事情,而很多学爬虫的人有些是不知道这个协议的,根据视频或者一些培训机构,直接对着某网站开始大规模的抓取,就像我接触的,老师上课的时候用了这个网站来教学,那么下面几百个学生都是对这个网站开始轰炸时的请求,若是一般的网站就算了,某次,搞了一个直播平台,一大批的弹幕信息直接刷的主播蒙蔽,都是相同的内容,真实扰民,那为什么会出现这样的情况,是因为他们不知道有这个协议吗? 还是学习的时候没有遇到课程讲过这个robots协议,这就是爬虫的知识盲区了。就像开车一定得先靠驾照一样,做一件事情不就得遵守这件事情的必然规则嘛!

那讲的这个robots协议 就到底是什么,这里我们看看CSDN的robots协议

* 代表所有的人 /代表根目录


一般robots协议都会在网页的根目录下面,这里面的协议都清清楚楚的规定了,那为什么我有的时候还能再其他网站看到一些一模一样的文章呢? 不排除博主运营多个平台的例子,但是我想,绝对部分都是通过爬虫获取的。也就是抄袭, 既然这些人能搞到CSDN平台的博文,那他们的技术能力一定是足够的,那你说他们会不知道有这个协议吗?? 我认为,他们绝对知道,但是这终究还是君子协议,也只是针对君子来说,所以他们做不到,我也知道,CSDN里面的每一篇博客,虽然价值上不值几个钱,但都是我们认认真真的码好的,就这样被扒走,真的有点难受😞😞😞


那这个时候反爬虫就自然居高临下了,我技术还不行,还没试过爬CSDN的网站,觉得一定很难实现,我相信不久CSDN的反爬虫的技术会杠杠的!


大部分爬虫是不能造成什么重要危机的,只是会拖累服务器的后台,只要获取的信息不拿出去分享和二次销售,那么都是没问题的。

爬虫和反爬虫一直都是对头, 当网站检测出你是一个requests库的底细,那我们就加请求头,当网站封你ip, 那我们就用ip代理,当网站给出验证码填写,我们就用selenium跳过这个验证码,总之,过招拆招,网站有什么办法就拿出来,我们爬虫党就一定能钻个空子,实现它,这里感谢各位爬虫大佬做出个先例,让我们学习爬虫变的顺利多了!

那有没有其他更牛逼的办法来应付爬虫的,这里我摘抄知乎的某段评论
网址:https://www.zhihu.com/question/22324380
作者:xlzd
内容:首先,最简单的方式便是校验 User-Agent。校验 User-Agent 其实并不能起到反爬虫的作用,因为几乎所有写爬虫的人,看到的前三篇教程里,就会有一篇讲到要模拟 User-Agent。除了 User-Agent,所有通过 HTTP 请求传递到服务器的客户端参数都不能完全当做反爬虫的依据, 然后,一个比较常见的反爬虫策略是基于访问数量,爬虫的访问总数会远高于人类,设定一个阈值,超过阈值的就是爬虫。常见使用这样处理方式的网站有 58 同城等,在访问 58 同城较快时,会弹出一个验证码。然而只要有规律的 sleep,就可以轻松绕过这条限制。这种处理方案的升级版是找到人与爬虫访问特征的不一致究竟在哪里。爬虫与人类在访问特征上最大的不一样在于,人不会长时间持续访问一个网站,其实就是,爬虫的访问数量会随着时间增长而线性增长。于是,根据这样的特点,可以参考人类社会的个人所得税制度或者阶梯电价制度,对于一个较短周期设置比较宽的阈值,而随着时间长度的增加而逐步收紧阈值。当然,具体的阈值设置为多少合适,要根据特定网站的日志分析之后得出具体数据。到这里,很多爬虫已经会开始表现的精力不足了。大部分爬虫会直接命中短时间的策略被封,那些 sleep 一下的爬虫,在爬取一段时间之后,依然会命中中长时间的策略。如果再 sleep,抓取的效率太低,成本与收益不成正比,自然就不会再抓了。

这个作者提出的方法是真的不错,非常的考验爬虫人的技术手段。

那我们回归一下主题,学爬虫到底要不要遵守这个协议,不遵守又会干什么,正如前面所说的,这只是一个君子协议,我认为我们还是有必要遵守这个协议的,对自己负责,也是对其他创作者的负责,希望以后再也不会听到自己写的博客被别人搞走的事情了,心累。

爬虫小白记录自学十三天日程,觉得不错的,给个赞吧!

手机扫一扫

移动阅读更方便

阿里云服务器
腾讯云服务器
七牛云服务器

你可能感兴趣的文章