奇葩网站吐槽第三弹

本文是吐槽奇葩网站的第三弹,主要是吐槽网站制作者偷懒或者智商低留下的设计缺陷,可能需要一定的web开发知识才能看懂。之前两篇:

  1. 吐槽一些神奇的政府网站
  2. 奇葩网站吐槽第二弹

170814更新:是一个行政处罚的网站,打开一看,网站给处罚人的身份证打了码,嗯,挺好的,没毛病。

但是打开网络一看……

大哥好歹打码用心一点啊……


20170908更新:一般来说,爬虫都是通过列表页拿到详情页的url,然后主要是从详情页抓数据的。

今天遇到一个列表页的url超级复杂的,根本不知道这些参数怎么得到的。而且请求时不时地返回500(这说明网站开发者也不知道这些参数怎么来的)。网页虽然不是单页应用但写的很烂,嵌套的frame。

就在要放弃的时候,我打开详情页看了一眼……详情页url长这个样子……

这个pkid不就是“primary key id”吗?于是改成1试了一下,果然有数据。大兄弟你列表页的反爬白做了,我直接从pkid=1抓到33w就可以了。


171011更新:今天抓的一个网站上有验证码,不过这个是可以通过机器学习训练模型解决的。有个同事专门负责这个,于是我把这个验证码地址告诉他。奇怪的是,下午继续研究这个网站的时候打不开了…… 后来同事告诉我,他下载验证码太快(4000个),网站挂掉了……

弱不禁风啊。


171024更新:今天遇到一个网站,在meta里面写上了页面的所有内容……大哥您这SEO强势!


20172025更新:复制粘贴编程……

奇葩网站吐槽第三弹”已经有2条评论

Leave a comment

电子邮件地址不会被公开。 必填项已用*标注