奇葩网站吐槽第四弹

这个周开始,爬虫的工作应该会告一段落了,《奇葩网站吐槽》系列全四弹也算截止了,enjoy!

前期回顾:

  1. 吐槽一些神奇的政府网站
  2. 奇葩网站吐槽第二弹
  3. 奇葩网站吐槽第三弹

本期内容:

20171207 这是12小时制还是24小时制?

20171213 遇到一个网站,带有很多参数,经过发送请求发现有些是固定的,是我要抓的页面定位的参数,有一些是改变的(很迷,甚至要通过不断向服务器发送一个时间戳保存session的生命),终于写好爬虫之后,过了几天发现这个爬虫没有工作!仔细观察发现,有些参数是按天变的……


这…… json请求有必要吗?而且这i18n……


20171225:第一次见可以带两个//的url……


20171228 老哥你这SEO不走心啊

网站介绍很朋克

keyword也很朋克


2018年1月5日更:大哥你这个“19月”可坑死我了……


2018年4月3日更新:今天发现一个网页返回的内容变了,不应该啊,打开一看,原来的 url 返回的内容变成了:

JS重定向到 index.html 首页?打开首页一看,首页原来是 HTTP 的,现在重定向到了 HTTPS (还是302状态码,槽点太多了)。

好嘛,用 JS 作 HTTPS 重定向的还是第一次见。


2018年4月10日更新:这网站日期最远的内容排在第一页,今天的内容排在最后一页。所谓“倒序排列”?

第一页只有年底的内容。

最后一页竟然是今天的内容。



奇葩网站吐槽第四弹”已经有5条评论

Leave a comment

您的电子邮箱地址不会被公开。 必填项已用*标注