奇葩网站吐槽第二弹

很久之前写过一篇《吐槽一些神奇的政府网站》，但是工作中（目前的工作是爬虫）碰到的奇葩网站远远不止这些，后来在那篇文章陆续更新了一些。但是考虑到修改文章不会发送rss feed，而且文章也被更新的越来越长，所以这里拆出来第二弹再发一次吧。而且我相信之后我会碰到更新这种奇葩网站的……估计不知道要写到第几弹。以下按照更新顺序贴出来，文章就不需要承上启下的润色了：

20170616更新：日了狗了，今天又碰到一个神奇的网站，比如某个详情页面如下：

http://www.cebpubservice.com/ctpsp/jsp/trade/xxgkxq.jsp?schemaVersion=V60.02&businessKeyWord=tenderProject&tenderProjectCode=0748-1740CA2034IQ000&transactionPlatfName=%25E5%25BF%2585%25E8%2581%2594%25E7%2594%25B5%25E5%25AD%2590%25E6%258B%259B%25E6%25A0%2587%25E6%258A%2595%25E6%25A0%2587%25E5%25B9%25B3%25E5%258F%25B0&platformCode=E1100000084

http://www.cebpubservice.com/ctpsp/jsp/trade/xxgkxq.jsp?schemaVersion=V60.02&businessKeyWord=tenderProject&tenderProjectCode=0748-1740CA2034IQ000&transactionPlatfName=%25E5%25BF%2585%25E8%2581%2594%25E7%2594%25B5%25E5%25AD%2590%25E6%258B%259B%25E6%25A0%2587%25E6%258A%2595%25E6%25A0%2587%25E5%25B9%25B3%25E5%258F%25B0&platformCode=E1100000084

本来是没有什么奇怪的，但是我把url拼起来之后一直是404，然后发现，如果把中文的部分encode两次，就和目标url一样了……日……

20170619更新：日了狗，今天写一个xpath怎么写都不对，看了看发出去的请求，好嘛，都到站外去了。找了半天，终于找到了罪魁祸首。我使用一个标签的id定位的，结果发现，相同id的html标签在这个页面下竟然有五个（没想到吧……像我这么屌的还有四个……）

170627更新：笑死我了，这个网站每次请求都会从相应收到一段cookies，然后就加到请求上去。不是修改，而是一直加一直加，访问几个页面之后，页面就会显示400Bad Request，cookies too big，哈哈哈哈。之前也碰到一个，是post请求不断增加字段，重复的字段越来越多，请求越来越大的…… 这，这应该叫做“饼干泄露”（内存泄露）吧，哈哈

170717更新：在post请求中传SQL语句的……

170802更新：今天要抓一个发布开庭公告的网站，打开一看，很整齐！很规则！很开心有没有！

一看源代码，人都傻了……

170802更新：日了够了，PM给我一个url，结果我发现已经打不开了，但是从主页是可以点进去的。研究了一下，发现这个url里面包含一个session id……

http://www.gzthfy.gov.cn/pa2/wel_3g.seam;jsessionid=04FF3DF586DE3D26555A210796A93B30.nod3?ggbh=91fa6f637dd947819df4c4b45878b514&cid=134752

170802更新：此站通过发送一个AJAX获取下一页的数据，我使用Python模拟发出一样的AJAX，企图在url或者post请求中找到与页码相关的信息改一下。发现此站翻任何一页发送的请求都是一样的！

一毛一样！Form一样、url一样，甚至连他喵的cookie都是一样！

观察一番，发现页码信息是记录在session里面的！也就是说，form里面的乱七八糟的数据（并不知道有什么用）只表示两种信息：往上翻，往下翻。当前你的位置，记录在服务器上（如此反人类，请问管理员你怎么把第二页的url发给你的上司呢？）

还有这种操作。

奇葩网站吐槽第二弹

相关文章:

“奇葩网站吐槽第二弹”已经有3条评论

Leave a comment 取消回复

2026 年 2 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28