不能爬小程序,叫什么会爬虫

网络 通信技术
与访问 H5 不同的是,小程序相当于一个 app,其上的操作是经过微信的封装的,所以无法直接获取到请求链接和数据,同样也无法获得返回的数据。

[[397424]]

本文转载自微信公众号「Python技术」,作者派森酱。转载本文请联系Python技术公众号。

上次写的如何给小孩约马术课过程,见这里 Python 约课[1], 本想一劳永逸,但是好景不长,预约系统升级了,而且还换了服务商,从之前的公众号 H5 应用,换成了小程序,之前编写的方式直接失效,孩子又没马骑了

谁叫他遇到一个程序员老爸呢?这点事儿难不倒我,开干

小程序的不同之处

与访问 H5 不同的是,小程序相当于一个 app,其上的操作是经过微信的封装的,所以无法直接获取到请求链接和数据,同样也无法获得返回的数据

就像一个 app,他的请求都是内置在程序内的

对于这种情况,就需要使用抓包工具,比如 Charles

它的原理是,作为请求的代理,即小程序 或 app 发送请求时,先将请求发送给代理,然后再由代理将请求发送给服务器,返回的过程也一样

这也是著名的 中间人攻击

中间人攻击

如果要获取 小程序或者 app 的具体请求,就需要用这种方式,让代理获取请求和相应的数据

具体这么玩呢?直接参考 Charles 教程或者在网上一搜,就知道了,这里推荐一篇Android抓包-Charles[2],供各位参考

飞越 Https 协议

如果配置好了之后,可能发现 Charles 抓的包全是乱码,这是因为 小程序必须使用 Https 协议

也就是在 Http 协助之上对请求数据做一次加密,以防止中间人攻击

Https 的原理也很简单,就是目标网址申请一个 https 证书,然后将其对称密钥的公钥发布在颁发证书的网站上

当由请求访问目标服务器时,目标服务器会要求其进行加满请求,这是客户端程序会自动去证书颁发网址下载目标网站的公钥,也就是证书

然后对请求的数据用公钥加密,再发送到目标服务器上,目标服务器收到请求后,会用自己的私钥解密请求数据,转化为明文继续处理

当返回响应时也是一样的,不过目标服务器用自己的私钥加密,客户端用公钥解密

详细说明可参考 图解HTTP[3]

这里只需要按照 Charles 的说明,再手机端按照 Charles 颁发的证书就可以了

不过如果用的是 Android 系统的话,需要注意 Android 7.0 之后 谷歌升级了安全策略,不再支持用户自主安装的证书

有两个解决办法:

  1. 对手机做root,然后修改手机的安全策略,详细可参考: 通过Charles抓取Android的Https链接数据[4]
  2. 找一个未升级到 Android 7.0 的手机

翻出了一台几年前的手机,充电,开机,查看版本,是 Android 6,哈哈,太幸运了

安装好证书后,再次抓包,就可以看见请求的数据了

Charles 抓包

轻车熟路

得到了请求链接和请求数据,就可以像上一次一样编写成 Python 脚本了

上一次是通过浏览器中请求的方式获取的请求数据,在 Charles 中,获取也很方便,如下图

Charles 获取请求

通过快捷菜单,获取 curl 命令的请求数据,然后复制到 网站 https://curl.trillworks.com/[5]

Charles 获取请求

然后将 python 代码拷出到文件里,执行即可,够简单吧,具体可以参考之前的文章: 这才是使用Python的正确姿势![6] 的文章描述

更进一步

这里还需要解决一个问题,可能是我这个做老爸的实在太懒了

因为正直五一假期,假期结束后的一个周六是工作日,而之前的程序会预约每周六的课程,如果是工作日的话,刚好冲突了

所以需要避开工作日,那么首先想到的是有没有判断节假日的库可用,找了一圈,发现有些 api 可以,但是不是需要付费就是需要注册,比较麻烦,于是直接去万年历中去抓取

锁定的一个万能历网站 https://wannianrili.bmcx.com,标记清晰,数据准确,而且免费

万年历

分析请求,是通过链接 https://wannianrili.bmcx.com/ajax/ 获取一个月的数据,获取的结果是 xml 格式的数据

分析发现,日期类型是通过 css 的类来标记的,分别是 wnrl_riqi_ban,wnrl_riqi_mo,wnrl_riqi_xiu,表示 上班,周末 和 休息

所以只需要对获取的 xml 进行解析就好了

这里我又再进一步 —— 因为获取的是一个月的,每次请求获取又点费,而且是在抢预约,所以需要更高的效率(哈哈,实际上是想炫炫技而已),于是做了一个小缓存,每次看看有没有当月的 xml 文件,如果有直接读取,没有则获取,并存储起来

实现了节假日判断后,在主预约程序里加一个判断,如果要预约的日子是工作日,再后延一日,继续判断,直到遇到一个费工作日

这里展示一下判断日期类型的代码:

  1. import requests 
  2. from lxml import etree 
  3. import datetime 
  4. import os 
  5.  
  6. def getDaysInfo(ym): 
  7.     cacheName = ym + ".html" 
  8.     if os.path.exists(cacheName): 
  9.         content = open(cacheName).read() 
  10.     else
  11.         content = requestsDayInfo(ym) 
  12.         saveFile(cacheName, content) 
  13.      
  14.     return content 
  15.  
  16. def requestsDayInfo(ym=None): 
  17.     headers = { 
  18.         'sec-ch-ua''"Google Chrome";v="89", "Chromium";v="89", ";Not A Brand";v="99"'
  19.         'Referer''https://wannianrili.bmcx.com/'
  20.         'sec-ch-ua-mobile''?0'
  21.         'User-Agent''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
  22.     } 
  23.     params = ( 
  24.         ('q', ym), 
  25.         ('v''20031912'), 
  26.     ) 
  27.     response = requests.get('https://wannianrili.bmcx.com/ajax/', headers=headers, params=params) 
  28.     return response.text 
  29.  
  30. def saveFile(name, content): 
  31.     print(name
  32.     f = open(name,'w'
  33.     f.write(content) 
  34.     f.close() 
  35.  
  36. def parse(content, d): 
  37.     html = etree.HTML(content) 
  38.     dayclass = html.xpath('//*[@id="wnrl_riqi_id_'+str(int(d)-1)+'"]')[0].attrib.get('class'
  39.  
  40.     if dayclass is None or dayclass == 'wnrl_riqi_ban'
  41.         return 1 
  42.     elif dayclass == 'wnrl_riqi_mo'
  43.         return 2 
  44.     elif dayclass == 'wnrl_riqi_xiu'
  45.         return 3 
  46.     else
  47.         return 0 
  48.  
  49. def getDayType(date): 
  50.     str_date = date.strftime('%Y-%m-%d'
  51.     ymd = str_date.split("-"
  52.     ym = ymd[0] + '-' + ymd[1] 
  53.     d = ymd[2] 
  54.     return parse(getDaysInfo(ym), d) 
  55.  
  56. if __name__ == "__main__"
  57.     delta = 1  # 探索步长为一日 
  58.     date = datetime.date.today() 
  59.     while(getDayType(date)<2): 
  60.         delta += 1 
  61.         date = datetime.date.today() + datetime.timedelta(days=delta) 

总结

好了,现在又可以做优雅的老爸了哈哈,对孩子最好的教育就是陪孩子一起成长,无论是什么方面,如果你恰巧喜欢编程,会编程的话,可以尝试和孩子一起做些有意思的东西,比如 做个掷骰子游戏[7]

参考资料

[1]Python 约课: https://mp.weixin.qq.com/s/XqICwC9_cRBhua-6-lbjWw

[2]Android抓包: https://www.jianshu.com/p/8385a13b0e5c

[3]图解HTTP: https://book.douban.com/subject/25863515/

[4]Android 7.0 安装证书: https://bbs.huaweicloud.com/blogs/245014

[5]Curl 转化为 Python 请求: https://curl.trillworks.com/

[6]这才是使用Python的正确姿势!: https://mp.weixin.qq.com/s/XqICwC9_cRBhua-6-lbjWw

[7]做个掷骰子游戏: https://mp.weixin.qq.com/s/czcGKk6RTrZVi6-KRUAR0w

 

责任编辑:武晓燕 来源: Python技术
相关推荐

2021-06-06 19:53:05

爬虫处理字体反爬

2016-12-07 11:18:58

Python爬虫网站

2017-05-24 15:07:19

Python爬虫爬取

2021-09-26 05:01:55

Scrapy项目爬虫

2013-10-29 10:24:31

程序员漫画

2020-10-27 08:58:47

设计NUMA内存

2017-05-15 10:39:48

爬虫应对机制

2019-10-21 10:47:33

爬虫程序员大数据

2020-11-17 06:11:14

PythonisinstanceGolang

2013-09-26 09:34:56

女程序员

2017-12-14 21:45:39

2018-09-07 17:29:13

小程序

2019-01-24 13:37:14

JavaScript开发 小程序

2016-12-08 16:47:06

2012-08-07 09:24:57

程序员项目

2018-02-23 14:30:13

2021-03-18 09:18:12

python爬虫

2019-01-14 15:25:04

小程序互联网微信

2016-11-01 20:37:31

javascriptnode.jstypescript

2015-08-25 15:47:56

点赞
收藏

51CTO技术栈公众号