尝试了三个库
- nghuyong/WeiboSpider
- 要cookie
- 图片只能抓到第一张,且不能下载。
- 能抓取评论
- 不好用
- dataabc/weiboSpider
- 要cookie
- 能自动下载全部图片、视频
- 不能抓取评论
- dataabc/weibo-crawler
- cookie可选。cookie失效后可能抓不全(添不添加cookie的区别)
- 不能配置抓取间隔,用cookie的话可能cookie可能会容易失效或被封号。
- 其他同第2个
综上,选择同时用第二个和第三个(不填cookie),第二个间隔12分钟,第三个间隔6分钟。
*/12 * * * * cd ~/weibo/weibo-spider && python -m weibo_spider
*/6 * * * * cd ~/weibo/weibo-crawler && python weibo.py
存在的问题:
- 可能封ip
- 可能封号
- cookie失效后更新(如何检测cookie是否有效)1
- 不能抓评论
- 发布后重新编辑的会怎么处理?
- 第二种记录的时间精确到分钟,所以重新编辑的微博会抓不到。
- 第三种记录的时间精确到天,所以有可能可以重复抓到。会直接更新?
todo: 自动更新cookie。 ↩︎